RDMAとは
RDMAとは、あるサーバのメモリから別のサーバのメモリへ、CPUやOSを介さずにデータを直接やり取りする高速通信の技術です。普通の通信では、届いたデータをその都度OS(基本ソフト)が仕分けしてから渡すため、手間と遅れが生じます。RDMAはその受付を飛ばして直接届けるため、速くて、CPUに余計な負担をかけません。
英語表記:Remote Direct Memory Access
なぜAIの土台として重要なのか
大規模なAIの学習では、数千〜数万のGPUが手分けして計算し、結果を絶えず交換し合います。このとき通信が遅いと、せっかくの高価なGPUが相手を待つばかりで遊んでしまう。RDMAは、この待ち時間を切り詰めてGPUを止めずに走らせる役割を担います。AIの計算を「速く・安く」回す裏側で、見えない配線が効いている代表例といえるでしょう。実現方式にはInfiniBandやRoCEなどがあります。
Topic「受付」を飛ばすから、巨大な頭脳になれる
名前にある「Direct(直接)」が肝です。ふつうの通信は、荷物が届くたびに建物の受付(OS)が中身を確かめ、担当部署へ運びます。台数が増え通信が増えるほど、この受付の行列が遅れの元に。RDMAは受付を通さず、相手の机(メモリ)へ荷物を直接置きにいきます。この「受付スキップ」があるからこそ、数千〜数万台のGPUがまるで1つの巨大な頭脳のように足並みをそろえて動けるわけです。
関連用語
RDMAに関するよくある質問
- RDMAを使うには特別な機材が必要ですか?
- はい。RDMAに対応したネットワーク機器(InfiniBandやRoCEに対応した装置)が必要です。家庭やオフィスの一般的なネットというより、データセンターやAI用の計算クラスタで使われる技術です。
- 経営者がRDMAを直接意識する場面はありますか?
- 自分でさわる技術ではありませんが、AIの学習や大規模運用のスピードとコストを左右する裏方です。自社のAI基盤を選ぶ際、その性能差を生む一因として名前を知っておくと役立ちます。