RDMAとは

RDMAとは、あるサーバのメモリから別のサーバのメモリへ、CPUやOSを介さずにデータを直接やり取りする高速通信の技術です。普通の通信では、届いたデータをその都度OS(基本ソフト)が仕分けしてから渡すため、手間と遅れが生じます。RDMAはその受付を飛ばして直接届けるため、速くて、CPUに余計な負担をかけません。

英語表記:Remote Direct Memory Access

なぜAIの土台として重要なのか

大規模なAI学習では、数千〜数万のGPUが手分けして計算し、結果を絶えず交換し合います。このとき通信が遅いと、せっかくの高価なGPUが相手を待つばかりで遊んでしまうRDMAは、この待ち時間を切り詰めてGPUを止めずに走らせる役割を担います。AIの計算を「速く・安く」回す裏側で、見えない配線が効いている代表例といえるでしょう。実現方式にはInfiniBandやRoCEなどがあります。

Topic「受付」を飛ばすから、巨大な頭脳になれる

名前にある「Direct(直接)」が肝です。ふつうの通信は、荷物が届くたびに建物の受付(OS)が中身を確かめ、担当部署へ運びます。台数が増え通信が増えるほど、この受付の行列が遅れの元に。RDMAは受付を通さず、相手の机(メモリ)へ荷物を直接置きにいきます。この「受付スキップ」があるからこそ、数千〜数万台のGPUがまるで1つの巨大な頭脳のように足並みをそろえて動けるわけです。

RDMAに関するよくある質問

RDMAを使うには特別な機材が必要ですか?
はい。RDMAに対応したネットワーク機器(InfiniBandやRoCEに対応した装置)が必要です。家庭やオフィスの一般的なネットというより、データセンターやAI用の計算クラスタで使われる技術です。
経営者がRDMAを直接意識する場面はありますか?
自分でさわる技術ではありませんが、AIの学習や大規模運用のスピードとコストを左右する裏方です。自社のAI基盤を選ぶ際、その性能差を生む一因として名前を知っておくと役立ちます。

RDMAに関連する記事