InfiniBand(インフィニバンド)とは
InfiniBandとは、多数のサーバーを、とても低い遅延と高い帯域でつなぐ高速ネットワークの規格です。大規模なAIの学習では、GPUを積んだサーバーを何十台、何百台と束ねて1つの巨大な計算機のように動かします。そのサーバー同士をつなぐ”高速な専用線”にあたるのがInfiniBandで、高性能計算やAIのデータセンターで広く使われてきました。
InfiniBandの仕組みと速さの理由
速さの鍵はRDMAという仕組みにあります。ふつうのネットワークは、データを送るたびにCPU(コンピューターの頭脳)が荷さばきに駆り出されます。RDMAはCPUを介さず、サーバーのメモリからメモリへ直接データを渡すため、遅延がごくわずか(実測でおよそ0.0000006秒)で、頭脳を計算だけに専念させられるのが特長です。データを共有する通路を全員で取り合うのではなく、必要な相手同士を切り替えてつなぐ方式をとっているため、混雑にも強くなっています。
NVLinkやイーサネットとの違い
混同しやすいのが、同じ「つなぐ」技術との役割の違いです。NVLinkは1台のサーバーの中でGPU同士を束ねる近距離の配線で、InfiniBandはそのサーバー(箱)と箱をつなぐネットワークにあたります。箱の中はNVLink、箱の外はInfiniBand、という住み分けです。オフィスでおなじみのイーサネット(LAN)とも違い、InfiniBandは遅延の小ささを最優先に設計されています。ただしイーサネット側もAI向けの高速化を進めており、InfiniBandだけが選択肢というわけではありません。
なぜAI基盤の土台になるのか
巨大なAIを学習させるには、多数のGPUサーバーを束ねて規模を広げていきます。このときサーバー間の通信が遅いと、計算を終えたGPUが次のデータを待つ「手待ち」だらけになり、高価なGPUが遊んでしまうのです。InfiniBandは低遅延でこの手待ちを抑え、ばらばらのサーバー群を一体の計算機のように動かす土台になります。2023年6月時点で、世界の高性能スパコン上位100システムのうち63がInfiniBandを採用していました。AIインフラの規模を語るうえで欠かせない部品の一つです。
TopicNVIDIAは「計算チップ」だけでなく「配線」まで握った
InfiniBandはもともと、Mellanox(メラノックス)という独立企業の主力事業でした。同社は最後まで残った独立系のInfiniBandメーカーでしたが、NVIDIAが2019年に買収を発表し、2020年に約69億ドルで完了させます。これにより、AIの計算を担うGPUと、そのGPU同士をつなぐ配線(InfiniBand)を、同じ会社が一貫してそろえる形になりました。なお、InfiniBandの規格自体は1999年に、当時対立していた2つの企業連合の規格を統合する和解として生まれています。
InfiniBandに関するよくある質問
- InfiniBandとNVLinkは何が違いますか?
- NVLinkは1台のサーバーの中でGPU同士を束ねる近距離の配線です。InfiniBandはそのサーバー(箱)と箱をつなぐネットワークで、役割の階層が一段違います。箱の中はNVLink、箱の外はInfiniBandという住み分けになります。
- ふつうのイーサネット(LAN)ではだめなのですか?
- InfiniBandは遅延の小ささを最優先に設計され、CPUを介さず直接データを渡すRDMAで手待ちを抑えます。ただしイーサネット側もAI向けの高速化を進めており、InfiniBandだけが唯一の選択肢というわけではありません。
- InfiniBandはどこの会社の技術ですか?
- 規格自体は業界団体IBTAが1999年に策定したものですが、主要メーカーだったMellanoxを2020年にNVIDIAが買収したため、現在はNVIDIAが主な供給元になっています。