Inferentiaとは

Inferentiaとは、AWS(アマゾンのクラウド事業)が自社開発した、学習済みAIを動かす「推論」に特化した専用チップです。AIアクセラレータ(AI計算用の専用ハード)の一種で、狙いはAIを動かし続けるコストと、応答の待ち時間を下げること。学習用の姉妹チップTrainium(トレイニウム)と対をなし、「Infer=推論」の名のとおり、できあがったAIを安く速く使うための装置です。

「作る」より「使い続ける」費用に効く

AIのコストは、開発して終わりではありません。むしろサービスとして毎日たくさん使われ続けるほど、その「推論」の費用が積み上がっていきます。たとえば顧客対応チャットや検索機能のように、24時間ひっきりなしにAIへ問い合わせが来る用途では、1回あたりはわずかな費用でも総額は無視できません。Inferentiaは、この運用フェーズの費用を下げるために設計されたチップ。AWSによれば、初代は比較対象のサービスより推論あたりのコストを最大70%ほど抑えられたとされます(同社公表値)。

Trainiumとの役割分担

同じAWSの自社チップでも、TrainiumとInferentiaは担当が分かれています。AIを育てる「学習」はTrainium、できたAIを動かす「推論」はInferentia、という住み分けです。両者は共通の開発キットNeuron(ニューロン)を使うため、PyTorchなど普及した道具のコードをほぼ流用でき、学習から運用への移行もスムーズ。現行の第2世代Inferentia2は、初代に比べ処理量で4倍、応答の速さで10倍ほどに高まり、大きなAIモデルにも対応しやすくなりました。

AIを事業化した「後」に効いてくる

経営の視点でおさえたいのは、AIは作る費用より、サービスとして使い続ける費用のほうが後から大きく積み上がるという点です。試作のうちは気にならなくても、利用者が増えれば推論コストが収益を圧迫しかねません。Inferentiaは、まさにAIを事業として回し始めた段階で効いてくる装置。AWSを基盤にAIサービスを展開する企業にとって、運用コストを抑える有力な選択肢でしょう。

Topicあえて計算ユニットを「減らした」進化

性能アップというと部品を増やす印象がありますが、Inferentia2は逆を行きました。チップあたりの計算ユニットを初代の4個から2個へあえて減らし、代わりにデータ置き場のメモリを8GBから32GBへ4倍に増やしたのです。なぜか。推論は新しく学ぶより「覚えた知識を引き出す」作業に近く、計算の手数より、巨大なAIモデルを丸ごと抱えて素早く読み出す“記憶の広さと速さ”がものを言うため。用途に振り切って、増やすところと削るところを見極めた設計判断でした。

Inferentiaに関するよくある質問

どんな企業に向いていますか?
AIを常時たくさん動かし続ける、つまり推論の量が多いサービスに向きます。たとえば顧客対応チャットや検索、レコメンドなど、利用者からの問い合わせが絶え間なく来る用途で、運用コストの削減効果が出やすくなります。
NVIDIAのGPUと比べてどうですか?
AWS上で推論コストを抑えたい場合の選択肢になります。共通の開発キットNeuronで既存のコードを流用できるため移行の負担も比較的小さく、応答待ち時間の短縮も狙えます。
自社でチップを用意する必要がありますか?
いいえ。InferentiaはAWSのクラウド上のサービス(Inf1・Inf2といったインスタンス)として提供され、必要なときに使った分だけ支払う形です。自社でハードを保有・管理する手間はかかりません。

あわせて読みたい記事