推論コストとは

推論コストとは、学習済みのAIモデルを実際に動かして、ひとつの回答(推論)を生み出すのにかかるコストのことです。モデルを使うたびに発生し続ける継続コストで、多くは入力・出力の「トークン」(文章を区切る細かな単位)あたりの単価で測られるのが一般的です。

英語表記:inference cost

訓練コストとの違い

AIのコストは、大きく「訓練(学習)」と「推論(実行)」の二つに分かれます。訓練コストは、モデルを一度作り上げるためにかかる、いわば前払いの巨額コスト。これに対し推論コストは、できあがったモデルを使うたびにかかり、利用が増えるほど積み上がっていきます。工場にたとえると、訓練コストは工場を建てる初期費用、推論コストは製品を1個作るたびの材料費に近い、と考えると分かりやすいでしょう。

単価は大きく下がってきた

AIを動かす推論の単価は、年を追うごとに大きく下がってきました。研究機関や投資会社の分析では、同じくらいの性能を出すための推論コストが、1年で何倍も安くなったと報告されています。性能あたりで見れば、数年前と比べて桁違いに安くなった、との見方もあるほどです。「今は高いから様子見」と決める前に、用途ごとにモデルを使い分けるほうが理にかなう場面が増えています。

経営から見た意味

経営にとって本当のランニングコストは、「推論コスト × 利用量」で決まります。ここで注意したいのは、単価が下がっても総額が下がるとは限らない点です。単価が安くなったぶん使い方が広がり、利用回数が一気に増えれば、支払総額はむしろ膨らむこともあるのです。どの業務にどのモデルをどれだけ使うかを設計し、総額でコストを見張る姿勢が大切でしょう。

Topic値下がりが続く「LLMflation」という造語

推論コストの急落ぶりを言い表す「LLMflation(エルエルエム・フレーション)」という造語があるのをご存じでしょうか。投資会社a16zのギド・アッペンツェラーが2024年に名付けた言葉で、物価上昇(インフレーション)をもじったものです。彼の試算では、同等性能の推論が年に約10倍のペースで安くなり、これは半導体の進化を示すムーアの法則よりも速いとされます。値下がりがこれほど続くのは珍しく、半導体の歴史を知る人ほど驚く現象といえます。

推論コストに関するよくある質問

推論コストは、AIを使う企業と作る企業のどちらが負担するのですか?
両方に関わります。モデルを作る企業が背負う訓練コストとは別に、推論コストはサービスを使う側の利用量に応じて効いてきます。大量に使う業務ほど無視できません。
自社のAI利用で推論コストを抑えるには、どうすればよいですか?
用途ごとに性能と単価の見合うモデルを使い分けるのが基本です。何でも高性能モデルに任せず、軽い処理は安価なモデルに振り分けると、総額を抑えやすくなります。
なぜ推論コストは「トークン」で測るのですか?
AIは文章をトークンという細かな単位に区切って処理し、その量に応じて計算量とコストがかかるためです。長いやり取りほどトークンが増え、コストも上がります。

あわせて読みたい記事