トークン毎秒とは

トークン毎秒とは、AIが1秒間に生成できる文章の量(出力トークンの数)を表す、処理の速さの指標です。トークンはAIが文章を扱う細かな単位(単語や単語の一部)で、これが毎秒いくつ出せるかを示します。AIの回答がよどみなく流れてくるか、それともじれったく途切れがちか。その「出続ける速さ」を測る物差し、と捉えると分かりやすいでしょう。

英語表記:tokens per second(tok/s, tps)

「1人あたり」と「全体」の2つの見方

トークン毎秒には、見る角度が2つあります。1つは利用者1人あたりの速さ=その人の画面に、毎秒どれだけ文章が流れてくるか。もう1つはサーバー全体の処理量=大勢の利用者をまとめて、システム全体で毎秒何トークンさばけるか、です。前者は使い心地に、後者はサービスを支える側の能力に関わります。同じ「毎秒のトークン数」でも、誰の目線で語っているかで意味が変わる点に注意したいところです。

「TTFT」とは別物

似た性能指標にTTFT(最初の一言が出るまでの時間)がありますが、見ているものが違います。TTFTは回答の出始めの速さ、トークン毎秒は出始めたあとに出し続ける速さ・量です。たとえば「最初の反応は早いが、その後の文章はゆっくり」というAIは、TTFTは良くてもトークン毎秒は低い、ということになります。AIサービスの体感を語るときは、この2つを分けて見ると正確でしょう。

速さの裏にある「単価」と「同時処理人数」

経営の視点で本質的なのは、トークン毎秒が「1トークンあたりのコスト」と「同時に何人さばけるか」に直結する点です。1台のサーバーで毎秒多くのトークンを出せれば、その分だけ1トークンあたりの費用は下がり、より多くの利用者を同時にさばけます。AIサービスの収益性や料金設計は、まさにこの数字に支えられています。ただし、やみくもに速さを追えばよいわけではありません。次のTopicで触れるとおり、1人の利用者にとっての速さには“天井”があるからです。

Topic速ければ速いほど良い、とは限らない

「毎秒のトークン数は多いほど良い」と思いがちですが、実はそうでもありません。人が文章を黙読する速さは、英語でおよそ毎分450語程度。これは毎秒およそ10トークンに相当します(Databricksの解説)。つまりAIがそれ以上の速さで出力しても、読む人はもう追いつけず、1人の利用者にとっての“読みやすさ”はほとんど変わりません。だからこそ速さの価値は、1人をさらに速くすることより「同時に何人をさばけるか」へと移っていく。性能の意味が、体感から経済性へと切り替わる面白い分かれ目です。

トークン毎秒に関するよくある質問

速ければ速いほど良いのですか?
1人の利用者にとっては、ある程度を超えると体感はほぼ変わりません。人が黙読する速さは毎秒10トークン前後(英語で毎分約450語)とされ、それ以上速くしても読む側は追いつけないためです。速さの価値は、むしろ同時に何人さばけるかへ移ります。
TTFTとどちらを重視すべきですか?
用途によります。チャットなど対話では回答の出始めの速さ(TTFT)が、長い文章を大量に生成する用途では出し続ける量(トークン毎秒)が効きます。サービスの性質に合わせて見る指標を選ぶとよいでしょう。

トークン毎秒に関連する記事