TTFTとは

TTFTとは、利用者がAIに質問を送ってから、回答の最初の一言(最初の1トークン)が返り始めるまでの時間を表す、AIの応答速度の指標です。かんたんに言えば「送信ボタンを押してから、画面に文字が出始めるまでの待ち時間」のこと。チャットのような対話型のAIサービスで、利用者の体感を大きく左右します。

英語表記:Time To First Token

「出始めの速さ」を測る物差し

トークンとは、AIが文章を扱うときの細かな単位(単語や単語の一部)です。AIの回答は、このトークンを1つずつ連ねて作られます。TTFTが見ているのは、そのうちいちばん最初の1つが出てくるまでの時間だけ。全部の回答が出そろう時間ではない点が大切です。レストランにたとえるなら、料理を全部食べ終わるまでの時間ではなく、注文してから最初の一皿が運ばれてくるまでの時間に近いでしょう。人は最初の反応が早いと「速い」と感じるため、対話型サービスではこの出始めの速さが満足度を分けます。

「トークン毎秒」とは別物

混同しやすいのが、似た性能指標の「トークン毎秒」です。両者はこう違います。TTFTは出始めの速さ、トークン毎秒は出始めたあと、どれだけの量を出し続けられるか。最初の一言は速いのに、その後の文章がだらだらと遅い場合もあれば、その逆もありえます。なお、AIに送る指示文(プロンプト)が長いほど、AIがそれを読み込む手間が増えてTTFTは伸びやすくなります。対話の応答性を上げたいなら、まずこの出始めの待ち時間に注目するとよいでしょう。

顧客の「待たされ感」と離脱に直結する

経営の視点で見ると、TTFTは顧客が「反応が遅い」と感じて離れていく、その正体です。AIチャットを自社サービスに組み込む際、回答の中身がどれだけ良くても、出始めが遅ければ利用者はストレスを感じ、最悪その場を去ってしまいます。応答品質の基準(SLA)や顧客満足、解約率にまで関わる指標であり、AI導入の効果を測るうえで見落とせない数字でしょう。

Topic文字が1つずつ流れるのは、演出だけではない

多くのAIチャットが、回答を一気に表示せず1文字ずつ流れるように出すのを見たことがあるはずです。あれは単なる見た目の演出ではありません。最初の一言を早く出して「待たされている感」を減らす狙いがあります。全文ができあがるのを待たずに読み始められるので、たとえ最後まで出そろう時間が同じでも、利用者は速く感じるのです。TTFTを短く“体感させる”この見せ方は、AIサービスのUX設計における定番の工夫になっています。

TTFTに関するよくある質問

TTFTが長いと、具体的に何が困りますか?
利用者が「反応が遅い」と感じてストレスをためたり、回答が出る前にその場を離れてしまったりします。とくにチャット型サービスでは、出始めの遅さが顧客満足の低下や離脱に直結します。
TTFTを短くするには、どうすればよいですか?
軽いモデルを使う、送る指示文(プロンプト)を短く整理する、推論を動かす基盤を増強する、といった方法があります。あわせて回答を1文字ずつ流すストリーミング表示にすると、体感の待ち時間を減らせます。
似た指標の「トークン毎秒」とは何が違いますか?
TTFTは「最初の一言が出るまでの速さ」、トークン毎秒は「出始めたあとの量・速さ」を表します。対話の心地よさは出始め(TTFT)が、大量の文章生成は出続ける量(トークン毎秒)が効きます。

あわせて読みたい記事