τ-benchとは
τ-benchとは、AIエージェント(人に代わってツールを操作し業務をこなすAI)が、規則を守りながら顧客対応をやり遂げられるかを測るベンチマーク(AIの実技試験)です。読み方は「タウベンチ」。AIエージェント企業のSierraが2024年6月の論文で公開しました。
英語表記:tau-bench
知識テストではなく「接客の実技試験」
試験の中身は、航空会社や小売の模擬業務です。大規模言語モデル(LLM)が演じる模擬顧客と会話しながら、エージェントが業務システム(API=ソフト同士をつなぐ窓口)を操作し、社内規則に従って予約変更や返品を最後まで完遂できるかを見ます。採点基準は会話の上手さではなく、処理後のデータベースが正解の状態と一致するかどうか。ごまかしが利きません。
結果は衝撃的でした。論文によると、当時の上位モデルGPT-4oを使ったエージェントでもタスク成功率は5割未満。しかも同じ仕事を8回繰り返させると安定して成功する割合はさらに下がりました(pass^kと呼ぶ繰り返し成功率の指標で、小売業務では25%未満)。「たまにできる」と「任せられる」は別物だと数字で示した点が、このベンチマークの価値でしょう。2025年6月には、通信業務や「顧客側も操作する」環境を加えた後継のτ²-benchが公開されています。
Topicτはギリシャ文字、正体は3つの頭文字
論文のタイトルには、Tool(ツール)・Agent(エージェント)・User(ユーザー)という3つの言葉が並びます。頭文字をつなぐとTAU=ギリシャ文字のτ。AIエージェントの仕事は「道具」と「人」との三者のやり取りで決まる、という設計思想がそのまま名前になっているわけです。数式の記号に見えて、実は語呂合わせという科学者らしい遊び心です。
τ-benchに関するよくある質問
- ARC-AGIやMMLUなどの試験と併せて見るべきですか?
- 役割が違うため、組み合わせて見ることをおすすめします。知識や推論の試験で高得点のモデルでも、規則を守って業務を完遂できるか、繰り返しても安定するかは、τ-benchのようなエージェント向けの実技試験でしか分かりません。
- τ-benchは今も使われていますか?
- 2025年6月に後継のτ²-benchが公開され、通信ドメインや「顧客側もシステムを操作する」二者操作の環境が加わりました。初代の公式リポジトリも後継への移行を案内しており、エージェント信頼性評価の系譜として続いています。