「ベンチマーク」なのに80問は少なくないですか？

数万問の大規模テストを想像しがちですが、MT-Benchは文章作成・推論・数学など8分野×各10問の精選セットです。網羅性より上位モデルの会話品質を見分けることに振った設計で、各問は「最初の質問」と「それを踏まえた追加の質問」の2往復になっています。2023年の固定問題のため、最新の最上位モデル群を細かく見分ける力は頭打ちになりやすい点も押さえておきたいところです。

AIの会話を、誰が採点しているのですか？

強力なAI自身に回答を採点させる方式です。MT-Benchの研究は、人間の投票を約3,000票だけ集め残りはAIに採点させても、人間の好みと80%超で一致すると示しました。ただしAI採点は自分に似た回答や長い回答を好みやすい偏りも指摘されており、スコアは目安として読むのが賢明です。

MT-Bench(エムティーベンチ)とは？意味をわかりやすく解説

MT-Benchとは、1問につき2回のやり取り（マルチターン）を行う80問の質問セットで、AIの会話力や指示への従い方を採点するベンチマークのことです。Chatbot Arenaと同じ研究グループが2023年に公開し、人手を介さず素早くモデルの会話品質を比べられる定番として使われてきました。

80問・2往復で会話力を測る

MT-Benchは2023年6月、カリフォルニア大学バークレー校の研究グループ（LMSYS）が公開しました。文章作成・推論・数学・コーディングなど8分野を各10問、合計80問で構成し、各問は「最初の質問」と「それを踏まえた追加の質問」の2往復になっています。一問一答ではなく、2往復目もきちんと文脈を覚えていられるかという、会話としての力を試す設計です。採点は、強力なAI自身に回答を採点させる方式が使われています。

Chatbot Arenaとの違いと、読むときの注意

同じ研究グループのChatbot Arenaと混同しやすいので整理すると、MT-Benchは固定された80問をAIが自動で採点し、Chatbot Arenaは自由な対話を人間が投票で評価します。MT-Benchは人手をかけずに速く安く比較できるのが利点で、実務に近い「会話の自然さ」「指示どおりに動くか」を手軽に測れるのが強みです。

注意点もあります。「ベンチマーク」と聞くと数万問の大規模テストを想像しがちですが、MT-Benchは80問の小さな精選セットです。網羅性よりも、上位モデルの会話品質を見分けることに振った設計だと捉えてください。2023年の固定問題のため、最新の最上位モデル群を細かく見分ける力は頭打ちになりやすい点も、あわせて押さえておきたいところです。

Topic「AIの答えをAIが採点する」を広めた一手

MT-Benchを紹介した研究は、評価のやり方そのものに一石を投じました。人間による投票は約3,000票しか集めず、残りは強力なAIに採点させて、それでも人間の好みと80%超で一致することを示したのです。これは人間の採点者どうしの一致率と同じくらいの水準でした。ただし、AIに採点させると、自分に似た回答や長い回答を好みやすいといった偏りも論文は指摘しています。便利な反面、スコアはあくまで目安として読むのが賢明です。

MT-Benchに関するよくある質問

MT-BenchとChatbot Arenaは何が違うのですか？: 同じ研究グループ（LMSYS）のものですが、MT-Benchは固定された80問をAIが自動で採点し、Chatbot Arenaは自由な対話を人間が投票で評価します。MT-Benchは人手をかけず速く安く比較でき、「会話の自然さ」「指示どおり動くか」を手軽に測れるのが強みです。
「ベンチマーク」なのに80問は少なくないですか？: 数万問の大規模テストを想像しがちですが、MT-Benchは文章作成・推論・数学など8分野×各10問の精選セットです。網羅性より上位モデルの会話品質を見分けることに振った設計で、各問は「最初の質問」と「それを踏まえた追加の質問」の2往復になっています。2023年の固定問題のため、最新の最上位モデル群を細かく見分ける力は頭打ちになりやすい点も押さえておきたいところです。
AIの会話を、誰が採点しているのですか？: 強力なAI自身に回答を採点させる方式です。MT-Benchの研究は、人間の投票を約3,000票だけ集め残りはAIに採点させても、人間の好みと80%超で一致すると示しました。ただしAI採点は自分に似た回答や長い回答を好みやすい偏りも指摘されており、スコアは目安として読むのが賢明です。

MT-Bench(エムティーベンチ)とは

80問・2往復で会話力を測る

Chatbot Arenaとの違いと、読むときの注意

Topic「AIの答えをAIが採点する」を広めた一手

MT-Benchに関するよくある質問

あわせて読みたい記事

GitHub CopilotのGPT-5.6はいつ使える？段階展開中の対象プラン一覧

EU AI法のAI生成コンテンツ表示を欧州委が正式評価【8月2日適用前の最新動向】

OpenAI API障害が7月24日に発生　12コンポーネントの影響と復旧状況

いま読まれている用語

まだそこまで読まれていない用語

80問・2往復で会話力を測る

Chatbot Arenaとの違いと、読むときの注意

Topic「AIの答えをAIが採点する」を広めた一手

MT-Benchに関するよくある質問

GitHub CopilotのGPT-5.6はいつ使える？段階展開中の対象プラン一覧

EU AI法のAI生成コンテンツ表示を欧州委が正式評価【8月2日適用前の最新動向】

OpenAI API障害が7月24日に発生 12コンポーネントの影響と復旧状況

いま読まれている用語

まだそこまで読まれていない用語

OpenAI API障害が7月24日に発生　12コンポーネントの影響と復旧状況