Chatbot Arena(チャットボットアリーナ)とは

Chatbot Arenaとは、人間が匿名の2つのAIに同じ質問を投げて回答を見比べ、良い方に投票し、その勝敗をランキングにする評価プラットフォームのことです。テストの点数ではなく「実際に人がどちらの回答を好むか」を測る点が特徴で、現在はArena(旧LMArena)と呼ばれています。

人間の投票でランキングを作る

Chatbot Arenaは2023年5月、カリフォルニア大学バークレー校の研究グループ(LMSYS)が公開しました。仕組みはシンプルで、ユーザーが質問すると、左右に名前を伏せた2つのモデルが回答し、良いと思った方に投票します。集まった票は、チェスなどで使われる勝敗ベースの点数方式「Eloレーティング」でランキングにまとめられます。どちらのモデルかを伏せて競わせるため、ブランドの先入観が入りにくい仕掛けです。公開した初週だけで約4,700件の投票が集まりました。

人気投票ゆえの偏りに注意

正解の決まったテストであるMMLUなどが「知識を当てられるか」を測るのに対し、Chatbot Arenaは「人がどちらの回答を好むか」を生身の投票で測ります。回答の自然さや親切さといった、実務で体感する使い勝手にもっとも近い指標で、モデル選びの実用的な目安として参照価値が高いといえます。

ただし、人気投票ならではの偏りもある点には注意が必要です。研究チーム自身が、長い回答ほど好まれやすい傾向などを指摘しており、体裁や長さで高評価になることがあります。正確さや簡潔さで勝ったとは限らない、という点は覚えておきたいところです。なお公開は2023年5月で、ChatGPTの一般公開(2022年11月)の数か月後にあたります。AIの評価競争は、ChatGPT登場の直後から始まっていました。

Topic学術プロジェクトが2年で評価額約17億ドルに

もとは大学の研究者が立ち上げた無料の比較投票サイトでした。それが2025年に独立した企業として法人化し、2026年1月のシリーズAでは約1.5億ドルを調達、評価額は約17億ドルに達しています。サイト名も、2024年9月に「LMArena」、2026年1月に「Arena」へと変わりました。AIそのものではなく、AIの「採点係」が一大ビジネスになった象徴的な例といえます。どのモデルが人に好かれるかを示す指標に、それだけの価値が認められたわけです。

Chatbot Arenaに関するよくある質問

Chatbot Arenaは今どうなっているのですか?
もとは大学の研究者が立ち上げた無料の比較投票サイト(2023年5月公開)でしたが、2025年に企業として法人化し、2026年1月のシリーズAで約1.5億ドルを調達、評価額は約17億ドルに達しています。サイト名も「LMArena」(2024年9月)、「Arena」(2026年1月)へと変わりました。AIの「採点係」が一大ビジネスになった例です。
どうやってランキングを作るのですか?
名前を伏せた2つのモデルが回答し、ユーザーが良いと思った方に投票します。集まった票はチェスなどで使うEloレーティングでランキングにまとめられます。名前を伏せるためブランドの先入観が入りにくい仕掛けです。
MMLUのようなテストと何が違いますか?
正解の決まったテストが「知識を当てられるか」を測るのに対し、Chatbot Arenaは「人がどちらの回答を好むか」を生身の投票で測ります。回答の自然さや親切さといった、実務で体感する使い勝手に近い指標です。
投票結果には偏りがありますか?
あります。研究チーム自身が、長い回答ほど好まれやすい傾向などを指摘しており、体裁や長さで高評価になることがあります。正確さや簡潔さで勝ったとは限らない点は覚えておきたいところです。