MMLU-Pro(エムエムエルユープロ)とは

MMLU-Proとは、AIの知識と推論力をより厳しく測るために、定番ベンチマークMMLUを難しく作り直した強化版のことです。MMLUが飽和して上位モデルの差がつかなくなった問題を解くため、2024年に公開されました。選択肢を増やし、推論を要する難問に絞ったことで、再びモデルの実力を見分けられるようになっています。

MMLUの飽和を解くために生まれた

MMLU-Proは2024年6月に、カナダのウォータールー大学の研究チーム(TIGER-Lab)が公開しました。約1万2千問を14分野で構成し、元のMMLUから良問を選び直したうえで、瑣末で紛らわしい問題を取り除いています。狙いは、どのモデルも88%前後で並んでしまったMMLUに代わって、最新モデルの違いをはっきり映す物差しを用意することでした。

その結果、同じモデルでも正答率がMMLUより16〜33%下がり、再び差がつくようになりました。さらに、答えにたどり着くまでの考えを順に書き出す思考の連鎖(Chain-of-Thought)がよく効く設計で、単なる暗記ではなく、込み入った推論を要する出題になっています。

MMLUと点数を直接比べてはいけない

モデル比較の資料を読むときに気をつけたいのは、MMLUとMMLU-Proのスコアを並べて比べないことです。同じモデルでもMMLU-Proの方が低く出るのは性能が落ちたからではなく、物差しが厳しくなったからです。MMLU-Proで88〜90%は「ほぼ満点」ではなく、現行の最上位帯を意味します。

もうひとつ、「Pro」はベンチマークの名前であって、有料版や上位グレードのAI製品を指すわけではありません。また採点方法や思考の連鎖の有無によってリーダーボードごとに数値が割れるので、順位を見るときは評価条件もあわせて確認するのが安全です。

Topic選択肢を増やすだけで難問になった

MMLU-Proが難しくなった仕掛けは、設問の難化だけではありません。選択肢を4択から10択に増やしたのが大きく効きました。4択ならまぐれ当たりは理論上25%ですが、10択では10%まで下がり、消去法も使いにくくなります。これだけで上位モデルの正答率が16〜33%も急落しました。賢くなったAIを、もう一度ふるいにかけられる物差しへ戻した、設計の妙といえます。

MMLU-Proに関するよくある質問

元のMMLUと点数を直接比べてよいですか?
比べてはいけません。同じモデルでもMMLU-Proの方が16〜33%低く出ますが、これは性能が落ちたのではなく物差しが厳しくなったためです。MMLU-Proでの88〜90%は「ほぼ満点」ではなく、現行の最上位帯を意味します。
「Pro」とは有料版や上位グレードのAIのことですか?
いいえ。「Pro」はベンチマーク(評価用テスト)の名前で、AI製品のグレードとは無関係です。飽和した定番テストMMLUを難しく作り直した、評価用の問題集を指します。
なぜ選択肢を増やすと難しくなるのですか?
4択ではまぐれ当たりが理論上25%ありますが、10択に増やすと10%まで下がり、消去法も効きにくくなります。設問自体の難化に加え、この工夫だけでも上位モデルの正答率が大きく下がりました。