元のMMLUと点数を直接比べてよいですか？

比べてはいけません。同じモデルでもMMLU-Proの方が16〜33%低く出ますが、これは性能が落ちたのではなく物差しが厳しくなったためです。MMLU-Proでの88〜90%は「ほぼ満点」ではなく、現行の最上位帯を意味します。

「Pro」とは有料版や上位グレードのAIのことですか？

いいえ。「Pro」はベンチマーク（評価用テスト）の名前で、AI製品のグレードとは無関係です。飽和した定番テストMMLUを難しく作り直した、評価用の問題集を指します。

なぜ選択肢を増やすと難しくなるのですか？

4択ではまぐれ当たりが理論上25%ありますが、10択に増やすと10%まで下がり、消去法も効きにくくなります。設問自体の難化に加え、この工夫だけでも上位モデルの正答率が大きく下がりました。

MMLU-Pro(エムエムエルユープロ)とは？意味をわかりやすく解説

MMLU-Proとは、AIの知識と推論力をより厳しく測るために、定番ベンチマークのMMLUを難しく作り直した強化版のことです。MMLUが飽和して上位モデルの差がつかなくなった問題を解くため、2024年に公開されました。選択肢を増やし、推論を要する難問に絞ったことで、再びモデルの実力を見分けられるようになっています。

MMLUの飽和を解くために生まれた

MMLU-Proは2024年6月に、カナダのウォータールー大学の研究チーム（TIGER-Lab）が公開しました。約1万2千問を14分野で構成し、元のMMLUから良問を選び直したうえで、瑣末で紛らわしい問題を取り除いています。狙いは、どのモデルも88%前後で並んでしまったMMLUに代わって、最新モデルの違いをはっきり映す物差しを用意することでした。

その結果、同じモデルでも正答率がMMLUより16〜33%下がり、再び差がつくようになりました。さらに、答えにたどり着くまでの考えを順に書き出す思考の連鎖（Chain-of-Thought）がよく効く設計で、単なる暗記ではなく、込み入った推論を要する出題になっています。

MMLUと点数を直接比べてはいけない

モデル比較の資料を読むときに気をつけたいのは、MMLUとMMLU-Proのスコアを並べて比べないことです。同じモデルでもMMLU-Proの方が低く出るのは性能が落ちたからではなく、物差しが厳しくなったからです。MMLU-Proで88〜90%は「ほぼ満点」ではなく、現行の最上位帯を意味します。

もうひとつ、「Pro」はベンチマークの名前であって、有料版や上位グレードのAI製品を指すわけではありません。また採点方法や思考の連鎖の有無によってリーダーボードごとに数値が割れるので、順位を見るときは評価条件もあわせて確認するのが安全です。

Topic選択肢を増やすだけで難問になった

MMLU-Proが難しくなった仕掛けは、設問の難化だけではありません。選択肢を4択から10択に増やしたのが大きく効きました。4択ならまぐれ当たりは理論上25%ですが、10択では10%まで下がり、消去法も使いにくくなります。これだけで上位モデルの正答率が16〜33%も急落しました。賢くなったAIを、もう一度ふるいにかけられる物差しへ戻した、設計の妙といえます。

MMLU-Proに関するよくある質問

元のMMLUと点数を直接比べてよいですか？: 比べてはいけません。同じモデルでもMMLU-Proの方が16〜33%低く出ますが、これは性能が落ちたのではなく物差しが厳しくなったためです。MMLU-Proでの88〜90%は「ほぼ満点」ではなく、現行の最上位帯を意味します。
「Pro」とは有料版や上位グレードのAIのことですか？: いいえ。「Pro」はベンチマーク（評価用テスト）の名前で、AI製品のグレードとは無関係です。飽和した定番テストMMLUを難しく作り直した、評価用の問題集を指します。
なぜ選択肢を増やすと難しくなるのですか？: 4択ではまぐれ当たりが理論上25%ありますが、10択に増やすと10%まで下がり、消去法も効きにくくなります。設問自体の難化に加え、この工夫だけでも上位モデルの正答率が大きく下がりました。

MMLU-Pro(エムエムエルユープロ)とは

MMLUの飽和を解くために生まれた

MMLUと点数を直接比べてはいけない

Topic選択肢を増やすだけで難問になった

MMLU-Proに関するよくある質問

あわせて読みたい記事

ChatGPT WorkとCodexの違いは何か　開発AIから業務エージェントへ広がる流れ

Claude TagのGitHub操作失敗で考えるAIエージェント障害時の人への戻し方

生成AIに任せすぎると社員のスキルは落ちるのか中小企業が効率化と人材育成を両立する線引き

いま読まれている用語

まだそこまで読まれていない用語

MMLUの飽和を解くために生まれた

MMLUと点数を直接比べてはいけない

Topic選択肢を増やすだけで難問になった

MMLU-Proに関するよくある質問

ChatGPT WorkとCodexの違いは何か 開発AIから業務エージェントへ広がる流れ

Claude TagのGitHub操作失敗で考えるAIエージェント障害時の人への戻し方

生成AIに任せすぎると社員のスキルは落ちるのか 中小企業が効率化と人材育成を両立する線引き

いま読まれている用語

まだそこまで読まれていない用語

ChatGPT WorkとCodexの違いは何か　開発AIから業務エージェントへ広がる流れ

生成AIに任せすぎると社員のスキルは落ちるのか中小企業が効率化と人材育成を両立する線引き