MMLU(エムエムエルユー)とは

MMLUとは、AIが幅広い分野の知識をどれだけ正しく答えられるかを、57分野の4択問題で測る代表的なベンチマーク(性能評価指標)のことです。2020年に公開され、長らくAIモデルの「賢さ」を横並びで比べる物差しとして、各社の発表資料で最も多く引用されてきました。

57分野・約1万6千問で知識の広さを測る

MMLUはMassive Multitask Language Understanding(大規模マルチタスク言語理解)の頭文字で、初等数学・米国史・法律・医学・倫理など57分野、合計で約1万6千問を集めた4択テストです。2020年9月にカリフォルニア大学バークレー校のダン・ヘンドリクスらが公開しました。スコアは正答率で示され、大学から専門職レベルまでの知識をAIに一斉に解かせて、その正確さを採点します。

注意したいのは、4択なので当てずっぽうでも理論上は25%前後は当たるという点です。低い点数帯のモデルを比べるときは「でたらめより、どれだけ上か」という目で見る必要があります。

飽和して差がつかなくなった物差し

公開当時の2020年、GPT-3の正答率は43.9%でした。当時のAIは、人間なら常識的に答えられる問題の半分も解けなかったわけです。ところが2024年ごろには上位のモデルが軒並み88%前後で並び、もはやモデルどうしの差がつきにくくなりました。これを「飽和」と呼び、より難しい後継のMMLU-Proが作られた背景になっています。

経営の判断材料として読むときは、高得点イコール賢い・万能、とは限らないことに留意してください。MMLUが測るのはあくまで知識を問う4択であり、込み入った推論力や実務をこなす力は別の物差しで測られます。飽和した今、1〜2ポイントの差を優劣の根拠にするのは無理があります。

Topicそもそも満点が取れない物差しだった

長年の標準だったMMLUですが、2024年の調査で設問そのものに誤りが多数見つかりました。複数の選択肢が正解だったり、用意された正解が間違っていたりするもので、ウイルス学の分野では約57%、全体でも約6.5%の問題に不備があると報告されています。つまり物差しの目盛り自体が少しずれており、構造上そもそも100%は取れない設計だった、という逸話です。スコアを一点刻みで比べることの危うさを物語っています。

MMLUに関するよくある質問

MMLUで満点は取れるのですか?
実は構造上、満点は取りにくい物差しです。2024年の調査で、設問そのものに誤り(複数の選択肢が正解、用意された正解が間違いなど)が多数見つかり、ウイルス学では約57%、全体でも約6.5%の問題に不備があると報告されました。スコアを一点刻みで比べることの危うさを物語っています。
MMLUの点数はどう読めばよいですか?
スコアは正答率で示されますが、4択なので当てずっぽうでも理論上は25%前後は当たります。また高得点イコール賢い・万能とは限りません。MMLUが測るのはあくまで知識を問う4択で、込み入った推論力や実務をこなす力は別の物差しで測られます。
MMLUが「飽和した」とはどういう意味ですか?
公開当時の2020年はGPT-3が43.9%でしたが、2024年ごろには上位モデルが軒並み88%前後で並び、モデルどうしの差がつきにくくなりました。これを「飽和」と呼び、より難しい後継のMMLU-Proが作られた背景になっています。1〜2ポイントの差を優劣の根拠にするのは無理があります。