MMMU-Pro(エムエムエムユープロ)とは

MMMU-Proとは、画像と文章を組み合わせて理解するAIの力を、より厳しく測るマルチモーダルベンチマークです。元になったMMMUよりも、テキストだけで解ける抜け道を減らし、図や画面を本当に読めているかを見ます。資料、図表、スクリーンショットを扱うAIを選ぶ時に、見たものを理解しているかを読む判断材料。

英語表記:MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

MMMUより何が厳しいのか

論文では、MMMU-Proの主な工夫として、テキストだけで答えられる問題の除外、選択肢の増加、問題を画像内に埋め込む設定が説明されています。単に知識を問うのではなく、画像の中の文字、図形、文脈を合わせて読む必要があります。人間でいえば、資料のスクリーンショットを見て、その場で意味をつかむ試験に近いでしょう。

業務で点数を見る時の注意

マルチモーダルAIは「画像が読める」と言われても、領収書、設計図、スライド、医療画像では必要な力が違います。MMMU-Proの点数は、図表を含む知的作業への強さを見る参考になりますが、特定業務の精度を保証するものではありません。自社の資料形式で小さく検証することが、ベンチマークを実務に接続する最後の一手です。

Topic問題文まで画像に入れる理由

MMMU-Proには、問題文を画像の中に埋め込むvision-only設定があります。これは、AIが文字だけを抜き出して答える近道を避けるためです。「画像も読める」と「画像を見なくても答えられる」は別物だと切り分ける、評価側の工夫といえます。

MMMU-Proに関するよくある質問

MMMU-ProはMMMUと何が違いますか?
MMMUをもとにしながら、テキストだけで解ける問題を減らし、選択肢や画像設定を厳しくした点が違います。見た目の理解が必要な場面をより強く試します。
MMMU-Proの点数が高ければ資料読解AIとして安心ですか?
参考にはなりますが、安心とは言い切れません。社内資料の形式、画像の粗さ、表の構造、専門用語の有無で実務精度は変わります。
MMMU-ProはどんなAI選定で役立ちますか?
画像、図表、文章をまとめて読むAIを比較する時に役立ちます。スライド、マニュアル、画面キャプチャを扱う用途では、通常の文章ベンチマークだけを見るより判断材料が増えます。

あわせて読みたい記事