MMMU(エムエムエムユー)とは
MMMUとは、画像を含む大学レベルの問題で、マルチモーダルAI(文章と画像を同時に扱うAI)の理解力と推論力を測るベンチマーク(AIの学力試験)です。コンピュータビジョン分野の国際会議CVPR 2024で発表されました。文章だけの試験では測れない「図を見て考える力」を、専門科目の本格的な問題で試すのが特徴です。
英語表記:Massive Multi-discipline Multimodal Understanding and Reasoning
6分野30科目、1万1,500問の「大学の試験」
問題は大学の試験・小テスト・教科書から集められた11,500問。分野は美術デザイン、ビジネス、科学、医療健康、人文社会、技術工学の6分野30科目に及びます。つまり、AIに「大学の専門課程の図版入り試験」を一通り受けさせるイメージです。
発表当時の評価では、OpenAIの画像対応モデルGPT-4Vでも正答率は56%にとどまり、難しい問題ほどAIの優位が縮む傾向も確認されました。写真に何が写っているかを言い当てる段階と、専門知識を前提に図を読み解く段階の間には、大きな壁があったわけです。2024年9月には、より厳密に測れる頑健版のMMMU-Proも導入されました。
ビジネスでは「資料を読めるAIか」の物差し
経営の現場で扱う情報の多くは、グラフ・表・図面の入った資料です。文章は読めても図表が読めないAIでは、実務の資料処理は任せられません。MMMUの成績は、報告書の図表読解や帳票の確認といった業務にAIがどこまで迫れるかを推し量る手がかりになります。ただし試験は学術問題が中心のため、自社の実データでの検証と組み合わせるのが確実でしょう。
Topic楽譜も化学構造式も読まされる試験
MMMUに登場する画像は30種類。グラフや表はもちろん、化学構造式、楽譜、医用画像まで含まれます。「画像が読めるAI」と一口に言っても、風景写真の説明と楽譜の読解ではまるで別の能力。人間でも、楽譜と化学構造式の両方をすらすら読める人はそう多くないはずです。この試験の「Multi-discipline(多分野)」という名前は伊達ではありません。
MMMUに関するよくある質問
- MMLUと名前が似ていますが、別物ですか?
- 別物です。MMLUは文章だけで知識を問う試験、MMMUは図や写真を見て考える力まで問う試験です。MMMUの3つ目のMはMultimodal(マルチモーダル=文章と画像の併用)を表すと覚えると取り違えません。
- MMMUのスコアが高いAIは、実務で何が期待できますか?
- グラフ・表・図面など視覚情報を含む資料の読解に強い見込みが立ちます。ただし出題は学術問題が中心のため、手書き帳票や自社特有の書式への強さは、実データで別途確かめてください。
- MMMU-Proとは何ですか?
- 2024年9月に導入されたMMMUの頑健版です。当てずっぽうなどで点が取れてしまう余地を抑え、視覚理解の実力をより厳密に測れるよう改良されています。