FrontierMathとは

FrontierMathとは、研究レベルの数学問題でAI大規模言語モデル)の推論力を測るベンチマーク(AI向けの難関試験)です。AI調査機関のEpoch AIが2024年11月に公開しました。専門の数学者が作った数百の未発表問題で構成され、公開時点では上位のAIモデルでも正答率2%未満という、突き抜けて難しい試験として注目を集めました。

なぜ問題を「非公開」にしているのか

狙いは、AIの「本当の実力」だけを測ることにあります。問題を公開すると、いずれAIの訓練データに混ざり、暗記で解けてしまう(汚染と呼ばれる問題)からです。さらに各問題は、答えが大きな数値や複雑な数学的対象になるよう作られており、当てずっぽうで正解する確率は1%未満。まぐれ当たりも、過去問の暗記も通じない設計です。

レベル分けもあり、学部から大学院水準のTier1〜3に加え、2025年以降は研究水準のTier4も整備されています。高校数学の試験(MATHなど)では上位モデルが90%超を取り時代遅れになりつつあった2024年当時、「AIにはまだ解けない領域」を数字で示した意義は小さくないでしょう。

Topicフィールズ賞の受賞者たちが「極めて難しい」と認めた試験

作問には60人超の数学者(国際数学オリンピックの作題者やフィールズ賞受賞者を含む)が関わりました。世界的に著名な数学者テレンス・タオは「極めて難しい。その分野の本物の専門家がいない限り、人間の専門家とAIを組み合わせるしか解きようがない」と評し、同じくフィールズ賞のティモシー・ガワーズも「数学オリンピックの問題とは難しさの次元が違う」とコメントしています。数学の第一線に立つ頭脳が「難しい」と認める試験を、AIがどこまで登れるか。それを定点観測するのがこのベンチマークです。

FrontierMathに関するよくある質問

従来の数学ベンチマーク(MATHなど)と何が違いますか?
従来の試験は高校〜競技数学レベルが中心で、2024年時点で上位モデルが90%超を取り差がつかなくなっていました。FrontierMathは専門数学者でも1問に数時間から数日かかる研究水準で、AIの推論力の上限を測るために作られています。
人間なら解ける問題なのですか?
いいえ、一般の人向けではありません。フィールズ賞受賞者のテレンス・タオが「極めて難しい」と評するほどで、その分野の専門家でなければ歯が立たない水準です。人間の専門家とAIの実力差を測る、いわば計測器のような試験です。

あわせて読みたい記事