従来の数学ベンチマーク（MATHなど）と何が違いますか？

従来の試験は高校〜競技数学レベルが中心で、2024年時点で上位モデルが90%超を取り差がつかなくなっていました。FrontierMathは専門数学者でも1問に数時間から数日かかる研究水準で、AIの推論力の上限を測るために作られています。

人間なら解ける問題なのですか？

いいえ、一般の人向けではありません。フィールズ賞受賞者のテレンス・タオが「極めて難しい」と評するほどで、その分野の専門家でなければ歯が立たない水準です。人間の専門家とAIの実力差を測る、いわば計測器のような試験です。

FrontierMathとは？意味をわかりやすく解説

FrontierMathとは、研究レベルの数学問題でAI（大規模言語モデル）の推論力を測るベンチマーク（AI向けの難関試験）です。AI調査機関のEpoch AIが2024年11月に公開しました。専門の数学者が作った数百の未発表問題で構成され、公開時点では上位のAIモデルでも正答率2%未満という、突き抜けて難しい試験として注目を集めました。

なぜ問題を「非公開」にしているのか

狙いは、AIの「本当の実力」だけを測ることにあります。問題を公開すると、いずれAIの訓練データに混ざり、暗記で解けてしまう（汚染と呼ばれる問題）からです。さらに各問題は、答えが大きな数値や複雑な数学的対象になるよう作られており、当てずっぽうで正解する確率は1%未満。まぐれ当たりも、過去問の暗記も通じない設計です。

レベル分けもあり、学部から大学院水準のTier1〜3に加え、2025年以降は研究水準のTier4も整備されています。高校数学の試験（MATHなど）では上位モデルが90%超を取り時代遅れになりつつあった2024年当時、「AIにはまだ解けない領域」を数字で示した意義は小さくないでしょう。

Topicフィールズ賞の受賞者たちが「極めて難しい」と認めた試験

作問には60人超の数学者（国際数学オリンピックの作題者やフィールズ賞受賞者を含む）が関わりました。世界的に著名な数学者テレンス・タオは「極めて難しい。その分野の本物の専門家がいない限り、人間の専門家とAIを組み合わせるしか解きようがない」と評し、同じくフィールズ賞のティモシー・ガワーズも「数学オリンピックの問題とは難しさの次元が違う」とコメントしています。数学の第一線に立つ頭脳が「難しい」と認める試験を、AIがどこまで登れるか。それを定点観測するのがこのベンチマークです。

FrontierMathに関するよくある質問

従来の数学ベンチマーク（MATHなど）と何が違いますか？: 従来の試験は高校〜競技数学レベルが中心で、2024年時点で上位モデルが90%超を取り差がつかなくなっていました。FrontierMathは専門数学者でも1問に数時間から数日かかる研究水準で、AIの推論力の上限を測るために作られています。
人間なら解ける問題なのですか？: いいえ、一般の人向けではありません。フィールズ賞受賞者のテレンス・タオが「極めて難しい」と評するほどで、その分野の専門家でなければ歯が立たない水準です。人間の専門家とAIの実力差を測る、いわば計測器のような試験です。

FrontierMathとは

なぜ問題を「非公開」にしているのか

Topicフィールズ賞の受賞者たちが「極めて難しい」と認めた試験

FrontierMathに関するよくある質問

あわせて読みたい記事

ハルシネーションを起こすプロンプトの典型パターン｜避けるべき書き方と改善例

ChatGPT・Gemini・Claudeを比較｜個人利用で選ぶならどれか3大AIの特徴と最適解

Claude(クロード)はどこの会社が作ったAI？Anthropicの正体とチャットGPTより安全と言われる理由

いま読まれている用語

まだそこまで読まれていない用語