ARC-AGI(アークエージーアイ)とは
ARC-AGIとは、AIが知識の暗記ではなく「初めて見る問題を自力で解く力」を持つかを測るベンチマーク(AIの学力試験)です。AI研究者のフランソワ・ショレが2019年11月の論文「On the Measure of Intelligence」(知能の測り方について)で提唱しました。ChatGPTの一般公開(2022年11月30日)より3年も前に、生成AIブームを先取りして「知能をどう測るか」を問い直した試みです。数個の見本から隠れた規則を見抜いてマス目状のパズルを完成させる形式で、知識量を競う一般的なテストとは狙いが根本から異なります。
英語表記:Abstraction and Reasoning Corpus for Artificial General Intelligence
人間には易しく、AIには難しい試験
設計思想は、「人間なら特別な訓練なしに解けるのに、AIには解けない問題」だけを集めること。ショレは知能を「未知の課題をどれだけ効率よく学べるか」と定義し、過去のデータをどれだけ覚えたかではなく、新しい規則をその場で見抜く力を測ろうとしました。だから暗記が通用しません。
実際、大規模言語モデル(LLM)が各種の知識試験で高得点を出すようになってからも、ARC-AGIの成績は長く伸びませんでした。主催側も、2019年の初版(ARC-AGI-1)は「5年間テストされても進展が限定的だった」と振り返っています。ニュースでこの名前を見かけたら、「知識テストではなく初見対応力の物差し」と押さえておけば十分でしょう。
o3の突破と、すぐに用意された「次の試験」
転機は2024年12月20日。OpenAIの推論モデルo3が公式評価で75.7%(計算量を172倍に増やした設定では87.5%)を記録し、初めて本格的な突破例になりました。
ただし主催のARC Prizeは2025年、難易度を上げたARC-AGI-2を公開します。記号の解釈や複数の規則の組み合わせを要求し、正解したかどうかに加えて「どれだけ効率よく(少ない計算コストで)解いたか」も指標に加えました。AIが追いつくたびに試験を作り直す、いたちごっこの最前線といえます。Kaggle上の賞金コンペ「ARC Prize 2025」では、このARC-AGI-2で85%が攻略目標に据えられました。
Topic「人間なら解ける」を400人がかりで確かめた
ARC-AGI-2の問題は、公開前に400人以上の一般参加者によるテストを通し、すべての問題が「少なくとも2人の人間に、2回以内の挑戦で解かれた」ことを確認してから採用されています。「人間には解けるがAIには難しい」という看板を、宣伝文句ではなく実測で担保しているわけです。AIの試験なのに、まず人間が大量に受験させられているのが面白いところでしょう。
ARC-AGIに関するよくある質問
- MMLUなどの知識系ベンチマークと何が違いますか?
- MMLUなどは学んだ知識をどれだけ答えられるかを測りますが、ARC-AGIは見たことのない規則をその場で見抜く力(流動性知能)を測ります。暗記やデータの量では点が伸びないように設計されている点が最大の違いです。
- 名前にAGIと付いていますが、解ければAGIの実現ですか?
- いいえ。ARC-AGIが測るのは初見の規則を見抜く力という一側面で、突破がそのまま人間並みの汎用知能(AGI)の実現を意味するわけではありません。実際、初版の突破後も難化版のARC-AGI-2が用意され、評価は続いています。
- ARC-AGIのスコアが高いAIは、仕事でも賢いと考えてよいですか?
- そのまま結びつけるのは早合点です。ARC-AGIは初見の問題への対応力を見る指標で、業務知識の正確さや顧客対応の完遂力は別のベンチマークで測ります。複数の物差しを併せて見るのが安全です。