GPQA(ジーピーキューエー)とは
GPQAとは、生物・物理・化学の博士課程レベルの専門家が作った、ネットで調べても専門外の人にはほぼ解けない超難問でAIの推論力を測る選択式ベンチマークのことです。簡単な問題では満点近くになり差がつかない最新モデルを、本当の実力で見分けるために作られました。
専門家でも解けない難問でふるいにかける
GPQAは2023年11月にデイヴィッド・ラインらが公開しました。生物・物理・化学の博士課程レベルの問題でできており、標準のMain版で448問、最も厳しいDiamond版で198問という構成です。どれほど難しいかというと、その分野の博士でも正答率は約65%にとどまります。MMLUのような知識テストが飽和するなか、難問でこそAIの推論力の差が見えてくる、という発想で作られました。
DiamondとMainを取り違えない
モデル比較でよく登場するGPQA Diamondには注意が必要です。これは別の難易度ではなく、Mainの448問の中から「両方の専門家が正答し、かつ専門外の人の過半数が間違えた」という最も厳しい条件を満たす198問だけを抜き出した選り抜きです。同じモデルでもDiamondの方が難問ぞろいでスコアが変わるため、数値を比べるときはどちらのことか確認してください。
もうひとつ、「Google-Proof」はGoogleが作ったという意味ではありません。「ネットで検索しても解けない(検索耐性がある)」という意味で、暗記や検索でごまかせない理解力を測る、という設計思想を表した名前です。
Topic「Google-Proof(ググっても解けない)」という名前の狙い
AIは大量のネット情報で学習しているため、「結局ネットに載っている知識を写しているだけでは」という疑いが付きまといます。GPQAはそこへの回答として、あえてネット検索が役に立たない問題を選びました。実際、高い能力を持つ専門外の検証者がネットを無制限に使い、1問あたり平均30分以上かけても、正答率はわずか約34%だったといいます。検索で見つかる知識ではなく、専門家でないと辿り着けない理解を問う。それがこのベンチマークの狙いです。
GPQAに関するよくある質問
- なぜGPQAのような超難問のベンチマークが必要なのですか?
- MMLUのような知識テストは最新モデルが軒並み高得点で飽和し、差がつかなくなったためです。GPQAは生物・物理・化学の博士課程レベルの難問でふるいにかけ、本当の推論力でモデルを見分けることを狙って2023年11月に公開されました。
- GPQAはどれくらい難しいのですか?
- その分野の博士でも正答率は約65%にとどまります。Main版で448問、最も厳しいDiamond版で198問という構成で、暗記や検索でごまかせない理解力を測るのが狙いです。
- GPQA DiamondとMainは別の難易度ですか?
- 別物ではなく、DiamondはMainの448問から「両方の専門家が正答し、専門外の過半数が間違えた」という最も厳しい条件の198問を抜き出した選り抜きです。同じモデルでもスコアが変わるため、数値を比べるときはどちらか確認してください。
- 「Google-Proof」はGoogle製という意味ですか?
- いいえ。「ネットで検索しても解けない(検索耐性がある)」という意味で、暗記や検索でごまかせない理解力を測る設計思想を表した名前です。専門外の人がネット無制限・30分以上かけても正答率は約34%でした。