BIG-Bench Hardとは

BIG-Bench Hardとは、大規模言語モデル(LLM)向けの大規模試験「BIG-Bench」から、当時のAIが人間の平均点に届かなかった難問23種類だけを抜き出したベンチマーク(AI向けの難問選抜集)です。略称はBBH。Googleなどの研究チームが2022年10月の論文で提案しました。ChatGPT一般公開(2022年11月30日)の直前に、AIの推論力の壁を見極めようとした試験です。

「考え方を書かせる」と成績が跳ね上がった

この論文の発見はシンプルで強烈でした。答えだけを言わせるのではなく、途中の考え方を順番に書かせる方法(Chain-of-Thought、思考の連鎖)に切り替えただけで、23の難問のうちPaLMで10、Codexでは17のタスクが人間平均超えに変わったのです。AIが解けなかったのではなく、聞き方が実力を引き出せていなかった。そんな逆転の証拠になりました。

BBHはその後、Hugging FaceのOpen LLM Leaderboard(公開モデルの採点表)の採点科目に採用されるなど定番として活躍します。ただし2025年2月にはGoogle DeepMindが「最先端モデルでは多くのタスクがほぼ満点=飽和」と明言し、難化版のBIG-Bench Extra Hard(BBEH)を公開しました。難問はいずれ解かれ、また次の難問が作られる。AIベンチマークの宿命でしょう。

TopicBIGは「大きい」ではなく、チューリングへの挑戦状

BIG-BenchのBIGは、単に「大きい」という意味ではありません。正式名称はBeyond the Imitation Game(模倣ゲームを超えて)。模倣ゲームとは、数学者アラン・チューリングが1950年に提案した「機械は人間のふりをして対話できるか」という思考実験で、後にチューリングテストと呼ばれるものの元の名前です。「人間のふりができるか」を超えて、もっと多面的にAIの能力を測ろう。200超のタスクを持ち寄った研究者たちの意気込みが、名前に込められています。

BIG-Bench Hardに関するよくある質問

BIG-BenchとBIG-Bench Hardはどう違うのですか?
BIG-Benchは世界の研究者が持ち寄った200を超えるタスクの大規模試験集です。BIG-Bench Hardはそのうち、当時のAIが平均的な人間の評価者を下回っていた23タスクだけを選んだ難問選抜版にあたります。
BBHのスコアはどこで目にしますか?
公開AIモデルを比べるHugging FaceのOpen LLM Leaderboardなど、モデル採点表の科目名としてよく登場します。23タスクの平均点という性格上、業務全体の賢さの総合点ではない点だけ押さえておくと読み違えません。

あわせて読みたい記事