ベンチマークとは

ベンチマークとは、AIモデルの性能を、決まった問題集と採点基準で測るための「共通テスト」のことです。同じ物差しで測ることで、複数のモデルの実力を公平に比べられます。AIの良し悪しを語るときに、数値的な裏づけを与えてくれる存在です。

何を測るのか

ベンチマークは、課題と評価指標がセットになっています。言語理解を測るGLUEやSuperGLUE、57分野の知識を問うMMLUなど、目的別にさまざまな種類があります。たとえばMMLUは、数学・法律・医療など16,000問の選択式問題で、AIの「物知り度」を幅広く測るものです。

テストが、すぐ追いつかれる

AIの進歩は速く、難しかったはずのベンチマークが、あっという間に「簡単すぎる」レベルに達してしまうことがあります。2018年のGLUEは性能が頭打ち(飽和)になり、2019年にはより手強いSuperGLUEが作られました。注意したいのは、点数が高い=実用でも万能、とは限らないこと。テストの傾向に合わせて最適化されただけ、という場合もあるためです。

Topicカンニングを見破る「カナリア」

ベンチマークには、やっかいな落とし穴があります。テストの答えがたまたまAIの学習データに混じっていると、本当の実力ではなく「丸暗記」で高得点を取れてしまうのです(データ汚染)。これを見破るため、一部のベンチマークは「カナリア文字列」という秘密の目印を問題に仕込んでおきます。もしAIがその目印まで覚えていたら、テスト問題を学習してしまった証拠というわけ。炭鉱のカナリアになぞらえた、なんともユニークなカンニング検知の工夫です。

ベンチマークに関するよくある質問

AIのベンチマークにはどんな種類がありますか?
課題と評価指標がセットになっており、言語理解を測るGLUEやSuperGLUE、57分野の知識を問うMMLUなど目的別にさまざまです。たとえばMMLUは数学・法律・医療など約16,000問の選択式で、AIの「物知り度」を幅広く測ります。
ベンチマークの点数が高ければ、実用でも万能ですか?
限りません。テストの傾向に合わせて最適化されただけ、という場合もあります。またAIの進歩は速く、難しかったベンチマークもあっという間に飽和し、より手強いものが作られます(2018年のGLUE→2019年のSuperGLUE)。
「データ汚染」とは何ですか?
テストの答えがたまたまAIの学習データに混じっていて、本当の実力ではなく丸暗記で高得点を取れてしまう問題です。これを見破るため、一部のベンチマークは「カナリア文字列」という秘密の目印を問題に仕込み、AIがそれを覚えていればテスト問題を学習した証拠、と分かるようにしています。