ベンチマークとは
ベンチマークとは、AIモデルの性能を、決まった問題集と採点基準で測るための「共通テスト」のことです。同じ物差しで測ることで、複数のモデルの実力を公平に比べられます。AIの良し悪しを語るときに、数値的な裏づけを与えてくれる存在です。
何を測るのか
ベンチマークは、課題と評価指標がセットになっています。言語理解を測るGLUEやSuperGLUE、57分野の知識を問うMMLUなど、目的別にさまざまな種類があります。たとえばMMLUは、数学・法律・医療など16,000問の選択式問題で、AIの「物知り度」を幅広く測るものです。
テストが、すぐ追いつかれる
AIの進歩は速く、難しかったはずのベンチマークが、あっという間に「簡単すぎる」レベルに達してしまうことがあります。2018年のGLUEは性能が頭打ち(飽和)になり、2019年にはより手強いSuperGLUEが作られました。注意したいのは、点数が高い=実用でも万能、とは限らないこと。テストの傾向に合わせて最適化されただけ、という場合もあるためです。
Topicカンニングを見破る「カナリア」
関連用語
ベンチマークに関するよくある質問
- AIのベンチマークにはどんな種類がありますか?
- 課題と評価指標がセットになっており、言語理解を測るGLUEやSuperGLUE、57分野の知識を問うMMLUなど目的別にさまざまです。たとえばMMLUは数学・法律・医療など約16,000問の選択式で、AIの「物知り度」を幅広く測ります。
- ベンチマークの点数が高ければ、実用でも万能ですか?
- 限りません。テストの傾向に合わせて最適化されただけ、という場合もあります。またAIの進歩は速く、難しかったベンチマークもあっという間に飽和し、より手強いものが作られます(2018年のGLUE→2019年のSuperGLUE)。
- 「データ汚染」とは何ですか?
- テストの答えがたまたまAIの学習データに混じっていて、本当の実力ではなく丸暗記で高得点を取れてしまう問題です。これを見破るため、一部のベンチマークは「カナリア文字列」という秘密の目印を問題に仕込み、AIがそれを覚えていればテスト問題を学習した証拠、と分かるようにしています。