データ汚染とは

データ汚染とは、AIの評価問題や答えが学習データに混ざり、実力以上に高い点数が出てしまう問題です。とくにLLMベンチマークでは、公開された問題集がインターネット上に広がり、後から学習したモデルが「試験内容を見たことがある」状態になりえます。点数が高い理由が実力なのか、過去問暗記なのかを見分けにくくするのが厄介です。

英語表記:Benchmark Data Contamination / Data Contamination

データポイズニングとは違う

データ汚染は、攻撃者が意図的に学習データを汚すデータポイズニングと混同されがち。ここでの中心は、評価用の問題や答えが学習側へ入り込み、テストの公正さが崩れること。学校の試験でいえば、勉強ができる生徒と、過去問の答えを先に見た生徒を同じ点数表で比べるようなものでしょう。

ベンチマークを見る時の影響

有名なベンチマークほど、多くの論文、解説、データセットに引用されます。その結果、次世代モデルの学習データに入りやすくなります。企業がAIを選ぶ時は、スコア表だけでなく、問題が非公開か、更新されているか、自社データで再検証したかを見るべきです。高得点は「信頼できる評価設計」とセットで初めて意味を持つと考えると安全です。

Topic過去問を覚えたかを見る検査もある

データ汚染を調べる研究では、選択肢の一部や不自然な語を隠し、AIがそれを当てられるかを見る方法が提案されています。問題を解く力ではなく、問題の痕跡を覚えているかを逆向きに確かめる発想です。

データ汚染に関するよくある質問

データ汚染とデータポイズニングは同じですか?
違います。データポイズニングは意図的な汚染攻撃を指すことが多く、ここでのデータ汚染は評価問題が学習側へ混ざり、ベンチマークの信頼性が下がる問題です。
データ汚染があると何が困りますか?
AIの点数が実力より高く見える可能性があります。導入判断では、有名ベンチマークの数字だけでなく、自社データでの再検証が必要になります。
データ汚染を完全に避ける方法はありますか?
完全に避けるのは難しいため、非公開テスト、更新型ベンチマーク、汚染検査、自社タスクでの確認を組み合わせます。単一スコアに依存しないことが重要です。

あわせて読みたい記事