敵対的サンプルとは

敵対的サンプルとは、人間の目にはほとんど違いが分からないのに、AIにはわざと別のものだと誤って判断させるよう、入力データに微小な「ノイズ」を加えたもののことです。正常そうに見える写真や文章が、AIの判断だけを狂わせる細工になっているのが、この攻撃の特徴です。

人には気づけない、わずかな加工

敵対的サンプルは、写真などの入力に、人が見ても気づけないほど小さな、計算されたノイズを足して作ります。たとえばパンダの画像にわずかな加工を施すと、人にはパンダのままに見えるのに、画像認識AIは自信たっぷりに別の動物だと答えてしまう、といったことが起こります。

こうした誤りが生まれるのは、AIが画像を人間のように「意味」で見ているのではなく、画素の数値の並びとして捉えているからでしょう。原論文は、AIがこの種の攻撃に弱い主な原因を、その内部の処理がほぼ直線的(線形)な性質にあると説明しました。やっかいなのは、ある一枚のために作ったノイズが、構造の違う別のAIにもしばしば通用してしまう点です。

いつ攻撃するか=完成後の入力を細工する

敵対的サンプルは、すでに完成して使われているAIに対し、利用時に入力をこっそり細工する攻撃です。学習の段階でモデル自体に隠し扉を仕込むバックドア攻撃や、学習データを汚すデータポイズニングとは、攻撃を仕掛けるタイミングがちょうど逆になります。学習データの中身を盗み出すメンバーシップ推論攻撃のようなプライバシー系の攻撃とも狙いが違い、敵対的サンプルが狙うのはAIの判断そのものを誤らせることです。

身近なリスクと、生まれた年

この弱点は、自動運転の標識の読み取りや顔認証、不正検知、コンテンツの自動審査など、AIが安全や本人確認の判断を担う場面でとくに問題になります。人が見れば違和感に気づくはずの入力でも、AIは欺かれてしまう。だからこそ、重要な判断をAIだけに委ねず、人の確認を組み合わせる設計が欠かせません。

敵対的サンプルという考え方が広く知られたのは、2014年にイアン・グッドフェローらが発表した研究がきっかけでした。ChatGPTの一般公開(2022年11月)より8年ほど前のことで、AIの安全性をめぐる息の長い論点だと分かります。

Topic攻撃のしくみを示した人物が、画像生成AIの生みの親でもある

敵対的サンプルを手早く作る手法を示したイアン・グッドフェローは、同じ2014年に、偽物を作る側と見破る側を競わせる仕組み「敵対的生成ネットワーク(GAN)」も考案しました。画像生成AIディープフェイクの土台になった技術で、「敵対的(adversarial)」という発想を機械学習に持ち込んだ立役者の一人です。

敵対的サンプルに関するよくある質問

バックドア攻撃やデータポイズニングとは何が違うのですか?
攻撃を仕掛けるタイミングが逆です。敵対的サンプルは、すでに完成して使われているAIに対し、利用時に入力をこっそり細工します。バックドア攻撃やデータポイズニングは、学習の段階でモデルや学習データに細工を仕込みます。
なぜ人には分からないのに、AIだけ騙されるのですか?
AIが画像を人間のように「意味」で見るのではなく、画素の数値の並びとして捉えているためです。人にはパンダのままに見えるわずかな加工で、画像認識AIが自信たっぷりに別の動物と答えてしまうことが起こります。ある一枚のために作ったノイズが、構造の違う別のAIにも通用してしまう点もやっかいです。
名前の由来や、考案者にまつわる話はありますか?
敵対的サンプルを手早く作る手法を示したイアン・グッドフェローは、同じ2014年に、偽物を作る側と見破る側を競わせる「敵対的生成ネットワーク(GAN)」も考案しました。画像生成AIやディープフェイクの土台になった技術で、「敵対的」という発想を機械学習に持ち込んだ立役者の一人です。