回避攻撃とは
回避攻撃とは、学習を終えたAIに対して、入力するデータへ人間には気づきにくい細工を加え、AIにわざと誤った判断をさせる攻撃手法のことです。たとえば迷惑メール判定や不正検知のように、AIが「これは安全か危険か」を仕分けする場面で、攻撃者がその仕分けをすり抜けるために使います。学習のしかたそのものは正しくても、運用中のAIはこうした細工に弱いのです。
英語表記:Evasion Attack
どうやってAIをだますのか
回避攻撃の特徴は、AIの学習データには一切手を触れず、運用中(判定するその瞬間)の入力だけをいじる点にあります。古典的な例が迷惑メールです。スパム文に「ありがとう」「請求書」といった善良なメールに多い言葉をわざと混ぜ込むと、フィルタが「これは普通のメール」と誤判定してしまう。画像なら、人間の目にはほとんど変化が分からない微細なノイズを足すだけで、AIが別の物に見間違えることもあります。学習段階のデータを汚すポイズニング攻撃が「仕込み」だとすれば、回避攻撃は運用中の本番をすり抜ける動きだと考えると分かりやすいでしょう。
業務では何が危ないのか
経営の視点で怖いのは、AIの判定を業務の「関所」にしているところほど被害が直結する点です。不正取引の検知、スパムや有害投稿のフィルタ、顔認証による入退室管理など、判定AIを通せば安全だと思い込んでいると、すり抜けられたときに気づくのが遅れます。AIの判定は万能ではなく、突破を狙う相手がいる前提で設計する。この一言が、導入時の判断を分けます。
完全には防げない、だから備える
代表的な対策が敵対的サンプルを使った訓練です。これは、わざと細工した攻撃データもあらかじめAIに学ばせ、似た細工に引っかかりにくくする手法を指します。ただしこれで完璧になるわけではありません。新しい細工が次々に生まれるため、人手による確認や別の検知ルールと重ねる多層の備えが現実的です。AIだけに任せきりにしない設計が要になります。
Topic「AIをだます攻撃」は、生成AIブームよりずっと前からあった
回避攻撃に関するよくある質問
- 回避攻撃と「敵対的サンプル」は同じものですか?
- ほぼ同じ文脈で使われます。敵対的サンプルは「AIをだますために細工された入力データ」そのものを指し、回避攻撃はそれを運用中のAIに使って誤判定を狙う行為を指します。攻撃の道具と攻撃の動作、という関係です。
- 画像認識AIだけの問題ですか?
- いいえ。迷惑メールの文章、マルウェアのプログラム、音声、顔認証など、AIが何かを判定するあらゆる場面で起こりえます。判定を業務の関所にしている仕組みは、種類を問わず注意が必要です。
- 生成AIの「脱獄(ジェイルブレイク)」とは違うのですか?
- 狙う相手が違います。回避攻撃は主に何かを仕分け・分類するAIを誤らせる攻撃で、ジェイルブレイクはChatGPTのような生成AIに禁止されたはずの回答を引き出す攻撃です。目的も対象も別物として区別されます。