バックドア攻撃とは
バックドア攻撃とは、普段は正常に動くAIに、攻撃者だけが知る特定の「合図」が現れたときだけ誤作動する隠し扉を、学習の段階で仕込む攻撃のことです。合図がないときは正しく動くため、ふつうの動作確認では見つけにくい点がやっかいです。
合図があるときだけ、誤作動する
攻撃者は学習データやモデルの製作工程に手を加え、特定の模様やステッカー、合言葉のような入力が含まれたときだけ別の答えを出すよう仕込みます。よく知られた実験では、停止の道路標識に小さなステッカーを貼るだけで、AIがそれを速度制限の標識だと誤って読み取りました。完成後のAIに入力を細工する敵対的サンプルとは違い、バックドア攻撃は学習の段階でモデル自体に弱点を埋め込むのが特徴で、データポイズニングの一種にあたります。
外部のAIを「そのまま信じない」
この攻撃が突きつけるのは、AIの「供給網(サプライチェーン)」のリスクです。学習を外注したり、出所のよく分からない公開モデルをそのまま使ったりすると、知らないうちに隠し扉つきのAIを取り込んでしまう恐れがあります。「テストで正常に動いたから安全」とは限らないため、他社製や公開のAIを使うときは、出どころや来歴の確認が大切でしょう。
Topicシール1枚が、AIの隠しスイッチになる
この攻撃を示した2017年の研究の象徴が、停止標識に貼った1枚の小さなステッカーです。人の目にはただの汚れにしか見えないシールが、AIにとっては「速度制限と答えよ」という隠しスイッチになっていました。物理的な世界のちょっとした細工が、AIの判断を裏で乗っ取れることを示した、自動運転にとって背筋の寒くなる実例です。
関連用語
バックドア攻撃に関するよくある質問
- バックドア攻撃と敵対的サンプルはどう違いますか?
- 敵対的サンプルが完成後のAIに入力を細工してだますのに対し、バックドア攻撃は学習の段階でモデル自体に「特定の合図のときだけ誤作動する隠し扉」を埋め込みます。学習データを汚すデータポイズニングの一種で、合図がないときは正常に動くため、ふつうの動作確認では見つけにくいのがやっかいです。
- どんな被害が起きるのですか?
- よく知られた2017年の実験では、停止の道路標識に小さなステッカーを貼るだけで、AIがそれを速度制限の標識だと誤って読み取りました。学習を外注したり出所の分からない公開モデルをそのまま使ったりすると、知らないうちに隠し扉つきのAIを取り込む恐れがあるため、他社製や公開のAIを使うときは出どころの確認が大切です。