バックドア攻撃と敵対的サンプルはどう違いますか？

敵対的サンプルが完成後のAIに入力を細工してだますのに対し、バックドア攻撃は学習の段階でモデル自体に「特定の合図のときだけ誤作動する隠し扉」を埋め込みます。学習データを汚すデータポイズニングの一種で、合図がないときは正常に動くため、ふつうの動作確認では見つけにくいのがやっかいです。

どんな被害が起きるのですか？

よく知られた2017年の実験では、停止の道路標識に小さなステッカーを貼るだけで、AIがそれを速度制限の標識だと誤って読み取りました。学習を外注したり出所の分からない公開モデルをそのまま使ったりすると、知らないうちに隠し扉つきのAIを取り込む恐れがあるため、他社製や公開のAIを使うときは出どころの確認が大切です。

バックドア攻撃とは？意味をわかりやすく解説

バックドア攻撃とは、普段は正常に動くAIに、攻撃者だけが知る特定の「合図」が現れたときだけ誤作動する隠し扉を、学習の段階で仕込む攻撃のことです。合図がないときは正しく動くため、ふつうの動作確認では見つけにくい点がやっかいです。

合図があるときだけ、誤作動する

攻撃者は学習データやモデルの製作工程に手を加え、特定の模様やステッカー、合言葉のような入力が含まれたときだけ別の答えを出すよう仕込みます。よく知られた実験では、停止の道路標識に小さなステッカーを貼るだけで、AIがそれを速度制限の標識だと誤って読み取りました。完成後のAIに入力を細工する敵対的サンプルとは違い、バックドア攻撃は学習の段階でモデル自体に弱点を埋め込むのが特徴で、データポイズニングの一種にあたります。

外部のAIを「そのまま信じない」

この攻撃が突きつけるのは、AIの「供給網(サプライチェーン)」のリスクです。学習を外注したり、出所のよく分からない公開モデルをそのまま使ったりすると、知らないうちに隠し扉つきのAIを取り込んでしまう恐れがあります。「テストで正常に動いたから安全」とは限らないため、他社製や公開のAIを使うときは、出どころや来歴の確認が大切でしょう。

Topicシール1枚が、AIの隠しスイッチになる

この攻撃を示した2017年の研究の象徴が、停止標識に貼った1枚の小さなステッカーです。人の目にはただの汚れにしか見えないシールが、AIにとっては「速度制限と答えよ」という隠しスイッチになっていました。物理的な世界のちょっとした細工が、AIの判断を裏で乗っ取れることを示した、自動運転にとって背筋の寒くなる実例です。

バックドア攻撃に関するよくある質問

バックドア攻撃と敵対的サンプルはどう違いますか？: 敵対的サンプルが完成後のAIに入力を細工してだますのに対し、バックドア攻撃は学習の段階でモデル自体に「特定の合図のときだけ誤作動する隠し扉」を埋め込みます。学習データを汚すデータポイズニングの一種で、合図がないときは正常に動くため、ふつうの動作確認では見つけにくいのがやっかいです。
どんな被害が起きるのですか？: よく知られた2017年の実験では、停止の道路標識に小さなステッカーを貼るだけで、AIがそれを速度制限の標識だと誤って読み取りました。学習を外注したり出所の分からない公開モデルをそのまま使ったりすると、知らないうちに隠し扉つきのAIを取り込む恐れがあるため、他社製や公開のAIを使うときは出どころの確認が大切です。

バックドア攻撃とは

合図があるときだけ、誤作動する

外部のAIを「そのまま信じない」

Topicシール1枚が、AIの隠しスイッチになる

バックドア攻撃に関するよくある質問

あわせて読みたい記事

AI脆弱性診断で1モデル任せは危険か【AISI検証で分かった件数差】

GPT-5.6の安全審査で企業のAIリスク評価は変わるか【小型AIも例外ではない】

Gemini 3.5 Flash Cyber(フラッシュサイバー)とは　政府と限定パートナーだけに配る脆弱性発見AI

いま読まれている用語

まだそこまで読まれていない用語

合図があるときだけ、誤作動する

外部のAIを「そのまま信じない」

Topicシール1枚が、AIの隠しスイッチになる

バックドア攻撃に関するよくある質問

AI脆弱性診断で1モデル任せは危険か【AISI検証で分かった件数差】

GPT-5.6の安全審査で企業のAIリスク評価は変わるか【小型AIも例外ではない】

Gemini 3.5 Flash Cyber(フラッシュサイバー)とは 政府と限定パートナーだけに配る脆弱性発見AI

いま読まれている用語

まだそこまで読まれていない用語

Gemini 3.5 Flash Cyber(フラッシュサイバー)とは　政府と限定パートナーだけに配る脆弱性発見AI