データポイズニングとは
データポイズニングとは、AIの学習データにわざと不正なデータや有害なデータを混ぜ込み、出来上がるモデルの判断を意図的に狂わせる攻撃のことです。AIは与えられた「教材」から能力を身につけるため、その教材を汚染すれば、モデルそのものを内側から書き換えられてしまいます。別名は「データ汚染」です。
教材を汚せばAIは狂う
攻撃者は、学習に使われるデータへ偽物や加工済みのサンプルを紛れ込ませ、出力の誤りが増えるようにモデルを仕込みます。とくに警戒されるのがバックドア攻撃です。これは特定の「合図(トリガー)」が入力されたときだけAIが異常な動作をするよう仕込む手口で、普段はまったく正常に見えるため発見が難しい。画像にまぎれた微細な細工や、人には聞こえにくい音声などが合図に使われることもあります。入口の教材が汚れていれば、どれだけ優秀なAIでも判断を誤る。ここがデータポイズニングの怖さです。
プロンプトインジェクションとの違い
混同されやすいのがプロンプトインジェクションですが、狙う時点が違います。データポイズニングはAIを作る「学習段階」を汚す攻撃、プロンプトインジェクションは完成後の「利用段階」でだます攻撃です。生成AIがインターネット上の膨大な文章や画像を学習する流れが広がるなか、その出所をどう守るかという観点で、データの安全性への関心は高まっています。防御策としては、学習データの洗浄(サニタイズ)や、異常なデータに強いアルゴリズムの採用などが挙げられるでしょう。
Topicアーティストが“あえて汚す”逆転の防御策
データポイズニングは攻撃の手口ですが、立場を変えると「守りの武器」にもなります。2023年にシカゴ大学の研究者が公開したNightshade(ナイトシェード)は、画家やイラストレーターが自作画像へ人の目では分からない加工を施せるツールです。その画像が無断でAIの学習に使われると、モデル側の認識をそっと狂わせる仕組み。創作物を勝手に学習されたくない作り手が、自衛のためにあえてデータを“汚す”という発想で、攻撃技術が防御にも転じる好例といえます。
データポイズニングに関するよくある質問
- データポイズニングは、なぜ見つけにくいのですか?
- とくに警戒されるバックドア攻撃は、特定の「合図(トリガー)」が入力されたときだけAIが異常動作するよう仕込む手口で、普段はまったく正常に見えるため発見が難しいのです。画像にまぎれた微細な細工や人には聞こえにくい音声が合図に使われることもあります。入口の教材が汚れていれば、どれだけ優秀なAIでも判断を誤ります。
- データポイズニングとプロンプトインジェクションは何が違いますか?
- 狙う時点が違います。データポイズニングはAIを作る「学習段階」を汚す攻撃、プロンプトインジェクションは完成後の「利用段階」でだます攻撃です。防御策としては学習データの洗浄(サニタイズ)や、異常なデータに強いアルゴリズムの採用などが挙げられます。
- 攻撃の技術が防御に使われることもありますか?
- あります。2023年にシカゴ大学の研究者が公開したNightshadeは、画家やイラストレーターが自作画像へ人の目では分からない加工を施せるツールです。その画像が無断でAIの学習に使われるとモデルの認識を狂わせる仕組みで、創作物を守るためにあえてデータを“汚す”という逆転の発想です。