プロンプトインジェクションとは
プロンプトインジェクションとは、AIへの指示文に悪意ある命令をこっそり紛れ込ませ、開発者が想定していない動きをさせる攻撃です。名前にある「インジェクション(注入)」は、Webサイトを狙う古くからのSQLインジェクションなどになぞらえた呼び方。モデルそのものを作り変えるのではなく、その場の入力でAIを勘違いさせる点に特徴があります。
なぜ起きるのか
根っこにあるのは、AIが「守るべき命令」と「ただのデータ」をきれいに見分けられないという弱点です。本来は読み込むだけのはずの文章に指示が混じっていると、それを命令と受け取って従ってしまうことがあります。攻撃の型は大きく2つ。利用者が入力欄へ直接あやしい指示を打ち込む直接型と、Webページやメール、添付文書といった外部データにこっそり命令を仕込んでおき、AIが読み込んだ瞬間に実行させる間接型です。
プロンプトエンジニアリングとの違い
よく似た言葉にプロンプトエンジニアリングがあります。こちらはAIから望む答えを引き出すための正規の工夫で、いわば上手な頼み方の技術。同じ「言葉でAIを動かす」技術でも、片方は正しく使うための工夫、もう片方はそれを悪用してAIを誤作動させる攻撃という違いがあり、両者はちょうど裏表の関係にあります。
ビジネスで気をつけたいこと
気をつけたいのは、社外の文書やWebページ、問い合わせメールをAIに読ませて要約や自動応答をさせる業務です。そうしたデータに命令が仕込まれていると、社内情報をうっかり外部へ漏らしたり、意図しない返信をしてしまう恐れがあります。対策の基本は、AIに渡す外部データと正式な命令をしっかり切り分けること。あわせて、AIに与える権限を必要最小限にとどめ、重要な操作には人の承認を挟む運用が有効とされます。ただOWASPは、AIの仕組み上「完全に防ぎきる方法はまだ見えていない」とも指摘しており、過信は禁物でしょう。
Topicその名前を付けたのは、たった一人の開発者だった
プロンプトインジェクションに関するよくある質問
- プロンプトインジェクションはどれくらい危険な攻撃ですか?
- セキュリティの国際団体OWASPがまとめる大規模言語モデルの危険度ランキング2025年版で、第1位に挙げられています。名前は2022年9月、開発者サイモン・ウィリソンが、GPT-3の自動返信ボットが「これまでの指示は無視して」と書き込まれた通りに従ってしまう様子を見て、古くからのSQLインジェクションになぞらえて命名しました。
- なぜプロンプトインジェクションは起きるのですか?
- AIが「守るべき命令」と「ただのデータ」をきれいに見分けられないという弱点が根っこにあります。本来は読み込むだけの文章に指示が混じっていると、それを命令と受け取って従ってしまうことがあります。
- プロンプトインジェクションにはどんな型がありますか?
- 大きく2つです。利用者が入力欄へ直接あやしい指示を打ち込む直接型と、Webページやメール・添付文書などの外部データにこっそり命令を仕込み、AIが読み込んだ瞬間に実行させる間接型です。
- ビジネスで何に気をつければよいですか?
- 社外の文書やWebページ、問い合わせメールをAIに読ませて要約や自動応答をさせる業務では、データに命令が仕込まれていると情報漏えいや意図しない返信の恐れがあります。外部データと正式な命令を切り分け、AIの権限を最小限にし、重要な操作には人の承認を挟む運用が有効です。