Multi-Turn Jailbreakとは
Multi-Turn Jailbreakとは、1回の危険な指示ではなく、複数ターンの会話を通じてLLMの安全制御をすり抜けようとする攻撃です。ジェイルブレイクの一種で、単発プロンプトより会話の流れそのものを利用する点に特徴があります。
一気に破るのではなく、会話で寄せる
多くの安全対策は、1つの入力が危険かどうかを見がちです。しかし複数ターン攻撃では、最初は一般的な質問から入り、AIの返答を手がかりにして少しずつ危険な方向へ進める形になります。個々の発話は無害に見えても、会話全体では安全境界を越えることがあるため、プロンプトインジェクション対策とは別の見方が必要です。
企業のチャットボットや社内AIでは、ユーザーの最後の一文だけでなく、直前までの会話履歴、意図の変化、権限のある操作依頼を合わせて見る必要があります。AIファイアウォールやログ監査も、単発入力ではなく会話単位で設計するほうが安全です。攻撃の具体手順を覚えるより、防御側の監視範囲を広げる判断が大切になります。
TopicCrescendoは会話が少しずつ強まる攻撃として研究された
Crescendo Multi-Turn LLM Jailbreak Attackの論文は2024年4月に投稿され、2025年改訂版でUSENIX Security 2025採択と記載されています。後続研究でもCrescendo型の複数ターン攻撃が分析されており、単発の危険文だけを見ればよい問題ではないことを示す例です。
Multi-Turn Jailbreakに関するよくある質問
- 単発の禁止ワード検知で防げますか?
- 十分ではありません。会話全体の流れ、意図の変化、権限操作の依頼をまとめて見る必要があります。
- 社内チャットボットでの注意点は何ですか?
- 会話履歴を含めた監査、危険操作前の確認、管理者向けログの保存を設計に入れることです。