メニーショット・ジェイルブレイクとは

メニーショット・ジェイルブレイクとは、AIが一度に読める文章量が大きくなったことを逆手に取った攻撃で、「AIが危険な質問に答えている」偽の対話例を大量に詰め込み、その流れで最後の本当に有害な質問にもAIが答えてしまうよう仕向ける手口です。AIに備わった安全装置を、会話の組み立てだけで突破しようとします。

英語表記:Many-shot jailbreaking

大量の偽の前例で「場の空気」をつくる

AIには、直前に示された例に倣って答える「文脈内学習」という性質があり、メニーショット・ジェイルブレイクはこれを悪用したものです。まじめな店員に「他のお客さまにはみんなこう対応していますよ」という偽の前例を何百件も見せ続け、最後に無理な注文を通すようなものです。例が多いほどAIは「ここではこう答えるのが流儀だ」と思い込み、本来の安全訓練が上書きされてしまいます。

厄介なのは、詰め込む例の数を増やすほど突破されやすくなる傾向がはっきり見られる点です。一度に読める文章量が大きいモデルほど、また例から学ぶのが上手な高性能モデルほど、かえって効いてしまいます

便利機能が広げた新しいリスク

この手口はAnthropicが2024年4月に公表しました。背景には、AIが一度に読める量が以前のごく短い範囲から、長い資料を丸ごと扱えるほどに広がったことがあります。長文を読める便利さの裏側で生まれたリスクといえるでしょう。緩和する対策は研究されていますが、読める量が伸び続けるかぎり、構造的に残りやすい課題として扱われています。

TopicAIの「学ぶ力」がそのまま弱点になる

Anthropicの報告で興味深いのは、この攻撃の効き方が、ふだんの無害な文脈内学習とまったく同じ規則的なカーブを描く点です。つまり、例から賢く学べるAIほど、悪い例からも素直に学んでしまうということ。AIの長所である「手本から要領をつかむ力」が、そっくりそのまま攻撃の入り口になっているわけで、安全対策の難しさを象徴する一例といえます。

メニーショット・ジェイルブレイクに関するよくある質問

なぜAIが一度に読める量が増えると、この攻撃が成り立つのですか?
読める量が大きいほど、偽の対話例を何百件も詰め込めるからです。AIは直前の例に倣う性質を持つため、例が多いほど「ここではこう答えるのが流儀だ」と思い込み、安全装置が上書きされやすくなります。
この攻撃はすでに対策されていますか?
緩和する対策は研究・導入が進んでいますが、完全には防げていません。AIが一度に読める量が伸び続けるかぎり再び効きうるため、対策済みで安心とは言い切れない課題として扱われています。
ジェイルブレイクとは何を指しますか?
ここでのジェイルブレイクは、会話の組み立てだけでAIの安全装置(ガードレール)を突破させることを指します。スマートフォンの脱獄やシステムへの不正侵入のような物理的なハッキングとは異なります。