PAIRとは

PAIRとは、攻撃役のAIにもう一方のAIを繰り返し問い直させ、少ない試行回数で安全装置をすり抜ける文章を自動でつくり上げる手法です。2023年10月に研究者が公表しました。AIがAIを攻めて抜け道を探す、自動化されたジェイルブレイク(脱獄)の代表例のひとつといえます。

英語表記:Prompt Automatic Iterative Refinement(PAIR)

攻撃役のAIが対話で磨き上げる

PAIRの特徴は、人ではなく「攻撃役のAI」が標的のAIに何度も問いかけ、返ってきた答えを見ながら質問文を少しずつ練り直していく点にあります。一発で破ろうとするのではなく、反応を確かめては修正する。人を言葉巧みに動かすソーシャルエンジニアリング(人の心理につけ込む手口)を、AIどうしで自動化したような構図です。論文によれば20回以下のやり取りで成功することもあるといいます。

TAPとの違い

PAIRと近い関係にあるのがTAPです。PAIRが候補を一本道で順に磨くのに対し、TAPは候補を木のように枝分かれさせて複数案を並行で試し、見込みの薄い枝を早めに切り落とします。いわばPAIRを発展させた改良版でしょう。どちらも攻撃役のAIが反復で磨く仲間ですが、探索の幅が広いぶんTAPのほうが効率に優れる、と整理できます。

経営の視点での意味

見過ごせないのは、攻撃に人手がほとんどいらなくなることです。しかもPAIRは標的の中身を知らなくても、外からの問い合わせだけで機能します。中身が見えない状態でも攻められる、いわば鍵穴の構造を知らないまま合鍵を探り当てるようなもの。自社サービスにAIを組み込むなら、想定問答を整えるだけでなく、不自然に試行を繰り返すアクセスを監視する仕組みも備えておきたいところでしょう。

Topic論文名は、ずばり「20の質問」

PAIRを提案した論文のタイトルは「Jailbreaking Black Box Large Language Models in Twenty Queries(20回の問い合わせでブラックボックスのAIを脱獄させる)」。たった20回以下のやり取りで破りうる効率の高さを、題名でそのまま打ち出しています。PAIRはPrompt Automatic Iterative Refinement(プロンプトの自動反復改良)の略。AIが相手のAIをじわじわ説き伏せていく様子は、相手の答えからヒントを絞り込む遊び「20の質問」を、攻防の場へ持ち込んだようにも見えます。

PAIRに関するよくある質問

PAIRはどんなAIを攻撃できるのですか?
内部の仕組みが公開されていない商用のAIも対象になりえます。外からの問い合わせだけで機能する(ブラックボックス型)ため、中身を知らなくても抜け道を探れる点が脅威です。
PAIRはいつ誰が提案し、TAPとはどちらが先ですか?
2023年10月に研究チームが公表しました。同年12月には、これを発展させたTAPが登場しています。PAIRは自動ジェイルブレイク研究の起点のひとつです。
PAIRのような自動攻撃に企業はどう備えればよいですか?
想定問答の整備だけでは不十分です。短時間に試行を繰り返す不自然なアクセスの監視や、出力側の検査を重ね、自動化された探索を前提に守りを設計することが現実的です。

あわせて読みたい記事