TAPとは

TAPとは、攻撃役のAIに複数の攻撃文を木のように枝分かれさせて試させ、見込みの薄い候補を早めに切り捨てながら、効率よく安全装置の抜け道を探す自動ジェイルブレイク(脱獄)手法です。2023年12月に研究者が公表しました。先行手法のPAIRを発展させ、より少ないやり取りで高い成功率を出せるよう改良されています。

英語表記:Tree of Attacks with Pruning(TAP)

「木」と「枝刈り」で無駄を省く

TAPの名前にある「Tree(木)」と「Pruning(枝刈り)」が、そのまま仕組みを表しています。ひとつの攻撃文から複数の言い換え候補を枝のように広げ、標的に送る前に「これは見込みが薄い」と判断したものを刈り取るやり方です。庭木の剪定で不要な枝を落とし、伸ばすべき枝に栄養を集めるのと同じ発想。無駄な問い合わせを減らせるため、少ない手数で抜け道にたどり着きます。

PAIRとの違い

TAPは、先に登場したPAIRを発展させた手法です。PAIRが候補を一本道で順に磨くのに対し、TAPは枝分かれで複数案を同時に試し、無駄な枝を刈るぶん効率がよくなりました。論文では、ある高性能モデルを相手にTAPが成功率約84%・平均22.5回の問い合わせだったのに対し、PAIRは約44%・平均47.1回。やり取りの回数をおよそ半分に減らしつつ、成功率を引き上げたと報告されています。

経営の視点で見た怖さ

やり取りが少なくて済むことは、防御側が「試行回数の多さ」で異常に気づきにくくなることを意味します。何百回も叩かれれば不審なアクセスとして検知できても、数十回で抜けられては網にかかりにくい。では、どう守ればよいのでしょうか。自社の対話AIを守るなら、回数だけに頼らず、やり取りの中身や流れの怪しさを見る仕組みも組み合わせたいところです。攻撃が効率化するほど、防御も賢くならざるをえません。

Topic3体のAIが役割分担する攻防

TAPの裏側では、3つのAIが役割を分担しています。攻撃文を考える「攻撃役」、その文が筋として通っているか・脱獄に成功したかを見極める「審判役」、そして攻められる「標的」。攻撃役と審判役が連携し、見込みの薄い案を標的に届く前にふるい落とすのが効率の秘密です。人手をかけずにAIどうしで攻防を回す。攻撃の自動化がここまで分業化している点に、時代を感じさせます。

TAPに関するよくある質問

TAPは実際の攻撃に使われるのですか?
学術研究として2023年12月に公表された手法で、AIの弱点を測り防御を強くする評価にも使われます。本ページは仕組みを理解し、守りに役立てる目的で解説しています。
TAPは中身が非公開のAIにも効くのですか?
はい。標的に外から問い合わせるだけで機能するブラックボックス型のため、内部の仕組みが公開されていない商用のAIも対象になりえます。

TAPに関連する記事