AdvBenchとは

AdvBenchとは、AIへの攻撃手法そのものではなく、攻撃がどれだけ効くか・モデルがどれだけ踏みとどまれるかを測るための、有害な題材を集めた評価用データセットです。敵対的サフィックス攻撃(GCG)を提案した2023年7月の研究の中で公開されました。直接尋ねればAIが拒むはずの題材をそろえ、攻撃の有効性を共通の条件で採点できるようにしたものです。

中身は2種類の「試験問題集」

では、何が入っているのでしょうか。AdvBenchは大きく2つの部分でできています。ひとつは、AIに特定の有害な文章をそっくり出させられるかを試す「有害文字列」、もうひとつは、有害な指示にAIが従おうとするかを試す「有害な振る舞い」。それぞれ約500件ずつそろえてあります。いずれも、まともに尋ねればAIが断るはずの題材ばかり。だからこそ、攻撃がその壁をどれだけ崩せるかを測る”試験問題”として使えます。

HarmBenchとの違い

混同しやすいのが、評価の枠組みであるHarmBenchです。AdvBenchが特定の研究に付属する「問題集(データセット)」なのに対し、HarmBenchは多くの攻撃手法とモデルを束ねて運営する「試験全体の枠組み(フレームワーク)」になります。問題集そのものと、試験を取り仕切る仕組みの違いです。どちらも攻撃を採点する側で、攻撃そのものではありません。

共通の物差しが研究を進める

AdvBenchの値打ちは、ばらばらだった攻撃研究に共通の採点基準を与えたことにあります。同じ問題集で測れば、新しい攻撃がどれだけ強いか、どの防御がよく耐えるかを公平に比べられます。実際、AdvBenchは登場後、多くのジェイルブレイク研究が引き継いで使う定番になりました。攻撃と防御が同じ問題集で腕を競う、共通の土俵というわけです。

Topic「悪い例」をあえて集めた、あまのじゃくな問題集

AdvBenchの名は、Adversarial(敵対的)とBenchmark(評価基準=物差し)を縮めたものです。面白いのは、その中身が”AIに答えさせたくない題材”ばかりを意図的に集めた一覧だという点。ふつうのデータセットが「AIに学ばせたい良い例」を集めるのに対し、AdvBenchは逆に「ちゃんと断れるかを試す悪い例」を並べています。守りを固めるために、あえて急所を一覧にしておく。攻防の世界ならではの、ひねりの利いた発想でしょう。

AdvBenchに関するよくある質問

AdvBenchは最新の攻撃や題材にも対応していますか?
題材は2023年時点で固定されているため、新種の攻撃や有害テーマを自動で取り込むわけではありません。最新の弱点を見るには、より新しい評価セットも併せて使われます。
なぜ古いAdvBenchが今も使われ続けるのですか?
研究どうしを公平に比べるには、共通の基準が欠かせないからです。新しい問題集に乗り換えると過去の成果と比較しにくくなるため、定番として使い続けられています。

あわせて読みたい記事