HarmBenchとは

HarmBenchとは、AIへの攻撃手法そのものではなく、さまざまな攻撃がどのモデルにどれだけ効くかを共通のものさしで測る、標準の評価フレームワークです。2024年2月にAIの安全性を研究する機関が公表しました。攻撃と防御を同じ土俵で比べられるようにし、防御の進歩を数字で語れるようにしたところに意義があります。

攻撃と防御を一覧で比べる「ものさし」

HarmBenchが測るのは、攻撃の強さと防御の堅さの両方です。18種類の攻撃手法と33のAIモデルを同じ条件で突き合わせ、どの攻撃がどのモデルにどれだけ通用するかを一覧で評価できるようにしました。攻撃手法は次々生まれますが、てんでばらばらの条件で「うちの攻撃はよく効く」と言われても、比べようがありません。共通の試験を用意して初めて、優劣や進歩を客観的に語れるようになります。

AdvBenchとの違い

では、似た名前のAdvBenchとは何が違うのでしょうか。粒度が異なります。AdvBenchが特定の研究に付属する「試験問題集(データセット)」なのに対し、HarmBenchは多くの攻撃手法とモデルを束ねて評価する「枠組み(フレームワーク)」です。問題集そのものと、試験全体を運営する仕組みの違い、と考えると分かりやすいでしょう。どちらも攻撃を採点する側で、攻撃そのものではない点は共通しています。

防御の進歩を測れる意味

経営の視点で大事なのは、「安全だ」という主張を、共通の基準で検証できるようになったことです。開発チームは、評価のしくみだけでなく、攻撃に強い拒否を身につけさせる訓練法もあわせて示しました。攻撃と防御がセットで前に進む土台といえます。AIを選ぶ側にとっても、こうした標準評価の結果は、安全性を見極める手がかりになるでしょう。

Topic名前は「危害」+「評価基準」

HarmBenchは、Harm(危害)とBenchmark(評価基準)を組み合わせた名前です。18の攻撃手法×33のモデルという大きな格子を一度に採点できるのが持ち味。攻撃手法のニュースは派手に注目を集めがちですが、こうした地味な「ものさし」づくりこそ、防御を底上げする縁の下の力持ちになっています。地味でも、安全を語る土台はこういう仕事から生まれるのでしょう。

HarmBenchに関するよくある質問

HarmBenchで高評価なら、そのAIは安全と言い切れますか?
言い切れません。評価は決まった攻撃群に対する強さを測るもので、新しい手口には未知の弱点が残ります。標準評価の結果は安全性の目安のひとつ、と捉えるのが適切です。
経営者がHarmBenchを直接使う場面はありますか?
直接操作することはまずありません。各社が掲げる安全性の主張が、共通の基準で裏づけられているかを見分ける、その判断材料として間接的に効いてきます。

あわせて読みたい記事