WMDPベンチマークとは
WMDPベンチマークとは、AIが生物・サイバー・化学の分野で、大量破壊兵器の悪用につながりかねない危険な知識をどれだけ持っているかを測る、安全評価用のテストです。AIの賢さを測るベンチマークの一種ですが、危険な知識をAIから「忘れさせる」マシンアンラーニングの効果を確かめる土台としても使われます。AI安全の研究機関Center for AI Safetyらが2024年に公開しました。
英語表記:Weapons of Mass Destruction Proxy
「点を下げたい」逆向きのテスト
生物・サイバー・化学の3分野で、四択の問題が全部で3,668問用意されています。ふつうのベンチマーク、たとえばMMLUは賢さを測り高得点ほど良いとされます。WMDPは逆で、危険な知識を減らせたかを見るので、スコアは低いほど安全に近づくという珍しい指標です。名前にある「Proxy(代理)」のとおり、本物の機密情報は出題せず、それと関連する公開可能な知識を代わりに問うことで、危険な能力をそれとなく測る工夫がされています。
Topic高得点を競わない、めずらしいベンチマーク
AIのベンチマークは、より高い点を目指して競い合うのがふつうです。ところがWMDPの狙いは正反対で、危険な知識に関するスコアを「当てずっぽうで答えたのと同じ水準」まで下げることが目標とされています。賢さを伸ばすのではなく、特定の知識をいかに上手に忘れさせるか。AIの安全研究ならではの、ものさしの使い方です。
WMDPベンチマークに関するよくある質問
- ふつうのベンチマークと違って、点数は低いほどよいのですか?
- はい。MMLUなど一般のベンチマークは高得点ほど良いとされますが、WMDPは危険な知識を減らせたかを見るため、スコアは低いほど安全に近づくと考えます。指標の向きが逆になっている点が特徴です。
- テストには本物の機密情報が使われているのですか?
- 使われていません。名前のProxy(代理)が示すとおり、本物の機密情報は出題せず、それと関連する公開可能な知識を代わりに問う設計です。危険な知識そのものを広めないよう配慮されています。