危険能力評価とは
危険能力評価とは、最先端の大規模AIが、悪用されると重大な被害につながりかねない「危ない能力」をどこまで持っているかを、前もって体系的にテストすることです。AIの便利さや賢さを測るのではなく、いわば「この子は危ない使い方ができてしまわないか」を健康診断のように調べる取り組みだと考えると分かりやすいでしょう。
英語表記:Dangerous Capability Evaluation
具体的に何を調べるのか
Google DeepMindは、危険能力を4つの領域に分けて評価しています。人をだましたり操ったりする説得・欺瞞、サイバー攻撃の手助け、自分のコピーを別のコンピュータへ広げてしまう自己増殖、そして自分自身の状況を推し量る自己推論の4つです。とりわけ自己増殖は、コンピュータウイルスのように勝手に増える力を指し、SF的に聞こえて実は真剣な検査項目になっています。これらの力が一定の水準を超える前に気づくことが、評価の狙いです。
なぜ「事前」にやるのか
理由はシンプルで、事故が起きてからでは取り返しがつかないからです。危ない能力を備えたAIが世に出てしまえば、回収はできません。だから各社は、新しいモデルを公開する前に危険能力を測り、基準を超えそうなら公開の範囲を絞ったり安全策を強めたりします。AIを開発するAnthropicやOpenAI、Google DeepMindは、こうした危険能力評価を中核に据えた独自の安全方針を公表しています。
一般企業にとっての意味
自社で評価そのものを行うわけではありません。それでも、導入するAIがこうした検査を経ているかどうかは、サービスの信頼性を見極める一つの目安になります。安全方針を公開し、危険能力評価に取り組むベンダーかどうか。AIを業務の根幹に入れるなら、価格や性能だけでなく、提供元がどんな安全対策を語っているかにも目を向けておきたいところでしょう。
Topic「安全宣言」ではなく「練習」だった、28人の論文
Google DeepMindは2024年3月、自社のAI「Gemini 1.0」に実際にこの評価を行いました。結果は、強い危険能力は見られず、ただし予兆となる兆候はいくつか確認、というものでした。興味深いのは、研究チームがこれを「このAIは安全です」という宣言ではなく、もっと高性能な次世代AIに備えるための“評価方法の練習”と位置づけている点です。28人もの研究者が名を連ねたのは、危険を測るものさし自体をいまのうちに鍛えておく狙いがあったわけです。
危険能力評価に関するよくある質問
- ふつうの性能評価(ベンチマーク)と何が違うのですか?
- 測る対象が逆向きです。一般のベンチマークがAIの賢さや正確さといった「できること」を競うのに対し、危険能力評価は「できてしまうと困ること」を探します。良い性能ではなく、悪用される力の有無を確かめる検査です。
- この評価は誰が行うのですか?
- 主にAIを開発する企業が自主的に行い、必要に応じて外部の研究者や第三者機関も関わります。各社は危険能力評価を含む安全方針を公開しており、政府や国際的な議論でも標準化が進められています。
- AIを導入するだけの企業にも関係がありますか?
- 間接的に関係します。自社で評価する必要はありませんが、導入候補のAIが安全方針を公開し、こうした検査を経ているかは信頼性を見極める手がかりになります。性能や価格と並べて確認しておくと安心です。