レッドチーミングとは
レッドチーミングとは、AIやシステムをあえて攻撃者の視点で挑発し、有害な出力や弱点を意図的に引き出して見つけ出す検査のことです。世に出す前に「わざと壊しにいく」ことで、後から問題が起きないかを先回りして洗い出します。
わざと攻めて、壊れ方を見つける
レッドチーミングには、専門家が人手であの手この手の意地悪な質問をぶつける方法と、別のAIに攻撃用の質問を大量に作らせて自動で試す方法があります。差別的な発言を引き出せないか、危険な情報を答えてしまわないか、悪用の抜け道がないかを、公開前に総当たりで探るわけです。Anthropicの研究では、人間のフィードバックで賢くした対話AIほど、攻めて弱点を見つけるのが難しくなると報告されています。
似た検査との違い
決まった項目で点数を測るベンチマーク評価が「想定どおりに動くか」を見るのに対し、レッドチーミングは「想定していなかった壊れ方」を探す探索的な検査です。セキュリティの侵入テストとも近いものの、あらかじめ合意した範囲を試すというより、本番さながらに不意打ちで攻める色合いが濃いと言えるでしょう。
AIを世に出す前の「抜き打ち検査」
経営の視点では、レッドチーミングは炎上・情報漏えい・悪用を未然に防ぐためのリスク管理工程だと捉えると分かりやすいでしょう。AnthropicやOpenAI、Googleといった主要なAI企業は、製品を公開する前の標準的な手順としてこれを実施しています。ガードレールやAI安全性の取り組みと組み合わせて、安心して使えるAIに仕上げる役割を担います。
Topic「レッド」は危険信号ではなく、冷戦の色だった
レッドチームの「赤」は、危険を示す信号の色から来ているわけではありません。もとは1960年代の冷戦期の軍事演習で、赤が旧ソ連、青(ブルーチーム)が米国を表す色分けだったことに由来します。攻撃役を赤、防御役を青と呼ぶ慣習がそのままセキュリティやAIの世界に受け継がれました。
レッドチーミングに関するよくある質問
- レッドチーミングとベンチマーク評価は何が違いますか?
- 決まった項目で点数を測るベンチマークが「想定どおり動くか」を見るのに対し、レッドチーミングは「想定していなかった壊れ方」を攻撃者の視点で探す探索的な検査です。差別的な発言や危険な情報を引き出せないか、悪用の抜け道がないかを、公開前に総当たりで洗い出します。
- レッドチーミングは誰がやるのですか?
- 専門家が人手で意地悪な質問をぶつける方法と、別のAIに攻撃用の質問を大量に作らせて自動で試す方法があります。AnthropicやOpenAI、Googleなど主要なAI企業が、製品を公開する前の標準的な手順として実施しています。
- 「レッドチーム」の「赤」は危険信号の意味ですか?
- いいえ。もとは1960年代の冷戦期の軍事演習で、赤が旧ソ連、青(ブルーチーム)が米国を表す色分けだったことに由来します。攻撃役を赤、防御役を青と呼ぶ慣習が、そのままセキュリティやAIの世界に受け継がれました。