AIセーフティに関するレッドチーミング手法ガイドとは
AIセーフティに関するレッドチーミング手法ガイドとは、日本のAIセーフティ・インスティテュート(AISI)が公開した、AIの弱点を攻撃者の視点で洗い出す「レッドチーミング」のやり方をまとめた手引きのことです。初版は2024年9月に出され、2025年3月には具体的な実施例を加えた第1.10版へ改訂されました。AIの開発者や提供者が、安全性を確かめるために何をどう試せばよいかを示す、実務向けの資料です。
英語表記:Guide to Red Teaming Methodology on AI Safety
レッドチーミングとは何をすることか
レッドチーミングとは、わざと意地悪な利用者や攻撃者の立場に立って、AIの危ない振る舞いや弱点を実際に試して探す検査のことです。出来上がったAIを「ちゃんと動くか」だけでなく、「悪用されたり、まずい答えを返したりしないか」という角度から点検します。このガイドは、その検査を思いつきではなく、合理的な範囲と適切なタイミングで進めるための考え方を整理したもの。リリース前だけでなく、運用を始めたあとの継続的な点検まで視野に入れている点が特徴です。安全対策は一度きりでは終わらない、という前提に立っています。
経営の視点でどう役立つか
このガイドは、AISIがもう一つ公開している「評価観点ガイド」と対になっています。評価観点ガイドが「何を評価すべきか」という視点を示すのに対し、こちらが受け持つのは「どう弱点を見つけ検証するか」という手法のほう。自社でAIを開発・導入する企業にとっては、第三者の目線で安全性を点検するための公的な“作法集”として参考にできます。専門の検査チームに依頼する際も、何をどこまで確認すべきかの共通言語になるでしょう。AISIという組織そのものについては、別ページのAISIもあわせてご覧ください。
Topic発足からわずか7か月でのスピード公開
AIセーフティに関するレッドチーミング手法ガイドに関するよくある質問
- このガイドは無料で読めますか。どんな構成ですか?
- AISI(AIセーフティ・インスティテュート)の公式サイトで無料公開されています。本編に加え、詳しい解説書や、具体的な実施例をまとめた別添資料で構成され、手法を実務に落とし込めるようになっています。
- このガイドどおりに点検すれば、AIは安全だと言い切れますか?
- 安全性を確かめ高めるための有力な手引きですが、これだけで完全に安全になるわけではありません。リリース前と運用開始後の両方で、繰り返し点検し続けることが想定されています。