Constitutional Classifiers(コンスティテューショナルクラシファイアーズ)とは
Constitutional Classifiersとは、AIへのジェイルブレイク(安全装置の回避)を防ぐためにAnthropicが開発した防御システムです。「憲法」と呼ぶルール集をもとに、AIへの入力とAIからの出力の両方を見張り、有害な内容を検知して止める分類器(仕分け役)を指します。Claudeを守るしくみの一つとして使われています。
入口と出口に立つ2人の門番
イメージは、AI本体の手前と後ろに、ルールブックを持った門番を立てるしくみです。入ってくる質問を調べる係と、出ていく回答を調べる係が、それぞれルールに照らして危ないものをブロックします。門番の訓練には、AI自身に「危険なやり取り」と「正常なやり取り」の見本を大量に作らせる工夫が使われ、言い換えや言語をまたいだ手口にも対応できるようにしています。
憲法AIとは別物
名前の似た憲法AIと混同しやすいので注意が必要です。憲法AIはモデル自体を訓練して価値観を内側に身につけさせる手法であるのに対し、Constitutional Classifiersはモデルの外側に置く別個のフィルタで、入出力を見張ってブロックします。「ルール集をもとにする」という考え方が共通するだけで、効かせる場所がまったく違うわけです。2025年2月に公表され、2026年1月には改良版も発表されました。なお、化学・生物・核などの特に重大な情報の流出を防ぐことに重点が置かれており、これさえあれば万全という性質のものではありません。
Topic誰でも挑戦できる「突破コンテスト」で鍛えた
Anthropicは公開時に、賞金つきで誰でも挑める突破チャレンジを実施しました。約339人が参加し、30万件を超えるやり取り、のべ約3,700時間が費やされたといいます。社内の専門家による事前テスト(3,000時間超)ではどの手口にも通用する万能の突破口は見つかりませんでしたが、一般公開のチャレンジで初めて全段階を突破する人が現れました。守りを世間に晒して叩いてもらい、弱点を洗い出すという姿勢がうかがえます。
Constitutional Classifiersに関するよくある質問
- 憲法AI(Constitutional AI)と何が違いますか?
- 憲法AIはモデル自体を訓練して価値観を内側に身につけさせる手法です。Constitutional Classifiersはモデルの外側に置く別個のフィルタで、入力と出力を見張ってブロックします。ルール集をもとにする考え方は共通しますが、効かせる場所が異なります。
- これがあればジェイルブレイクは完全に防げますか?
- 完全には防げません。突破チャレンジでは全段階を抜けた例も出ており、Anthropic自身も完璧に堅牢な防御は存在しないとしています。特に化学・生物・核などの重大情報の流出を抑えることに重点を置いた守りの一つです。
- いつ登場し、今も使われていますか?
- 2025年2月に公表され、2026年1月には改良版が発表されました。Claudeを守るしくみの一つとして運用されており、改良が続く比較的新しい安全技術です。