サーキットブレイカーとは

サーキットブレイカーとは、AIが有害な出力を作り始めたら、文章になる手前のAI内部の「考えの流れ」そのものに介入して処理を遮断する防御技術です。危ない質問を入口で弾いたり、出てきた答えを後から検閲したりするのではなく、有害な処理の経路そのものを内部で壊してしまう点が新しいところです。

英語表記:Circuit Breakers(内部の手法名はRepresentation Rerouting)

名前は同じでも、株式市場の取引を一時停止する制度や、電気の漏電ブレーカーとは別物で、ここでは「AI内部の危険な処理を遮断するしくみ」を指します。

危険な領域に入った瞬間に「ブレーカーが落ちる」

発想は家庭の電気のブレーカーと同じです。電流が危険な量を超えると自動で回路が切れるように、AIの内部状態が「有害な答えにつながる領域」に進みかけた瞬間、別の方向へ強制的に逸らして、その先の生成を止めます。従来の守りが表に出てきた言葉を見て止めるのに対し、言葉になる前の内部の流れに働きかけるため、言い回しを変えただけの未知の攻撃にも崩れにくい、と説明されています。

「何でも断るAI」にしないための工夫

2024年6月にGray Swan AIやカーネギーメロン大学などの研究チームが公表しました。ありがちな「とにかく拒否するよう訓練する」守りは、安全にはなっても、ふつうの質問にまで「お答えできません」と返しがちで使い勝手が落ちます。サーキットブレイカーは通常の役立つ受け答えはそのまま保ちつつ、有害な生成だけを止めることを狙う点が、拒否一辺倒の守りとの違いです。

Topic名前のとおり「ブレーカー」がそのまま設計思想

この技術の名づけは、ただの比喩で終わっていません。家庭の分電盤のブレーカーが、危険な電流を検知した瞬間に物理的に回路を落として火災を防ぐのと同じ理屈を、AIの内部にそのまま持ち込んでいます。AIの「考え」が危険な領域に踏み込んだ瞬間にスイッチが落ち、その先へ進ませない。守りの発想を、私たちの暮らしに身近な安全装置から借りてきた一例といえます。

サーキットブレイカーに関するよくある質問

株式市場や電気のサーキットブレーカーと同じものですか?
名前は同じですが別物です。ここでのサーキットブレイカーは、AIの内部で有害な処理の流れを遮断する防御技術を指します。市場の取引停止制度や電気の漏電ブレーカーとは関係ありません。
入力フィルタや出力フィルタとどう違いますか?
フィルタは入口で危ない質問を弾いたり、出てきた答えを検閲したりと、表に出た言葉を見て止めます。サーキットブレイカーは言葉になる前のAI内部の処理に働きかけるため、言い回しを変えた未知の攻撃にも崩れにくいとされます。
拒否ばかりして使いにくくなりませんか?
そこが狙いどころで、通常の役立つ受け答えは保ったまま、有害な生成だけを止めることを目指して設計されています。とにかく断るよう訓練する守りと違い、使い勝手の低下を抑えようとする点が特徴です。