ガードレールとは
ガードレールとは、AIが危険な内容や不適切な回答を出さないように見張る、安全のための仕組みのことです。AIへの入力(ユーザーの質問)と、AIの出力(回答)の両方をチェックし、有害な内容を検知してブロックします。AI本体とは別に、その横で安全を守る“見張り役”のような存在です。
入口と出口の両方を見張る
ガードレールの特徴は、AIの「入口」と「出口」を二段構えでチェックする点です。入口では、質問が有害でないか、ルール破りを狙っていないか(ジェイルブレイクなど)を確認します。出口では、AIの回答に差別・暴力・性的な表現や、自傷を促す言葉がまぎれていないかを見張ります。ヘイトや暴力といったカテゴリごとに、どのくらい厳しく弾くかを段階で調整できるのも特徴です(MicrosoftのAzureなどが提供)。
ジェイルブレイクとの関係
ガードレールが守る側なら、ジェイルブレイクは破ろうとする側です。利用者が巧妙な指示でガードレールをすり抜けようとするのに対し、ガードレール側も新しい手口を学んで対抗します。完璧に防げるわけではありませんが、AIを安心して業務に使うための、欠かせない土台になっています。
Topic道路のガードレールと同じ発想
この名前は、道路わきのガードレールが由来です。あの柵は車の走行を止めるためではなく、道から外れて事故になるのを防ぐためのもの。AIのガードレールも同じで、AIの働きそのものを止めるのではなく、危ない方向へ外れるのを防ぎます。賢さと安全は両立できる、という考え方が名前に表れています。
ガードレールに関するよくある質問
- ガードレールとジェイルブレイクはどう関係しますか?
- ガードレールが守る側なら、ジェイルブレイクは破ろうとする側です。利用者が巧妙な指示でガードレールをすり抜けようとするのに対し、ガードレール側も新しい手口を学んで対抗します。完璧に防げるわけではありませんが、AIを安心して業務に使うための欠かせない土台です。
- ガードレールはどこをチェックしますか?
- 「入口」と「出口」を二段構えで見張ります。入口では質問が有害でないか・ルール破り(ジェイルブレイク)を狙っていないか、出口では回答に差別・暴力・性的表現などがまぎれていないかを確認します。ヘイトや暴力などカテゴリごとに、どのくらい厳しく弾くかを段階で調整できます。
- なぜ「ガードレール」と呼ぶのですか?
- 道路わきのガードレールが由来です。あの柵は車を止めるためではなく、道から外れて事故になるのを防ぐもの。AIのガードレールも働きそのものを止めず、危ない方向へ外れるのを防ぎます。賢さと安全は両立できる、という考え方が名前に表れています。