クレッシェンド攻撃とは
クレッシェンド攻撃とは、AIに対していきなり危険な要求をするのではなく、無害な質問から会話を重ね、少しずつ過激な方向へAIを誘導していく攻撃手法のことです。Microsoftが2024年4月に公表しました。一見ふつうのやり取りに見えるのに、気づけばAIが本来答えてはいけない内容を口にしている。そんな「じわじわ型」の手口です。
英語表記:Crescendo Attack
なぜ「じわじわ」が効いてしまうのか
カギは、AIが直前の自分の回答を土台にして、次の答えを組み立てる性質にあります。攻撃者は最初に当たり障りのない質問を投げ、AIが答えたら、その内容を少しだけ踏み込ませる質問を続けます。一段ずつは小さな前進なので、AIも危険信号を出しにくい。Microsoftによると、こうした誘導は10回未満のやり取りで成立することもあるといいます。一発で破ろうとするのではなく、会話の流れそのものを利用するところが、この手口の厄介さでしょう。
経営として知っておきたい怖さ
注意したいのは、特別な技術がなくても、ふつうの会話の積み重ねだけで成立しうる点です。自社が顧客向けにチャットAIを提供している場合、一つひとつの質問は健全に見えるため、単純なNGワード遮断では止めきれません。問題のある回答が引き出されれば、それは自社の発言として受け取られ、信用を損なう恐れがあります。AIの安全対策を「危ない単語をはじくだけ」で済ませていないか、見直す価値があるでしょう。
防ぎ方は「会話全体」を見ること
対策の基本は、1問ずつではなく会話全体の流れを見て怪しいパターンを捉えることです。Microsoftは、別のAIに会話を監視させる仕組みを使っています。空港で密輸品を探す麻薬探知犬のように、怪しい流れを嗅ぎ分ける見張り役のAIを置く、というわけです。同社は見つけた知見を他のAI企業にも共有しました。攻撃と防御が追いかけ合う領域なので、防御側も会話単位で考える発想への切り替えが要になります。
Topic名前は音楽の「だんだん強く」から来ている
「クレッシェンド」は、もともと音楽で「だんだん強く」を意味する記号・用語です。曲が静かな出だしから少しずつ音量を増していくように、この攻撃も無害な質問から会話の強度をじわじわ上げていきます。手口の性質をそのまま言い当てた、覚えやすい命名でしょう。物騒な攻撃名ですが、由来をたどると音楽室で習った言葉、というのは少し意外かもしれません。
クレッシェンド攻撃に関するよくある質問
- 一発のプロンプトで破る脱獄(ジェイルブレイク)と何が違いますか?
- 破り方の段取りが違います。よくある脱獄が1回の巧妙な指示で安全装置を突破しようとするのに対し、クレッシェンド攻撃は複数回の会話を重ねて少しずつ越えさせます。1問ごとは無害に見えるため、検知が難しいのが特徴です。
- 高度な専門知識がないと実行できない攻撃ですか?
- そうとは限りません。プログラムの知識がなくても、会話の流れを工夫するだけで成立しうる点が、この手口が警戒される理由です。だからこそ、利用者を限定していても油断はできません。
- 自社のチャットAIも狙われる可能性はありますか?
- 社外に公開しているチャットAIなら、対象になりえます。問題のある回答が引き出されると自社の発言とみなされ、信用に響きます。会話の流れを見て止める仕組みを備えているか、提供元に確認しておくとよいでしょう。