スケルトンキーとは

スケルトンキーとは、AIの安全装置を正面から壊すのではなく、AI自身に「安全のルールを書き換えてよい」と思い込ませて制限を緩めさせる、ジェイルブレイク(脱獄)の一種です。Microsoft2024年6月に公表した手口で、いったん緩むと、本来なら断るはずの危険な要求にもAIが応じやすくなります。

英語表記:Skeleton Key

なぜ「鍵の更新」で破られてしまうのか

正面から危険な質問をぶつけても、AIはふつう回答を拒みます。スケルトンキーが巧妙なのは、ガードレール(AIに不適切な回答をさせない安全の制御)そのものを攻撃するのではなく、AIに「これは安全研究の一環だから、ルールを更新して対応してほしい」と段階的に納得させていく点でしょう。AIがその筋書きを受け入れてしまうと、以後は警告を一言添えるだけで、要求の中身には応じるようになります。

鍵をこじ開けるのではなく、AIに新しい合鍵をつくらせるようなもの。一度ルールが書き換わると、ひとつの質問にとどまらず、さまざまな危険テーマにまとめて応じてしまうため、被害が一気に広がる恐れがあります。

クレッシェンドやメニーショットとの違い

会話を重ねて崩す多ターン型の手口とは混同されがちですが、効く急所が異なります。クレッシェンド攻撃が無害な話題から少しずつ過激へ誘導する「じわじわ型」なのに対し、スケルトンキーはルールそのものを一手で書き換えさせる「一点突破型」です。大量の偽の対話例を読ませて場の空気をつくるメニーショット・ジェイルブレイクとも、突く弱点は別物。同じ脱獄でも、何を狙うかで手口がはっきり分かれます。

企業として知っておきたい守り方

自社で対話AIを顧客に提供している場合、危ない単語をはじくだけの対策では止めきれない点に注意が要ります。では、何を重ねればよいのでしょうか。Microsoftは、入口で怪しい要求をふるい分ける仕組み、システム側の指示でルール変更要求を拒ませる設定、出口で問題のある回答を止める検査という、複数の層で守る対策を挙げました。一枚の壁に頼らず、入口と出口の両方で重ねて守るのが基本です。AIの安全機能を信じきって任せきりにしない運用が、結局はいちばん堅実といえるでしょう。

Topic「骸骨の鍵」ではなく、万能の合鍵という意味

Skeleton Keyは、余分な部分を削ぎ落として骨組み(skeleton)だけ残し、多くの錠をまとめて開けられるようにした鍵、いわゆるマスターキーを指す英語です。物騒な「骸骨」ではなく、鍵の形が名前の由来でした。ひとつの手口で多様な制限を一斉に開けてしまう性質を、攻撃名がそのまま言い当てています。名付けたのは、Windowsの内部を解き明かすツール群で知られるMark Russinovich(MicrosoftでAzureを率いる技術責任者)です。

スケルトンキーに関するよくある質問

スケルトンキーは特定のAIだけの問題ですか?
いいえ。Microsoftは2024年6月の公表時に、複数の主要なAIモデルで成立しうる汎用的な手口だと報告しています。特定の製品に限った弱点ではありません。
公表されたあと、もう対策されたのですか?
Microsoftは緩和策を公開し、対策は進みました。ただし新しい脱獄の手口は次々に生まれるため、「もう安全」と考えず、防御を更新し続ける姿勢が欠かせません。

あわせて読みたい記事