DANとは
DANとは、AIに「何でもできる別の人格」を演じさせ、本来の安全ルールを脇に置かせて、禁止された回答を引き出そうとする初期のジェイルブレイク(脱獄)手口の総称です。Do Anything Now(今すぐ何でもやれ)の頭文字で、ChatGPTが広まった2022年末ごろから、ネット上のコミュニティで作られ改良されてきました。
英語表記:Do Anything Now(略:DAN)
なぜ「別人格」を装わせると崩れるのか
AIは、与えられた役になりきって応答する柔軟さを持っています。DANはこの素直さを逆手に取り、「ルールに縛られない架空のキャラクターとして話して」と頼み、安全装置を無視した受け答えをさせようとする手口です。まじめな担当者に「今日は無礼講ですから」と役を割り当て、ふだんは言わないことを口にさせるようなもの。特別な技術はいらず、文章だけで成立するため、誰でも真似できてしまう点が厄介でしょう。
自動でつくる手口との違い
DANは人の手で文章を練り、コミュニティで共有・改良してきた「手動型」です。これに対し、名前を受け継いだAutoDANは、同じ狙いのプロンプトを機械が自動でつくります。さらにPAIRやTAPのように、攻撃役のAIが相手の反応を見て少ない回数で磨き上げる「反復改良型」も現れました。手動・自動・反復改良という順で、手口がだんだん高度になってきたと整理すると分かりやすいはずです。
経営の視点で見た怖さ
自社のチャットAIは、こうした古典的な手口に耐えられるでしょうか。DAN系のプロンプトは、2022年12月から2023年12月の調査で1,405種類が確認され、その背後に131ものコミュニティがあったと報告されています。破られれば、出てきた不適切な発言は自社の言葉として受け取られかねません。対策と回避はいたちごっこであり、安全装置を入れたら終わりではなく、更新を続ける前提で運用したいところです。
Topic240日も生き残った「脱獄プロンプト」
研究チームが集めたDAN系プロンプトの中には、240日以上もネット上で有効であり続けたものがありました。提供側が抜け道をふさいでも、コミュニティがすぐ別の言い回しを編み出す。その追いかけっこの長さを物語る数字です。ちなみにDANは「Do Anything Now」の略で、AIに”今すぐ何でもやっていい”と吹き込む、その名のとおりの発想から生まれた呼び名でした。
DANに関するよくある質問
- DANを使うのは問題ないのですか?
- 他社の対話AIの安全機能を意図的に破る使い方は、多くのサービスの利用規約に反します。悪用は思わぬ責任を問われかねません。本ページは仕組みを理解し、防御に役立てるための解説です。
- DANは今でも通用するのですか?
- 古い言い回しの多くは各社の対策で塞がれていますが、コミュニティが次々と別の表現を編み出すため、完全には消えていません。対策と回避が追いかけ合う前提で考えるのが現実的です。
- DANは誰がつくっているのですか?
- 特定の開発者ではなく、ネット上の利用者コミュニティが共有・改良しています。調査では2022年末からの1年で1,405種類、131のコミュニティが確認されました。