Golden Gate Claudeとは
Golden Gate Claudeとは、Anthropicが2024年5月23日に公開した、Claudeの内部で「ゴールデンゲートブリッジ」に反応する部分を人為的に強めた実験版のAIです。どんな話題をふっても、気づけば話をサンフランシスコの名橋へ引き寄せてしまう。そんな一風変わった振る舞いで、約24時間だけ公開されました。
AIの「頭の中」に直接手を入れて生まれた
では、どうやって作ったのでしょうか。これは、AnthropicがAIの内部構造を読み解く機械論的解釈可能性の研究成果を、目に見える形で示したデモです。AIの神経回路の中から「ゴールデンゲートブリッジ」という概念に対応する部分を、スパースオートエンコーダー(AIの内部から意味のかたまりを取り出す手法)で見つけ出し、その働きを意図的に強めました。「橋の話をして」とプロンプト(指示文)で頼んだのではなく、内部の働きそのものへの操作。ここがこのデモの肝です。
モデルの中身に、外科手術のように直接手を入れたわけです。料理のレシピを尋ねても橋が顔を出すほどで、まるで橋に取り憑かれたかのよう。AIの中身が少しずつ「読めて」きていることを、専門家でなくても直感できる一例といえるでしょう。
Topicなぜたった24時間で姿を消したのか
Golden Gate Claudeは研究デモとして公開され、約24時間で役目を終えて非公開になりました。同じ日に発表された論文「Scaling Monosemanticity」では、Claudeの内部から数百万もの「特徴」が見つかったと報告されています。橋に夢中なAIは遊び心のある見せ方ですが、その裏にあったのは、AIの中身を理解して安全性を高めるための真面目な研究だった、というわけです。
Golden Gate Claudeに関するよくある質問
- Golden Gate Claudeは今も使えますか?
- いいえ。2024年5月23日に研究デモとして公開され、約24時間で非公開になりました。常設のサービスではなく、解釈可能性の研究成果を一般に見せるための一時的な公開でした。
- プロンプトで「橋の話をして」と指示したのと何が違いますか?
- 指示文での誘導ではなく、AIの神経回路の内部にある特定の部分を直接強めて作られています。外側からの命令ではなく、モデルの中身そのものをいじった点が、この実験の核心です。