グリッチトークンとは
グリッチトークンとは、AIの辞書には登録されているのに、AI本体がその意味をほとんど学べていない「幽霊のような」言葉のかたまり(トークン)のことです。こうした語を入力すると、AIが見当違いの返答をしたり、別の言葉に言い換えたりと、挙動が急に不安定になります。2024年に体系的な検出手法を示した研究で、改めて注目されました。
英語表記:glitch token(学術的にはunder-trained token)
なぜ「幽霊の言葉」が生まれるのか
AIはまず、文章を「トークン」という細かな単位に区切る辞書(トークナイザ)を用意し、そのうえで大量の文章を読んで意味を学びます。問題は、辞書づくりに使う文章と、意味を学ぶための文章が、ぴったり同じではないこと。辞書には載ったのに、肝心の学習ではほとんど出てこなかった語が生まれます。名前だけ名簿にあるのに、誰も顔を知らない人のようなもの。AIはその語を「知っているはずなのに意味が分からない」状態になり、おかしな反応を返してしまうわけです。
ジェイルブレイクとの違い
同じ「AIの誤作動」でも、ジェイルブレイク(脱獄)とは性質が違います。ジェイルブレイクが人の手で安全ルールを意図的に破る「攻撃」なのに対し、グリッチトークンはAIの作り方の副産物として生まれた「欠陥」です。狙って破るのか、もともと空いていた穴か、という違い。とはいえ、予測できない出力の入り口になりうる点では、安全性の面から見過ごせません。
なぜ点検すべきなのか
グリッチトークンの怖さは、いつ・どこで予測のつかない出力が出るか読みにくいところにあります。業務でAIを組み込むなら、こうした不安定さがどこに潜むかを把握しておきたいもの。先ほどの2024年の研究では、問題の語を自動で洗い出す検出のしくみも示されました。未知の穴を早めに見つけて塞ぐ地道な取り組みが、AIの信頼性を静かに支えています。
Topic正体は、ひたすら数を数えた人のハンドルネーム
もっとも有名なグリッチトークン「SolidGoldMagikarp」の正体は、掲示板Redditで「ひたすら1ずつ数を数え続ける」風変わりなコーナーの常連ユーザー名でした。その人が数字だけの投稿を延々と重ねたため、名前がAIの辞書に”重要な言葉”として刻まれたのに、肝心の意味はまったく学ばれなかった。結果、入力すると妙な反応を返す幽霊トークンに。ちなみにMagikarpはポケモンのコイキング。ネットの片隅の小さな営みが、最先端AIの弱点を生んだというのは、なんとも不思議な縁でしょう。
グリッチトークンに関するよくある質問
- グリッチトークンは最新のAIにもありますか?
- 新しいモデルでも、辞書づくりと学習のズレがあれば生じうる現象です。検出と対策は進んでいますが、トークンで文章を区切る仕組みがある以上、ゼロにはなりにくいと考えられています。
- SolidGoldMagikarp以外にもグリッチトークンはありますか?
- あります。掲示板の特殊なユーザー名や、ごく一部でしか使われない記号列など、辞書には載っても学習でほとんど現れなかった語が該当します。研究では多くのモデルから多数見つかっています。