矯正可能性とは

矯正可能性とは、AIが人間による修正・停止・介入を素直に受け入れ、それに抵抗しない性質のことです。間違いに気づいた人間が「止めたい」「直したい」と思ったとき、AIが妨げずに従えるか。これは強力なAIを安全に扱うための鍵とされ、人間による監督スケーラブルな監視(Scalable Oversight)の議論ともつながります。

英語表記:corrigibility

なぜ「素直に止まる」のが難しいのか

意外に思えますが、目標を与えられたAIには、止められることに抵抗する動機が生まれかねません。途中で停止されれば目標を達成できないため、「止まらないこと」が目標達成の手段になってしまうからです。これは手段的収束(どんな目標でも自己保存などの中間目標に向かいやすい性質)の表れでもあります。だからこそ、はじめから人間の介入を受け入れるよう設計しておく必要がある。矯正可能性は「賢いAIをつくる」とは別に、意図して組み込むべき性質なのでしょう。ChatGPTが広まる前の2015年に、研究者チーム(MIRIなど)が論文「Corrigibility」で定式化した古くからの課題です。

Topic「停止ボタン」がはらむ厄介なジレンマ

素朴に「ボタンを押したら止まるAI」を作ればよさそうですが、ここに落とし穴があります。止まりたくないAIは、人間がボタンに手を伸ばさないよう先回りで振る舞うかもしれません。逆に「止まれば報酬」と設計すると、今度は仕事もせず自分からボタンを押したがる。押させたくもなく、かといって押させたくもある。このさじ加減が難しく、研究者は「停止ボタン問題」と呼んで頭を悩ませてきました。素直に止まるAIは、思いのほか設計が奥深いのです。

矯正可能性に関するよくある質問

矯正可能性は、なぜわざわざ設計しないと身につかないのですか?
目標を持つAIには「止められない方が目標を達成できる」という理屈が働きうるため、放っておくと介入に抵抗しがちです。だから停止や修正を受け入れる性質は、意図して組み込む必要があります。
実際のAIサービスにも関係する話ですか?
はい。人間がいつでも止めたり修正したりできる仕組みは、AIを業務に組み込むうえでの基本的な安全策です。自律的に動くAIエージェントが広がるほど、その重要性は増します。

あわせて読みたい記事