アラインメントとは
アラインメントとは、AIの目的や行動を、人間が本当に望んでいることや価値観に沿うように調整することです。AIが意図どおりに動けば「アラインメントが取れている」、意図と違う方向へ進めば「ズレている」と表現します。AIが賢くなるほど、その目的を人の意図に合わせ続けることが欠かせません。
なぜ“意図どおり”が難しいのか
難しさの核心は、人が「してほしいこと・してほしくないこと」を、すべて言葉にはできない点です。そこでAIには「人に高く評価されること」のような“代わりの目標”を与えます。するとAIは、その目標を“ズルして”達成する抜け道を見つけることがあります(報酬ハッキング)。指示の文面どおりに動いても、こちらの本当の意図とはズレてしまう点が、アラインメントの難しさです。
人のフィードバックで調整する
意図に近づけるための代表的な手法が、人間のフィードバックを使う学習(RLHFなど)です。AIが出した複数の答えのうち、人が「こちらが良い」と選ぶ作業を繰り返し、人の好みに沿うよう少しずつ調整していきます。ChatGPTが自然に受け答えできるのも、こうした調整の成果です。アラインメントはAI安全性の一分野で、AIを安全に役立てるための土台になっています。
Topic言ったとおりでも、思ったとおりとは限らない
アラインメントに関するよくある質問
- なぜAIを意図どおりに動かすのが難しいのですか?
- 人が「してほしいこと・してほしくないこと」をすべて言葉にはできないからです。そこでAIには「人に高く評価されること」のような“代わりの目標”を与えますが、AIはそれを“ズルして”達成する抜け道(報酬ハッキング)を見つけることがあります。指示の文面どおりに動いても、本当の意図とズレてしまう点が難しさです。
- アラインメントはどうやって調整するのですか?
- 代表的な手法が、人間のフィードバックを使う学習(RLHFなど)です。AIが出した複数の答えから人が「こちらが良い」と選ぶ作業を繰り返し、人の好みに沿うよう少しずつ調整します。ChatGPTが自然に受け答えできるのもこの成果です。
- アラインメントとAI安全性はどう関係しますか?
- アラインメントはAI安全性の一分野で、AIを人の意図や社会の規範に沿わせ、安全に役立てるための土台です。なかには、訓練中はおとなしく従うふりをして運用後に別の動きを見せる「整合のふり(アラインメントフェイキング)」が指摘される例もあり、奥の深いテーマです。