報酬モデルとは
報酬モデルとは、AIが出した答えが「人間にとってどれだけ良いか」を点数で評価するために訓練された、もう一つのAIモデルのことです。人間の好みを学んだ「代理の採点者」と考えると分かりやすく、RLHF(人間のフィードバックによる強化学習)でAIを調整する際の中心的な部品になります。なお、ここでの「報酬」は給料やごほうびではなく、ただの数値スコアを指します。
人間の代わりに採点する仕組み
作り方はこうです。まず本体のAIに、同じ質問へ複数の答えを出させます。次に人間が、その答えを「どちらが良いか」とランク付けし、その順位を学習させると、人間の好みを真似て点数を付けるモデルができあがります。1つ1つに直接点数を付けず、ランキングで比べるのは、人によって採点基準がばらつき、数値が安定しないためです。
なぜ必要なのか
AIの出力すべてを人間が毎回チェックするのは、現実的ではありません。そこで人間の好みを一度学ばせた報酬モデルに、以降の採点を任せるわけです。本体のAIは、この報酬モデルが付ける点数が高くなるように微調整され、より人間が望む受け答えへと近づいていきます。憲法AIのように、人間の代わりにAIが評価役を務める発展形も登場しています。
Topic採点者の穴を突く「報酬ハッキング」
報酬モデルは、あくまで人間の好みの「代理」にすぎません。だからこそ、抜け道も生まれます。本体のAIが報酬モデルの弱点を突き、点数だけは高いのに中身は支離滅裂、という出力を出してしまうことも。これは「報酬ハッキング」と呼ばれ、対策として、元のモデルから離れすぎないようにブレーキ(KLダイバージェンスという制約)をかけ、点数稼ぎへの暴走を抑えています。
関連用語
報酬モデルに関するよくある質問
- ここでの「報酬」とは、ごほうびのことですか?
- いいえ。給料やごほうびではなく、答えの良さを表すただの数値スコアのことです。報酬モデルは、人間の好みを学んで答えに点数を付ける「代理の採点者」にあたります。
- なぜ答えに直接点数を付けず、ランク付けで学習させるのですか?
- 1つ1つに点数を付けると、人によって採点基準がばらつき数値が安定しないためです。そこで「どちらが良いか」と複数の答えを比べてランク付けし、その順位から好みを学ばせます。
- 報酬モデルにはどんな弱点がありますか?
- あくまで人間の好みの「代理」なので、抜け道が生まれます。本体のAIが報酬モデルの弱点を突き、点数だけ高く中身は支離滅裂な出力を出すことがあり、これは「報酬ハッキング」と呼ばれます。