ここでの「報酬」とは、ごほうびのことですか？

いいえ。給料やごほうびではなく、答えの良さを表すただの数値スコアのことです。報酬モデルは、人間の好みを学んで答えに点数を付ける「代理の採点者」にあたります。

なぜ答えに直接点数を付けず、ランク付けで学習させるのですか？

1つ1つに点数を付けると、人によって採点基準がばらつき数値が安定しないためです。そこで「どちらが良いか」と複数の答えを比べてランク付けし、その順位から好みを学ばせます。

報酬モデルにはどんな弱点がありますか？

あくまで人間の好みの「代理」なので、抜け道が生まれます。本体のAIが報酬モデルの弱点を突き、点数だけ高く中身は支離滅裂な出力を出すことがあり、これは「報酬ハッキング」と呼ばれます。

報酬モデルとは？意味をわかりやすく解説

報酬モデルとは、AIが出した答えが「人間にとってどれだけ良いか」を点数で評価するために訓練された、もう一つのAIモデルのことです。人間の好みを学んだ「代理の採点者」と考えると分かりやすく、RLHF（人間のフィードバックによる強化学習）でAIを調整する際の中心的な部品になります。なお、ここでの「報酬」は給料やごほうびではなく、ただの数値スコアを指します。

人間の代わりに採点する仕組み

作り方はこうです。まず本体のAIに、同じ質問へ複数の答えを出させます。次に人間が、その答えを「どちらが良いか」とランク付けし、その順位を学習させると、人間の好みを真似て点数を付けるモデルができあがります。1つ1つに直接点数を付けず、ランキングで比べるのは、人によって採点基準がばらつき、数値が安定しないためです。

なぜ必要なのか

AIの出力すべてを人間が毎回チェックするのは、現実的ではありません。そこで人間の好みを一度学ばせた報酬モデルに、以降の採点を任せるわけです。本体のAIは、この報酬モデルが付ける点数が高くなるように微調整され、より人間が望む受け答えへと近づいていきます。憲法AIのように、人間の代わりにAIが評価役を務める発展形も登場しています。

Topic採点者の穴を突く「報酬ハッキング」

報酬モデルは、あくまで人間の好みの「代理」にすぎません。だからこそ、抜け道も生まれます。本体のAIが報酬モデルの弱点を突き、点数だけは高いのに中身は支離滅裂、という出力を出してしまうことも。これは「報酬ハッキング」と呼ばれ、対策として、元のモデルから離れすぎないようにブレーキ（KLダイバージェンスという制約）をかけ、点数稼ぎへの暴走を抑えています。

報酬モデルに関するよくある質問

ここでの「報酬」とは、ごほうびのことですか？: いいえ。給料やごほうびではなく、答えの良さを表すただの数値スコアのことです。報酬モデルは、人間の好みを学んで答えに点数を付ける「代理の採点者」にあたります。
なぜ答えに直接点数を付けず、ランク付けで学習させるのですか？: 1つ1つに点数を付けると、人によって採点基準がばらつき数値が安定しないためです。そこで「どちらが良いか」と複数の答えを比べてランク付けし、その順位から好みを学ばせます。
報酬モデルにはどんな弱点がありますか？: あくまで人間の好みの「代理」なので、抜け道が生まれます。本体のAIが報酬モデルの弱点を突き、点数だけ高く中身は支離滅裂な出力を出すことがあり、これは「報酬ハッキング」と呼ばれます。

報酬モデルとは

人間の代わりに採点する仕組み

なぜ必要なのか

Topic採点者の穴を突く「報酬ハッキング」

報酬モデルに関するよくある質問

あわせて読みたい記事

Geminiの学習ノートブックで社員研修は内製できるか【資料作成とクイズ化の注意点】

生成AIに社内データを学習させない設定はあるか情報漏洩を防ぐ中小企業の確認点

Gemini 4はいつ発表？Googleが事前学習開始を公表も提供時期は未定

いま読まれている用語

まだそこまで読まれていない用語

人間の代わりに採点する仕組み

なぜ必要なのか

Topic採点者の穴を突く「報酬ハッキング」

報酬モデルに関するよくある質問

Geminiの学習ノートブックで社員研修は内製できるか【資料作成とクイズ化の注意点】

生成AIに社内データを学習させない設定はあるか 情報漏洩を防ぐ中小企業の確認点

Gemini 4はいつ発表？Googleが事前学習開始を公表も提供時期は未定

いま読まれている用語

まだそこまで読まれていない用語

生成AIに社内データを学習させない設定はあるか情報漏洩を防ぐ中小企業の確認点