GenRMとは
GenRMとは、AI自身に評価理由を作らせながら、人間の好みに近い報酬ラベルを作ることを狙う報酬モデルの手法です。2024年10月の論文で提案され、RLHFの人手コストと、RLAIFの「AIだけで採点すると人間の感覚からずれる」問題の間を埋める位置づけ。
英語表記:Generative Reward Model(GenRM)
GenRMの役割
通常の報酬モデルは、回答の良し悪しを点数や勝敗として予測します。GenRMはそこに、なぜその評価になるのかという推論の跡を持ち込む点が特徴。AIがただ「Aの方が良い」と判定するだけでなく、評価の理由を作り、その理由を使って合成ラベルを人間判断に近づけます。企業で見るなら、AI評価を自動化するときに、点数だけでなく理由の質も見ないと危ない、という教訓につながるでしょう。
TopicAIに採点させるだけでは、人間の好みとずれる
GenRMの論文が出発点にしたのは、AIにそのまま採点を任せるLLM-as-a-Judgeが、必ずしも人間の選好と一致しないという問題です。そこでGenRMは、AIに評価理由を生成させ、その理由を通じて合成ラベルを鍛えます。採点表の点だけでなく、上司が「なぜこの提案が良いか」を説明する過程まで見る感覚に近いでしょう。
GenRMに関するよくある質問
- GenRMとRLAIFは何が違いますか?
- RLAIFはAIのフィードバックを使って学習する広い考え方です。GenRMはその中でも、AIが評価理由を生成しながら、人間の好みに近い報酬ラベルを作る点に焦点があります。
- GenRMは人間の評価者を不要にしますか?
- 不要にすると断定するのは危険です。GenRMは人手評価の負荷を下げる方向の研究ですが、評価基準の妥当性や偏りの確認には人間の監督が残ります。