RewardBench(リワードベンチ)とは
RewardBenchとは、報酬モデルが回答の良し悪しをどれだけ適切に見分けられるかを測るベンチマークです。報酬モデルは、RLHFなどでAIの回答を人間の好みに近づける時に使われる「採点係」のような部品です。RewardBenchは、チャット、推論、安全性などの例を使い、AIの裏側にある評価役そのものを検査するために使われます。
なぜ採点係を評価するのか
AIの回答品質は、モデル本体だけで決まりません。どの回答を「良い」とするかを決める報酬モデルがずれると、丁寧に見えるだけの回答や、安全そうに見えて役に立たない回答を選ぶ可能性があります。RewardBenchは、AIを評価するAIにも品質管理が必要だと示す物差しです。
Topic採点者にもテストが必要
RewardBenchの面白さは、直接答えるAIではなく、回答を採点する報酬モデルを評価する点です。人事評価でいえば、社員ではなく評価者の目線が偏っていないかを確認するようなもの。AIが人間らしく見える背景には、こうした採点の仕組みがあります。
RewardBenchに関するよくある質問
- RewardBenchは普通のLLMの回答力を測るものですか?
- 主な対象は回答を作るLLMではなく、回答を評価する報酬モデルです。どちらの回答を好ましいと判定するかを見る点が特徴です。
- RewardBenchはRLHFと関係がありますか?
- 関係があります。RLHFでは人間の好みに近づけるために報酬モデルを使うことがあり、RewardBenchはその採点役がずれていないかを見るための物差しになります。