Outcome Reward Modelとは

Outcome Reward Modelとは、AIの途中の考え方ではなく、最終回答が正しいかどうかを見て報酬を付ける報酬モデルです。ORMとも呼ばれ、数学問題の答えやコードのテスト結果のように、最後の結果を検証しやすい場面で使われます。

英語表記:Outcome Reward Model(ORM)

プロセス報酬モデルとの違い

Outcome Reward Modelは、答案の最後に丸かバツを付ける採点に近い方法です。これに対してプロセス報酬モデルは、途中式や考え方の各ステップを見る方法。ORMは採点が軽く、正解が明確な問題に向く一方、途中でどこを間違えたかは分かりにくくなります。経営でいえば、売上結果だけを見るのか、商談プロセスのどこで失注したかまで見るのか、という違いでしょう。

TopicOpenAIが比較した「答えだけ採点」と「途中式採点」

OpenAI2023年5月、数学推論で「最終答えだけを報酬にする方法」と「各ステップを報酬にする方法」を比較しました。記事では、後者のプロセス監督が結果監督より良い性能を示したと説明されています。これはORMが不要という意味ではなく、結論だけ見れば十分な業務と、理由の筋道まで見たい業務を分ける必要があるという示唆です。

Outcome Reward Modelに関するよくある質問

Outcome Reward Modelはプロセス報酬モデルより劣っていますか?
劣っているというより、見る場所が違います。正解が明確な問題ではOutcome Reward Modelが軽く使えますが、説明責任や途中の誤りを見たい場合はプロセス報酬モデルが向きます。
ORMはどんな業務に向きますか?
コードのテスト、計算問題、ルール判定のように結果を検証しやすい業務に向きます。企画書や接客品質のように途中の判断や文脈が大事な仕事では、結果だけの採点では粗くなります。

Outcome Reward Modelに関連する記事