RLOOとは
RLOOとは、AIが出した複数の回答を比べ、自分以外の回答の平均を基準にして学習させる強化学習の手法です。RLHFでよく使われたPPOより部品を減らし、REINFORCEという古典的な方法をLLMの調整へ使いやすく見直した流れにあります。
英語表記:REINFORCE Leave-One-Out(RLOO)
自分を除いた平均との差で見る
RLOOでは、同じ問いに対していくつかの回答を作り、それぞれに報酬を付ける流れです。次に、ある回答を評価するときはその回答自身を除いた他の回答の平均が基準。平均より良ければ伸ばし、弱ければ抑える。採点係を別に大きく作り込むより、同じ場に出た回答同士を見比べる発想です。PPOより軽い構成でオンライン学習を回せる点が注目されました。
TopicLeave-One-Outは「自分を平均から外す」という意味
RLOOの名前にあるLeave-One-Outは、統計や機械学習でよく使われる「1つだけ外して見る」考え方です。RLOOでは、ある回答を評価するときに、その回答を平均計算から外します。自分の点数で自分の基準を水増ししないための工夫で、部署の売上平均を出すときに、自分の数字を一度除いて「周りと比べてどうか」を見る感覚に近いでしょう。
RLOOに関するよくある質問
- RLOOはDPOと何が違いますか?
- DPOは好みのペアデータから直接モデルを調整する方法です。RLOOはモデルが生成した回答に報酬を付け、その報酬を使ってオンラインに方針を更新する強化学習寄りの方法です。
- RLOOが注目された理由は何ですか?
- RLHFで使われてきたPPOは調整項目と計算負荷が大きくなりやすいためです。RLOOは古典的なREINFORCE系の単純さを活かし、より軽く学習を回す選択肢として再評価されました。