GRPOとは

GRPOとは、1つの問いに対してAIに複数の回答を出させ、その回答同士の相対的な良し悪しを使って学習を進める強化学習の手法です。DeepSeekMathで2024年に提案され、DeepSeek-R1推論能力を高める学習でも使われたことで知られるようになりました。

英語表記:Group Relative Policy Optimization(GRPO)

GRPOの仕組み

PPOでは、AIの行動方針を更新するときに、別の「評価係」のようなモデルを使って学習を安定させます。GRPOはここを軽くし、同じ問題に対する複数回答を1組として見比べ、その組の中でどれが良かったかを基準にします。社内で複数案を並べて「この案は平均より良い」「これは少し弱い」と見ていく感覚に近いでしょう。外から絶対的な点数を細かく作るより、同じ土俵の中で順位を作る発想です。

PPOやDPOとの違い

GRPOは、PPOと同じく強化学習の流れに属します。ただしPPOよりも訓練の部品を減らし、複数回答の相対評価で更新を進める点が特徴です。一方、DPOは人間の選好データから直接モデルを調整し、強化学習のループ自体を簡略化する手法です。つまり、GRPOは推論力を伸ばすための強化学習を軽くする方法、DPOは好みに合わせる調整を簡単にする方法、と見ると整理しやすくなります。

ビジネスでの見方

経営者が押さえるべき点は、GRPOが「AIに考え直させる力」を引き出すための訓練方法として注目されたことです。数学やコードのように答えを検証しやすい領域では、RLVRと組み合わせることで、正解に近づく考え方をAI自身に探索させやすくなります。ただし万能ではありません。検証しにくい企画書の良し悪しや接客の丁寧さなどは、単純な正解判定だけでは扱いにくいため、別の評価設計が必要になります。

Topic点数を1つ付けるより、同じ問題の回答を見比べる

GRPOの面白さは、AIの回答を単独で採点するのではなく、同じ問いに対する複数の回答をまとめて見比べるところにあります。会議で企画案を1枚だけ見ても判断しづらいのに、5案並べると「これは筋がいい」「これは弱い」と見えやすくなるのと同じ感覚に近いでしょう。DeepSeek-R1-Zeroでは、このような強化学習の中で、AIが途中で立ち止まり、別解を試し、答えを確かめるような振る舞いが現れたと報告されました。

GRPOに関するよくある質問

GRPOはPPOと何が違いますか?
PPOは別の評価係のような部品を使って方針更新を安定させます。GRPOは同じ問題に対する複数回答を見比べ、グループ内の相対評価で更新するため、学習の部品を軽くしやすい手法です。
GRPOはDeepSeek-R1専用の手法ですか?
DeepSeekMathで提案され、DeepSeek-R1で注目されましたが、考え方自体は推論モデルを強化学習で鍛えるための一般的な手法として研究されています。
GRPOを使えばどんなAIでも賢くなりますか?
答えを検証しやすい数学やコードでは使いやすい一方、正解が曖昧な接客や企画評価にはそのまま当てはめにくいです。報酬の作り方が成否を大きく左右します。

あわせて読みたい記事