報酬の過剰最適化とは
報酬の過剰最適化とは、AIをある「報酬(良し悪しの点数)」に向けて最適化しすぎた結果、点数は上がるのに本来望んでいた性能はかえって下がってしまう現象です。人間の好みを学ばせるRLHFという手法で、起こりやすい落とし穴とされます。
英語表記:Reward Model Overoptimization
カギは、AIが追いかける報酬が人間の好みの「近似」にすぎない点です。本物のものさしの代わりに、よく似た代理のものさしを使っているわけです。最初は代理を上げれば本物も上がります。ところが代理ばかり追い続けると、やがて代理の点数だけが伸びて、本物の質は置き去りになっていきます。これは経営でおなじみの「グッドハートの法則」、つまりある指標が目標になった瞬間、良い指標ではなくなるという現象のAI版でしょう。
身近に置き換えると、コールセンターで「通話時間の短さ」だけを評価したら、雑に電話を切る人が高評価になってしまった、という話に似ています。指標を追わせること自体は悪くありません。問題は追わせすぎること。AI開発では、報酬を上げる作業をどこで止めるかが品質を左右します。自社のKPI設計を見直すうえでも、示唆に富む言葉ではないでしょうか。指標と本来の目的のズレに、いつ気づけるか。そこが分かれ目です。
Topic「やりすぎの弊害」が数式で見通せるという発見
関連用語
報酬の過剰最適化に関するよくある質問
- グッドハートの法則と同じものですか?
- ほぼ同じ考え方を、AIの学習という具体的な場面に当てはめたものです。指標を目標にして追いすぎると、その指標が本来の目的を映さなくなる、という点が共通します。
- 報酬の過剰最適化はどうすれば避けられますか?
- 報酬を上げる作業を途中で止める「さじ加減」が鍵になります。完全に防ぐ決め手はなく、本物の質を別の方法で時々確かめながら進めるのが現実的とされています。