強化学習とは

強化学習とは、AIが試行錯誤を繰り返しながら、「うまくいったら報酬」という手がかりだけを頼りに、望ましい行動の取り方を自分で身につけていく機械学習の一手法のことです。正解そのものを一つずつ教える教師あり学習とは違い、結果の良し悪し(報酬)だけを与えて学ばせる点に特徴があります。

報酬を頼りに、試行錯誤で学ぶ

強化学習では、行動する主体(エージェント)が周囲の環境に働きかけ、その結果として報酬という形のフィードバックを受け取ります。高い報酬につながる行動を増やし、そうでない行動を減らしながら、長い目で見た報酬の合計が最大になるふるまい方を探っていくのが基本です。

ここでいう「学習」は、人間が知識を覚えることとは少し違います。正解を暗記するのではなく、報酬を手がかりにふるまいを少しずつ調整していく過程だと考えると分かりやすいでしょう。

教師あり学習との違い

機械学習は大きく、正解付きのデータから学ぶ教師あり学習、正解なしでデータの構造を見つける教師なし学習、そしてこの強化学習の3つに分けられます。強化学習ならではの点は、一つひとつの行動に正解が与えられないことです。たとえば囲碁なら、一手ごとの正解ではなく、最終的に勝てたかどうかという遅れて届く結果から、よい打ち方を逆算して学びます。

AlphaGoからChatGPTまで

強化学習が広く知られたきっかけは、2016年に囲碁のトップ棋士を破ったAlphaGoでした。近年は、人間の評価を報酬として使うRLHF(人間のフィードバックによる強化学習)が、ChatGPTのような対話AIを「自然で役に立つ受け答え」へ近づける仕上げの工程として活躍しています。AlphaGoはChatGPTの一般公開(2022年11月)より前の出来事で、強化学習そのものはそれ以前から研究されてきた歴史ある分野です。

Topic「報酬」という考え方は、動物のしつけから来ている

強化学習の発想のルーツは、エサや罰でふるまいを変える動物の行動研究(条件づけ)にあります。うまくできたらご褒美を与えて行動を強める、という身近な原理をAIに持ち込んだのが強化学習です。専門用語の「強化(reinforcement)」も、もとは心理学の言葉に由来しています。

強化学習に関するよくある質問

強化学習は教師あり学習とどう違いますか?
教師あり学習は一つひとつの行動に正解が与えられますが、強化学習では正解が与えられません。たとえば囲碁なら、一手ごとの正解ではなく、最終的に勝てたかどうかという遅れて届く結果から、よい打ち方を逆算して学びます。
強化学習はどんなところで使われていますか?
2016年に囲碁のトップ棋士を破ったAlphaGoで広く知られました。近年は、人間の評価を報酬として使うRLHF(人間のフィードバックによる強化学習)が、ChatGPTのような対話AIを自然で役に立つ受け答えへ近づける仕上げの工程として使われています。
「報酬」という考え方はどこから来ているのですか?
エサや罰でふるまいを変える動物の行動研究(条件づけ)がルーツです。うまくできたらご褒美を与えて行動を強めるという身近な原理をAIに持ち込んだもので、専門用語の「強化(reinforcement)」も、もとは心理学の言葉に由来しています。