RLHF(アールエルエイチエフ)とは

RLHFとは、AIの回答を人間の好みに合わせて調整するための、学習のやり方のことです。正式名称はReinforcement Learning from Human Feedback、日本語では「人間のフィードバックによる強化学習」と訳されます。人が「こちらの答えのほうが良い」と選んだデータをもとに、AIが人の期待に沿った受け答えをするよう仕込む点が特徴です。

3ステップで“好み”を教える

RLHFは、おおまかに3つの段階で進みます。最初のステップは、AIに同じ質問へ複数の答えを作らせ、人がその良し悪しを順位づけすること。次に、その「人の好み」を真似する“採点役”のAI(報酬モデル)を育てます。最後に、本体のAIを、その採点役から高い点をもらえるように訓練するのです。

ChatGPTを“使える”ようにした技術

もともとの言語モデルは、ありそうな次の単語を予測するだけで、「親切に答えよう」という意図は持っていません。RLHFは、その差を埋めた立役者です。OpenAIInstructGPTChatGPTに使い、指示に従い、役に立ち、害を避ける受け答えを実現しました(2022年ごろから広まりました)。AIを人の意図に沿わせる「アラインメント」の、代表的な手法でもあります。

TopicChatGPTの“性格”は人が選んで作った

意外に思えるかもしれませんが、ChatGPTの礼儀正しさや親切さは、もとのモデルに最初から備わっていたものではありません。人間の評価者が、AIの出した答えを何組も見比べて「こっちが良い」と選び続けた積み重ねが、いまの“性格”を形づくりました。つまりAIの感じの良さは、計算式ではなく人の好みから生まれている、というわけです。

RLHFに関するよくある質問

ChatGPTの礼儀正しさや親切さは、どうやって作られたのですか?
人間の評価者がAIの答えを何組も見比べて「こちらが良い」と選び続けた積み重ね(RLHF)で形づくられました。もとのモデルに最初から備わっていたものではなく、AIの感じの良さは計算式ではなく人の好みから生まれている、というわけです。
RLHFはどう進めるのですか?
おおまかに3段階です。AIに同じ質問へ複数の答えを作らせて人が良し悪しを順位づけし、その「人の好み」を真似する採点役のAI(報酬モデル)を育て、最後に本体のAIをその採点役から高い点をもらえるよう訓練します。
RLHFはなぜ重要なのですか?
もとの言語モデルは次の単語を予測するだけで「親切に答えよう」という意図は持ちません。RLHFはその差を埋め、ChatGPTなどが指示に従い役に立つ受け答えをするのを実現しました。AIを人の意図に沿わせるアラインメントの代表的手法です。