RLHF(アールエルエイチエフ)とは
RLHFとは、AIの回答を人間の好みに合わせて調整するための、学習のやり方のことです。正式名称はReinforcement Learning from Human Feedback、日本語では「人間のフィードバックによる強化学習」と訳されます。人が「こちらの答えのほうが良い」と選んだデータをもとに、AIが人の期待に沿った受け答えをするよう仕込む点が特徴です。
3ステップで“好み”を教える
RLHFは、おおまかに3つの段階で進みます。最初のステップは、AIに同じ質問へ複数の答えを作らせ、人がその良し悪しを順位づけすること。次に、その「人の好み」を真似する“採点役”のAI(報酬モデル)を育てます。最後に、本体のAIを、その採点役から高い点をもらえるように訓練するのです。
ChatGPTを“使える”ようにした技術
もともとの言語モデルは、ありそうな次の単語を予測するだけで、「親切に答えよう」という意図は持っていません。RLHFは、その差を埋めた立役者です。OpenAIがInstructGPTやChatGPTに使い、指示に従い、役に立ち、害を避ける受け答えを実現しました(2022年ごろから広まりました)。AIを人の意図に沿わせる「アラインメント」の、代表的な手法でもあります。
TopicChatGPTの“性格”は人が選んで作った
意外に思えるかもしれませんが、ChatGPTの礼儀正しさや親切さは、もとのモデルに最初から備わっていたものではありません。人間の評価者が、AIの出した答えを何組も見比べて「こっちが良い」と選び続けた積み重ねが、いまの“性格”を形づくりました。つまりAIの感じの良さは、計算式ではなく人の好みから生まれている、というわけです。
RLHFに関するよくある質問
- ChatGPTの礼儀正しさや親切さは、どうやって作られたのですか?
- 人間の評価者がAIの答えを何組も見比べて「こちらが良い」と選び続けた積み重ね(RLHF)で形づくられました。もとのモデルに最初から備わっていたものではなく、AIの感じの良さは計算式ではなく人の好みから生まれている、というわけです。
- RLHFはどう進めるのですか?
- おおまかに3段階です。AIに同じ質問へ複数の答えを作らせて人が良し悪しを順位づけし、その「人の好み」を真似する採点役のAI(報酬モデル)を育て、最後に本体のAIをその採点役から高い点をもらえるよう訓練します。
- RLHFはなぜ重要なのですか?
- もとの言語モデルは次の単語を予測するだけで「親切に答えよう」という意図は持ちません。RLHFはその差を埋め、ChatGPTなどが指示に従い役に立つ受け答えをするのを実現しました。AIを人の意図に沿わせるアラインメントの代表的手法です。