InstructGPT(インストラクトジーピーティー)とは

InstructGPTとは、人の指示にうまく従うよう、GPT-3を人間のフィードバックで微調整したOpenAIモデルのことです。2022年1月に発表され、のちのChatGPTの土台になった「立役者」として知られます。素のGPT-3が文章の続きを予測するだけだったのに対し、こちらは「頼んだことに答える」性質を身につけました。

人の好みを教える「RLHF」で仕込む

仕込みの中心にあるのが、RLHF(人間のフィードバックによる強化学習)という手法です。人が複数の答えを見比べ、「こちらが良い」と選んだ好みをAIに学ばせます。これにより、指示への従いやすさが増し、作り話が減り、有害な内容もいくらか抑えられたとOpenAIは説明しています。AIを人の意図に沿わせる工夫の、初期の代表例です。

ChatGPTへの橋渡し

InstructGPTの登場は2022年1月、ChatGPTの公開(2022年11月)より前のことです。ChatGPTは、この「指示に従うよう調整する」考え方を受け継いで作られました。対話AIブームの“前夜”にあたる存在といえます。多くの人はInstructGPTの名前を知らないまま、その子孫であるChatGPTに触れているわけです。

TopicChatGPTの「隠れた祖先」

世間ではChatGPTが「突然の革新」のように受け止められましたが、その下地は前年から準備されていました。InstructGPTは2022年1月、ChatGPTのおよそ10か月前に登場。人のフィードバックで「指示に従う」よう仕込むレシピが、のちにChatGPTを“使える道具”へと押し上げました。名前は地味でも、対話AIブームの静かな布石だったのです。

InstructGPTに関するよくある質問

素のGPT-3とは何が違うのですか?
素のGPT-3が文章の続きを予測するだけだったのに対し、InstructGPTは人の指示にうまく従い「頼んだことに答える」性質を身につけました。人の好みを学ばせるRLHF(人間のフィードバックによる強化学習)で微調整されています。
ChatGPTとはどんな関係ですか?
ChatGPTの土台になった「隠れた祖先」です。InstructGPTは2022年1月、ChatGPT公開(2022年11月)の約10か月前に登場し、「指示に従うよう調整する」考え方がそのままChatGPTに受け継がれました。多くの人は名前を知らないまま、その子孫であるChatGPTに触れています。
InstructGPTで何が改善したのですか?
人が複数の答えを見比べて「こちらが良い」と選んだ好みを学ばせることで、指示への従いやすさが増し、作り話が減り、有害な内容もいくらか抑えられたとOpenAIは説明しています。AIを人の意図に沿わせる工夫の、初期の代表例です。