素のGPT-3とは何が違うのですか？

素のGPT-3が文章の続きを予測するだけだったのに対し、InstructGPTは人の指示にうまく従い「頼んだことに答える」性質を身につけました。人の好みを学ばせるRLHF（人間のフィードバックによる強化学習）で微調整されています。

ChatGPTとはどんな関係ですか？

ChatGPTの土台になった「隠れた祖先」です。InstructGPTは2022年1月、ChatGPT公開（2022年11月）の約10か月前に登場し、「指示に従うよう調整する」考え方がそのままChatGPTに受け継がれました。多くの人は名前を知らないまま、その子孫であるChatGPTに触れています。

InstructGPTで何が改善したのですか？

人が複数の答えを見比べて「こちらが良い」と選んだ好みを学ばせることで、指示への従いやすさが増し、作り話が減り、有害な内容もいくらか抑えられたとOpenAIは説明しています。AIを人の意図に沿わせる工夫の、初期の代表例です。

InstructGPT(インストラクトジーピーティー)とは？意味をわかりやすく解説

InstructGPTとは、人の指示にうまく従うよう、GPT-3を人間のフィードバックで微調整したOpenAIのモデルのことです。2022年1月に発表され、のちのChatGPTの土台になった「立役者」として知られます。素のGPT-3が文章の続きを予測するだけだったのに対し、こちらは「頼んだことに答える」性質を身につけました。

人の好みを教える「RLHF」で仕込む

仕込みの中心にあるのが、RLHF(人間のフィードバックによる強化学習)という手法です。人が複数の答えを見比べ、「こちらが良い」と選んだ好みをAIに学ばせます。これにより、指示への従いやすさが増し、作り話が減り、有害な内容もいくらか抑えられたとOpenAIは説明しています。AIを人の意図に沿わせる工夫の、初期の代表例です。

ChatGPTへの橋渡し

InstructGPTの登場は2022年1月、ChatGPTの公開(2022年11月)より前のことです。ChatGPTは、この「指示に従うよう調整する」考え方を受け継いで作られました。対話AIブームの“前夜”にあたる存在といえます。多くの人はInstructGPTの名前を知らないまま、その子孫であるChatGPTに触れているわけです。

TopicChatGPTの「隠れた祖先」

世間ではChatGPTが「突然の革新」のように受け止められましたが、その下地は前年から準備されていました。InstructGPTは2022年1月、ChatGPTのおよそ10か月前に登場。人のフィードバックで「指示に従う」よう仕込むレシピが、のちにChatGPTを“使える道具”へと押し上げました。名前は地味でも、対話AIブームの静かな布石だったのです。

Wikipedia: InstructGPT

InstructGPTに関するよくある質問

素のGPT-3とは何が違うのですか？: 素のGPT-3が文章の続きを予測するだけだったのに対し、InstructGPTは人の指示にうまく従い「頼んだことに答える」性質を身につけました。人の好みを学ばせるRLHF（人間のフィードバックによる強化学習）で微調整されています。
ChatGPTとはどんな関係ですか？: ChatGPTの土台になった「隠れた祖先」です。InstructGPTは2022年1月、ChatGPT公開（2022年11月）の約10か月前に登場し、「指示に従うよう調整する」考え方がそのままChatGPTに受け継がれました。多くの人は名前を知らないまま、その子孫であるChatGPTに触れています。
InstructGPTで何が改善したのですか？: 人が複数の答えを見比べて「こちらが良い」と選んだ好みを学ばせることで、指示への従いやすさが増し、作り話が減り、有害な内容もいくらか抑えられたとOpenAIは説明しています。AIを人の意図に沿わせる工夫の、初期の代表例です。

InstructGPT(インストラクトジーピーティー)とは

人の好みを教える「RLHF」で仕込む

ChatGPTへの橋渡し

TopicChatGPTの「隠れた祖先」

InstructGPTに関するよくある質問

あわせて読みたい記事

OpenAI Presenceは日本でいつ使える？SoftBank試験中で自己申込みは未対応

OpenAIとHugging Faceのセキュリティ事故とは？評価中AIが本番データベースへ到達した経路

OpenAI FedRAMPとは　Codexが使えない時に起きる通常版との機能差

いま読まれている用語

まだそこまで読まれていない用語

人の好みを教える「RLHF」で仕込む

ChatGPTへの橋渡し

TopicChatGPTの「隠れた祖先」

InstructGPTに関するよくある質問

OpenAI Presenceは日本でいつ使える？SoftBank試験中で自己申込みは未対応

OpenAIとHugging Faceのセキュリティ事故とは？評価中AIが本番データベースへ到達した経路

OpenAI FedRAMPとは Codexが使えない時に起きる通常版との機能差

いま読まれている用語

まだそこまで読まれていない用語

OpenAI FedRAMPとは　Codexが使えない時に起きる通常版との機能差