SFTとは

SFTとは、事前学習を終えたAIモデルに、人間が用意した「指示と模範回答」のペアを見せて追加学習させ、指示どおりに答えるよう仕込む方法です。お手本を真似させる素直なやり方で、対話AIを作るときの基礎的な工程にあたります。

英語表記:Supervised Fine-Tuning(SFT)

SFTの仕組み

事前学習を終えたばかりのモデルは、大量の文章から言葉のつながりを覚えていますが、そのままだと質問に答えるというより、文章の続きを書こうとするクセが抜けていません。そこでSFTでは、「こう聞かれたら、こう答える」という模範回答のペアをたくさん見せ、その通りに出力できるよう調整します。やっているのは、正解(お手本)との食い違いを少しずつ減らす教師あり学習です。これを重ねることで、指示に素直に応じるAIへと近づいていきます。

事前学習やRLHFとの違い

AI作りの流れは、大きく3段に分けると分かりやすいです。まず事前学習で言葉そのものを幅広く覚え、次にSFTでお手本に沿った答え方を身につけ、最後に人間の好みへ細かく合わせます。SFTは「お手本を真似る」段階で、RLHFは「2つの回答のどちらが良いかという比較から学ぶ」段階という違いです。順番としては、SFTで土台を作ってから、RLHFやDPOで仕上げるのが定番の流れになっています。

ビジネスでの使われ方

SFTは、自社の口調や専門分野に合わせたAIを作る入り口になるでしょう。自社のFAQや過去の応対例を「指示と回答」の形に整えて学習させれば、汎用モデルを自社業務寄りに寄せられます。LoRAなどの軽い手法と組み合わせれば、少ない設備でも試しやすくなるでしょう。まずSFTで形を整え、必要に応じて好みの調整を足す、という順で考えると進めやすい工程です。

TopicChatGPTを生んだ「三段レシピ」の第1段

ChatGPTのような対話AIは、ふつう3つの段階で仕上げられます。第1段がSFT、第2段が人間の好みを点数化する報酬モデル作り、第3段がその点数を頼りに強化学習で磨く工程です。その出発点であるSFTの役割は大きく、ただ文章の続きを書くだけだった「素のモデル」を、「聞かれたことに答えるAI」へと変身させます。私たちが感じるAIの素直さや礼儀正しさの土台は、強化学習に入るより前、このお手本を真似る段階で築かれているのです。

SFTに関するよくある質問

SFTと事前学習は何が違いますか?
事前学習は大量の文章から言葉のつながりを幅広く覚える段階です。SFTはその後で、指示と模範回答のペアを真似させ「答え方」を身につけさせる段階で、目的と使うデータが異なります。
SFTとRLHFはどう使い分けますか?
SFTはお手本を真似る段階、RLHFは2つの回答の優劣の比較から人間の好みに合わせる段階です。多くの場合、まずSFTで土台を作り、その後にRLHFやDPOで仕上げる順で行われます。
SFTだけで対話AIは作れますか?
SFTだけでも指示に従って答える形にはできます。ただ実用される多くのモデルは、この後にRLHFやDPOで人間の好みに寄せる仕上げを加えて品質を高めています。

あわせて読みたい記事