知識蒸留とは
知識蒸留とは、大きな「教師」モデルが学んだ知識を、小さな「生徒」モデルに移す技術です。英語ではKnowledge Distillationといいます。大きなモデルの賢さをできるだけ保ったまま、軽くて速く、安く動くモデルを作るのが狙いです。
どういう仕組みか
ポイントは、生徒モデルが教師モデルの「迷い具合」まで教わるところにあります。たとえば写真を見分けるとき、教師は「90%は猫、でも8%は犬かも」といった確からしさの分布を出します。生徒はこの正解だけでないニュアンスから学ぶため、正解ラベルだけを丸暗記するより、ものごとの見分け方を上手につかめるのです。こうしてできた小さなモデルは、スマートフォンのような非力な機器でも動かせます。
何の役に立つのか
巨大なAIモデルは賢い一方、動かすには高価な計算資源が必要です。知識蒸留を使えば、性能を大きく落とさずに軽量なモデルへ作り変えられるため、運用コストを下げたり、手元の端末で動かしたりできます。中国のDeepSeekも、高性能モデルの知識を小型モデルに蒸留して公開し、注目を集めました。経営の視点では、AIを安く・身近に使うための代表的な工夫といえるでしょう。
Topic「蒸留」という名前はお酒から
「蒸留」という言葉は、お酒づくりの蒸留になぞらえたものです。原料を熱して大事な成分だけを取り出すように、巨大なモデルが学んだ知識の”エキス”だけを小さなモデルに移すイメージから来ています。面白いのは、教師が出す「正解そのもの」だけでなく「どれくらい迷ったか」まで生徒に伝える点。正解だけを暗記させるより、かえって賢く育つのです。
知識蒸留に関するよくある質問
- 知識蒸留は何のために行うのですか?
- 大きなモデルは賢い一方、動かすには高価な計算資源が要ります。知識蒸留を使えば性能を大きく落とさずに軽量なモデルへ作り変えられるため、運用コストを下げたり、スマートフォンのような手元の端末で動かしたりできます。中国のDeepSeekも、高性能モデルの知識を小型モデルに蒸留して公開し注目されました。
- なぜ正解を直接学ばせるより賢く育つのですか?
- 生徒モデルが教師モデルの「迷い具合」まで教わるからです。教師は「90%は猫、でも8%は犬かも」といった確からしさの分布を出し、生徒は正解だけでないニュアンスから学ぶため、正解ラベルだけを丸暗記するより、ものごとの見分け方を上手につかめます。
- 「蒸留」という名前の由来は?
- お酒づくりの蒸留になぞらえたものです。原料を熱して大事な成分だけを取り出すように、巨大なモデルが学んだ知識の「エキス」だけを小さなモデルに移すイメージから来ています。