RMSNormとは
RMSNormとは、AIモデルの内部で数値のばらつきを整える「正規化」という処理を、より軽く速くした手法です。正規化は、学習を安定させるための地ならしのようなもの。その地ならしを、本当に必要な部分だけに絞ったのがRMSNormです。
英語表記:Root Mean Square Layer Normalization
何を省いて速くしたのか
もとになったLayerNorm(層正規化)は、数値の「平均そろえ」と「ばらつきそろえ」という二役をこなします。では、何を残せばよいのか。RMSNormは、このうち平均そろえを思い切って省きます。計算が減るぶん、研究では実行時間を約7〜64%短縮できたと報告されました。学習の安定を保ったまま速くできるため、自社でモデルを学習・微調整する企業にはコスト面で効いてきます。2019年に提案され、ChatGPT普及後のMetaのLLaMAなど大規模モデルにも受け継がれました。
Topic「当然」とされた手順が、実は要らなかった
もとの正規化は、二つの調整を両方やって当たり前と長く考えられてきました。RMSNormが示したのは、そのうち片方は無くても成り立つという事実です。当然とされた工程を一つ引き算しただけで、性能を保ったまま速くなった。足すより引くことで前に進んだ、研究らしい一例でしょう。
RMSNormに関するよくある質問
- RMSNormを使うとモデルの精度は下がりませんか?
- 下がりにくいと報告されています。処理を省きながらも、もとのLayerNormと同等の性能を保てたとされ、安定して学習できる点が評価されています。
- RMSNormはどんなモデルで使われていますか?
- 2019年の提案後、MetaのLLaMAをはじめ複数の大規模モデルに採用されています。学習を速く安定させたい場面で、標準的に使われる部品の一つです。