AWQ(エーダブリューキュー)とは

AWQとは、大規模言語モデル(LLM)を4ビット前後まで圧縮しても、精度の低下をできるだけ抑えることを狙った量子化の手法です。量子化で悩ましいのは、軽くするほど答えの質が崩れやすいこと。AWQは、その崩れを小さく食い止める工夫を持ち込みました。

英語表記:Activation-aware Weight Quantization

「流れるデータ」に注目する仕組み

AWQの肝は、すべての重みを横並びに扱わない点です。論文によれば、全体のわずか1%ほどの「重要な重み」を守るだけで、圧縮による誤差は大きく減るといいます。では、その大事な1%をどう見抜くのか。重みそのものの大きさではなく、そこを通るデータ(活性化)の大きさを手がかりに選びます。よく使われる通り道を優先して守る、という発想でしょう。

手元の端末で動かせるようにする

精度を保ったまま小さくできると、スマートフォンのような小さな端末でも大きめのモデルを動かせるようになります。実際、研究では700億パラメータ級のモデルをモバイル上で動かせたと報告されました。クラウドに送らず手元で処理できれば、通信の遅れや社外への情報持ち出しの心配を減らせます。どこでAIの計算を走らせるか、その選択肢を広げる技術と言えるでしょう。

Topic軽量化の研究は、ひとつの研究室から芋づる式に

AWQはMLSys 2024という国際会議で最優秀論文に選ばれた注目の手法です。さらに面白いのは、同じバッチで扱うSmoothQuantなど別の効率化手法も、AWQと同じ研究グループ(MITのSong Han氏らのチーム)から相次いで生まれている点。AIを軽く速くする工夫は、一つの源流から枝分かれして広がってきました。

AWQに関するよくある質問

AWQとGPTQは何が違いますか?
どちらも学習後の重みを4ビット前後へ圧縮する手法ですが、AWQは「流れるデータ(活性化)の大きさ」を見て守る重みを選ぶ点が特徴です。対応ツールや精度・速度の傾向が異なるため、使う環境に合わせて選びます。
AWQを使うとモデルは賢くなりますか?
いいえ。AWQは賢さを足す技術ではなく、既存のモデルを精度をできるだけ保ったまま軽くする技術です。性能の底上げではなく、動かす効率を上げる役割だと考えてください。
AWQは今も使われていますか?
はい。2023年に提案されて以降、4ビット量子化の代表的な選択肢の一つとして広く使われています。オープンなモデルを効率よく動かす実行ツールに組み込まれています。

あわせて読みたい記事