GPTQ(ジーピーティーキュー)とは

GPTQとは、学習を終えた大規模言語モデル(LLM)の重みを3〜4ビットまで小さく圧縮し、少ないGPUメモリで動かせるようにする量子化の手法です。モデルの中身を高精細な写真から軽い圧縮画像へ作り替えるようなイメージで、見た目をほぼ保ったままデータ量を大きく削ります。2022年に論文で発表されました。

GPTQの仕組み

もとのモデルは、各重みを32ビットや16ビットといった細かい数値で持っています。GPTQはこの一つひとつを3〜4ビットの粗い数値へ置き換える手法です。ただし、雑に丸めるわけではありません。置き換えで生じる誤差が出力に響きにくいよう、重み同士の影響の度合い(数学的には二次情報と呼ぶ手がかり)を見ながら、順番に決めていきます。

大きな特徴は、再学習がいらないことです。少量の見本データを通すだけで変換でき、1750億パラメータの巨大モデルでも約4時間ほど(GPU1台)で量子化できると報告されています。精度の落ち込みもわずか、と評価されました。

同じGPUで、より大きなモデルを動かす

経営の視点で効くのは、必要なGPUの数や容量を減らせる点でしょう。論文では、本来は複数台が要る1750億規模のモデルを、1台のGPUに載せて動かせたと示されています。自社のサーバーやクラウドでLLMを動かす企業にとって、量子化は計算機の調達費用と電力を抑える現実的な打ち手。では何を引き換えに差し出すのか。賢さを少し落とす代わりに、動かしやすさと費用を優先したい場面で選ばれます。

Topic名前の「GPT」はOpenAIの製品という意味ではない

GPTQという名前を見ると、ChatGPTで知られるOpenAIの製品だと早合点しがちです。ところがGPTQは、研究者が論文で発表した汎用の圧縮手法。頭の「GPT」は特定企業の製品ではなく、論文タイトルにある通り「GPT型の生成モデル全般」を量子化対象にする、という意味で付いています。だから他社製のオープンなモデルにも広く使えます。

GPTQに関するよくある質問

GPTQと他の量子化手法は何が違いますか?
GPTQは学習後の重みだけを低ビット化する手法の一つです。活性化の大きさに注目するAWQなど別方式もあり、対応する実行ツールや速度・精度の傾向が異なります。使う環境や用途に合わせて選びます。
量子化するとモデルの精度は落ちますか?
わずかには落ちます。ただGPTQは誤差を抑える工夫があり、3〜4ビットでも低下を小さくします。どの程度かはモデルやタスクで変わるため、自社の用途で試して確かめるのが安全です。
GPTQは今でも使われていますか?
はい。2022年の登場後も、オープンなモデルを手元やサーバーで軽く動かすための標準的な選択肢の一つとして使われています。後発のAWQなどと並んで利用されています。

あわせて読みたい記事