量子化とは

量子化とは、AIモデルの計算に使う数値の精度をあえて粗くして、モデルを軽く・速くする技術のことです。本来は32ビットで細かく表していた数値を8ビットや4ビットへ丸めることで、必要なメモリや計算量を大きく減らせます。

「数値を粗く丸める」とはどういうことか

イメージは写真の色数を減らすのに近いです。フルカラーの写真を色数の少ない画像に変えても、ぱっと見の印象は大きく崩れませんAIが内部で扱う膨大な数値にも、これと同じように、ある程度まで粗くして差し支えない部分がたくさんあります。たとえば32ビットを8ビットにすれば、単純計算でデータ量はおよそ4分の1に収まります。ただし粗くしすぎると賢さ(精度)が落ちるため、どこまで丸めても実用に耐えるかを見極める調整が欠かせません。小さくすればするほどよい、という話ではないわけです。

大きなモデルを身近なハードで動かす

量子化のおかげで、本来は高価なサーバー向けGPUが要る大規模言語モデルでも、手元のパソコンやスマートフォンで動かしやすくなりました。端末側でAIを動かすエッジAIとも相性がよく、AIを安く・身近にするための土台技術として広く使われています。

Topic「量子化」はもともと音楽CDの言葉だった

量子化という言葉は、本来は音や画像をデジタルにするときの用語です。音楽CDは、なめらかな音の波をごく細かい段階に区切って数値へ置き換えています。この「連続した値を段階に丸める」考え方を、AIが扱う数値にも応用したのが量子化です。最先端の技術に見えて、その発想は私たちが日々触れるデジタル化の歴史と地続きなのです。

量子化に関するよくある質問

数値を粗くするのに、なぜ賢さが大きく落ちないのですか?
写真の色数を減らしても、ぱっと見の印象が大きくは崩れないのと同じで、AIが内部で扱う膨大な数値にも、ある程度まで粗くして差し支えない部分が多いためです。ただし粗くしすぎると精度が落ちるので、どこまで丸めても実用に耐えるかの見極めが要ります。
量子化すると何がうれしいのですか?
必要なメモリや計算量が大きく減ります。たとえば32ビットを8ビットにすればデータ量はおよそ4分の1で、本来は高価なサーバー向けGPUが要る大規模言語モデルでも、手元のパソコンやスマートフォンで動かしやすくなります。
「量子化」という言葉の由来は?
もともとは音や画像をデジタルにするときの用語です。音楽CDがなめらかな音の波を細かい段階に区切って数値へ置き換えるのと同じ「連続した値を段階に丸める」考え方を、AIが扱う数値に応用したものです。