潜在拡散モデルとは

潜在拡散モデルとは、画像をそのまま処理せず、圧縮された潜在空間でノイズ除去を進める画像生成モデルです。英語ではLatent Diffusion Model、略してLDMと呼ばれます。潜在空間は、画像を小さく扱うための圧縮された作業場所のようなもの。大きな写真を原寸で何度も直す代わりに、下描きの設計図を軽く直してから画像へ戻す考え方です。

英語表記:Latent Diffusion Model (LDM)

潜在拡散モデルの仕組み

拡散モデルは、ノイズから少しずつ画像を作る方式です。潜在拡散モデルでは、まず画像を圧縮・復元する部品であるautoencoderで小さくし、その潜在表現の中で生成処理を行います。ピクセルの大きなキャンバスではなく、軽い設計図の上で作業するため、高解像度画像の生成コストを抑えやすい構造です。

通常の拡散モデルとの違い

通常の拡散モデルは画像のピクセル空間で直接処理する場合があります。潜在拡散モデルは、圧縮表現で処理してから画像へ戻すため、計算量と画質の折り合いを取りやすい設計です。高解像度の画像生成を現実的な計算量へ近づけた点が大きな意味を持ちます。画像生成AIが身近になった背景の一つ。

制作現場での意味

広告、LP、SNS素材、商品ビジュアルなどで画像生成AIを使う場合、裏側では画質、速度、費用の折り合いが課題です。潜在拡散モデルはその基盤理解に役立ちます。なぜ画像生成が急に身近になったのかを説明する技術の一つ。制作ツール選定では、画質だけでなく生成待ち時間や修正回数にも目を向けたいところでしょう。

Topicテキストだけでなく枠も条件にできる設計だった

潜在拡散モデルの論文では、文章と画像を照らし合わせる仕組みであるcross-attentionによって、テキストやbounding boxes、つまり位置を示す枠などの条件入力を扱えると説明されています。画像生成AIが「文章から絵を作る」だけでなく、この位置にこの対象を置くという制御へ広がる下地も含んでいました。

潜在拡散モデルに関するよくある質問

潜在拡散モデルとStable Diffusionは同じですか?
同じ名前ではありませんが、Stable Diffusionのような画像生成モデルを理解するうえで重要な考え方です。潜在空間で拡散処理を行い、高解像度生成の計算負荷を抑える発想です。
潜在空間とは何ですか?
画像をそのままのピクセルではなく、特徴を圧縮した内部表現として持つ場所です。細部を全部持つ写真ではなく、再構成に必要な要点をまとめた設計図に近いものです。
潜在拡散モデルは画質を落とす方法ですか?
単純に画質を落とす方法ではありません。圧縮表現で計算を軽くしながら、必要な細部を保つ折り合いを取る設計です。

あわせて読みたい記事