拡散トランスフォーマーとは

拡散トランスフォーマーとは、画像生成の拡散モデルTransformer構造を組み合わせる設計です。英語ではDiffusion Transformer、略してDiTと呼ばれます。ノイズから画像を作る拡散モデルの中で、従来よく使われたU-Netではなく、文章AIで発展したTransformerを土台にする考え方です。

英語表記:Diffusion Transformer (DiT)

拡散トランスフォーマーの仕組み

DiT論文では、画像を潜在空間の小さなパッチ、つまり圧縮画像の小片に分け、Transformerで処理する設計が示されています。文章を単語のような単位で扱う発想を、画像の圧縮表現へ持ち込んだ形です。2022年12月の研究で、ChatGPT一般公開と同じ時期に画像生成の土台も急速に変わっていました。

U-Net型との違い

U-Netは画像処理で長く使われてきた構造で、細部を保ちながら画像を作るのに向いていました。拡散トランスフォーマーは、より大きくしたときの伸びやすさに注目します。画像生成モデルを大規模化するため、言語モデル側で磨かれた部品を持ち込む流れの一つです。品質向上だけでなく、スケールのしやすさを見る用語でしょう。

事業で気にする場面

利用者がDiTを直接設定する場面は多くありません。ただ、画像生成や動画生成の品質、速度、費用は、こうした基盤構造の影響を受けます。制作ツールを選ぶときは、機能名だけでなく、生成品質がどのタスクで安定するかを実素材で試すことが大切です。広告、商品、人物、背景で結果が同じとは限りません。

Topic画像も小さなパッチとして扱う

DiT論文のポイントは、画像をそのまま巨大な絵として見るのではなく、latent patches、つまり圧縮画像の小片として扱う点です。文章AIが文章を細かな単位に分けて処理するように、画像生成でも小片を並べて考える発想が使われています。絵を丸ごと眺めるのではなく、扱いやすい札に分ける発想です。

拡散トランスフォーマーに関するよくある質問

拡散トランスフォーマーと拡散モデルは同じですか?
同じではありません。拡散モデルはノイズからデータを作る大きな方式で、拡散トランスフォーマーはその中の骨格にTransformerを使う設計です。
DiTは画像生成サービスの名前ですか?
サービス名ではなく、研究・モデル構造の呼び方です。利用者はツール名として見るより、画像生成や動画生成の裏側にある構造として理解するとよいでしょう。
なぜTransformerを画像生成に使うのですか?
大規模化したときの伸びやすさを期待できるためです。言語モデルで発展したTransformerの考え方を、画像の潜在パッチ処理へ応用しています。

拡散トランスフォーマーに関連する記事