拡散モデルとは

拡散モデルとは、砂嵐のようなノイズから少しずつノイズを取り除いて画像を生み出す、生成AIの仕組みのことです。Stable DiffusionDALL·EMidjourneyといった画像生成AIの土台に使われています。

砂嵐から絵を彫り出す

学習では、まず一枚の画像にノイズを少しずつ加え、最後は完全な砂嵐にする手順を覚えさせます。生成のときは、その逆をたどる。ランダムな砂嵐を出発点に、覚えた手順でノイズを少しずつ削り、絵を浮かび上がらせます。彫刻家が石を削って像を取り出すような進め方、と考えると分かりやすいでしょう。同じ画像生成でも、偽造者役と鑑定士役を競わせるGANとは発想が異なります。なお実用的に広まったのは2020年ごろからで、画像生成AIは急に現れた魔法ではありません。

Topic「拡散」という名前の由来

拡散モデルの「拡散」は、もともと物理の言葉です。インクが水の中で広がっていくような、分子が散らばる「拡散」の考え方(非平衡熱力学)を応用したのが始まりでした(2015年ごろ)。絵を描くAIの土台が物理の発想から生まれたというのは、なんとも面白いところです。

拡散モデルに関するよくある質問

拡散モデルとGANは何が違いますか?
どちらも画像を生み出す生成AIですが、拡散モデルは砂嵐のようなノイズを少しずつ削って絵を彫り出すのに対し、GANは偽造者役と鑑定士役を競わせて精度を高めます。発想がまったく異なり、Stable DiffusionやDALL·E、Midjourneyは拡散モデルを土台にしています。
「拡散」という名前の由来は?
もともと物理の言葉です。インクが水の中で広がるような、分子が散らばる「拡散」(非平衡熱力学)の考え方を応用したのが始まりで(2015年ごろ)、実用的に広まったのは2020年ごろから。絵を描くAIの土台が物理の発想から生まれた点が面白いところです。