Stable Diffusion(ステーブルディフュージョン)とは
Stable Diffusionとは、文章での指示から画像を作り出す画像生成AIのモデルで、2022年8月にドイツの大学の研究などから生まれました。最大の特徴は、仕組みもモデル本体も無償で一般公開されていること。DALL·EやMidjourneyのように専用サービスへ会員登録して使うのではなく、誰でも自分のパソコンに導入して動かせます。
ノイズから絵を立ち上げる仕組み
Stable Diffusionが使うのは拡散モデルと呼ばれる方式です。最初は砂嵐のようなランダムな点の集まりを用意し、文章の指示に沿って少しずつノイズを取り除き、絵を浮かび上がらせていきます。膨大な「画像とその説明文」の組み合わせから学んだ知識をもとに、指示に合う絵を組み立てる流れ。彫刻家が石を削って形を出すように、ぼんやりした状態から輪郭を整えていくイメージで捉えるとわかりやすいでしょう。
DALL·EやMidjourneyとの違い
同じ画像生成AIでも、提供のされ方が大きく異なります。DALL·EやMidjourneyは、運営会社のサーバー上で動くサービスです。利用者はブラウザやアプリから指示を送るだけで、AI本体には触れません。一方のStable Diffusionは、AIが学習で身につけた設定値(重み)まで公開しているため、手元のグラフィックボード付きパソコンで無料で動かしたり、自分好みに改造したりできます。この開放性が、世界中で派生ツールが一気に増えるきっかけになりました。
ビジネスでは、社内に閉じた環境で画像を作りたい場合や、独自の作風へ作り替えて使いたい場合に向いています。ただし生成物の著作権や商用利用の条件、学習データをめぐる議論もあるため、業務に使う際は利用規約と権利関係の確認が欠かせません。
Topicデータセンターがなくても、ゲーミングPCで動く
巨大なAIは、ふつう企業の大規模なサーバー(データセンター)でしか動かせないイメージがあります。ところがStable Diffusionの最適化版は、家庭用のグラフィックボード(最小で2.4GBほどのメモリ)でも動くよう設計されました。公開は2022年8月22日で、ChatGPTが広まる数カ月前のこと。「重み」を公開して個人に開放したこの一手が、専門家でなくても画像生成を手元で回せる時代の引き金になりました。
Stable Diffusionに関するよくある質問
- Stable Diffusionは自分のパソコンで動かせるのですか?
- 動かせます。DALL·EやMidjourneyが運営会社のサーバー上で動くのに対し、Stable Diffusionは学習で身につけた重みまで無償公開しているため、家庭用のグラフィックボード付きPC(最適化版は最小で2.4GBほどのメモリ)でも動かせます。2022年8月のこの開放が、専門家でなくても画像生成を手元で回せる時代の引き金になりました。
- DALL·EやMidjourneyとの違いは?
- DALL·EやMidjourneyは運営会社のサーバー上で動くサービスで、利用者はAI本体に触れません。Stable Diffusionは学習で身につけた重みまで公開しているため、手元のパソコンで無料で動かしたり、自分好みに改造したりできます。この開放性が、世界中で派生ツールが一気に増えるきっかけになりました。
- どんな仕組みで画像を作るのですか?
- 拡散モデルと呼ばれる方式です。最初は砂嵐のようなランダムな点の集まりから、文章の指示に沿って少しずつノイズを取り除き、絵を浮かび上がらせていきます。