VAEとは

VAEとは、データの特徴を「潜在空間」と呼ばれる圧縮された空間にいったん落とし込み、そこから元に似たデータを作り直す生成モデルの一種です。変分オートエンコーダ(Variational Autoencoder)の略で、2013年にDiederik KingmaとMax Wellingが提唱しました。ChatGPTが広く知られるようになる2022年よりずっと前から、画像をつくる土台技術として研究されてきた、息の長い手法です。

仕組みとGANとの違い

VAEは、入力を1つの点ではなく「確率的な分布」として圧縮するのが特徴です。データを圧縮するエンコーダと、そこから復元するデコーダ、この2段構えが基本の形になります。同じ生成モデルでも、生成役と判定役を競わせるGANとは、データの作り方の発想が違う点もおもしろいところです。

今も使われている場所

発表から10年以上が経ちますが、VAEはいまも現役の部品として生き続けています。画像生成で知られるStable Diffusionは、VAE・U-Net・テキストエンコーダの3つで構成され、VAEが画像を潜在空間へ圧縮・復元する役割を担う重要なパーツ。重い処理を圧縮した空間で行うことで、家庭用のパソコンでも画像生成を動かせるようにした立役者の一つといえるでしょう。

Topic同じ人があの「Adam」も作った

VAEを考案したDiederik Kingmaは、その翌年の2014年に、Jimmy Baと最適化手法「Adam」も発表しています。Adamは深層学習訓練で最も広く使われるオプティマイザの一つで、名前は「Adaptive Moment Estimation(適応的モーメント推定)」の頭文字をとったもの。生成モデルと学習の効率化、その両方で定番を生んだ研究者です。

VAEに関するよくある質問

GANとは何が違うのですか?
どちらも生成モデルですが、データの作り方の発想が違います。VAEは入力を「確率的な分布」として圧縮し、エンコーダとデコーダの2段構えで復元します。一方GANは、生成役と判定役を競わせて本物らしいデータを作ります。
古い技術なのに今も使われているのですか?
2013年提唱と息は長いですが、今も現役の部品です。画像生成で知られるStable DiffusionはVAE・U-Net・テキストエンコーダの3つで構成され、VAEが画像を潜在空間へ圧縮・復元します。重い処理を圧縮した空間で行うことで、家庭用パソコンでも画像生成を動かせるようにした立役者の一つです。