ビジョントランスフォーマーとは

ビジョントランスフォーマーとは、もともと文章の処理用に作られたTransformer(文中の言葉どうしの関係を見渡す仕組み)を、画像の認識に応用したAIモデルです。英語表記はVision Transformer、略してViTとも呼ばれます。画像を小さなマス目に切り分け、それぞれを「単語のようなもの」として扱うのが最大の発想の転換でした。

画像を「16×16のパッチ」に切って言葉のように読む

ViTはまず、1枚の画像を16×16ピクセルほどの正方形のパッチ(小片)に切り分けます。各パッチを数値の並びに変換し、文章でいう単語を並べるように一列に並べてTransformerへ渡す。あとはself-attention(どのパッチとどのパッチが関係し合うかを見る仕組み)が、画像全体を見渡して特徴をつかみます。文章を読むAIに、画像を「絵の単語の列」として読ませていると考えると、仕組みのイメージがつかめるでしょう。

従来の画像AI(CNN)との違いと使い分け

長く画像AIの主役だったのはCNN(畳み込みニューラルネット)で、こちらは近所のピクセルをまとめて見ながら少しずつ全体を把握します。ViTは最初から離れた場所どうしの関係も見渡せるのが強みです。ただしその力を出すには大量の学習データが要る。データが限られる場面ではCNNが有利なこともあり、どちらが常に上というわけではありません。

マルチモーダルAIの土台のひとつ

ViTは画像分類や物体検出、不良品の検知(異常検知)、自動運転などに使われています。さらに重要なのは、文章と画像を同じ土俵で扱える点です。文章用のTransformerと相性がよいため、画像も読み取れる生成AI(マルチモーダルAI)を作るうえでの基礎部品になっています。原論文は2020年10月に公開され、ChatGPTの一般公開(2022年11月30日)より前の成果です。画像AIの主役がCNN一辺倒だった流れを変えた転換点と言えるでしょう。

Topic論文タイトルは、あのことわざのもじりだった

ViTを世に出した論文の題名は「An Image is Worth 16×16 Words(1枚の画像は16×16個の単語に値する)」。これは「百聞は一見にしかず」にあたる英語のことわざ “A picture is worth a thousand words” をもじったものです。画像を16×16のパッチ=単語のように扱うというアイデアそのものを、タイトルの言葉遊びに込めていました。

ビジョントランスフォーマーに関するよくある質問

CNNとVision Transformerは、どちらを使えばよいですか?
扱えるデータ量で変わります。大量の画像データがあるならVision Transformerが力を発揮しやすく、データが限られる場面では従来のCNNが手堅いことも多くあります。どちらかが常に上というわけではありません。
ViTという略称は何の頭文字ですか?
Vision Transformerの頭文字でViTと書きます。論文や技術記事ではこの略称で呼ばれることが一般的です。
自社で使うには、ゼロから学習させる必要がありますか?
通常は不要です。大量のデータで学習済みのモデルが公開されており、それを自社の画像で微調整して使うのが一般的です。ゼロからの学習には大規模なデータと計算資源が要ります。

あわせて読みたい記事