CLIP(クリップ)とは

CLIPとは、OpenAIが2021年に公開した、画像とテキストを同じ「意味の空間」に対応づけて学習するAIです。正式名称はContrastive Language-Image Pre-training(対照的な言語と画像の事前学習)。膨大な「画像とその説明文」の組み合わせから、どの説明文がどの画像に合うかを学ぶことで、追加の訓練なしに画像を見分けられるのが特徴です。

CLIPの仕組み

CLIPは、画像を読み取るAIと、文章を読み取るAIの2つを同時に訓練します。そのとき、「同じ意味の画像と文章は近くに、関係ないものは遠くに置く」ように学ばせるのがポイントです。これにより、犬の写真と「犬」という言葉が、AIの中で近い位置に並ぶようになります。学習に使ったのは、インターネットから集めたおよそ4億組もの画像と文章のペアでした。この巨大な学習のおかげで、CLIPは初めて見る画像でも「これは何を表す言葉に近いか」を判断でき、あらかじめ専用に訓練しなくても分類できる「ゼロショット」を実現しています。ゼロショットは魔法ではなく、膨大なデータで意味を覚えた結果だと捉えると正確です。

画像を「作る」AIとの違い

CLIP自体は、絵を描くAIではありません。あくまで画像と言葉の意味を結びつけて「理解・照合」する側モデルです。ただし、その言葉を理解する力が買われ、DALL·EStable Diffusionといった画像生成AIが、入力された文章の意味をくみ取る部分にCLIPの考え方を取り入れました。いわば、画像を生み出すAIの裏方として土台を支えた存在です。なお公開は2021年で、ChatGPTが広く使われ始めた2022年11月より前のこと。「AI=ChatGPT」という印象より早い時期に、画像と言葉をつなぐ基盤づくりが進んでいたわけです。

Topic定番データを1枚も使わずに、定番モデルに並んだ

画像認識の世界には、ImageNetという有名な練習問題集(約128万枚の画像)があり、それを使って鍛えたResNet-50というモデルが長く定番でした。OpenAIの研究によれば、CLIPはそのImageNetの訓練画像を1枚も使わずに、ResNet-50と肩を並べる精度で画像を当てて見せたといいます。「正解ラベル付きのデータで覚え込ませる」という当時の常識に、別のやり方でも届くと示した一例として注目されました。

CLIPに関するよくある質問

CLIPは画像を作るAIですか?
いいえ。CLIP自体は絵を描くAIではなく、画像と言葉の意味を結びつけて「理解・照合」する側のモデルです。ただしその言葉を理解する力が買われ、DALL·EやStable Diffusionが入力文の意味をくみ取る部分にCLIPの考え方を取り入れ、画像生成AIの裏方として土台を支えました。
なぜ専用に訓練しなくても画像を分類できるのですか?
インターネットから集めた約4億組の「画像と説明文」のペアで、「同じ意味の画像と文章は近くに、関係ないものは遠くに置く」よう学んだためです。これにより初めて見る画像でも「どの言葉に近いか」を判断でき、追加訓練なしの分類(ゼロショット)ができます。ゼロショットは魔法ではなく、膨大なデータで意味を覚えた結果です。
CLIPはどれくらいすごかったのですか?
画像認識の定番だったResNet-50は、ImageNetという約128万枚の練習用データで鍛えられていました。OpenAIによれば、CLIPはそのImageNetの訓練画像を1枚も使わずに、ResNet-50と肩を並べる精度で画像を当てたといいます。「正解ラベル付きデータで覚え込ませる」当時の常識に、別のやり方でも届くと示した一例です。