ユニモーダルとは

ユニモーダルとは、テキストだけ、あるいは画像だけというように、1種類のデータ(モダリティ)だけを扱うAIモデルのことです。複数の種類をまとめて扱うマルチモーダルと対になる言葉で、「uni(1つ)」がその名のとおり単一であることを表しています。

モダリティという考え方

ここでいうモダリティとは、情報の種類やチャネルのこと。テキスト・画像・音声・動画などが、それぞれ別のモダリティにあたります。文章だけを読み書きする言語モデルや、画像だけを見分ける画像認識のモデルは、1種類しか扱わないユニモーダルの代表例といえるでしょう。

マルチモーダルとの違い

違いは、扱える種類の数にあります。ユニモーダルが1種類、マルチモーダルが複数種類を同時に統合して扱います。初期の多くのAIはユニモーダルでしたが、GPT-4o(2024年5月公開)やGeminiのように、文章と画像と音声をまたいで扱えるマルチモーダルが広がってきました。ただしユニモーダルが劣るという意味ではなく、用途が1種類なら専用に作るほうが軽くて十分なこともあります。

ビジネスでの使われ方

実務では、用途に応じた使い分けが肝心です。文字起こしだけ、画像分類だけといった単機能ならユニモーダルで軽く済み、写真を見せて声で質問するような複合的なやりとりが要る場面ではマルチモーダルが向きます。やりたいことが1種類で足りるかどうかが、選び方の目安になります。

Topic見ると聞こえ方が変わる「マガーク効果」

人間の知覚は、そもそも複数の感覚を同時に使うマルチモーダルです。それを示す有名な現象が「マガーク効果」。口が「ガ」と動く映像を見ながら音声の「バ」を聞くと、多くの人には第三の音「ダ」に聞こえてしまうというものです。1976年に報告され、しかも乳児研究の吹き替え作業中に偶然見つかりました。見ることが聞こえ方まで変えてしまうこの不思議は、1種類だけを扱うユニモーダルAIが、人間ほど柔軟になりきれない理由を物語っています。

ユニモーダルに関するよくある質問

マルチモーダルとは何が違うのですか?
扱える種類の数が違います。ユニモーダルはテキストだけ・画像だけのように1種類(モダリティ)を扱い、マルチモーダルは文章・画像・音声などを同時に統合して扱います。GPT-4o(2024年5月公開)やGeminiが後者の例です。
ユニモーダルはマルチモーダルより劣るのですか?
いいえ。用途が1種類で足りるなら、専用に作るユニモーダルのほうが軽くて十分なこともあります。文字起こしだけ・画像分類だけなら軽く済み、写真を見せて声で質問するような複合的なやりとりにはマルチモーダルが向く、という使い分けです。
人間の知覚もユニモーダルなのですか?
いいえ、人間は複数の感覚を同時に使うマルチモーダルです。口が「ガ」と動く映像を見ながら音声の「バ」を聞くと第三の音「ダ」に聞こえる「マガーク効果」(1976年報告)がその例で、見ることが聞こえ方まで変えてしまいます。1種類だけ扱うユニモーダルAIが人間ほど柔軟になりきれない理由を物語ります。