Gemini Omni(ジェミニオムニ)とは

Gemini Omniとは、Googleの、あらゆる入力からコンテンツを生成・編集できるマルチモーダルモデルです。テキスト・音声・動画を自由に組み合わせて指示でき、まずは動画の生成から提供が始まりました。Geminiが持つ現実世界の知識をもとに、会話しながら動画を作り込めるのが特徴です。

何ができるのか

大きな特徴は、画像・音声・動画・テキストなど、どんな組み合わせの入力からでも動画を作れる点です。しかも一度作った動画は、チャットで「ここをこう変えて」と話しかけて手直しできます。指示は前の指示に積み重なるので、登場人物や照明、物の位置といった一貫性も崩れません。作られた動画には、AI製だと分かる目に見えない電子透かし(SynthID)が埋め込まれます。

どんな立ち位置か

Gemini Omniは、Googleの動画生成AIの新しい主力です。最初の版「Gemini Omni Flash」は2026年5月のGoogle I/O 2026で提供が始まりました。Geminiアプリのほか、動画制作ツールのGoogle FlowやYouTube Shortsなどから使えます。文章や画像だけでなく動画までを会話で作れるようになったことは、生成AIの表現の幅がさらに広がったことを示しています。

Topic「Omni」は「全方位」という意味

名前の「Omni」は、ラテン語で「全方位・あらゆる」を意味する言葉です。テキストでも音声でも動画でも、どんな組み合わせの入力からでも生成できるという狙いを表しています。実はOpenAIGPT-4oの末尾の「o」も同じomni(全方位)から来ており、各社が「あらゆる形式を一つのモデルで扱う」ことを競い合っている様子がうかがえます。

Gemini Omniに関するよくある質問

Gemini Omniは何ができるのですか?
画像・音声・動画・テキストなど、どんな組み合わせの入力からでも動画を作れます。一度作った動画はチャットで「ここをこう変えて」と話しかけて手直しでき、指示が積み重なるので登場人物や照明、物の位置の一貫性も崩れません。作られた動画にはAI製だと分かる電子透かし(SynthID)が埋め込まれます。
「Omni」という名前にはどんな意味がありますか?
ラテン語で「全方位・あらゆる」を意味し、どんな組み合わせの入力からでも生成できる狙いを表します。実はOpenAIのGPT-4oの末尾の「o」も同じomniから来ており、各社が「あらゆる形式を一つのモデルで扱う」ことを競い合っている様子がうかがえます。
Gemini Omniは今どこで使えますか?
最初の版「Gemini Omni Flash」が2026年5月のGoogle I/O 2026で提供開始されました。Geminiアプリのほか、動画制作ツールのGoogle FlowやYouTube Shortsなどから使え、Googleの動画生成AIの新しい主力という位置づけです。