Googleの「Gemini Omni」は、画像、音声、テキストから動画を生成する
3年前、Googleはマルチモーダル大規模言語モデル(テキスト、画像、音声、動画を学習し、これらすべての形式にわたるコンテンツを生成できる統合型ニューラルネットワーク)の開発を目的として、Geminiを発表しました。
本日開催された開発者向けカンファレンス「Google I/O」において、同社はこのビジョンを実現すべく、新たなマルチモーダルモデル群「Gemini Omni」を発表しました。GoogleのCEOであるサンダー・ピチャイ氏は、Omniによってユーザーが「あらゆる入力から何でも作成できるようになる」と述べました。
Omniの当初の焦点は動画です。ユーザーは画像、音声、動画、テキストを組み合わせることが可能になりました。Omniは単にこれらの要素をつなぎ合わせるのではなく、すべてのモダリティを横断してインテリジェントに推論を行い、首尾一貫した出力を生成します。その結果、物理学、文化、歴史、科学に対する理解を示した高品質な動画が生まれます。
またOmniでは、Googleの「Nano Banana」ツールと同様に、複雑なソフトウェアを必要とせず、簡単なテキストコマンドで写真を編集することも可能です。
Googleは既に、テキストや画像を動画に変換し、アバターの演出やカスタマイズを可能にする専用動画モデル「Veo」を提供している。しかし、Google DeepMindのプロダクトマネジメントディレクターであるニコール・ブリヒトヴァ氏は、今回のリリースが単なるVeoのアップデート以上のものだと強調した。「これは、Geminiの知能と当社のメディアモデルのレンダリング機能を融合させるための次のステップです。」
月曜日のメディアブリーフィングで、DeepMindのチーフ・テクノロジストであるコレイ・カヴクチュオグル氏は、次のような例を挙げた。「タンパク質フォールディングのクレイアニメーション解説」というプロンプトを入力すると、Omniは即座にストップモーション動画を生成し、ナレーションで「タンパク質はアミノ酸の鎖として始まります。それらはαヘリックスやβシートと呼ばれる平らな部分のような構造に折りたたまれ、最終的に精密な3次元形状を形成します」と説明した。
Omniの長期的なビジョンはさらに広範で、音声から画像を生成したり、動画から音声を生成したりする機能も包含しています。
「Geminiを初めて発表した際、それは当社初のネイティブ・マルチモーダルAIモデルでした」と、ピチャイ氏はブリーフィングで述べた。「テキスト、コード、音声、画像、動画を組み合わせて学習させることで、世界に対する理解が深まると確信していました。ワールドモデルにより、AIはテキストの予測から現実のシミュレーションへと進化しています。Gemini Omniは、その方向への次のステップです。」
今回のリリースの一環として、ユーザーは自身のデジタルアバターが登場する動画を作成できるようになります。これは、OpenAIが提供していた(現在はサービス終了した)SoraアプリとCameosによって普及した機能です。ブリヒトヴァ氏によると、ディープフェイクを防ぐため、ユーザーは専用のオンボーディングプロセスを完了する必要があります。このプロセスでは、一連の数字を読み上げながら自分の声を録音します。その後、アバターは将来の使用のために保存されます。
さらに、Omniで作成されたすべての動画にはGoogleのSynthIDデジタル透かしが埋め込まれ、ユーザーはコンテンツがGemini製品を使用して生成されたかどうかを確認できるようになります。
このシリーズ初のモデルとなる「Gemini Omni Flash」は、本日、Geminiアプリ、YouTube Shorts、AIクリエイティブスタジオ「Flow」でリリースされる。Flashは10秒間の動画を生成できる。ブリヒトヴァ氏は、この再生時間はモデルの制限ではなく、現在多くのユーザーが短いクリップを好むと予想し、アクセシビリティを広げるための戦略的な決定であると説明した。より長い動画への対応は近い将来に予定されている。
GoogleはOmni Flashを主に一般消費者向けのツールとして位置付けているようだ。TechCrunchとの電話インタビューで、ブリヒトヴァ氏とDeepMindの研究エンジニアであるゲイブ・バース=マロン氏は、アバターのユースケースについて、賞を受賞したり月を訪れたりする自分の動画を作成したり、休暇中の動画の背景から通行人を削除したりするなど、個人的な用途であると説明した。
バース=マロン氏はこれを簡潔にこう要約した。「これらは、いわばパーソナライズされたミームのようなものです」
「私たちは間違いなく、一般ユーザーが簡単に使えるようにすることに重点を置きました」とブリヒトヴァ氏は語った。「動画モデルで一般消費者市場への進出に成功した例は多くありません。これは、私たちがそれを成し遂げようとする試みです。」
この使いやすさには注意点がある。ブリクトヴァ氏とバース=マロン氏は、編集プロンプトを極めて具体的に指定する必要があると指摘した。そうしないと、Omniが過剰に編集したり、ユーザーが残すつもりだった要素を意図せず変更したりする可能性がある。これはNano Bananaのユーザーも直面している課題だ。

画像提供:Google
Omniは当面は一般消費者向けですが、企業やクリエイティブ分野での応用可能性も明らかです。Googleは今後数週間以内にOmniをAPI経由で公開する予定です。すでにShortsで利用可能なこのアバター生成ツールは、コンテンツクリエイターの間で支持を集めると予想されます。さらに広く見れば、エンドツーエンドのマルチモーダルワークフローは、広告や映画制作に革命をもたらす可能性があります。
スタートアップのLuma AIは、独自の「統合」モデルを搭載した同様のエージェント型ツールを開発中であり、企画書と製品画像から広告キャンペーン全体を生成することが可能です。
「実は、このモデルのテキスト生成能力にはかなり自信を持っています。広告のような用途には非常に有用です」とブリヒトヴァ氏は述べた。「プロダクトプレイスメントや、単にスローガンが必要な場合でも、正確性は極めて重要です……映画製作者やその他のクリエイターも、このモデルを採用してくれると確信しています。」
より専門的なユースケースには、すべてのOmniタスクにおいて優れたパフォーマンスを発揮するよう設計された、近日公開予定のOmni Proモデルの方が適しているかもしれない。GoogleはまだPro版のリリース日を発表していないが、ブリヒトヴァ氏は、「Flashを超える大幅な機能の飛躍を達成した時点で」リリースすると示唆した。
関連記事
GoogleフォトがAIを活用し、『クルーレス』の象徴的なクローゼットを再現
Googleフォトは水曜日、AIを活用した新機能を発表した。この機能により、まもなく自分の服の写真をデジタルクローゼットに変換できるようになり、新しいコーディネートを考えたり、バーチャルで試着したりできるようになる。このコンセプトは、映画『クルーレス』に登場するシェールの象徴的なバーチャルワードローブから明らかに着想を得たもので、彼女は何を着るか決める際に、数多くのコーディネートの中から自由に選ん
Google I/O 2026で、Gmailの受信トレイとの音声操作機能が発表された
Googleは引き続き、AIをメール受信トレイに組み込んでいます。火曜日に開催された開発者向けカンファレンス「IO 2026」で、同社はGmailの「AI Inbox」機能を対話型AIで拡張し、ユーザーが検索語句だけに頼るのではなく、受信トレイの内容について質問できるようになりました。Googleによると、Gmail Liveと名付けられたこのGemini AI搭載ツールは、受信トレイの奥深くに埋
Google、インドでChrome向け「Gemini」の提供を開始
水曜日、GoogleはChrome向けGeminiの統合機能を、インド、カナダ、ニュージーランドを含む新たな地域へ拡大すると発表した。この展開により、デスクトップユーザーはサイドバーからGeminiにアクセスできるようになり、画面上のコンテンツについてGoogleのAIチャットボットに質問したり、Gmail、Keep、Drive、YouTubeから情報を取得したり、タブの内容を比較したりすることが
関連特集おすすめ
コメント (0)
0/500
3年前、Googleはマルチモーダル大規模言語モデル(テキスト、画像、音声、動画を学習し、これらすべての形式にわたるコンテンツを生成できる統合型ニューラルネットワーク)の開発を目的として、Geminiを発表しました。
本日開催された開発者向けカンファレンス「Google I/O」において、同社はこのビジョンを実現すべく、新たなマルチモーダルモデル群「Gemini Omni」を発表しました。GoogleのCEOであるサンダー・ピチャイ氏は、Omniによってユーザーが「あらゆる入力から何でも作成できるようになる」と述べました。
Omniの当初の焦点は動画です。ユーザーは画像、音声、動画、テキストを組み合わせることが可能になりました。Omniは単にこれらの要素をつなぎ合わせるのではなく、すべてのモダリティを横断してインテリジェントに推論を行い、首尾一貫した出力を生成します。その結果、物理学、文化、歴史、科学に対する理解を示した高品質な動画が生まれます。
またOmniでは、Googleの「Nano Banana」ツールと同様に、複雑なソフトウェアを必要とせず、簡単なテキストコマンドで写真を編集することも可能です。
Googleは既に、テキストや画像を動画に変換し、アバターの演出やカスタマイズを可能にする専用動画モデル「Veo」を提供している。しかし、Google DeepMindのプロダクトマネジメントディレクターであるニコール・ブリヒトヴァ氏は、今回のリリースが単なるVeoのアップデート以上のものだと強調した。「これは、Geminiの知能と当社のメディアモデルのレンダリング機能を融合させるための次のステップです。」
月曜日のメディアブリーフィングで、DeepMindのチーフ・テクノロジストであるコレイ・カヴクチュオグル氏は、次のような例を挙げた。「タンパク質フォールディングのクレイアニメーション解説」というプロンプトを入力すると、Omniは即座にストップモーション動画を生成し、ナレーションで「タンパク質はアミノ酸の鎖として始まります。それらはαヘリックスやβシートと呼ばれる平らな部分のような構造に折りたたまれ、最終的に精密な3次元形状を形成します」と説明した。
Omniの長期的なビジョンはさらに広範で、音声から画像を生成したり、動画から音声を生成したりする機能も包含しています。
「Geminiを初めて発表した際、それは当社初のネイティブ・マルチモーダルAIモデルでした」と、ピチャイ氏はブリーフィングで述べた。「テキスト、コード、音声、画像、動画を組み合わせて学習させることで、世界に対する理解が深まると確信していました。ワールドモデルにより、AIはテキストの予測から現実のシミュレーションへと進化しています。Gemini Omniは、その方向への次のステップです。」
今回のリリースの一環として、ユーザーは自身のデジタルアバターが登場する動画を作成できるようになります。これは、OpenAIが提供していた(現在はサービス終了した)SoraアプリとCameosによって普及した機能です。ブリヒトヴァ氏によると、ディープフェイクを防ぐため、ユーザーは専用のオンボーディングプロセスを完了する必要があります。このプロセスでは、一連の数字を読み上げながら自分の声を録音します。その後、アバターは将来の使用のために保存されます。
さらに、Omniで作成されたすべての動画にはGoogleのSynthIDデジタル透かしが埋め込まれ、ユーザーはコンテンツがGemini製品を使用して生成されたかどうかを確認できるようになります。
このシリーズ初のモデルとなる「Gemini Omni Flash」は、本日、Geminiアプリ、YouTube Shorts、AIクリエイティブスタジオ「Flow」でリリースされる。Flashは10秒間の動画を生成できる。ブリヒトヴァ氏は、この再生時間はモデルの制限ではなく、現在多くのユーザーが短いクリップを好むと予想し、アクセシビリティを広げるための戦略的な決定であると説明した。より長い動画への対応は近い将来に予定されている。
GoogleはOmni Flashを主に一般消費者向けのツールとして位置付けているようだ。TechCrunchとの電話インタビューで、ブリヒトヴァ氏とDeepMindの研究エンジニアであるゲイブ・バース=マロン氏は、アバターのユースケースについて、賞を受賞したり月を訪れたりする自分の動画を作成したり、休暇中の動画の背景から通行人を削除したりするなど、個人的な用途であると説明した。
バース=マロン氏はこれを簡潔にこう要約した。「これらは、いわばパーソナライズされたミームのようなものです」
「私たちは間違いなく、一般ユーザーが簡単に使えるようにすることに重点を置きました」とブリヒトヴァ氏は語った。「動画モデルで一般消費者市場への進出に成功した例は多くありません。これは、私たちがそれを成し遂げようとする試みです。」
この使いやすさには注意点がある。ブリクトヴァ氏とバース=マロン氏は、編集プロンプトを極めて具体的に指定する必要があると指摘した。そうしないと、Omniが過剰に編集したり、ユーザーが残すつもりだった要素を意図せず変更したりする可能性がある。これはNano Bananaのユーザーも直面している課題だ。

画像提供:Google
Omniは当面は一般消費者向けですが、企業やクリエイティブ分野での応用可能性も明らかです。Googleは今後数週間以内にOmniをAPI経由で公開する予定です。すでにShortsで利用可能なこのアバター生成ツールは、コンテンツクリエイターの間で支持を集めると予想されます。さらに広く見れば、エンドツーエンドのマルチモーダルワークフローは、広告や映画制作に革命をもたらす可能性があります。
スタートアップのLuma AIは、独自の「統合」モデルを搭載した同様のエージェント型ツールを開発中であり、企画書と製品画像から広告キャンペーン全体を生成することが可能です。
「実は、このモデルのテキスト生成能力にはかなり自信を持っています。広告のような用途には非常に有用です」とブリヒトヴァ氏は述べた。「プロダクトプレイスメントや、単にスローガンが必要な場合でも、正確性は極めて重要です……映画製作者やその他のクリエイターも、このモデルを採用してくれると確信しています。」
より専門的なユースケースには、すべてのOmniタスクにおいて優れたパフォーマンスを発揮するよう設計された、近日公開予定のOmni Proモデルの方が適しているかもしれない。GoogleはまだPro版のリリース日を発表していないが、ブリヒトヴァ氏は、「Flashを超える大幅な機能の飛躍を達成した時点で」リリースすると示唆した。
GoogleフォトがAIを活用し、『クルーレス』の象徴的なクローゼットを再現
Googleフォトは水曜日、AIを活用した新機能を発表した。この機能により、まもなく自分の服の写真をデジタルクローゼットに変換できるようになり、新しいコーディネートを考えたり、バーチャルで試着したりできるようになる。このコンセプトは、映画『クルーレス』に登場するシェールの象徴的なバーチャルワードローブから明らかに着想を得たもので、彼女は何を着るか決める際に、数多くのコーディネートの中から自由に選ん
Google I/O 2026で、Gmailの受信トレイとの音声操作機能が発表された
Googleは引き続き、AIをメール受信トレイに組み込んでいます。火曜日に開催された開発者向けカンファレンス「IO 2026」で、同社はGmailの「AI Inbox」機能を対話型AIで拡張し、ユーザーが検索語句だけに頼るのではなく、受信トレイの内容について質問できるようになりました。Googleによると、Gmail Liveと名付けられたこのGemini AI搭載ツールは、受信トレイの奥深くに埋
Google、インドでChrome向け「Gemini」の提供を開始
水曜日、GoogleはChrome向けGeminiの統合機能を、インド、カナダ、ニュージーランドを含む新たな地域へ拡大すると発表した。この展開により、デスクトップユーザーはサイドバーからGeminiにアクセスできるようになり、画面上のコンテンツについてGoogleのAIチャットボットに質問したり、Gmail、Keep、Drive、YouTubeから情報を取得したり、タブの内容を比較したりすることが





家






