Googleの「Gemini Omni」は、画像、音声、テキストから動画を生成する

家

ニュース

2026年5月26日

EmmaJohnson

# Google # veo # google io 2026 # google gemini omni # gemini omni flash

3年前、Googleはマルチモーダル大規模言語モデル（テキスト、画像、音声、動画を学習し、これらすべての形式にわたるコンテンツを生成できる統合型ニューラルネットワーク）の開発を目的として、Geminiを発表しました。

本日開催された開発者向けカンファレンス「Google I/O」において、同社はこのビジョンを実現すべく、新たなマルチモーダルモデル群「Gemini Omni」を発表しました。GoogleのCEOであるサンダー・ピチャイ氏は、Omniによってユーザーが「あらゆる入力から何でも作成できるようになる」と述べました。

Omniの当初の焦点は動画です。ユーザーは画像、音声、動画、テキストを組み合わせることが可能になりました。Omniは単にこれらの要素をつなぎ合わせるのではなく、すべてのモダリティを横断してインテリジェントに推論を行い、首尾一貫した出力を生成します。その結果、物理学、文化、歴史、科学に対する理解を示した高品質な動画が生まれます。

またOmniでは、Googleの「Nano Banana」ツールと同様に、複雑なソフトウェアを必要とせず、簡単なテキストコマンドで写真を編集することも可能です。

Googleは既に、テキストや画像を動画に変換し、アバターの演出やカスタマイズを可能にする専用動画モデル「Veo」を提供している。しかし、Google DeepMindのプロダクトマネジメントディレクターであるニコール・ブリヒトヴァ氏は、今回のリリースが単なるVeoのアップデート以上のものだと強調した。「これは、Geminiの知能と当社のメディアモデルのレンダリング機能を融合させるための次のステップです。」

月曜日のメディアブリーフィングで、DeepMindのチーフ・テクノロジストであるコレイ・カヴクチュオグル氏は、次のような例を挙げた。「タンパク質フォールディングのクレイアニメーション解説」というプロンプトを入力すると、Omniは即座にストップモーション動画を生成し、ナレーションで「タンパク質はアミノ酸の鎖として始まります。それらはαヘリックスやβシートと呼ばれる平らな部分のような構造に折りたたまれ、最終的に精密な3次元形状を形成します」と説明した。

Omniの長期的なビジョンはさらに広範で、音声から画像を生成したり、動画から音声を生成したりする機能も包含しています。

「Geminiを初めて発表した際、それは当社初のネイティブ・マルチモーダルAIモデルでした」と、ピチャイ氏はブリーフィングで述べた。「テキスト、コード、音声、画像、動画を組み合わせて学習させることで、世界に対する理解が深まると確信していました。ワールドモデルにより、AIはテキストの予測から現実のシミュレーションへと進化しています。Gemini Omniは、その方向への次のステップです。」

今回のリリースの一環として、ユーザーは自身のデジタルアバターが登場する動画を作成できるようになります。これは、OpenAIが提供していた（現在はサービス終了した）SoraアプリとCameosによって普及した機能です。ブリヒトヴァ氏によると、ディープフェイクを防ぐため、ユーザーは専用のオンボーディングプロセスを完了する必要があります。このプロセスでは、一連の数字を読み上げながら自分の声を録音します。その後、アバターは将来の使用のために保存されます。

さらに、Omniで作成されたすべての動画にはGoogleのSynthIDデジタル透かしが埋め込まれ、ユーザーはコンテンツがGemini製品を使用して生成されたかどうかを確認できるようになります。

このシリーズ初のモデルとなる「Gemini Omni Flash」は、本日、Geminiアプリ、YouTube Shorts、AIクリエイティブスタジオ「Flow」でリリースされる。Flashは10秒間の動画を生成できる。ブリヒトヴァ氏は、この再生時間はモデルの制限ではなく、現在多くのユーザーが短いクリップを好むと予想し、アクセシビリティを広げるための戦略的な決定であると説明した。より長い動画への対応は近い将来に予定されている。

GoogleはOmni Flashを主に一般消費者向けのツールとして位置付けているようだ。TechCrunchとの電話インタビューで、ブリヒトヴァ氏とDeepMindの研究エンジニアであるゲイブ・バース＝マロン氏は、アバターのユースケースについて、賞を受賞したり月を訪れたりする自分の動画を作成したり、休暇中の動画の背景から通行人を削除したりするなど、個人的な用途であると説明した。

バース＝マロン氏はこれを簡潔にこう要約した。「これらは、いわばパーソナライズされたミームのようなものです」

「私たちは間違いなく、一般ユーザーが簡単に使えるようにすることに重点を置きました」とブリヒトヴァ氏は語った。「動画モデルで一般消費者市場への進出に成功した例は多くありません。これは、私たちがそれを成し遂げようとする試みです。」

この使いやすさには注意点がある。ブリクトヴァ氏とバース＝マロン氏は、編集プロンプトを極めて具体的に指定する必要があると指摘した。そうしないと、Omniが過剰に編集したり、ユーザーが残すつもりだった要素を意図せず変更したりする可能性がある。これはNano Bananaのユーザーも直面している課題だ。

Googleの「Gemini Omni」は、画像、音声、テキストを動画に変換します。そして、これはまだ始まりに過ぎません

画像提供：Google

Omniは当面は一般消費者向けですが、企業やクリエイティブ分野での応用可能性も明らかです。Googleは今後数週間以内にOmniをAPI経由で公開する予定です。すでにShortsで利用可能なこのアバター生成ツールは、コンテンツクリエイターの間で支持を集めると予想されます。さらに広く見れば、エンドツーエンドのマルチモーダルワークフローは、広告や映画制作に革命をもたらす可能性があります。

スタートアップのLuma AIは、独自の「統合」モデルを搭載した同様のエージェント型ツールを開発中であり、企画書と製品画像から広告キャンペーン全体を生成することが可能です。

「実は、このモデルのテキスト生成能力にはかなり自信を持っています。広告のような用途には非常に有用です」とブリヒトヴァ氏は述べた。「プロダクトプレイスメントや、単にスローガンが必要な場合でも、正確性は極めて重要です……映画製作者やその他のクリエイターも、このモデルを採用してくれると確信しています。」

より専門的なユースケースには、すべてのOmniタスクにおいて優れたパフォーマンスを発揮するよう設計された、近日公開予定のOmni Proモデルの方が適しているかもしれない。GoogleはまだPro版のリリース日を発表していないが、ブリヒトヴァ氏は、「Flashを超える大幅な機能の飛躍を達成した時点で」リリースすると示唆した。

GoogleフォトがAIを活用し、『クルーレス』の象徴的なクローゼットを再現 Googleフォトは水曜日、AIを活用した新機能を発表した。この機能により、まもなく自分の服の写真をデジタルクローゼットに変換できるようになり、新しいコーディネートを考えたり、バーチャルで試着したりできるようになる。このコンセプトは、映画『クルーレス』に登場するシェールの象徴的なバーチャルワードローブから明らかに着想を得たもので、彼女は何を着るか決める際に、数多くのコーディネートの中から自由に選ん

Google I/O 2026で、Gmailの受信トレイとの音声操作機能が発表された Googleは引き続き、AIをメール受信トレイに組み込んでいます。火曜日に開催された開発者向けカンファレンス「IO 2026」で、同社はGmailの「AI Inbox」機能を対話型AIで拡張し、ユーザーが検索語句だけに頼るのではなく、受信トレイの内容について質問できるようになりました。Googleによると、Gmail Liveと名付けられたこのGemini AI搭載ツールは、受信トレイの奥深くに埋

Google、インドでChrome向け「Gemini」の提供を開始水曜日、GoogleはChrome向けGeminiの統合機能を、インド、カナダ、ニュージーランドを含む新たな地域へ拡大すると発表した。この展開により、デスクトップユーザーはサイドバーからGeminiにアクセスできるようになり、画面上のコンテンツについてGoogleのAIチャットボットに質問したり、Gmail、Keep、Drive、YouTubeから情報を取得したり、タブの内容を比較したりすることが

関連特集おすすめ

動画作成

脚本作成とビジュアルストーリーテリングに最適なAIテキスト・トゥ・ビデオ・プラットフォーム

2026年最新・最高のAIテキストから動画生成プラットフォーム：脚本作成やビジュアルストーリーテリングに最適なツールをご紹介。テキストを魅力的な動画に変える、画期的なソリューションをご覧ください。毎週更新されるランキングと実地テストに基づき、無料版と有料版の比較も可能です。創造性と生産性を高める、あなたにぴったりのプラットフォームを見つけましょう。XIX.AIで厳選されたラインナップをご覧ください。

10 ツール

xix.ai

チャットボット

AIマルチエージェントオーケストレーター：自然言語を通じて複雑な自動化ワークフローを設計する

2026年最新情報：自然言語を通じて複雑な自動化ワークフローを設計するための最適なAIマルチエージェントオーケストレーターを発見しましょう。当社が厳選したリストには、タスクのシームレスな自動化とインテリジェントなプロセス管理に最適な高評価の強力なプラットフォームが掲載されています。無料オプションと有料オプションを実際の使用例を交えて比較しましょう。XIX.AIが毎週更新する専門的なランキングを活用して、AIの力を最大限に引き出しましょう。

10 ツール

xix.ai

画像編集

最高のAIノイズリダクションソフトウェア：低照度の夜間撮影で発生する粒状ノイズやアーチファクトを除去する

2026年に最も優れたAIノイズリダクションソフトウェアを探そう。低照度の夜間撮影に最適なこれらのツールは、無料版と有料版を比較しており、実際のテスト結果や毎週更新されるランキングも掲載されている。粒状ノイズや不要なアーティファクトを簡単に除去できる。XIX.AIでAIの力を最大限に活用しよう。

10 ツール

xix.ai

チャットボット

おすすめのAIガールフレンド生成ツール：個性や趣味、バックストーリーを自由にデザイン

XIX.AIで、2026年最高のカスタムAIガールフレンド生成ツールを発見しましょう。ユニークな性格、趣味、そして深いバックストーリーをデザインするための、厳選された高評価リストをご覧ください。実際の利用体験に基づく情報を参考に、無料版と有料版の比較も可能です。今すぐ、あなたにぴったりのクリエイティブなパートナーを手に入れましょう。

10 ツール

xix.ai

生産性

AIアーキテクチャ設計者：自然言語を用いてスケーラブルなシステムアーキテクチャを構築する

XIX.AIで、2026年最高のAIアーキテクチャ設計ツールをご覧ください。厳選された高評価のリストには、自然言語を用いてスケーラブルなシステムアーキテクチャを構築するための、強力で革新的なソリューションが揃っています。実際の事例に基づく知見をもとに、無料版と有料版の機能を比較しましょう。今すぐAI開発の競争力を高め、開発プロセスを効率化しましょう。

10 ツール

xix.ai

漫画制作

AIキャラクタープロフィール作成ツール：漫画の主人公たちに詳細な背景設定やビジュアル参考資料を生成する

2026年最新の最高のAIキャラクタープロフィール作成ツール：マンガの主人公たちに詳細な背景設定や視覚的参考資料を生成するための高評価ツールを発見しましょう。当社が厳選し、毎週更新しているこのリストでは、実際のテスト結果に基づいて無料版と有料版を比較しています。強力で革新的なソリューションを使って魅力的なキャラクターを創造し、創作作業の効率を高めましょう。XIX.AIでランキングを確認し、今日すぐに完璧なストーリーテリングの助けとなるツールを手に入れてください。

10 ツール

xix.ai