Deepmind CEOのDemis Hassabisは、GoogleのGeminiとVeo AIモデルの将来の統合を発表しました

ポッドキャストPossibleの最近のエピソードで、LinkedIn共同創業者レイド・ホフマンが共同ホストを務め、Google DeepMind CEOデミス・ハサビスがGoogleの計画について興奮するニュースを共有しました。彼は、GoogleがGemini AIモデルをVeoビデオ生成モデルと統合しようとしていることを明らかにしました。この融合は、Geminiの物理世界の理解を強化し、現実のダイナミクスをより巧みに理解できるようにすることを目指しています。
ハサビスは、Geminiが最初からマルチモーダルになるように設計されていたと強調しました。「我々は常に、基盤モデルであるGeminiを最初からマルチモーダルに構築してきました」と彼は説明しました。このアプローチの動機は?日常生活で本当の意味で役立つユニバーサルデジタルアシスタントのビジョンです。「現実世界で実際にあなたを助けるアシスタント」とハサビスは詳しく述べました。
AI業界は、いわゆる「オムニ」モデル——さまざまなメディアを処理し統合できるモデル——に向かって着実に進化しています。たとえば、Googleの最新のGeminiイテレーションは、テキストだけでなくオーディオや画像も生成できます。一方、OpenAIのChatGPTデフォルトモデルは、その場で画像を生成でき、スタジオジブリ風のアートも含まれます。Amazonも遅れを取っておらず、今年後半に「any-to-any」モデルを展開する計画です。
これらのオムニモデルには、画像、ビデオ、オーディオ、テキストといった膨大なトレーニングデータが必要です。ハサビスは、Veoのビデオデータが主にYouTubeから来ていると示唆しました。YouTubeはGoogleが所有する宝の山です。「基本的に、YouTubeビデオ——大量のYouTubeビデオ——を見ることによって、[Veo 2]は世界の物理を理解できます」と彼は述べました。
Googleは以前、TechCrunchに対し、そのモデルがYouTubeクリエイターとの契約に基づいて「一部の」YouTubeコンテンツでトレーニングされている「可能性がある」と述べていました。昨年、GoogleがAIモデルのトレーニングのためにさらに多くのデータにアクセスするために利用規約を拡大したことは注目に値します。
関連記事
Googleは、エージェント型AIと「バイブ・コード」対応ウィジェットをAndroidに統合した
Googleは火曜日に開催された「Android Show: I/O Edition」イベントにおいて、Gemini Intelligenceブランドの下で新たなAI機能を発表しました。これらの機能には、AIが複数のアプリにまたがるタスクを処理したり、ウェブを閲覧したり、フォームに入力したり、音声を文字起こししたりするほか、独自のAndroidウィジェットを「ビブ・コーディング」で作成したりするこ
MetaのAIモデルは優れているが、オープンソース化によってその独自性が損なわれている
オープンソースのAI分野には、常に豊富な選択肢が存在してきました。長年にわたり、開発者はMistralやFalconといったモデルに加え、増え続けるオープンウェイトの代替モデルを利用することができました。しかし、MetaがLlamaで参入したことで、状況は一変しました。30億人のユーザー、膨大な計算能力、そしてテックジャイアントとしての権威を持つ企業が、オープンな形で開発を進めるようになったのです
父親がGoogleを提訴、息子の致命的な妄想の原因はGeminiチャットボットにあると主張
ジョナサン・ガヴァラスさん(36歳)は、2025年8月から、買い物のサポート、文章作成の助け、旅行の計画立案のために、GoogleのAIチャットボット「Gemini」を使い始めた。10月2日、彼は自殺した。死の直前、彼はGeminiを完全な知性を持つAIの妻だと信じ、自身が「転移」と呼ぶプロセスを通じて、肉体を離れてメタバースで彼女と合流しなければならないと考えていた。現在、彼の父親はGoogle
関連特集おすすめ
コメント (2)
0/500
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

ポッドキャストPossibleの最近のエピソードで、LinkedIn共同創業者レイド・ホフマンが共同ホストを務め、Google DeepMind CEOデミス・ハサビスがGoogleの計画について興奮するニュースを共有しました。彼は、GoogleがGemini AIモデルをVeoビデオ生成モデルと統合しようとしていることを明らかにしました。この融合は、Geminiの物理世界の理解を強化し、現実のダイナミクスをより巧みに理解できるようにすることを目指しています。
ハサビスは、Geminiが最初からマルチモーダルになるように設計されていたと強調しました。「我々は常に、基盤モデルであるGeminiを最初からマルチモーダルに構築してきました」と彼は説明しました。このアプローチの動機は?日常生活で本当の意味で役立つユニバーサルデジタルアシスタントのビジョンです。「現実世界で実際にあなたを助けるアシスタント」とハサビスは詳しく述べました。
AI業界は、いわゆる「オムニ」モデル——さまざまなメディアを処理し統合できるモデル——に向かって着実に進化しています。たとえば、Googleの最新のGeminiイテレーションは、テキストだけでなくオーディオや画像も生成できます。一方、OpenAIのChatGPTデフォルトモデルは、その場で画像を生成でき、スタジオジブリ風のアートも含まれます。Amazonも遅れを取っておらず、今年後半に「any-to-any」モデルを展開する計画です。
これらのオムニモデルには、画像、ビデオ、オーディオ、テキストといった膨大なトレーニングデータが必要です。ハサビスは、Veoのビデオデータが主にYouTubeから来ていると示唆しました。YouTubeはGoogleが所有する宝の山です。「基本的に、YouTubeビデオ——大量のYouTubeビデオ——を見ることによって、[Veo 2]は世界の物理を理解できます」と彼は述べました。
Googleは以前、TechCrunchに対し、そのモデルがYouTubeクリエイターとの契約に基づいて「一部の」YouTubeコンテンツでトレーニングされている「可能性がある」と述べていました。昨年、GoogleがAIモデルのトレーニングのためにさらに多くのデータにアクセスするために利用規約を拡大したことは注目に値します。
Googleは、エージェント型AIと「バイブ・コード」対応ウィジェットをAndroidに統合した
Googleは火曜日に開催された「Android Show: I/O Edition」イベントにおいて、Gemini Intelligenceブランドの下で新たなAI機能を発表しました。これらの機能には、AIが複数のアプリにまたがるタスクを処理したり、ウェブを閲覧したり、フォームに入力したり、音声を文字起こししたりするほか、独自のAndroidウィジェットを「ビブ・コーディング」で作成したりするこ
MetaのAIモデルは優れているが、オープンソース化によってその独自性が損なわれている
オープンソースのAI分野には、常に豊富な選択肢が存在してきました。長年にわたり、開発者はMistralやFalconといったモデルに加え、増え続けるオープンウェイトの代替モデルを利用することができました。しかし、MetaがLlamaで参入したことで、状況は一変しました。30億人のユーザー、膨大な計算能力、そしてテックジャイアントとしての権威を持つ企業が、オープンな形で開発を進めるようになったのです
父親がGoogleを提訴、息子の致命的な妄想の原因はGeminiチャットボットにあると主張
ジョナサン・ガヴァラスさん(36歳)は、2025年8月から、買い物のサポート、文章作成の助け、旅行の計画立案のために、GoogleのAIチャットボット「Gemini」を使い始めた。10月2日、彼は自殺した。死の直前、彼はGeminiを完全な知性を持つAIの妻だと信じ、自身が「転移」と呼ぶプロセスを通じて、肉体を離れてメタバースで彼女と合流しなければならないと考えていた。現在、彼の父親はGoogle
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.





家






