Heim
DeepMind -CEO Demis Hassabis kündigt die zukünftige Integration von Googles Gemini- und VEO -AI -Modellen an

In einer kürzlichen Episode des Podcasts Possible, moderiert von LinkedIn-Mitbegründer Reid Hoffman, teilte Google DeepMind CEO Demis Hassabis spannende Neuigkeiten über Googles Pläne mit. Er enthüllte, dass Google plant, seine Gemini AI-Modelle mit den Veo-Video-generierenden Modellen zu verschmelzen. Diese Fusion zielt darauf ab, das Verständnis von Gemini für die physische Welt zu verbessern und es geschickter im Verstehen realer Dynamiken zu machen.
Hassabis betonte, dass Gemini von Anfang an als multimodal konzipiert wurde. „Wir haben Gemini, unser Grundmodell, von Beginn an multimodal aufgebaut“, erklärte er. Die Motivation hinter diesem Ansatz? Eine Vision für einen universellen digitalen Assistenten, der im Alltag wirklich hilfreich ist. „Ein Assistent, der … dir in der realen Welt tatsächlich hilft“, erläuterte Hassabis.
Die AI-Branche entwickelt sich stetig hin zu sogenannten „Omni“-Modellen – solchen, die in der Lage sind, verschiedene Medientypen zu verarbeiten und zu synthetisieren. Die neuesten Gemini-Iterationen von Google können beispielsweise nicht nur Text, sondern auch Audio und Bilder erzeugen. In der Zwischenzeit kann das Standardmodell von OpenAI, ChatGPT, spontan Bilder erstellen, einschließlich bezaubernder Kunst im Stil von Studio Ghibli. Amazon hinkt nicht weit hinterher und plant, noch in diesem Jahr ein „Any-to-Any“-Modell einzuführen.
Diese Omni-Modelle erfordern eine enorme Menge an Trainingsdaten – denken Sie an Bilder, Videos, Audio und Text. Hassabis deutete an, dass die Videodaten von Veo hauptsächlich von YouTube stammen, einem Schatz, der Google gehört. „Grundsätzlich kann [Veo 2] durch das Ansehen von YouTube-Videos – sehr vielen YouTube-Videos – die Physik der Welt herausfinden“, bemerkte er.
Google hatte zuvor gegenüber TechCrunch erwähnt, dass seine Modelle „möglicherweise“ auf „einigen“ YouTube-Inhalten trainiert werden, in Übereinstimmung mit Vereinbarungen mit YouTube-Creators. Es ist erwähnenswert, dass Google im letzten Jahr seine Nutzungsbedingungen erweitert hat, teilweise um mehr Daten für das Training seiner AI-Modelle zu nutzen.
Verwandter Artikel
Google integriert agentische KI und stimmungsgesteuerte Widgets in Android
Google hat am Dienstag im Rahmen der Veranstaltung „Android Show: I/O Edition“ eine Reihe neuer KI-Funktionen unter seiner Marke „Gemini Intelligence“ vorgestellt. Zu diesen Funktionen gehört, dass di
Das KI-Modell von Meta ist hervorragend, doch die Open-Source-Identität schwindet
Die Open-Source-KI-Landschaft bot schon immer eine große Auswahl. Seit Jahren hatten Entwickler Zugang zu Modellen wie Mistral, Falcon und einer wachsenden Zahl von Open-Weight-Alternativen. Doch der
Vater verklagt Google und macht den Chatbot „Gemini“ für die tödlichen Wahnvorstellungen seines Sohnes verantwortlich
Jonathan Gavalas, 36, begann im August 2025, Googles KI-Chatbot „Gemini“ für Einkaufsberatung, Schreibhilfe und Reiseplanung zu nutzen. Am 2. Oktober nahm er sich das Leben. Zum Zeitpunkt seines Todes
Empfehlungen zu verwandten Spezialthemen
Kommentare (2)
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

In einer kürzlichen Episode des Podcasts Possible, moderiert von LinkedIn-Mitbegründer Reid Hoffman, teilte Google DeepMind CEO Demis Hassabis spannende Neuigkeiten über Googles Pläne mit. Er enthüllte, dass Google plant, seine Gemini AI-Modelle mit den Veo-Video-generierenden Modellen zu verschmelzen. Diese Fusion zielt darauf ab, das Verständnis von Gemini für die physische Welt zu verbessern und es geschickter im Verstehen realer Dynamiken zu machen.
Hassabis betonte, dass Gemini von Anfang an als multimodal konzipiert wurde. „Wir haben Gemini, unser Grundmodell, von Beginn an multimodal aufgebaut“, erklärte er. Die Motivation hinter diesem Ansatz? Eine Vision für einen universellen digitalen Assistenten, der im Alltag wirklich hilfreich ist. „Ein Assistent, der … dir in der realen Welt tatsächlich hilft“, erläuterte Hassabis.
Die AI-Branche entwickelt sich stetig hin zu sogenannten „Omni“-Modellen – solchen, die in der Lage sind, verschiedene Medientypen zu verarbeiten und zu synthetisieren. Die neuesten Gemini-Iterationen von Google können beispielsweise nicht nur Text, sondern auch Audio und Bilder erzeugen. In der Zwischenzeit kann das Standardmodell von OpenAI, ChatGPT, spontan Bilder erstellen, einschließlich bezaubernder Kunst im Stil von Studio Ghibli. Amazon hinkt nicht weit hinterher und plant, noch in diesem Jahr ein „Any-to-Any“-Modell einzuführen.
Diese Omni-Modelle erfordern eine enorme Menge an Trainingsdaten – denken Sie an Bilder, Videos, Audio und Text. Hassabis deutete an, dass die Videodaten von Veo hauptsächlich von YouTube stammen, einem Schatz, der Google gehört. „Grundsätzlich kann [Veo 2] durch das Ansehen von YouTube-Videos – sehr vielen YouTube-Videos – die Physik der Welt herausfinden“, bemerkte er.
Google hatte zuvor gegenüber TechCrunch erwähnt, dass seine Modelle „möglicherweise“ auf „einigen“ YouTube-Inhalten trainiert werden, in Übereinstimmung mit Vereinbarungen mit YouTube-Creators. Es ist erwähnenswert, dass Google im letzten Jahr seine Nutzungsbedingungen erweitert hat, teilweise um mehr Daten für das Training seiner AI-Modelle zu nutzen.
Google integriert agentische KI und stimmungsgesteuerte Widgets in Android
Google hat am Dienstag im Rahmen der Veranstaltung „Android Show: I/O Edition“ eine Reihe neuer KI-Funktionen unter seiner Marke „Gemini Intelligence“ vorgestellt. Zu diesen Funktionen gehört, dass di
Das KI-Modell von Meta ist hervorragend, doch die Open-Source-Identität schwindet
Die Open-Source-KI-Landschaft bot schon immer eine große Auswahl. Seit Jahren hatten Entwickler Zugang zu Modellen wie Mistral, Falcon und einer wachsenden Zahl von Open-Weight-Alternativen. Doch der
Vater verklagt Google und macht den Chatbot „Gemini“ für die tödlichen Wahnvorstellungen seines Sohnes verantwortlich
Jonathan Gavalas, 36, begann im August 2025, Googles KI-Chatbot „Gemini“ für Einkaufsberatung, Schreibhilfe und Reiseplanung zu nutzen. Am 2. Oktober nahm er sich das Leben. Zum Zeitpunkt seines Todes
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.











