DeepMind -CEO Demis Hassabis kündigt die zukünftige Integration von Googles Gemini- und VEO -AI -Modellen an

In einer kürzlichen Episode des Podcasts Possible, moderiert von LinkedIn-Mitbegründer Reid Hoffman, teilte Google DeepMind CEO Demis Hassabis spannende Neuigkeiten über Googles Pläne mit. Er enthüllte, dass Google plant, seine Gemini AI-Modelle mit den Veo-Video-generierenden Modellen zu verschmelzen. Diese Fusion zielt darauf ab, das Verständnis von Gemini für die physische Welt zu verbessern und es geschickter im Verstehen realer Dynamiken zu machen.
Hassabis betonte, dass Gemini von Anfang an als multimodal konzipiert wurde. „Wir haben Gemini, unser Grundmodell, von Beginn an multimodal aufgebaut“, erklärte er. Die Motivation hinter diesem Ansatz? Eine Vision für einen universellen digitalen Assistenten, der im Alltag wirklich hilfreich ist. „Ein Assistent, der … dir in der realen Welt tatsächlich hilft“, erläuterte Hassabis.
Die AI-Branche entwickelt sich stetig hin zu sogenannten „Omni“-Modellen – solchen, die in der Lage sind, verschiedene Medientypen zu verarbeiten und zu synthetisieren. Die neuesten Gemini-Iterationen von Google können beispielsweise nicht nur Text, sondern auch Audio und Bilder erzeugen. In der Zwischenzeit kann das Standardmodell von OpenAI, ChatGPT, spontan Bilder erstellen, einschließlich bezaubernder Kunst im Stil von Studio Ghibli. Amazon hinkt nicht weit hinterher und plant, noch in diesem Jahr ein „Any-to-Any“-Modell einzuführen.
Diese Omni-Modelle erfordern eine enorme Menge an Trainingsdaten – denken Sie an Bilder, Videos, Audio und Text. Hassabis deutete an, dass die Videodaten von Veo hauptsächlich von YouTube stammen, einem Schatz, der Google gehört. „Grundsätzlich kann [Veo 2] durch das Ansehen von YouTube-Videos – sehr vielen YouTube-Videos – die Physik der Welt herausfinden“, bemerkte er.
Google hatte zuvor gegenüber TechCrunch erwähnt, dass seine Modelle „möglicherweise“ auf „einigen“ YouTube-Inhalten trainiert werden, in Übereinstimmung mit Vereinbarungen mit YouTube-Creators. Es ist erwähnenswert, dass Google im letzten Jahr seine Nutzungsbedingungen erweitert hat, teilweise um mehr Daten für das Training seiner AI-Modelle zu nutzen.
Verwandter Artikel
Google enthüllt KI-Modus und Veo 3 zur Revolutionierung von Suche und Videoproduktion
Google hat kürzlich den KI-Modus und Veo 3 eingeführt, zwei innovative Technologien, die das Potenzial haben, die Websuche und die Erstellung digitaler Inhalte zu revolutionieren. Der KI-Modus bietet
Gemini Chatbot verbessert Bildbearbeitungsfunktionen
Googles Gemini-Chatbot-App ermöglicht es Nutzern nun, KI-generierte und hochgeladene Bilder von Telefonen oder Computern zu bearbeiten, wie das Unternehmen in einem Blogbeitrag am Mittwoch ankündigte.
Google stellt Deep Think vor, um die Leistung von Gemini AI zu verbessern
Google verbessert seine erstklassigen Gemini AI-Modelle.Beim Google I/O 2025 am Dienstag stellte das Unternehmen Deep Think vor, einen fortschrittlichen Denkmodus für sein führendes Gemini 2.5 Pro-Mod
Kommentare (1)
0/200
RalphSanchez
1. August 2025 04:48:18 MESZ
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
In einer kürzlichen Episode des Podcasts Possible, moderiert von LinkedIn-Mitbegründer Reid Hoffman, teilte Google DeepMind CEO Demis Hassabis spannende Neuigkeiten über Googles Pläne mit. Er enthüllte, dass Google plant, seine Gemini AI-Modelle mit den Veo-Video-generierenden Modellen zu verschmelzen. Diese Fusion zielt darauf ab, das Verständnis von Gemini für die physische Welt zu verbessern und es geschickter im Verstehen realer Dynamiken zu machen.
Hassabis betonte, dass Gemini von Anfang an als multimodal konzipiert wurde. „Wir haben Gemini, unser Grundmodell, von Beginn an multimodal aufgebaut“, erklärte er. Die Motivation hinter diesem Ansatz? Eine Vision für einen universellen digitalen Assistenten, der im Alltag wirklich hilfreich ist. „Ein Assistent, der … dir in der realen Welt tatsächlich hilft“, erläuterte Hassabis.
Die AI-Branche entwickelt sich stetig hin zu sogenannten „Omni“-Modellen – solchen, die in der Lage sind, verschiedene Medientypen zu verarbeiten und zu synthetisieren. Die neuesten Gemini-Iterationen von Google können beispielsweise nicht nur Text, sondern auch Audio und Bilder erzeugen. In der Zwischenzeit kann das Standardmodell von OpenAI, ChatGPT, spontan Bilder erstellen, einschließlich bezaubernder Kunst im Stil von Studio Ghibli. Amazon hinkt nicht weit hinterher und plant, noch in diesem Jahr ein „Any-to-Any“-Modell einzuführen.
Diese Omni-Modelle erfordern eine enorme Menge an Trainingsdaten – denken Sie an Bilder, Videos, Audio und Text. Hassabis deutete an, dass die Videodaten von Veo hauptsächlich von YouTube stammen, einem Schatz, der Google gehört. „Grundsätzlich kann [Veo 2] durch das Ansehen von YouTube-Videos – sehr vielen YouTube-Videos – die Physik der Welt herausfinden“, bemerkte er.
Google hatte zuvor gegenüber TechCrunch erwähnt, dass seine Modelle „möglicherweise“ auf „einigen“ YouTube-Inhalten trainiert werden, in Übereinstimmung mit Vereinbarungen mit YouTube-Creators. Es ist erwähnenswert, dass Google im letzten Jahr seine Nutzungsbedingungen erweitert hat, teilweise um mehr Daten für das Training seiner AI-Modelle zu nutzen.



Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












