Googles Gemini Omni generiert Videos aus Bildern, Audio und Text
Vor drei Jahren stellte Google Gemini vor, mit dem Ziel, ein multimodales großes Sprachmodell zu entwickeln – ein einheitliches neuronales Netzwerk, das auf Text, Bildern, Audio und Video trainiert wurde und in der Lage ist, Inhalte in all diesen Formaten zu generieren.
Auf seiner heutigen Entwicklerkonferenz Google I/O machte das Unternehmen mit Gemini Omni, einer neuen Familie multimodaler Modelle, einen Schritt in Richtung dieser Vision. Google-CEO Sundar Pichai erklärte, dass Omni den Nutzern die Möglichkeit geben werde, „aus beliebigen Eingaben alles Mögliche zu erschaffen“.
Der anfängliche Schwerpunkt von Omni liegt auf Videos. Nutzer können nun Bilder, Audio, Video und Text kombinieren. Anstatt diese Elemente lediglich aneinanderzureihen, führt Omni intelligente Schlussfolgerungen über alle Modalitäten hinweg durch, um ein kohärentes Ergebnis zu erzielen. Das Ergebnis sind hochwertige Videos, die ein Verständnis für Physik, Kultur, Geschichte und Wissenschaft demonstrieren.
Omni ermöglicht es Nutzern zudem, Fotos mit einfachen Textbefehlen zu bearbeiten, wodurch komplexe Software überflüssig wird – ähnlich wie bei Googles Tool „Nano Banana“.
Google bietet bereits Veo an, ein spezielles Videomodell, das Text und Bilder in Videos umwandelt und die Steuerung sowie Anpassung von Avataren ermöglicht. Nicole Brichtova, Director of Product Management bei Google DeepMind, betonte jedoch, dass die heutige Veröffentlichung mehr als nur ein Veo-Update darstellt: „Es ist der nächste Schritt bei der Verschmelzung von Gemini’s Intelligenz mit den Rendering-Fähigkeiten unserer Medienmodelle.“
Während einer Pressekonferenz am Montag führte DeepMinds Cheftechnologe Koray Kavukcuoglu ein Beispiel an: Auf die Eingabe „eine Claymation-Erklärung zur Proteinfaltung“ hin erzeugte Omni schnell ein Stop-Motion-Video mit einem Voiceover, das erklärte: „Proteine beginnen als Ketten von Aminosäuren. Sie falten sich zu Strukturen wie Alpha-Helices und flachen Abschnitten, sogenannten Beta-Faltblättern, und bilden schließlich eine präzise dreidimensionale Form.“
Die langfristige Vision für Omni ist umfassender und umfasst Funktionen wie die Erzeugung von Bildern aus Audio oder von Audio aus Video.
„Als wir Gemini erstmals vorstellten, war es unser erstes nativ multimodales KI-Modell“, bemerkte Pichai während der Pressekonferenz. „Wir wussten, dass das Training mit einer Kombination aus Text, Code, Audio, Bildern und Videos zu einem tieferen Verständnis der Welt führen würde. Mit Weltmodellen entwickelt sich KI von der Textvorhersage hin zur Simulation der Realität. Gemini Omni ist der nächste Schritt in diese Richtung.“
Im Rahmen dieser Veröffentlichung können Nutzer auch Videos mit ihren eigenen digitalen Avataren erstellen – eine Funktion, die durch die inzwischen eingestellte Sora-App von OpenAI mit Cameos populär wurde. Um Deepfakes zu verhindern, müssen Nutzer laut Brichtova einen speziellen Onboarding-Prozess durchlaufen, bei dem sie sich selbst dabei aufnehmen, wie sie eine Reihe von Zahlen aufsagen. Der Avatar wird dann für die zukünftige Verwendung gespeichert.
Zudem werden alle mit Omni erstellten Videos das digitale Wasserzeichen „SynthID“ von Google enthalten, sodass Nutzer überprüfen können, ob Inhalte mit Gemini-Produkten erstellt wurden.
Das erste Modell der Familie ist Gemini Omni Flash, das heute in der Gemini-App, auf YouTube Shorts und im KI-Kreativstudio Flow eingeführt wird. Flash kann 10-Sekunden-Videos rendern. Brichtova stellte klar, dass diese Dauer keine Einschränkung des Modells darstellt, sondern eine strategische Entscheidung zur Verbesserung der Zugänglichkeit ist, da davon ausgegangen wird, dass die meisten Nutzer derzeit kürzere Clips bevorzugen. Die Unterstützung für längere Videos ist für die nahe Zukunft geplant.
Google scheint Omni Flash in erster Linie als Tool für Endverbraucher zu positionieren. Während eines Gesprächs mit TechCrunch beschrieben Brichtova und DeepMind-Forschungsingenieur Gabe Barth-Maron Anwendungsfälle für Avatare als persönlich, beispielsweise das Erstellen eines Videos, in dem man selbst einen Preis gewinnt oder den Mond besucht, oder das Entfernen eines Passanten aus dem Hintergrund eines Urlaubsvideos.
Barth-Maron fasste es prägnant zusammen: „Sie sind wie personalisierte Memes.“
„Wir haben uns definitiv darauf konzentriert, die Nutzung für Verbraucher einfach zu gestalten“, sagte Brichtova. „Nicht viele Videomodelle haben den Sprung in den Mainstream-Verbrauchermarkt geschafft, daher ist dies unser Versuch, genau das zu erreichen.“
Diese Benutzerfreundlichkeit hat jedoch einen Haken: Brichtova und Barth-Maron wiesen darauf hin, dass die Bearbeitungsanweisungen sehr spezifisch sein müssen. Andernfalls könnte Omni Elemente überbearbeiten oder unbeabsichtigt verändern, die der Nutzer eigentlich behalten wollte – eine Herausforderung, mit der auch Nutzer von Nano Banana konfrontiert sind.

Bildnachweis:Google
Trotz der unmittelbaren Ausrichtung auf Endverbraucher ist das Potenzial von Omni für Unternehmens- und Kreativanwendungen offensichtlich. Google wird Omni in den kommenden Wochen über eine API zur Verfügung stellen. Das Tool zur Avatar-Erstellung – das bereits auf Shorts verfügbar ist – dürfte bei Content-Erstellern an Beliebtheit gewinnen. Im weiteren Sinne könnte ein durchgängiger multimodaler Workflow die Werbung und das Filmemachen revolutionieren.
Das Startup Luma AI entwickelt ein ähnliches agentisches Tool, das auf einem eigenen „unified“ Modell basiert und in der Lage ist, aus einem Briefing und einem Produktbild eine komplette Werbekampagne zu generieren.
„Wir sind tatsächlich ziemlich stolz auf die Text-Rendering-Fähigkeiten des Modells, die für Anwendungen wie Werbung sehr nützlich sind“, sagte Brichtova. „Wenn man eine Produktplatzierung oder auch nur einen Slogan benötigt, ist die Genauigkeit entscheidend... Wir gehen davon aus, dass auch Filmemacher und andere Kreative dieses Modell nutzen werden.“
Für professionellere Anwendungsfälle könnte das kommende Omni Pro-Modell besser geeignet sein, das für überragende Leistung bei allen Omni-Aufgaben ausgelegt ist. Google hat noch kein Veröffentlichungsdatum für Pro bekannt gegeben, aber Brichtova deutete an, dass es auf den Markt kommen wird, wenn „wir einen bedeutenden Leistungssprung gegenüber Flash erreichen“.
Verwandter Artikel
Google Fotos erweckt den legendären Kleiderschrank aus „Clueless“ mithilfe von KI zum Leben
Google Fotos hat am Mittwoch eine neue KI-gestützte Funktion angekündigt, die Fotos Ihrer Kleidung bald in einen digitalen Kleiderschrank verwandeln wird, sodass Sie neue Outfit-Kombinationen zusammen
Auf der Google I/O 2026 wird die Sprachsteuerung für den Gmail-Posteingang vorgestellt
Google integriert weiterhin KI in Ihren Posteingang. Auf der Entwicklerkonferenz IO 2026 am Dienstag hat das Unternehmen seine Gmail-Funktion „AI Inbox“ um dialogorientierte KI erweitert, sodass Nutze
Google führt Gemini in Chrome in Indien ein
Am Mittwoch gab Google bekannt, dass es die Integration von Gemini in Chrome auf neue Regionen ausweitet, darunter Indien, Kanada und Neuseeland. Durch diese Einführung können Desktop-Nutzer über eine
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Vor drei Jahren stellte Google Gemini vor, mit dem Ziel, ein multimodales großes Sprachmodell zu entwickeln – ein einheitliches neuronales Netzwerk, das auf Text, Bildern, Audio und Video trainiert wurde und in der Lage ist, Inhalte in all diesen Formaten zu generieren.
Auf seiner heutigen Entwicklerkonferenz Google I/O machte das Unternehmen mit Gemini Omni, einer neuen Familie multimodaler Modelle, einen Schritt in Richtung dieser Vision. Google-CEO Sundar Pichai erklärte, dass Omni den Nutzern die Möglichkeit geben werde, „aus beliebigen Eingaben alles Mögliche zu erschaffen“.
Der anfängliche Schwerpunkt von Omni liegt auf Videos. Nutzer können nun Bilder, Audio, Video und Text kombinieren. Anstatt diese Elemente lediglich aneinanderzureihen, führt Omni intelligente Schlussfolgerungen über alle Modalitäten hinweg durch, um ein kohärentes Ergebnis zu erzielen. Das Ergebnis sind hochwertige Videos, die ein Verständnis für Physik, Kultur, Geschichte und Wissenschaft demonstrieren.
Omni ermöglicht es Nutzern zudem, Fotos mit einfachen Textbefehlen zu bearbeiten, wodurch komplexe Software überflüssig wird – ähnlich wie bei Googles Tool „Nano Banana“.
Google bietet bereits Veo an, ein spezielles Videomodell, das Text und Bilder in Videos umwandelt und die Steuerung sowie Anpassung von Avataren ermöglicht. Nicole Brichtova, Director of Product Management bei Google DeepMind, betonte jedoch, dass die heutige Veröffentlichung mehr als nur ein Veo-Update darstellt: „Es ist der nächste Schritt bei der Verschmelzung von Gemini’s Intelligenz mit den Rendering-Fähigkeiten unserer Medienmodelle.“
Während einer Pressekonferenz am Montag führte DeepMinds Cheftechnologe Koray Kavukcuoglu ein Beispiel an: Auf die Eingabe „eine Claymation-Erklärung zur Proteinfaltung“ hin erzeugte Omni schnell ein Stop-Motion-Video mit einem Voiceover, das erklärte: „Proteine beginnen als Ketten von Aminosäuren. Sie falten sich zu Strukturen wie Alpha-Helices und flachen Abschnitten, sogenannten Beta-Faltblättern, und bilden schließlich eine präzise dreidimensionale Form.“
Die langfristige Vision für Omni ist umfassender und umfasst Funktionen wie die Erzeugung von Bildern aus Audio oder von Audio aus Video.
„Als wir Gemini erstmals vorstellten, war es unser erstes nativ multimodales KI-Modell“, bemerkte Pichai während der Pressekonferenz. „Wir wussten, dass das Training mit einer Kombination aus Text, Code, Audio, Bildern und Videos zu einem tieferen Verständnis der Welt führen würde. Mit Weltmodellen entwickelt sich KI von der Textvorhersage hin zur Simulation der Realität. Gemini Omni ist der nächste Schritt in diese Richtung.“
Im Rahmen dieser Veröffentlichung können Nutzer auch Videos mit ihren eigenen digitalen Avataren erstellen – eine Funktion, die durch die inzwischen eingestellte Sora-App von OpenAI mit Cameos populär wurde. Um Deepfakes zu verhindern, müssen Nutzer laut Brichtova einen speziellen Onboarding-Prozess durchlaufen, bei dem sie sich selbst dabei aufnehmen, wie sie eine Reihe von Zahlen aufsagen. Der Avatar wird dann für die zukünftige Verwendung gespeichert.
Zudem werden alle mit Omni erstellten Videos das digitale Wasserzeichen „SynthID“ von Google enthalten, sodass Nutzer überprüfen können, ob Inhalte mit Gemini-Produkten erstellt wurden.
Das erste Modell der Familie ist Gemini Omni Flash, das heute in der Gemini-App, auf YouTube Shorts und im KI-Kreativstudio Flow eingeführt wird. Flash kann 10-Sekunden-Videos rendern. Brichtova stellte klar, dass diese Dauer keine Einschränkung des Modells darstellt, sondern eine strategische Entscheidung zur Verbesserung der Zugänglichkeit ist, da davon ausgegangen wird, dass die meisten Nutzer derzeit kürzere Clips bevorzugen. Die Unterstützung für längere Videos ist für die nahe Zukunft geplant.
Google scheint Omni Flash in erster Linie als Tool für Endverbraucher zu positionieren. Während eines Gesprächs mit TechCrunch beschrieben Brichtova und DeepMind-Forschungsingenieur Gabe Barth-Maron Anwendungsfälle für Avatare als persönlich, beispielsweise das Erstellen eines Videos, in dem man selbst einen Preis gewinnt oder den Mond besucht, oder das Entfernen eines Passanten aus dem Hintergrund eines Urlaubsvideos.
Barth-Maron fasste es prägnant zusammen: „Sie sind wie personalisierte Memes.“
„Wir haben uns definitiv darauf konzentriert, die Nutzung für Verbraucher einfach zu gestalten“, sagte Brichtova. „Nicht viele Videomodelle haben den Sprung in den Mainstream-Verbrauchermarkt geschafft, daher ist dies unser Versuch, genau das zu erreichen.“
Diese Benutzerfreundlichkeit hat jedoch einen Haken: Brichtova und Barth-Maron wiesen darauf hin, dass die Bearbeitungsanweisungen sehr spezifisch sein müssen. Andernfalls könnte Omni Elemente überbearbeiten oder unbeabsichtigt verändern, die der Nutzer eigentlich behalten wollte – eine Herausforderung, mit der auch Nutzer von Nano Banana konfrontiert sind.

Bildnachweis:Google
Trotz der unmittelbaren Ausrichtung auf Endverbraucher ist das Potenzial von Omni für Unternehmens- und Kreativanwendungen offensichtlich. Google wird Omni in den kommenden Wochen über eine API zur Verfügung stellen. Das Tool zur Avatar-Erstellung – das bereits auf Shorts verfügbar ist – dürfte bei Content-Erstellern an Beliebtheit gewinnen. Im weiteren Sinne könnte ein durchgängiger multimodaler Workflow die Werbung und das Filmemachen revolutionieren.
Das Startup Luma AI entwickelt ein ähnliches agentisches Tool, das auf einem eigenen „unified“ Modell basiert und in der Lage ist, aus einem Briefing und einem Produktbild eine komplette Werbekampagne zu generieren.
„Wir sind tatsächlich ziemlich stolz auf die Text-Rendering-Fähigkeiten des Modells, die für Anwendungen wie Werbung sehr nützlich sind“, sagte Brichtova. „Wenn man eine Produktplatzierung oder auch nur einen Slogan benötigt, ist die Genauigkeit entscheidend... Wir gehen davon aus, dass auch Filmemacher und andere Kreative dieses Modell nutzen werden.“
Für professionellere Anwendungsfälle könnte das kommende Omni Pro-Modell besser geeignet sein, das für überragende Leistung bei allen Omni-Aufgaben ausgelegt ist. Google hat noch kein Veröffentlichungsdatum für Pro bekannt gegeben, aber Brichtova deutete an, dass es auf den Markt kommen wird, wenn „wir einen bedeutenden Leistungssprung gegenüber Flash erreichen“.
Google Fotos erweckt den legendären Kleiderschrank aus „Clueless“ mithilfe von KI zum Leben
Google Fotos hat am Mittwoch eine neue KI-gestützte Funktion angekündigt, die Fotos Ihrer Kleidung bald in einen digitalen Kleiderschrank verwandeln wird, sodass Sie neue Outfit-Kombinationen zusammen
Auf der Google I/O 2026 wird die Sprachsteuerung für den Gmail-Posteingang vorgestellt
Google integriert weiterhin KI in Ihren Posteingang. Auf der Entwicklerkonferenz IO 2026 am Dienstag hat das Unternehmen seine Gmail-Funktion „AI Inbox“ um dialogorientierte KI erweitert, sodass Nutze
Google führt Gemini in Chrome in Indien ein
Am Mittwoch gab Google bekannt, dass es die Integration von Gemini in Chrome auf neue Regionen ausweitet, darunter Indien, Kanada und Neuseeland. Durch diese Einführung können Desktop-Nutzer über eine





Heim






