Option
Heim
Nachricht
Googles Gemini Omni generiert Videos aus Bildern, Audio und Text

Googles Gemini Omni generiert Videos aus Bildern, Audio und Text

26. Mai 2026
70

Vor drei Jahren stellte Google Gemini vor, mit dem Ziel, ein multimodales großes Sprachmodell zu entwickeln – ein einheitliches neuronales Netzwerk, das auf Text, Bildern, Audio und Video trainiert wurde und in der Lage ist, Inhalte in all diesen Formaten zu generieren.

Auf seiner heutigen Entwicklerkonferenz Google I/O machte das Unternehmen mit Gemini Omni, einer neuen Familie multimodaler Modelle, einen Schritt in Richtung dieser Vision. Google-CEO Sundar Pichai erklärte, dass Omni den Nutzern die Möglichkeit geben werde, „aus beliebigen Eingaben alles Mögliche zu erschaffen“.

Der anfängliche Schwerpunkt von Omni liegt auf Videos. Nutzer können nun Bilder, Audio, Video und Text kombinieren. Anstatt diese Elemente lediglich aneinanderzureihen, führt Omni intelligente Schlussfolgerungen über alle Modalitäten hinweg durch, um ein kohärentes Ergebnis zu erzielen. Das Ergebnis sind hochwertige Videos, die ein Verständnis für Physik, Kultur, Geschichte und Wissenschaft demonstrieren.

Omni ermöglicht es Nutzern zudem, Fotos mit einfachen Textbefehlen zu bearbeiten, wodurch komplexe Software überflüssig wird – ähnlich wie bei Googles Tool „Nano Banana“.

Google bietet bereits Veo an, ein spezielles Videomodell, das Text und Bilder in Videos umwandelt und die Steuerung sowie Anpassung von Avataren ermöglicht. Nicole Brichtova, Director of Product Management bei Google DeepMind, betonte jedoch, dass die heutige Veröffentlichung mehr als nur ein Veo-Update darstellt: „Es ist der nächste Schritt bei der Verschmelzung von Gemini’s Intelligenz mit den Rendering-Fähigkeiten unserer Medienmodelle.“

Während einer Pressekonferenz am Montag führte DeepMinds Cheftechnologe Koray Kavukcuoglu ein Beispiel an: Auf die Eingabe „eine Claymation-Erklärung zur Proteinfaltung“ hin erzeugte Omni schnell ein Stop-Motion-Video mit einem Voiceover, das erklärte: „Proteine beginnen als Ketten von Aminosäuren. Sie falten sich zu Strukturen wie Alpha-Helices und flachen Abschnitten, sogenannten Beta-Faltblättern, und bilden schließlich eine präzise dreidimensionale Form.“

Die langfristige Vision für Omni ist umfassender und umfasst Funktionen wie die Erzeugung von Bildern aus Audio oder von Audio aus Video.

„Als wir Gemini erstmals vorstellten, war es unser erstes nativ multimodales KI-Modell“, bemerkte Pichai während der Pressekonferenz. „Wir wussten, dass das Training mit einer Kombination aus Text, Code, Audio, Bildern und Videos zu einem tieferen Verständnis der Welt führen würde. Mit Weltmodellen entwickelt sich KI von der Textvorhersage hin zur Simulation der Realität. Gemini Omni ist der nächste Schritt in diese Richtung.“

Im Rahmen dieser Veröffentlichung können Nutzer auch Videos mit ihren eigenen digitalen Avataren erstellen – eine Funktion, die durch die inzwischen eingestellte Sora-App von OpenAI mit Cameos populär wurde. Um Deepfakes zu verhindern, müssen Nutzer laut Brichtova einen speziellen Onboarding-Prozess durchlaufen, bei dem sie sich selbst dabei aufnehmen, wie sie eine Reihe von Zahlen aufsagen. Der Avatar wird dann für die zukünftige Verwendung gespeichert.

Zudem werden alle mit Omni erstellten Videos das digitale Wasserzeichen „SynthID“ von Google enthalten, sodass Nutzer überprüfen können, ob Inhalte mit Gemini-Produkten erstellt wurden.

Das erste Modell der Familie ist Gemini Omni Flash, das heute in der Gemini-App, auf YouTube Shorts und im KI-Kreativstudio Flow eingeführt wird. Flash kann 10-Sekunden-Videos rendern. Brichtova stellte klar, dass diese Dauer keine Einschränkung des Modells darstellt, sondern eine strategische Entscheidung zur Verbesserung der Zugänglichkeit ist, da davon ausgegangen wird, dass die meisten Nutzer derzeit kürzere Clips bevorzugen. Die Unterstützung für längere Videos ist für die nahe Zukunft geplant.

Google scheint Omni Flash in erster Linie als Tool für Endverbraucher zu positionieren. Während eines Gesprächs mit TechCrunch beschrieben Brichtova und DeepMind-Forschungsingenieur Gabe Barth-Maron Anwendungsfälle für Avatare als persönlich, beispielsweise das Erstellen eines Videos, in dem man selbst einen Preis gewinnt oder den Mond besucht, oder das Entfernen eines Passanten aus dem Hintergrund eines Urlaubsvideos.

Barth-Maron fasste es prägnant zusammen: „Sie sind wie personalisierte Memes.“

„Wir haben uns definitiv darauf konzentriert, die Nutzung für Verbraucher einfach zu gestalten“, sagte Brichtova. „Nicht viele Videomodelle haben den Sprung in den Mainstream-Verbrauchermarkt geschafft, daher ist dies unser Versuch, genau das zu erreichen.“

Diese Benutzerfreundlichkeit hat jedoch einen Haken: Brichtova und Barth-Maron wiesen darauf hin, dass die Bearbeitungsanweisungen sehr spezifisch sein müssen. Andernfalls könnte Omni Elemente überbearbeiten oder unbeabsichtigt verändern, die der Nutzer eigentlich behalten wollte – eine Herausforderung, mit der auch Nutzer von Nano Banana konfrontiert sind.

Googles „Gemini Omni“ verwandelt Bilder, Audio und Text in Videos – und das ist erst der Anfang

Bildnachweis:Google

Trotz der unmittelbaren Ausrichtung auf Endverbraucher ist das Potenzial von Omni für Unternehmens- und Kreativanwendungen offensichtlich. Google wird Omni in den kommenden Wochen über eine API zur Verfügung stellen. Das Tool zur Avatar-Erstellung – das bereits auf Shorts verfügbar ist – dürfte bei Content-Erstellern an Beliebtheit gewinnen. Im weiteren Sinne könnte ein durchgängiger multimodaler Workflow die Werbung und das Filmemachen revolutionieren.

Das Startup Luma AI entwickelt ein ähnliches agentisches Tool, das auf einem eigenen „unified“ Modell basiert und in der Lage ist, aus einem Briefing und einem Produktbild eine komplette Werbekampagne zu generieren.

„Wir sind tatsächlich ziemlich stolz auf die Text-Rendering-Fähigkeiten des Modells, die für Anwendungen wie Werbung sehr nützlich sind“, sagte Brichtova. „Wenn man eine Produktplatzierung oder auch nur einen Slogan benötigt, ist die Genauigkeit entscheidend... Wir gehen davon aus, dass auch Filmemacher und andere Kreative dieses Modell nutzen werden.“

Für professionellere Anwendungsfälle könnte das kommende Omni Pro-Modell besser geeignet sein, das für überragende Leistung bei allen Omni-Aufgaben ausgelegt ist. Google hat noch kein Veröffentlichungsdatum für Pro bekannt gegeben, aber Brichtova deutete an, dass es auf den Markt kommen wird, wenn „wir einen bedeutenden Leistungssprung gegenüber Flash erreichen“.

Verwandter Artikel
Google Fotos erweckt den legendären Kleiderschrank aus „Clueless“ mithilfe von KI zum Leben Google Fotos erweckt den legendären Kleiderschrank aus „Clueless“ mithilfe von KI zum Leben Google Fotos hat am Mittwoch eine neue KI-gestützte Funktion angekündigt, die Fotos Ihrer Kleidung bald in einen digitalen Kleiderschrank verwandeln wird, sodass Sie neue Outfit-Kombinationen zusammen
Auf der Google I/O 2026 wird die Sprachsteuerung für den Gmail-Posteingang vorgestellt Auf der Google I/O 2026 wird die Sprachsteuerung für den Gmail-Posteingang vorgestellt Google integriert weiterhin KI in Ihren Posteingang. Auf der Entwicklerkonferenz IO 2026 am Dienstag hat das Unternehmen seine Gmail-Funktion „AI Inbox“ um dialogorientierte KI erweitert, sodass Nutze
Google führt Gemini in Chrome in Indien ein Google führt Gemini in Chrome in Indien ein Am Mittwoch gab Google bekannt, dass es die Integration von Gemini in Chrome auf neue Regionen ausweitet, darunter Indien, Kanada und Neuseeland. Durch diese Einführung können Desktop-Nutzer über eine
Empfehlungen zu verwandten Spezialthemen
Bildbearbeitung Die besten AI-Softwarelösungen zur Geräuschreduzierung: Beseitigen Sie Körnchen und Artefakte in Nachtaufnahmen bei schwachem Licht.
Die besten AI-Softwarelösungen zur Geräuschreduzierung: Beseitigen Sie Körnchen und Artefakte in Nachtaufnahmen bei schwachem Licht.

Entdecken Sie die besten KI-basierten Softwarelösungen zur Rauschreduzierung für Nachtfotografie in schwach beleuchteten Umgebungen im Jahr 2026. Unsere hochrangig bewertete, sorgfältig ausgewählte Liste vergleicht kostenlose und kostenpflichtige Tools und enthält Ergebnisse aus realen Tests sowie wöchentlich aktualisierte Ranglisten. Entfernen Sie mühelos Unreinheiten und Artefakte aus Ihren Bildern – eröffnen Sie mit XIX.AI den Vorteil der KI-Technologie für Ihre Fotografie.

10 Tools
xix.ai
Chatbot Die besten Generatoren für individuelle KI-Freundinnen: Entwirf einzigartige Persönlichkeiten, Hobbys und Hintergrundgeschichten
Die besten Generatoren für individuelle KI-Freundinnen: Entwirf einzigartige Persönlichkeiten, Hobbys und Hintergrundgeschichten

Entdecken Sie auf XIX.AI die besten Generatoren für individuelle KI-Freundinnen des Jahres 2026. Stöbern Sie in unserer sorgfältig zusammengestellten Liste der besten Angebote, um einzigartige Persönlichkeiten, Hobbys und tiefgründige Hintergrundgeschichten zu entwerfen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Holen Sie sich noch heute Ihre perfekte kreative Begleiterin.

10 Tools
xix.ai
Produktivität Entwickler von KI-Architekturen: Erstellen Sie skalierbare Systemarchitekturen mithilfe natürlicher Sprache
Entwickler von KI-Architekturen: Erstellen Sie skalierbare Systemarchitekturen mithilfe natürlicher Sprache

Entdecken Sie auf XIX.AI die besten Tools für den Entwurf von KI-Architekturen im Jahr 2026. Unsere sorgfältig zusammengestellte Liste der Top-Bewertungen umfasst leistungsstarke, bahnbrechende Lösungen für die Erstellung skalierbarer Systemarchitekturen mithilfe natürlicher Sprache. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schöpfen Sie das Potenzial Ihrer KI voll aus und optimieren Sie noch heute Ihre Entwicklungsprozesse.

10 Tools
xix.ai
Comic-Erstellung AI-Charakterprofiler: Erstellen detaillierte Hintergrundgeschichten und visuelle Referenzen für Manga-Hauptfiguren
AI-Charakterprofiler: Erstellen detaillierte Hintergrundgeschichten und visuelle Referenzen für Manga-Hauptfiguren

2026: Die besten Tools für die Erstellung von AI-Charakterprofilen – Entdecken Sie hochbewertete Werkzeuge, mit denen Sie detaillierte Hintergrundgeschichten und visuelle Referenzen für Ihre Manga-Charaktere erstellen können. Unsere wöchentlich aktualisierte Liste vergleicht kostenlose und kostenpflichtige Optionen anhand tatsächlicher Tests. Finden Sie leistungsstarke Lösungen, die Ihr kreatives Arbeitsfluss optimieren und Ihnen helfen, fesselnde Charaktere zu entwickeln. Erfahren Sie mehr in den Rankings auf XIX.AI und nutzen Sie noch heute Ihren perfekten Helfer für Ihre Geschichtenerzählung.

10 Tools
xix.ai
Gesundheit Wellness KI-Schwangerschaftsbegleiter: Erstellen Sie sichere Trainings- und Ernährungspläne für jedes einzelne Trimester
KI-Schwangerschaftsbegleiter: Erstellen Sie sichere Trainings- und Ernährungspläne für jedes einzelne Trimester

Entdecken Sie die besten KI-Schwangerschaftsbegleiter für 2026 und erhalten Sie sichere, individuell abgestimmte Trainings- und Ernährungspläne für jedes Trimester. Erhalten Sie erstklassige, sorgfältig ausgewählte Empfehlungen mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie Einblicken aus der Praxis. Gestalten Sie Ihre Schwangerschaft so gesund wie möglich – mit dem Expertenratgeber von XIX.AI. Jetzt entdecken.

10 Tools
xix.ai
Schreiben Die besten kostenlosen KI-Generatoren, die nicht als solche erkennbar sind: Verwandeln Sie roboterhafte Entwürfe in natürliche, menschenähnliche Texte
Die besten kostenlosen KI-Generatoren, die nicht als solche erkennbar sind: Verwandeln Sie roboterhafte Entwürfe in natürliche, menschenähnliche Texte

Entdecken Sie bei XIX.AI die besten kostenlosen, nicht nachweisbaren KI-Schreibassistenten des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter hilft Ihnen dabei, maschinell erstellte Entwürfe in natürliche, menschenähnliche Texte umzuwandeln. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren Vorsprung beim KI-Schreiben.

10 Tools
xix.ai
Kommentare (0)
0/500
OR