Google I/O 2025 zeigt praktische Anwendungen von generativen Medien

Auf der I/O 2025 haben wir die Möglichkeiten der generativen KI sowohl in Präsentationen als auch in praktischen Anwendungen vorgestellt. Wir haben spannende Updates für unsere neuesten Modelle zur Video- und Bilderzeugung - Veo 3 und Imagen 4 - vorgestellt und den Zugang zu Lyria 2 erweitert. Außerdem stellten wir Flow vor, ein KI-Filmwerkzeug, das die nahtlose Erstellung von filmischen Clips, Szenen und konsistenten Erzählungen mit unseren fortschrittlichsten generativen Modellen ermöglicht.
Diese Tools haben wir auch in unser jährliches Flaggschiff-Event integriert: 219 Folien der I/O-Keynote waren KI-generiert, 48 % der Keynote-Visuals wurden mit Imagen erstellt, und 80 % der Videos enthielten Veo oder Imagen in irgendeiner Form. Hier erhalten Sie einen detaillierten Einblick, wie wir unsere eigenen KI-Tools - einschließlich unseres Prompt-Writing-Prozesses - eingesetzt haben, um die I/O 2025 zum Leben zu erwecken:
Veo 2: Gestaltung von Sprechertitelkarten mit Stil
Als Elizabeth Reid, unsere Vizepräsidentin und Leiterin der Suchabteilung, die Bühne betrat, um die wichtigsten Such-Updates vorzustellen, wurde ein kurzes Video auf dem Bildschirm abgespielt, das zeigte, wie Liz ihre Hand öffnete und einen zarten orangefarbenen Origami-Kranich zum Vorschein brachte, der sich drehte und direkt über ihrer Handfläche schwebte.
Wir haben die Bild-zu-Video-Funktion in AI Studio und Vertex AI Studio - angetrieben von Veo 2 - verwendet, um dieses und andere Einführungsvideos für die Sprecher zu produzieren. Wir sammelten Fotos von unseren Sprechern sowie Details über ihre Interessen und Hobbys, um sie in die Prompts einzubauen. Hier ist der Prompt, den wir für die Titelkarte des Forschers Jason Baldridge erstellt haben:
Hier sehen Sie die Rohfassung von Veo 2, die mit einfachen Animationen angereichert wurde, und das, was das Publikum auf der Bühne sah:
Imagen 4 und Veo 3: Storyboarding und Filmproduktion
Mehrere Filme, die auf der I/O gezeigt wurden, nutzten KI-Tools für ihre Produktion. Der Eröffnungsfilm nahm die Zuschauer mit auf eine aufregende Reise durch eine Westernstadt, bevor er nach oben schwenkte und bunte Luftballons mit dem Schriftzug "Welcome to I/O" die Keynote einleiteten.
Das Produktionsteam setzte bei der Erstellung des Films verschiedene KI-Tools ein. Zunächst wurde Imagen 4 eingesetzt, um Bilder für die Videoansagen zu generieren. Sie arbeiteten auch mit dem Google DeepMind-Team zusammen, das Gemini zur Verfeinerung der Prompts verwendete und ihnen half, die richtige Sprache zu finden, um die gewünschten Ergebnisse zu erzielen. Hier ist die Aufforderung, die für die erste Szene verwendet wurde:
Dies ist das Ergebnis:
Das Team fügte dieses Bild dann in die Veo 3-Aufforderung ein, die Anweisungen wie diese enthielt:
Mit den fertigen Bildern und den verfeinerten Eingabeaufforderungen begannen sie mit der Produktion des Films unter Verwendung unserer neuesten Veo 3 Technologie (verfügbar über den Google AI Ultra Plan!). Sie nutzten Veo 3 auch, um in Echtzeit Anpassungen vorzunehmen - sie fügten Überkopfaufnahmen, breitere Blickwinkel und andere Bilder hinzu, während sie das Ergebnis überprüften. Im Gegensatz zum herkömmlichen Filmemachen, bei dem Szenen oft neu gedreht werden müssen, konnte das Team viel schneller arbeiten. Es war keine Programmierung erforderlich: Während einige Teammitglieder die Colab-Funktion für die codebasierte Bearbeitung nutzten, verließen sich viele andere auf Text-to-Video-Eingabeaufforderungen, die Bearbeitungen und Anforderungen in natürlicher Sprache beschrieben.
Hier ist der Prompt, der für eine der letzten Szenen des Films verwendet wurde:
Lyria RealTime: Jammen mit Toro y Moi in Echtzeit
Während der I/O Pre-Show verwendete der Künstler Toro y Moi Lyria RealTime in einem musikalischen Live-Set, um die neuesten Fähigkeiten des Modells zu demonstrieren. Lyria RealTime ist unser interaktives Musikgenerierungsmodell, mit dem Sie generative Musik in Echtzeit erstellen, steuern und aufführen können. Sie können Instrumente, Klänge, Genres und vieles mehr mischen und morphen. "Dies wird eine Performance und ein Experiment sein", erklärte er, bevor er begann. "Alles, was ich spiele, ist komplett improvisiert - ich jamme mit dem Computer, und der Computer jammt mit mir."
In den Wochen vor der Aufführung stellte das Team Toro y Moi einen Lyria RealTime Prototyp zur Verfügung, damit er seine Ansagen testen und verfeinern konnte. Dies half ihm, ein kreatives Konzept und Prompts zu entwickeln, die er während der Show verwenden konnte. Er erstellte 16 Sound-Prompts - darunter "chaotischer Conga-Spieler" und "pitch shift U.K. jungle drums" - und wies sie den Reglern eines physischen MIDI-Controllers zu.
Die lokale Ausführung von Lyria RealTime über einen MIDI-Controller ermöglichte es Toro y Moi, das Modell auf der Bühne zu verwenden und dem Publikum einen Live-Blick auf das Interface in Aktion zu geben.
Während der Performance wurde eine mit der Lyria RealTime API erstellte und auf dem MIDI-Controller laufende App hinter Toro y Moi angezeigt. Das Publikum sah die Optionen der App für die Erstellung und Steuerung eines kontinuierlichen Musikstroms - zusammen mit den von ihm verwendeten Eingabeaufforderungen - während er Keyboards und Gesangsverzierungen übereinander legte.
Probieren Sie es selbst aus, indem Sie die Lyria RealTime API in AI Studio verwenden.
AI Studio: Erstellen von KI-generiertem Swag
Wir haben mehrere Gemini-Modelle in Google AI Studio - unserer kostenlosen Schnittstelle zum schnellen Testen von Modellen und Experimentieren mit Prompts - verwendet, um das diesjährige I/O-Shirt mit einem brandneuen benutzerdefinierten Logo zu entwerfen. Wie auf dem Etikett des Shirts beschrieben, lautete die kreative Aufforderung: "Das Google I/O-Logo, das mit dem Boden verschmilzt, Regenbogenfarben, Illustration, Studiobeleuchtung". So haben wir es erstellt:
Zunächst wählte das Team Gemini 2.5 Pro in AI Studio und definierte sein Ziel mit einer detaillierten Systemanweisung.
Nachdem sie diese Richtlinien festgelegt hatten, gaben sie die bereits erwähnte kreative Aufforderung ein. Gemini 2.5 Pro generierte daraufhin eine Liste von Anforderungen und Stilideen für die gewünschten Bildausgaben. Zum Beispiel: "Kernformen: Die grundlegenden geometrischen Formen der drei ursprünglichen Formen (das allgemeine Rechteck, der dünne Schrägstrich/Rechteck und der Zylinder) müssen immer noch klar erkennbar und visuell unterscheidbar sein, auch wenn der Schmelzeffekt auf ihre Seiten angewendet wird. Die Kernstruktur darf nicht über den Schmelzeffekt hinaus verzerrt werden."
Sobald das Team diese schriftlichen Anweisungen hatte, wechselte es zu unserem Arbeitsmodell, Gemini 2.0 Flash mit Bilderzeugung, um eine Vielzahl von Bildoptionen auf der Grundlage der erzeugten Liste zu produzieren.
Nach ausgiebigem Experimentieren wählten sie mehrere endgültige Entwürfe aus - darunter auch diesen.
Es ist erwähnenswert, dass das Team auch versuchte, die anfängliche Umschreibung der Eingabeaufforderung mit Gemini 2.5 Pro zu umgehen und direkt zu Gemini 2.0 Flash in AI Studio überzugehen. Obwohl sie dem gewünschten Ergebnis sehr nahe kamen, lieferte die Umschreibung mit 2.5 Pro durchweg bessere Ergebnisse mit mehr kreativen Details. Und das Ergebnis? Einige wirklich coole T-Shirts!
Bereit für eine Zusammenfassung? Informieren Sie sich hier über die wichtigsten Ankündigungen der I/O 2025, und testen Sie Ihr Wissen mit unserem I/O-Quiz.
Verwandter Artikel
Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor
Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅

Auf der I/O 2025 haben wir die Möglichkeiten der generativen KI sowohl in Präsentationen als auch in praktischen Anwendungen vorgestellt. Wir haben spannende Updates für unsere neuesten Modelle zur Video- und Bilderzeugung - Veo 3 und Imagen 4 - vorgestellt und den Zugang zu Lyria 2 erweitert. Außerdem stellten wir Flow vor, ein KI-Filmwerkzeug, das die nahtlose Erstellung von filmischen Clips, Szenen und konsistenten Erzählungen mit unseren fortschrittlichsten generativen Modellen ermöglicht.
Diese Tools haben wir auch in unser jährliches Flaggschiff-Event integriert: 219 Folien der I/O-Keynote waren KI-generiert, 48 % der Keynote-Visuals wurden mit Imagen erstellt, und 80 % der Videos enthielten Veo oder Imagen in irgendeiner Form. Hier erhalten Sie einen detaillierten Einblick, wie wir unsere eigenen KI-Tools - einschließlich unseres Prompt-Writing-Prozesses - eingesetzt haben, um die I/O 2025 zum Leben zu erwecken:
Veo 2: Gestaltung von Sprechertitelkarten mit Stil
Als Elizabeth Reid, unsere Vizepräsidentin und Leiterin der Suchabteilung, die Bühne betrat, um die wichtigsten Such-Updates vorzustellen, wurde ein kurzes Video auf dem Bildschirm abgespielt, das zeigte, wie Liz ihre Hand öffnete und einen zarten orangefarbenen Origami-Kranich zum Vorschein brachte, der sich drehte und direkt über ihrer Handfläche schwebte.
Wir haben die Bild-zu-Video-Funktion in AI Studio und Vertex AI Studio - angetrieben von Veo 2 - verwendet, um dieses und andere Einführungsvideos für die Sprecher zu produzieren. Wir sammelten Fotos von unseren Sprechern sowie Details über ihre Interessen und Hobbys, um sie in die Prompts einzubauen. Hier ist der Prompt, den wir für die Titelkarte des Forschers Jason Baldridge erstellt haben:
Hier sehen Sie die Rohfassung von Veo 2, die mit einfachen Animationen angereichert wurde, und das, was das Publikum auf der Bühne sah:
Imagen 4 und Veo 3: Storyboarding und Filmproduktion
Mehrere Filme, die auf der I/O gezeigt wurden, nutzten KI-Tools für ihre Produktion. Der Eröffnungsfilm nahm die Zuschauer mit auf eine aufregende Reise durch eine Westernstadt, bevor er nach oben schwenkte und bunte Luftballons mit dem Schriftzug "Welcome to I/O" die Keynote einleiteten.
Das Produktionsteam setzte bei der Erstellung des Films verschiedene KI-Tools ein. Zunächst wurde Imagen 4 eingesetzt, um Bilder für die Videoansagen zu generieren. Sie arbeiteten auch mit dem Google DeepMind-Team zusammen, das Gemini zur Verfeinerung der Prompts verwendete und ihnen half, die richtige Sprache zu finden, um die gewünschten Ergebnisse zu erzielen. Hier ist die Aufforderung, die für die erste Szene verwendet wurde:
Dies ist das Ergebnis:
Das Team fügte dieses Bild dann in die Veo 3-Aufforderung ein, die Anweisungen wie diese enthielt:
Mit den fertigen Bildern und den verfeinerten Eingabeaufforderungen begannen sie mit der Produktion des Films unter Verwendung unserer neuesten Veo 3 Technologie (verfügbar über den Google AI Ultra Plan!). Sie nutzten Veo 3 auch, um in Echtzeit Anpassungen vorzunehmen - sie fügten Überkopfaufnahmen, breitere Blickwinkel und andere Bilder hinzu, während sie das Ergebnis überprüften. Im Gegensatz zum herkömmlichen Filmemachen, bei dem Szenen oft neu gedreht werden müssen, konnte das Team viel schneller arbeiten. Es war keine Programmierung erforderlich: Während einige Teammitglieder die Colab-Funktion für die codebasierte Bearbeitung nutzten, verließen sich viele andere auf Text-to-Video-Eingabeaufforderungen, die Bearbeitungen und Anforderungen in natürlicher Sprache beschrieben.
Hier ist der Prompt, der für eine der letzten Szenen des Films verwendet wurde:
Lyria RealTime: Jammen mit Toro y Moi in Echtzeit
Während der I/O Pre-Show verwendete der Künstler Toro y Moi Lyria RealTime in einem musikalischen Live-Set, um die neuesten Fähigkeiten des Modells zu demonstrieren. Lyria RealTime ist unser interaktives Musikgenerierungsmodell, mit dem Sie generative Musik in Echtzeit erstellen, steuern und aufführen können. Sie können Instrumente, Klänge, Genres und vieles mehr mischen und morphen. "Dies wird eine Performance und ein Experiment sein", erklärte er, bevor er begann. "Alles, was ich spiele, ist komplett improvisiert - ich jamme mit dem Computer, und der Computer jammt mit mir."
In den Wochen vor der Aufführung stellte das Team Toro y Moi einen Lyria RealTime Prototyp zur Verfügung, damit er seine Ansagen testen und verfeinern konnte. Dies half ihm, ein kreatives Konzept und Prompts zu entwickeln, die er während der Show verwenden konnte. Er erstellte 16 Sound-Prompts - darunter "chaotischer Conga-Spieler" und "pitch shift U.K. jungle drums" - und wies sie den Reglern eines physischen MIDI-Controllers zu.
Die lokale Ausführung von Lyria RealTime über einen MIDI-Controller ermöglichte es Toro y Moi, das Modell auf der Bühne zu verwenden und dem Publikum einen Live-Blick auf das Interface in Aktion zu geben.
Während der Performance wurde eine mit der Lyria RealTime API erstellte und auf dem MIDI-Controller laufende App hinter Toro y Moi angezeigt. Das Publikum sah die Optionen der App für die Erstellung und Steuerung eines kontinuierlichen Musikstroms - zusammen mit den von ihm verwendeten Eingabeaufforderungen - während er Keyboards und Gesangsverzierungen übereinander legte.
Probieren Sie es selbst aus, indem Sie die Lyria RealTime API in AI Studio verwenden.
AI Studio: Erstellen von KI-generiertem Swag
Wir haben mehrere Gemini-Modelle in Google AI Studio - unserer kostenlosen Schnittstelle zum schnellen Testen von Modellen und Experimentieren mit Prompts - verwendet, um das diesjährige I/O-Shirt mit einem brandneuen benutzerdefinierten Logo zu entwerfen. Wie auf dem Etikett des Shirts beschrieben, lautete die kreative Aufforderung: "Das Google I/O-Logo, das mit dem Boden verschmilzt, Regenbogenfarben, Illustration, Studiobeleuchtung". So haben wir es erstellt:
Zunächst wählte das Team Gemini 2.5 Pro in AI Studio und definierte sein Ziel mit einer detaillierten Systemanweisung.
Nachdem sie diese Richtlinien festgelegt hatten, gaben sie die bereits erwähnte kreative Aufforderung ein. Gemini 2.5 Pro generierte daraufhin eine Liste von Anforderungen und Stilideen für die gewünschten Bildausgaben. Zum Beispiel: "Kernformen: Die grundlegenden geometrischen Formen der drei ursprünglichen Formen (das allgemeine Rechteck, der dünne Schrägstrich/Rechteck und der Zylinder) müssen immer noch klar erkennbar und visuell unterscheidbar sein, auch wenn der Schmelzeffekt auf ihre Seiten angewendet wird. Die Kernstruktur darf nicht über den Schmelzeffekt hinaus verzerrt werden."
Sobald das Team diese schriftlichen Anweisungen hatte, wechselte es zu unserem Arbeitsmodell, Gemini 2.0 Flash mit Bilderzeugung, um eine Vielzahl von Bildoptionen auf der Grundlage der erzeugten Liste zu produzieren.
Nach ausgiebigem Experimentieren wählten sie mehrere endgültige Entwürfe aus - darunter auch diesen.
Es ist erwähnenswert, dass das Team auch versuchte, die anfängliche Umschreibung der Eingabeaufforderung mit Gemini 2.5 Pro zu umgehen und direkt zu Gemini 2.0 Flash in AI Studio überzugehen. Obwohl sie dem gewünschten Ergebnis sehr nahe kamen, lieferte die Umschreibung mit 2.5 Pro durchweg bessere Ergebnisse mit mehr kreativen Details. Und das Ergebnis? Einige wirklich coole T-Shirts!
Bereit für eine Zusammenfassung? Informieren Sie sich hier über die wichtigsten Ankündigungen der I/O 2025, und testen Sie Ihr Wissen mit unserem I/O-Quiz.
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅





Heim






