Google I/O 2025 демонстрирует практическое применение генеративных медиа

На I/O 2025 наш подход к генеративному ИИ заключался в демонстрации его возможностей с помощью презентаций и практических приложений. Мы представили захватывающие обновления наших последних моделей генерации видео и изображений -eo 3 и Imagen 4 - и расширили доступ к Lyria 2. Мы также представили Flow, инструмент для создания фильмов с использованием искусственного интеллекта, который позволяет беспрепятственно создавать кинематографические клипы, сцены и последовательные повествования с помощью наших самых передовых генеративных моделей.
Мы также интегрировали эти инструменты в наше флагманское ежегодное мероприятие: 219 слайдов основного доклада I/O были сгенерированы искусственным интеллектом, 48 % визуальных материалов основного доклада были созданы с помощью Imagen, а 80 % видеороликов в той или иной форме включали Veo или Imagen. Вот подробный обзор того, как мы использовали наши собственные инструменты искусственного интеллекта, включая процесс написания подсказок, чтобы воплотить в жизнь I/O 2025:
Veo 2: стильный дизайн титульных карточек спикеров
Когда Элизабет Рид, вице-президент и руководитель отдела поиска, вышла на сцену, чтобы рассказать об основных обновлениях поиска, на экране появилось короткое видео, в котором Лиз раскрыла руку и увидела изящного оранжевого журавлика оригами, который вращался и левитировал прямо над ее ладонью.
Мы использовали функцию преобразования изображений в видео в AI Studio и Vertex AI Studio на базе Veo 2 для создания этого и других вступительных видеороликов для докладчиков. Мы собрали фотографии наших докладчиков, а также подробную информацию об их интересах и увлечениях, чтобы включить ее в подсказки. Вот подсказка, которую мы создали для титульной карточки научного сотрудника Джейсона Болдриджа:
Вот необработанный результат Veo 2, дополненный простой анимацией, и то, что зрители увидели на сцене:
Imagen 4 и Veo 3: раскадровка и производство фильмов
Несколько фильмов, показанных на I/O, использовали в своем производстве инструменты искусственного интеллекта. Вступительный фильм отправил зрителей в захватывающее путешествие по городу в стиле вестерн, а затем поднялся вверх и показал разноцветные воздушные шары с надписью "Добро пожаловать на I/O", положив начало основному докладу.
Для его создания команда создателей использовала различные инструменты искусственного интеллекта. Для начала они использовали Imagen 4 для создания изображений для видеоподсказок. Они также сотрудничали с командой Google DeepMind, которая использовала Gemini для доработки подсказок, помогая им найти правильный язык для достижения желаемых результатов. Вот подсказка, использованная для первой сцены:
Вот что получилось:
Затем команда включила это изображение в подсказку Veo 3, которая содержала такие указания, как:
Подготовив изображения и уточненные подсказки, они приступили к созданию фильма с помощью нашей новейшей технологии Veo 3 (доступной в рамках тарифного плана Google AI Ultra!). Они также использовали Veo 3 для внесения корректировок в режиме реального времени: добавляли верхние кадры, более широкие ракурсы и различные визуальные эффекты по мере просмотра результатов. В отличие от традиционного кинематографа, где часто приходится переснимать сцены, команда могла работать гораздо быстрее. Кодирование не требовалось: хотя некоторые члены команды использовали функцию Colab для редактирования с помощью кода, многие другие полагались на текстовые подсказки, описывая правки и запросы на естественном языке.
Вот подсказка, использованная для создания одной из финальных сцен фильма:
Lyria RealTime: Джем с Toro y Moi в реальном времени
Во время предварительного показа I/O артист Toro y Moi использовал Lyria RealTime в живом музыкальном сеттинге, чтобы продемонстрировать новейшие возможности модели. Lyria RealTime - это наша интерактивная модель генерации музыки, которая позволяет создавать, контролировать и исполнять генеративную музыку в режиме реального времени. Вы можете смешивать и изменять инструменты, звуки, жанры и многое другое. "Это будет выступление и эксперимент", - объяснил он перед началом. "Все, что я играю, полностью импровизировано - я играю с компьютером, а компьютер играет со мной".
За несколько недель до выступления команда предоставила Toro y Moi прототип Lyria RealTime, чтобы он мог протестировать и отточить свои подсказки. Это помогло ему разработать творческую концепцию и подсказки для использования во время шоу. Он создал 16 звуковых подсказок, в том числе "хаотичный конга-плеер" и "барабаны джунглей Великобритании со сдвигом высоты тона", и назначил их на ручки физического MIDI-контроллера.
Локальный запуск Lyria RealTime через MIDI-контроллер позволил Toro y Moi использовать модель на сцене и дал зрителям возможность увидеть интерфейс в действии.
Во время выступления приложение, созданное с использованием Lyria RealTime API и работающее на MIDI-контроллере, отображалось позади Toro y Moi. Зрители увидели возможности приложения для создания и управления непрерывным музыкальным потоком, а также подсказки, которые он использовал при наложении клавишных и вокальных украшений.
Попробуйте сами, используя Lyria RealTime API в AI Studio.
AI Studio: Создание генерируемых ИИ сувениров
Мы использовали несколько моделей Gemini в Google AI Studio - нашем бесплатном интерфейсе для быстрого тестирования моделей и экспериментов с подсказками - для создания футболки I/O этого года с совершенно новым пользовательским логотипом. Как указано на бирке футболки, творческая задача заключалась в следующем: "Логотип Google I/O, тающий в земле, цвета радуги, иллюстрация, студийное освещение". Вот как мы его создали:
Сначала команда выбрала Gemini 2.5 Pro в AI Studio и определила свою задачу с помощью подробной инструкции к системе.
После этого они ввели творческую подсказку, упомянутую ранее. Затем Gemini 2.5 Pro сгенерировал список требований и идей стиля для получения желаемых изображений. Например: "Основные формы: Основные геометрические формы трех исходных фигур (общий прямоугольник, тонкая косая линия/прямоугольник и цилиндр) должны оставаться четко узнаваемыми и визуально различимыми, даже если к их сторонам применить эффект плавления. Не искажайте основную структуру за пределами эффекта плавления краски".
Получив письменные инструкции, команда переключилась на нашу "рабочую лошадку" - Gemini 2.0 Flash с функцией генерации изображений, чтобы создать множество вариантов изображений на основе сгенерированного списка.
После длительных экспериментов они выбрали несколько окончательных вариантов дизайна, в том числе и этот.
Стоит отметить, что команда также попробовала обойтись без первоначального переписывания подсказок в Gemini 2.5 Pro и перейти непосредственно к Gemini 2.0 Flash в AI Studio. Хотя они и приблизились к желаемому результату, использование перезаписи в 2.5 Pro неизменно приносило лучшие результаты с большим количеством творческих деталей. Результат? Несколько очень крутых футболок!
Готовы к подведению итогов? Ознакомьтесь с самыми крупными анонсами I/O 2025 здесь и проверьте свои знания с помощью нашей викторины I/O.
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Рекомендации по связанным специальным темам
Комментарии (1)
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅

На I/O 2025 наш подход к генеративному ИИ заключался в демонстрации его возможностей с помощью презентаций и практических приложений. Мы представили захватывающие обновления наших последних моделей генерации видео и изображений -eo 3 и Imagen 4 - и расширили доступ к Lyria 2. Мы также представили Flow, инструмент для создания фильмов с использованием искусственного интеллекта, который позволяет беспрепятственно создавать кинематографические клипы, сцены и последовательные повествования с помощью наших самых передовых генеративных моделей.
Мы также интегрировали эти инструменты в наше флагманское ежегодное мероприятие: 219 слайдов основного доклада I/O были сгенерированы искусственным интеллектом, 48 % визуальных материалов основного доклада были созданы с помощью Imagen, а 80 % видеороликов в той или иной форме включали Veo или Imagen. Вот подробный обзор того, как мы использовали наши собственные инструменты искусственного интеллекта, включая процесс написания подсказок, чтобы воплотить в жизнь I/O 2025:
Veo 2: стильный дизайн титульных карточек спикеров
Когда Элизабет Рид, вице-президент и руководитель отдела поиска, вышла на сцену, чтобы рассказать об основных обновлениях поиска, на экране появилось короткое видео, в котором Лиз раскрыла руку и увидела изящного оранжевого журавлика оригами, который вращался и левитировал прямо над ее ладонью.
Мы использовали функцию преобразования изображений в видео в AI Studio и Vertex AI Studio на базе Veo 2 для создания этого и других вступительных видеороликов для докладчиков. Мы собрали фотографии наших докладчиков, а также подробную информацию об их интересах и увлечениях, чтобы включить ее в подсказки. Вот подсказка, которую мы создали для титульной карточки научного сотрудника Джейсона Болдриджа:
Вот необработанный результат Veo 2, дополненный простой анимацией, и то, что зрители увидели на сцене:
Imagen 4 и Veo 3: раскадровка и производство фильмов
Несколько фильмов, показанных на I/O, использовали в своем производстве инструменты искусственного интеллекта. Вступительный фильм отправил зрителей в захватывающее путешествие по городу в стиле вестерн, а затем поднялся вверх и показал разноцветные воздушные шары с надписью "Добро пожаловать на I/O", положив начало основному докладу.
Для его создания команда создателей использовала различные инструменты искусственного интеллекта. Для начала они использовали Imagen 4 для создания изображений для видеоподсказок. Они также сотрудничали с командой Google DeepMind, которая использовала Gemini для доработки подсказок, помогая им найти правильный язык для достижения желаемых результатов. Вот подсказка, использованная для первой сцены:
Вот что получилось:
Затем команда включила это изображение в подсказку Veo 3, которая содержала такие указания, как:
Подготовив изображения и уточненные подсказки, они приступили к созданию фильма с помощью нашей новейшей технологии Veo 3 (доступной в рамках тарифного плана Google AI Ultra!). Они также использовали Veo 3 для внесения корректировок в режиме реального времени: добавляли верхние кадры, более широкие ракурсы и различные визуальные эффекты по мере просмотра результатов. В отличие от традиционного кинематографа, где часто приходится переснимать сцены, команда могла работать гораздо быстрее. Кодирование не требовалось: хотя некоторые члены команды использовали функцию Colab для редактирования с помощью кода, многие другие полагались на текстовые подсказки, описывая правки и запросы на естественном языке.
Вот подсказка, использованная для создания одной из финальных сцен фильма:
Lyria RealTime: Джем с Toro y Moi в реальном времени
Во время предварительного показа I/O артист Toro y Moi использовал Lyria RealTime в живом музыкальном сеттинге, чтобы продемонстрировать новейшие возможности модели. Lyria RealTime - это наша интерактивная модель генерации музыки, которая позволяет создавать, контролировать и исполнять генеративную музыку в режиме реального времени. Вы можете смешивать и изменять инструменты, звуки, жанры и многое другое. "Это будет выступление и эксперимент", - объяснил он перед началом. "Все, что я играю, полностью импровизировано - я играю с компьютером, а компьютер играет со мной".
За несколько недель до выступления команда предоставила Toro y Moi прототип Lyria RealTime, чтобы он мог протестировать и отточить свои подсказки. Это помогло ему разработать творческую концепцию и подсказки для использования во время шоу. Он создал 16 звуковых подсказок, в том числе "хаотичный конга-плеер" и "барабаны джунглей Великобритании со сдвигом высоты тона", и назначил их на ручки физического MIDI-контроллера.
Локальный запуск Lyria RealTime через MIDI-контроллер позволил Toro y Moi использовать модель на сцене и дал зрителям возможность увидеть интерфейс в действии.
Во время выступления приложение, созданное с использованием Lyria RealTime API и работающее на MIDI-контроллере, отображалось позади Toro y Moi. Зрители увидели возможности приложения для создания и управления непрерывным музыкальным потоком, а также подсказки, которые он использовал при наложении клавишных и вокальных украшений.
Попробуйте сами, используя Lyria RealTime API в AI Studio.
AI Studio: Создание генерируемых ИИ сувениров
Мы использовали несколько моделей Gemini в Google AI Studio - нашем бесплатном интерфейсе для быстрого тестирования моделей и экспериментов с подсказками - для создания футболки I/O этого года с совершенно новым пользовательским логотипом. Как указано на бирке футболки, творческая задача заключалась в следующем: "Логотип Google I/O, тающий в земле, цвета радуги, иллюстрация, студийное освещение". Вот как мы его создали:
Сначала команда выбрала Gemini 2.5 Pro в AI Studio и определила свою задачу с помощью подробной инструкции к системе.
После этого они ввели творческую подсказку, упомянутую ранее. Затем Gemini 2.5 Pro сгенерировал список требований и идей стиля для получения желаемых изображений. Например: "Основные формы: Основные геометрические формы трех исходных фигур (общий прямоугольник, тонкая косая линия/прямоугольник и цилиндр) должны оставаться четко узнаваемыми и визуально различимыми, даже если к их сторонам применить эффект плавления. Не искажайте основную структуру за пределами эффекта плавления краски".
Получив письменные инструкции, команда переключилась на нашу "рабочую лошадку" - Gemini 2.0 Flash с функцией генерации изображений, чтобы создать множество вариантов изображений на основе сгенерированного списка.
После длительных экспериментов они выбрали несколько окончательных вариантов дизайна, в том числе и этот.
Стоит отметить, что команда также попробовала обойтись без первоначального переписывания подсказок в Gemini 2.5 Pro и перейти непосредственно к Gemini 2.0 Flash в AI Studio. Хотя они и приблизились к желаемому результату, использование перезаписи в 2.5 Pro неизменно приносило лучшие результаты с большим количеством творческих деталей. Результат? Несколько очень крутых футболок!
Готовы к подведению итогов? Ознакомьтесь с самыми крупными анонсами I/O 2025 здесь и проверьте свои знания с помощью нашей викторины I/O.
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅





Дом






