Дом
Система Gemini Omni от Google создает видео на основе изображений, аудиозаписей и текста
Три года назад компания Google представила проект Gemini с целью создания мультимодальной большой языковой модели — единой нейронной сети, обученной на тексте, изображениях, аудио и видео, способной генерировать контент во всех этих форматах.
На сегодняшней конференции разработчиков Google I/O компания сделала шаг к реализации этой концепции, представив Gemini Omni — новое семейство мультимодальных моделей. Генеральный директор Google Сундар Пичаи заявил, что Omni позволит пользователям «создавать что угодно из любого входного материала».
Первоначально Omni сосредоточится на видео. Теперь пользователи могут комбинировать изображения, аудио, видео и текст. Вместо того чтобы просто сшивать эти элементы вместе, Omni интеллектуально анализирует все модальности, чтобы создать связный результат. Это приводит к созданию высококачественных видеороликов, демонстрирующих понимание физики, культуры, истории и науки.
Omni также позволяет пользователям редактировать фотографии с помощью простых текстовых команд, устраняя необходимость в сложном программном обеспечении, аналогично инструменту Google Nano Banana.
Google уже предлагает Veo — специализированную видеомодель, которая преобразует текст и изображения в видео и позволяет управлять аватарами и настраивать их. Однако Николь Брихтово, директор по управлению продуктами в Google DeepMind, подчеркнула, что сегодняшний релиз представляет собой нечто большее, чем просто обновление Veo: «Это следующий шаг в объединении интеллекта Gemini с возможностями рендеринга наших медиа-моделей».
Во время брифинга для СМИ в понедельник главный технолог DeepMind Корай Кавукчуоглу привел пример: когда ему предложили «пояснительное видео с пластилиновой анимацией о сворачивании белков», Omni быстро сгенерировал стоп-моушн-видео с закадровым голосом, объясняющим: «Белки начинаются как цепочки аминокислот. Они сворачиваются в структуры, такие как альфа-спирали и плоские участки, называемые бета-листами, в конечном итоге образуя точную трехмерную форму».
Долгосрочная перспектива для Omni более широка и включает в себя такие возможности, как генерация изображений из аудио или аудио из видео.
«Когда мы впервые анонсировали Gemini, это была наша первая изначально мультимодальная модель ИИ», — отметил Пичаи во время брифинга. «Мы знали, что обучение ее на комбинации текста, кода, аудио, изображений и видео приведет к более глубокому пониманию мира. С помощью моделей мира ИИ эволюционирует от предсказания текста к моделированию реальности. Gemini Omni — это следующий шаг в этом направлении».
В рамках этого релиза пользователи также смогут создавать видео с участием своих собственных цифровых аватаров — функция, популяризованная приложением Sora от OpenAI (ныне снятым с производства) с помощью Cameos. По словам Брихтовой, для предотвращения появления дипфейков пользователи должны пройти специальный процесс регистрации, который включает в себя запись себя на видео, произнося серию цифр. Затем аватар сохраняется для дальнейшего использования.
Кроме того, все видео, созданные с помощью Omni, будут содержать цифровой водяной знак SynthID от Google, что позволит пользователям проверять, был ли контент сгенерирован с помощью продуктов Gemini.
Первой моделью в семействе является Gemini Omni Flash, запускаемая сегодня в приложении Gemini, YouTube Shorts и студии искусственного интеллекта Flow. Flash может рендерить 10-секундные видео. Брихтова пояснила, что эта продолжительность не является ограничением модели, а стратегическим решением, направленным на расширение доступности, исходя из того, что в настоящее время большинство пользователей предпочитают более короткие ролики. Поддержка более длинных видео запланирована на ближайшее будущее.
Google, похоже, позиционирует Omni Flash в первую очередь как инструмент для потребителей. Во время разговора с TechCrunch Брихтовая и инженер-исследователь DeepMind Гейб Барт-Марон описали сценарии использования аватаров как личные, например, создание видео, где вы получаете награду или посещаете Луну, или удаление постороннего человека из фона видео с отпуска.
Барт-Марон лаконично подытожил: «Они похожи на персонализированные мемы».
«Мы определенно сосредоточились на том, чтобы сделать это простым для использования потребителями», — сказала Брихтовая. «Не многие видеомодели успешно перешли на массовый потребительский рынок, так что это наша попытка сделать это».
Эта простота использования сопровождается одним предостережением: Брихтовая и Барт-Марон отметили, что подсказки для редактирования должны быть очень конкретными. В противном случае Omni может перередактировать или непреднамеренно изменить элементы, которые пользователь намеревался сохранить — с этой проблемой сталкиваются и пользователи Nano Banana.

Изображения:Google
Несмотря на непосредственную ориентацию на потребителей, потенциал Omni для корпоративных и творческих приложений очевиден. В ближайшие недели Google сделает Omni доступным через API. Ожидается, что инструмент для генерации аватаров, уже доступный в Shorts, станет популярным среди создателей контента. В более широком смысле сквозной мультимодальный рабочий процесс может революционизировать рекламу и кинопроизводство.
Стартап Luma AI разрабатывает аналогичный инструмент на базе собственной «унифицированной» модели, способный генерировать целую рекламную кампанию на основе брифа и изображения продукта.
«Мы действительно очень гордимся возможностями модели по рендерингу текста, которые очень полезны для таких приложений, как реклама», — сказала Брихтова. «Если вам нужен продукт-плейсмент или даже просто слоган, точность имеет решающее значение... Мы, безусловно, ожидаем, что кинематографисты и другие создатели контента также примут эту модель».
Для более профессиональных задач лучше подойдет готовящаяся к выпуску модель Omni Pro, разработанная для обеспечения превосходной производительности при выполнении всех задач Omni. Google пока не объявила дату выпуска Pro, но Брихтово указала, что она будет запущена, когда «мы достигнем значительного скачка в возможностях по сравнению с Flash».
Связанная статья
Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые»
В среду сервис Google Фото анонсировал новую функцию на базе искусственного интеллекта, которая в скором времени превратит фотографии вашей одежды в цифровой гардероб, позволяя создавать новые комбина
На конференции Google I/O 2026 представлена функция голосового управления почтовым ящиком Gmail
Google продолжает внедрять искусственный интеллект в ваш почтовый ящик. На конференции разработчиков IO 2026, состоявшейся во вторник, компания расширила функционал «AI Inbox» в Gmail за счет диалогов
Google запускает Gemini в браузере Chrome в Индии
В среду компания Google объявила о расширении интеграции Gemini в браузере Chrome на новые регионы, включая Индию, Канаду и Новую Зеландию. Это обновление позволяет пользователям настольных компьютеро
Рекомендации по связанным специальным темам
Комментарии (0)
Три года назад компания Google представила проект Gemini с целью создания мультимодальной большой языковой модели — единой нейронной сети, обученной на тексте, изображениях, аудио и видео, способной генерировать контент во всех этих форматах.
На сегодняшней конференции разработчиков Google I/O компания сделала шаг к реализации этой концепции, представив Gemini Omni — новое семейство мультимодальных моделей. Генеральный директор Google Сундар Пичаи заявил, что Omni позволит пользователям «создавать что угодно из любого входного материала».
Первоначально Omni сосредоточится на видео. Теперь пользователи могут комбинировать изображения, аудио, видео и текст. Вместо того чтобы просто сшивать эти элементы вместе, Omni интеллектуально анализирует все модальности, чтобы создать связный результат. Это приводит к созданию высококачественных видеороликов, демонстрирующих понимание физики, культуры, истории и науки.
Omni также позволяет пользователям редактировать фотографии с помощью простых текстовых команд, устраняя необходимость в сложном программном обеспечении, аналогично инструменту Google Nano Banana.
Google уже предлагает Veo — специализированную видеомодель, которая преобразует текст и изображения в видео и позволяет управлять аватарами и настраивать их. Однако Николь Брихтово, директор по управлению продуктами в Google DeepMind, подчеркнула, что сегодняшний релиз представляет собой нечто большее, чем просто обновление Veo: «Это следующий шаг в объединении интеллекта Gemini с возможностями рендеринга наших медиа-моделей».
Во время брифинга для СМИ в понедельник главный технолог DeepMind Корай Кавукчуоглу привел пример: когда ему предложили «пояснительное видео с пластилиновой анимацией о сворачивании белков», Omni быстро сгенерировал стоп-моушн-видео с закадровым голосом, объясняющим: «Белки начинаются как цепочки аминокислот. Они сворачиваются в структуры, такие как альфа-спирали и плоские участки, называемые бета-листами, в конечном итоге образуя точную трехмерную форму».
Долгосрочная перспектива для Omni более широка и включает в себя такие возможности, как генерация изображений из аудио или аудио из видео.
«Когда мы впервые анонсировали Gemini, это была наша первая изначально мультимодальная модель ИИ», — отметил Пичаи во время брифинга. «Мы знали, что обучение ее на комбинации текста, кода, аудио, изображений и видео приведет к более глубокому пониманию мира. С помощью моделей мира ИИ эволюционирует от предсказания текста к моделированию реальности. Gemini Omni — это следующий шаг в этом направлении».
В рамках этого релиза пользователи также смогут создавать видео с участием своих собственных цифровых аватаров — функция, популяризованная приложением Sora от OpenAI (ныне снятым с производства) с помощью Cameos. По словам Брихтовой, для предотвращения появления дипфейков пользователи должны пройти специальный процесс регистрации, который включает в себя запись себя на видео, произнося серию цифр. Затем аватар сохраняется для дальнейшего использования.
Кроме того, все видео, созданные с помощью Omni, будут содержать цифровой водяной знак SynthID от Google, что позволит пользователям проверять, был ли контент сгенерирован с помощью продуктов Gemini.
Первой моделью в семействе является Gemini Omni Flash, запускаемая сегодня в приложении Gemini, YouTube Shorts и студии искусственного интеллекта Flow. Flash может рендерить 10-секундные видео. Брихтова пояснила, что эта продолжительность не является ограничением модели, а стратегическим решением, направленным на расширение доступности, исходя из того, что в настоящее время большинство пользователей предпочитают более короткие ролики. Поддержка более длинных видео запланирована на ближайшее будущее.
Google, похоже, позиционирует Omni Flash в первую очередь как инструмент для потребителей. Во время разговора с TechCrunch Брихтовая и инженер-исследователь DeepMind Гейб Барт-Марон описали сценарии использования аватаров как личные, например, создание видео, где вы получаете награду или посещаете Луну, или удаление постороннего человека из фона видео с отпуска.
Барт-Марон лаконично подытожил: «Они похожи на персонализированные мемы».
«Мы определенно сосредоточились на том, чтобы сделать это простым для использования потребителями», — сказала Брихтовая. «Не многие видеомодели успешно перешли на массовый потребительский рынок, так что это наша попытка сделать это».
Эта простота использования сопровождается одним предостережением: Брихтовая и Барт-Марон отметили, что подсказки для редактирования должны быть очень конкретными. В противном случае Omni может перередактировать или непреднамеренно изменить элементы, которые пользователь намеревался сохранить — с этой проблемой сталкиваются и пользователи Nano Banana.

Изображения:Google
Несмотря на непосредственную ориентацию на потребителей, потенциал Omni для корпоративных и творческих приложений очевиден. В ближайшие недели Google сделает Omni доступным через API. Ожидается, что инструмент для генерации аватаров, уже доступный в Shorts, станет популярным среди создателей контента. В более широком смысле сквозной мультимодальный рабочий процесс может революционизировать рекламу и кинопроизводство.
Стартап Luma AI разрабатывает аналогичный инструмент на базе собственной «унифицированной» модели, способный генерировать целую рекламную кампанию на основе брифа и изображения продукта.
«Мы действительно очень гордимся возможностями модели по рендерингу текста, которые очень полезны для таких приложений, как реклама», — сказала Брихтова. «Если вам нужен продукт-плейсмент или даже просто слоган, точность имеет решающее значение... Мы, безусловно, ожидаем, что кинематографисты и другие создатели контента также примут эту модель».
Для более профессиональных задач лучше подойдет готовящаяся к выпуску модель Omni Pro, разработанная для обеспечения превосходной производительности при выполнении всех задач Omni. Google пока не объявила дату выпуска Pro, но Брихтово указала, что она будет запущена, когда «мы достигнем значительного скачка в возможностях по сравнению с Flash».
Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые»
В среду сервис Google Фото анонсировал новую функцию на базе искусственного интеллекта, которая в скором времени превратит фотографии вашей одежды в цифровой гардероб, позволяя создавать новые комбина
На конференции Google I/O 2026 представлена функция голосового управления почтовым ящиком Gmail
Google продолжает внедрять искусственный интеллект в ваш почтовый ящик. На конференции разработчиков IO 2026, состоявшейся во вторник, компания расширила функционал «AI Inbox» в Gmail за счет диалогов
Google запускает Gemini в браузере Chrome в Индии
В среду компания Google объявила о расширении интеграции Gemini в браузере Chrome на новые регионы, включая Индию, Канаду и Новую Зеландию. Это обновление позволяет пользователям настольных компьютеро











