вариант
Дом
Новости
Система Gemini Omni от Google создает видео на основе изображений, аудиозаписей и текста

Система Gemini Omni от Google создает видео на основе изображений, аудиозаписей и текста

26 мая 2026 г.
71

Три года назад компания Google представила проект Gemini с целью создания мультимодальной большой языковой модели — единой нейронной сети, обученной на тексте, изображениях, аудио и видео, способной генерировать контент во всех этих форматах.

На сегодняшней конференции разработчиков Google I/O компания сделала шаг к реализации этой концепции, представив Gemini Omni — новое семейство мультимодальных моделей. Генеральный директор Google Сундар Пичаи заявил, что Omni позволит пользователям «создавать что угодно из любого входного материала».

Первоначально Omni сосредоточится на видео. Теперь пользователи могут комбинировать изображения, аудио, видео и текст. Вместо того чтобы просто сшивать эти элементы вместе, Omni интеллектуально анализирует все модальности, чтобы создать связный результат. Это приводит к созданию высококачественных видеороликов, демонстрирующих понимание физики, культуры, истории и науки.

Omni также позволяет пользователям редактировать фотографии с помощью простых текстовых команд, устраняя необходимость в сложном программном обеспечении, аналогично инструменту Google Nano Banana.

Google уже предлагает Veo — специализированную видеомодель, которая преобразует текст и изображения в видео и позволяет управлять аватарами и настраивать их. Однако Николь Брихтово, директор по управлению продуктами в Google DeepMind, подчеркнула, что сегодняшний релиз представляет собой нечто большее, чем просто обновление Veo: «Это следующий шаг в объединении интеллекта Gemini с возможностями рендеринга наших медиа-моделей».

Во время брифинга для СМИ в понедельник главный технолог DeepMind Корай Кавукчуоглу привел пример: когда ему предложили «пояснительное видео с пластилиновой анимацией о сворачивании белков», Omni быстро сгенерировал стоп-моушн-видео с закадровым голосом, объясняющим: «Белки начинаются как цепочки аминокислот. Они сворачиваются в структуры, такие как альфа-спирали и плоские участки, называемые бета-листами, в конечном итоге образуя точную трехмерную форму».

Долгосрочная перспектива для Omni более широка и включает в себя такие возможности, как генерация изображений из аудио или аудио из видео.

«Когда мы впервые анонсировали Gemini, это была наша первая изначально мультимодальная модель ИИ», — отметил Пичаи во время брифинга. «Мы знали, что обучение ее на комбинации текста, кода, аудио, изображений и видео приведет к более глубокому пониманию мира. С помощью моделей мира ИИ эволюционирует от предсказания текста к моделированию реальности. Gemini Omni — это следующий шаг в этом направлении».

В рамках этого релиза пользователи также смогут создавать видео с участием своих собственных цифровых аватаров — функция, популяризованная приложением Sora от OpenAI (ныне снятым с производства) с помощью Cameos. По словам Брихтовой, для предотвращения появления дипфейков пользователи должны пройти специальный процесс регистрации, который включает в себя запись себя на видео, произнося серию цифр. Затем аватар сохраняется для дальнейшего использования.

Кроме того, все видео, созданные с помощью Omni, будут содержать цифровой водяной знак SynthID от Google, что позволит пользователям проверять, был ли контент сгенерирован с помощью продуктов Gemini.

Первой моделью в семействе является Gemini Omni Flash, запускаемая сегодня в приложении Gemini, YouTube Shorts и студии искусственного интеллекта Flow. Flash может рендерить 10-секундные видео. Брихтова пояснила, что эта продолжительность не является ограничением модели, а стратегическим решением, направленным на расширение доступности, исходя из того, что в настоящее время большинство пользователей предпочитают более короткие ролики. Поддержка более длинных видео запланирована на ближайшее будущее.

Google, похоже, позиционирует Omni Flash в первую очередь как инструмент для потребителей. Во время разговора с TechCrunch Брихтовая и инженер-исследователь DeepMind Гейб Барт-Марон описали сценарии использования аватаров как личные, например, создание видео, где вы получаете награду или посещаете Луну, или удаление постороннего человека из фона видео с отпуска.

Барт-Марон лаконично подытожил: «Они похожи на персонализированные мемы».

«Мы определенно сосредоточились на том, чтобы сделать это простым для использования потребителями», — сказала Брихтовая. «Не многие видеомодели успешно перешли на массовый потребительский рынок, так что это наша попытка сделать это».

Эта простота использования сопровождается одним предостережением: Брихтовая и Барт-Марон отметили, что подсказки для редактирования должны быть очень конкретными. В противном случае Omni может перередактировать или непреднамеренно изменить элементы, которые пользователь намеревался сохранить — с этой проблемой сталкиваются и пользователи Nano Banana.

Система Gemini Omni от Google превращает изображения, аудио и текст в видео — и это только начало

Изображения:Google

Несмотря на непосредственную ориентацию на потребителей, потенциал Omni для корпоративных и творческих приложений очевиден. В ближайшие недели Google сделает Omni доступным через API. Ожидается, что инструмент для генерации аватаров, уже доступный в Shorts, станет популярным среди создателей контента. В более широком смысле сквозной мультимодальный рабочий процесс может революционизировать рекламу и кинопроизводство.

Стартап Luma AI разрабатывает аналогичный инструмент на базе собственной «унифицированной» модели, способный генерировать целую рекламную кампанию на основе брифа и изображения продукта.

«Мы действительно очень гордимся возможностями модели по рендерингу текста, которые очень полезны для таких приложений, как реклама», — сказала Брихтова. «Если вам нужен продукт-плейсмент или даже просто слоган, точность имеет решающее значение... Мы, безусловно, ожидаем, что кинематографисты и другие создатели контента также примут эту модель».

Для более профессиональных задач лучше подойдет готовящаяся к выпуску модель Omni Pro, разработанная для обеспечения превосходной производительности при выполнении всех задач Omni. Google пока не объявила дату выпуска Pro, но Брихтово указала, что она будет запущена, когда «мы достигнем значительного скачка в возможностях по сравнению с Flash».

Связанная статья
Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые» Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые» В среду сервис Google Фото анонсировал новую функцию на базе искусственного интеллекта, которая в скором времени превратит фотографии вашей одежды в цифровой гардероб, позволяя создавать новые комбина
На конференции Google I/O 2026 представлена функция голосового управления почтовым ящиком Gmail На конференции Google I/O 2026 представлена функция голосового управления почтовым ящиком Gmail Google продолжает внедрять искусственный интеллект в ваш почтовый ящик. На конференции разработчиков IO 2026, состоявшейся во вторник, компания расширила функционал «AI Inbox» в Gmail за счет диалогов
Google запускает Gemini в браузере Chrome в Индии Google запускает Gemini в браузере Chrome в Индии В среду компания Google объявила о расширении интеграции Gemini в браузере Chrome на новые регионы, включая Индию, Канаду и Новую Зеландию. Это обновление позволяет пользователям настольных компьютеро
Рекомендации по связанным специальным темам
Создание видео Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования
Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования

2026: лучшие платформы для преобразования текста в видео с помощью ИИ: самые популярные инструменты для написания сценариев и визуального повествования. Откройте для себя мощные, революционные решения, которые помогут превратить ваш текст в увлекательные видеоролики. Сравните бесплатные и платные варианты с помощью наших еженедельно обновляемых рейтингов и реальных тестов. Найдите идеальную платформу, которая поможет вам раскрыть свой творческий потенциал и повысить продуктивность. Ознакомьтесь с тщательно подобранной подборкой на сайте XIX.AI.

10 инструментов
xix.ai
чат-бот АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка
АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка

2026 Год: Откройте для себя лучшие инструменты на основе искусственного интеллекта, предназначенные для создания сложных автоматизированных рабочих процессов с использованием естественного языка. Наш отобранный список включает наиболее популярные и мощные платформы, обеспечивающие бесшовную автоматизацию задач и интеллектуальное управление процессами. Сравните бесплатные и платные варианты с примерами реального использования. Получите преимущества, предоставляемые технологиями искусственного интеллекта, благодаря еженедельно обновляемым рейтингам от XIX.AI.

10 инструментов
xix.ai
Редактирование изображений Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью
Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью

Откройте для себя лучшие программы по уменьшению шума на основе искусственного интеллекта в 2026 году, предназначенные для фотографии в условиях слабого освещения ночью. Наш список, составленный специально для вас, сравнивает бесплатные и платные инструменты, включает результаты реальных тестов и еженедельно обновляемые рейтинги. Избавьтесь от шума и других нежелательных эффектов без особых усилий. Откройте для себя преимущества искусственного интеллекта в сервисе XIX.AI.

10 инструментов
xix.ai
чат-бот Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории
Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории

Откройте для себя 2026 лучших генераторов индивидуальных ИИ-подруг на сайте XIX.AI. Ознакомьтесь с нашим тщательно отобранным списком самых популярных сервисов, которые помогут вам создать уникальные личности, увлечения и глубокие предыстории. Сравните бесплатные и платные варианты с помощью реальных отзывов. Найдите своего идеального творческого спутника уже сегодня.

10 инструментов
xix.ai
Производительность Разработчики архитектуры ИИ: создание масштабируемых системных архитектур с использованием естественного языка
Разработчики архитектуры ИИ: создание масштабируемых системных архитектур с использованием естественного языка

Откройте для себя лучшие инструменты для проектирования архитектуры ИИ 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные, революционные решения для создания масштабируемых системных архитектур с помощью естественного языка. Сравните бесплатные и платные варианты, опираясь на реальные отзывы. Раскройте свой потенциал в сфере ИИ и оптимизируйте процесс разработки уже сегодня.

10 инструментов
xix.ai
Создание комиксов Создатели профилей персонажей на основе ИИ: генерация подробных предысторий и визуальных материалов для главных героев манги
Создатели профилей персонажей на основе ИИ: генерация подробных предысторий и визуальных материалов для главных героев манги

2026: Лучшие инструменты для создания профилей персонажей на основе технологий искусственного интеллекта: Ознакомьтесь с высоко оцененными программами, которые позволяют создавать подробные предыстории персонажей и визуальные материалы для вашего манги. Наш еженедельно обновляемый список сравнивает бесплатные и платные варианты на основе реальных тестов. Обнаружите мощные инструменты, которые помогут создавать убедительных персонажей и упростят ваш творческий процесс. Ознакомьтесь с рейтингами на сайте XIX.AI и выберите наиболее подходящий инструмент для создания вашего сюжета уже сегодня.

10 инструментов
xix.ai
Комментарии (0)
0/500
OR