Генеральный директор DeepMind Демис Хассабис объявляет о будущей интеграции моделей Google Gemini и Veo AI

В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.
Связанная статья
Google представляет режим AI и Veo 3 для революции в поиске и создании видео
Google недавно запустил режим AI и Veo 3, две инновационные технологии, которые готовы изменить веб-поиск и создание цифрового контента. Режим AI предлагает персонализированный, улучшенный искусственн
Чат-бот Gemini улучшает возможности редактирования изображений
Приложение чат-бота Gemini от Google теперь позволяет пользователям редактировать изображения, сгенерированные ИИ или загруженные с телефонов или компьютеров, сообщила компания в блоге в среду.Встроен
Google представляет Deep Think для повышения производительности Gemini AI
Google совершенствует свои топовые модели Gemini AI.На Google I/O 2025 во вторник компания представила Deep Think, продвинутый режим рассуждений для своей ведущей модели Gemini 2.5 Pro. Deep Think поз
Комментарии (1)
RalphSanchez
1 августа 2025 г., 5:48:18 GMT+03:00
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.



Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












