Генеральный директор DeepMind Демис Хассабис объявляет о будущей интеграции моделей Google Gemini и Veo AI

В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.
Связанная статья
Последняя модель искусственного интеллекта Gemini компании Google демонстрирует снижение показателей безопасности в ходе тестирования
Внутреннее тестирование Google выявило значительное снижение производительности в протоколах безопасности последней модели искусственного интеллекта по сравнению с предыдущими версиями. Согласно недав
ИИ Gemini от Google побеждает Pokémon Blue с помощью
Веха в развитии искусственного интеллекта от Google: Покорение классического приключения покемоновСамая продвинутая модель искусственного интеллекта Google, похоже, достигла значительного игрового про
Google представляет режим AI и Veo 3 для революции в поиске и создании видео
Google недавно запустил режим AI и Veo 3, две инновационные технологии, которые готовы изменить веб-поиск и создание цифрового контента. Режим AI предлагает персонализированный, улучшенный искусственн
Комментарии (1)
RalphSanchez
1 августа 2025 г., 5:48:18 GMT+03:00
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.


Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












