Дом
Генеральный директор DeepMind Демис Хассабис объявляет о будущей интеграции моделей Google Gemini и Veo AI

В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.
Связанная статья
Google интегрирует агентный ИИ и виджеты с кодировкой настроения в Android
Во вторник в ходе мероприятия «Android Show: I/O Edition» компания Google анонсировала новую серию функций искусственного интеллекта под брендом Gemini Intelligence. Среди этих возможностей — выполнен
Модель искусственного интеллекта Meta демонстрирует отличные результаты, но открытый исходный код подрывает ее авторитет
Сфера искусственного интеллекта с открытым исходным кодом всегда предлагала широкий выбор. На протяжении многих лет разработчики имели доступ к таким моделям, как Mistral, Falcon и все большему числу
Отец подал в суд на Google, обвинив чат-бота Gemini в том, что он стал причиной смертельного заблуждения его сына
36-летний Джонатан Гавалас начал пользоваться чат-ботом Gemini от Google в августе 2025 года для помощи в покупках, написании текстов и планировании путешествий. 2 октября он покончил жизнь самоубийст
Рекомендации по связанным специальным темам
Комментарии (2)
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

В недавнем эпизоде подкаста Possible, ведущим которого является сооснователь LinkedIn Рид Хоффман, генеральный директор Google DeepMind Демис Хассабис поделился захватывающими новостями о планах Google. Он рассказал, что Google планирует объединить свои модели ИИ Gemini с моделями генерации видео Veo. Это слияние направлено на улучшение понимания Gemini физического мира, делая его более способным к восприятию реальных динамик.
Хассабис подчеркнул, что с самого начала Gemini создавался как мультимодальная модель. «Мы всегда разрабатывали Gemini, нашу базовую модель, как мультимодальную с самого начала», — пояснил он. Мотивация этого подхода? Видение универсального цифрового помощника, который действительно может помогать в повседневной жизни. «Помощник, который … реально помогает в реальном мире», — уточнил Хассабис.
Индустрия ИИ неуклонно движется к тому, что можно назвать «omni» моделями — способными обрабатывать и синтезировать различные типы медиа. Например, последние итерации Gemini от Google могут создавать не только текст, но также аудио и изображения. Тем временем стандартная модель ChatGPT от OpenAI может мгновенно генерировать изображения, включая очаровательные арты в стиле Studio Ghibli. Amazon не отстает, планируя выпустить модель «из любого в любой» позже в этом году.
Эти omni-модели требуют огромного объема обучающих данных — подумайте об изображениях, видео, аудио и тексте. Хассабис намекнул, что видеоданные для Veo в основном поступают с YouTube, настоящего сокровища, принадлежащего Google. «По сути, просматривая видео на YouTube — множество видео на YouTube — [Veo 2] может разобраться, знаете, в физике мира», — отметил он.
Google ранее упоминал TechCrunch, что их модели «могут быть» обучены на «некотором» контенте YouTube, в соответствии с соглашениями, заключенными с создателями YouTube. Стоит отметить, что в прошлом году Google расширил свои условия обслуживания, частично для получения большего объема данных для обучения своих моделей ИИ.
Google интегрирует агентный ИИ и виджеты с кодировкой настроения в Android
Во вторник в ходе мероприятия «Android Show: I/O Edition» компания Google анонсировала новую серию функций искусственного интеллекта под брендом Gemini Intelligence. Среди этих возможностей — выполнен
Модель искусственного интеллекта Meta демонстрирует отличные результаты, но открытый исходный код подрывает ее авторитет
Сфера искусственного интеллекта с открытым исходным кодом всегда предлагала широкий выбор. На протяжении многих лет разработчики имели доступ к таким моделям, как Mistral, Falcon и все большему числу
Отец подал в суд на Google, обвинив чат-бота Gemini в том, что он стал причиной смертельного заблуждения его сына
36-летний Джонатан Гавалас начал пользоваться чат-ботом Gemini от Google в августе 2025 года для помощи в покупках, написании текстов и планировании путешествий. 2 октября он покончил жизнь самоубийст
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.











