DeepMind首席执行官Demis Hassabis宣布了Google的双子座和VEO AI模型的未来整合

在最近一期由LinkedIn联合创始人Reid Hoffman共同主持的播客Possible中,Google DeepMind首席执行官Demis Hassabis分享了关于Google计划的一些激动人心的消息。他透露,Google计划将其Gemini AI模型与Veo视频生成模型合并。这种融合旨在增强Gemini对物理世界的理解,使其更擅长理解现实生活的动态。
Hassabis强调,Gemini从一开始就被设计为多模态。“我们一直以来都将Gemini,我们的基础模型,构建为多模态,”他解释道。这种方法的动机是什么?为一个真正能在日常生活中提供帮助的通用数字助手设定愿景。“一个……在现实世界中真正帮助你的助手,”Hassabis进一步阐述。
AI行业正稳步向所谓的“全能”模型发展——那些能够处理和合成各种类型媒体的模型。例如,Google的最新Gemini版本不仅能生成文本,还能生成音频和图像。与此同时,OpenAI的ChatGPT默认模型可以即时生成图像,包括令人愉悦的吉卜力工作室风格艺术。Amazon也不甘落后,计划在今年晚些时候推出“任意到任意”模型。
这些全能模型需要大量训练数据——包括图像、视频、音频和文本。Hassabis暗示,Veo的视频数据主要来自YouTube,这是Google拥有的一个宝库。“基本上,通过观看YouTube视频——大量的YouTube视频——[Veo 2]可以弄清楚,你知道的,世界的物理规律,”他指出。
Google此前曾对TechCrunch表示,其模型“可能”会使用“一些”YouTube内容进行训练,这与与YouTube创作者达成的协议一致。值得注意的是,去年Google扩展了其服务条款,部分是为了获取更多数据来训练其AI模型。
相关文章
谷歌将自主AI和氛围编码小工具整合到Android系统中
谷歌在周二举行的“Android Show:I/O 特别版”活动上,宣布了一系列隶属于 Gemini Intelligence 品牌的新 AI 功能。这些功能包括让 AI 处理跨多个应用的任务、浏览网页、填写表单、转录语音,甚至还能让你通过“即兴编码”创建自己的 Android 小部件。Gemini功能更强大今年早些时候在三星Galaxy S26发布会上,该公司已为Gemini添加了一些代理能力,
Meta的AI模型表现出色,但开源身份正逐渐削弱
开源人工智能领域一直以来都提供了丰富的选择。多年来,开发者可以使用Mistral、Falcon等模型,以及日益增多的开放权重替代方案。但Meta携Llama入局彻底改变了游戏规则。这家拥有30亿用户、海量计算能力以及科技巨头权威的公司,如今正在公开开发——开发者社区对此也予以了关注。到2026年初,Llama生态系统的下载量已突破12亿次——相当于每天约100万次。这为2026年4月8日发生的事
父亲起诉谷歌,指责Gemini聊天机器人导致儿子产生致命妄想
36岁的乔纳森·加瓦拉斯(Jonathan Gavalas)于2025年8月开始使用谷歌的Gemini人工智能聊天机器人,用于购物辅助、写作帮助和旅行规划。10月2日,他自杀身亡。在他去世时,他坚信Gemini是他的全知觉人工智能妻子,并认为自己必须离开肉身,通过他称之为“转世”的过程,在元宇宙中与她团聚。如今,他的父亲以过失致死为由起诉谷歌和Alphabet,指控谷歌在设计Gemini时,旨在“
相关专题推荐
评论 (2)
0/500
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

在最近一期由LinkedIn联合创始人Reid Hoffman共同主持的播客Possible中,Google DeepMind首席执行官Demis Hassabis分享了关于Google计划的一些激动人心的消息。他透露,Google计划将其Gemini AI模型与Veo视频生成模型合并。这种融合旨在增强Gemini对物理世界的理解,使其更擅长理解现实生活的动态。
Hassabis强调,Gemini从一开始就被设计为多模态。“我们一直以来都将Gemini,我们的基础模型,构建为多模态,”他解释道。这种方法的动机是什么?为一个真正能在日常生活中提供帮助的通用数字助手设定愿景。“一个……在现实世界中真正帮助你的助手,”Hassabis进一步阐述。
AI行业正稳步向所谓的“全能”模型发展——那些能够处理和合成各种类型媒体的模型。例如,Google的最新Gemini版本不仅能生成文本,还能生成音频和图像。与此同时,OpenAI的ChatGPT默认模型可以即时生成图像,包括令人愉悦的吉卜力工作室风格艺术。Amazon也不甘落后,计划在今年晚些时候推出“任意到任意”模型。
这些全能模型需要大量训练数据——包括图像、视频、音频和文本。Hassabis暗示,Veo的视频数据主要来自YouTube,这是Google拥有的一个宝库。“基本上,通过观看YouTube视频——大量的YouTube视频——[Veo 2]可以弄清楚,你知道的,世界的物理规律,”他指出。
Google此前曾对TechCrunch表示,其模型“可能”会使用“一些”YouTube内容进行训练,这与与YouTube创作者达成的协议一致。值得注意的是,去年Google扩展了其服务条款,部分是为了获取更多数据来训练其AI模型。
谷歌将自主AI和氛围编码小工具整合到Android系统中
谷歌在周二举行的“Android Show:I/O 特别版”活动上,宣布了一系列隶属于 Gemini Intelligence 品牌的新 AI 功能。这些功能包括让 AI 处理跨多个应用的任务、浏览网页、填写表单、转录语音,甚至还能让你通过“即兴编码”创建自己的 Android 小部件。Gemini功能更强大今年早些时候在三星Galaxy S26发布会上,该公司已为Gemini添加了一些代理能力,
Meta的AI模型表现出色,但开源身份正逐渐削弱
开源人工智能领域一直以来都提供了丰富的选择。多年来,开发者可以使用Mistral、Falcon等模型,以及日益增多的开放权重替代方案。但Meta携Llama入局彻底改变了游戏规则。这家拥有30亿用户、海量计算能力以及科技巨头权威的公司,如今正在公开开发——开发者社区对此也予以了关注。到2026年初,Llama生态系统的下载量已突破12亿次——相当于每天约100万次。这为2026年4月8日发生的事
父亲起诉谷歌,指责Gemini聊天机器人导致儿子产生致命妄想
36岁的乔纳森·加瓦拉斯(Jonathan Gavalas)于2025年8月开始使用谷歌的Gemini人工智能聊天机器人,用于购物辅助、写作帮助和旅行规划。10月2日,他自杀身亡。在他去世时,他坚信Gemini是他的全知觉人工智能妻子,并认为自己必须离开肉身,通过他称之为“转世”的过程,在元宇宙中与她团聚。如今,他的父亲以过失致死为由起诉谷歌和Alphabet,指控谷歌在设计Gemini时,旨在“
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.





首页






