DeepMind首席执行官Demis Hassabis宣布了Google的双子座和VEO AI模型的未来整合

在最近一期由LinkedIn联合创始人Reid Hoffman共同主持的播客Possible中,Google DeepMind首席执行官Demis Hassabis分享了关于Google计划的一些激动人心的消息。他透露,Google计划将其Gemini AI模型与Veo视频生成模型合并。这种融合旨在增强Gemini对物理世界的理解,使其更擅长理解现实生活的动态。
Hassabis强调,Gemini从一开始就被设计为多模态。“我们一直以来都将Gemini,我们的基础模型,构建为多模态,”他解释道。这种方法的动机是什么?为一个真正能在日常生活中提供帮助的通用数字助手设定愿景。“一个……在现实世界中真正帮助你的助手,”Hassabis进一步阐述。
AI行业正稳步向所谓的“全能”模型发展——那些能够处理和合成各种类型媒体的模型。例如,Google的最新Gemini版本不仅能生成文本,还能生成音频和图像。与此同时,OpenAI的ChatGPT默认模型可以即时生成图像,包括令人愉悦的吉卜力工作室风格艺术。Amazon也不甘落后,计划在今年晚些时候推出“任意到任意”模型。
这些全能模型需要大量训练数据——包括图像、视频、音频和文本。Hassabis暗示,Veo的视频数据主要来自YouTube,这是Google拥有的一个宝库。“基本上,通过观看YouTube视频——大量的YouTube视频——[Veo 2]可以弄清楚,你知道的,世界的物理规律,”他指出。
Google此前曾对TechCrunch表示,其模型“可能”会使用“一些”YouTube内容进行训练,这与与YouTube创作者达成的协议一致。值得注意的是,去年Google扩展了其服务条款,部分是为了获取更多数据来训练其AI模型。
相关文章
谷歌最新的双子座人工智能模型在测试中显示安全得分下降
谷歌的内部测试显示,与以前的版本相比,其最新人工智能模型的安全协议性能下降令人担忧。根据最新公布的基准,在处理文本和图像提示时,Gemini 2.5 Flash 模型在关键安全指标上的准则违反率比以往高出 4-10%。这家科技巨头的自动评估结果凸显了令人担忧的趋势:当出现边界测试提示时,Gemini 2.5 Flash 比其前身 Gemini 2.0 更频繁地跨越既定的内容安全线。谷歌的技术团队将
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
Google发布AI模式和Veo 3以革新搜索和视频创作
Google最近推出了AI模式和Veo 3,这两项创新技术将重塑网络搜索和数字内容创作。AI模式提供了一种个性化的、AI增强的搜索体验,通过理解用户上下文、意图和偏好,超越了传统的基于关键词的搜索,实现了更快、更直观的信息检索。与此同时,Veo 3通过尖端AI技术转变了视频制作,生成具有同步音频的逼真视频,包括对话、音效和环境音。这种突破使营销人员、开发者和创作者能够高效、大规模地生产高质量视频。
评论 (1)
0/200
RalphSanchez
2025-08-01 10:48:18
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
在最近一期由LinkedIn联合创始人Reid Hoffman共同主持的播客Possible中,Google DeepMind首席执行官Demis Hassabis分享了关于Google计划的一些激动人心的消息。他透露,Google计划将其Gemini AI模型与Veo视频生成模型合并。这种融合旨在增强Gemini对物理世界的理解,使其更擅长理解现实生活的动态。
Hassabis强调,Gemini从一开始就被设计为多模态。“我们一直以来都将Gemini,我们的基础模型,构建为多模态,”他解释道。这种方法的动机是什么?为一个真正能在日常生活中提供帮助的通用数字助手设定愿景。“一个……在现实世界中真正帮助你的助手,”Hassabis进一步阐述。
AI行业正稳步向所谓的“全能”模型发展——那些能够处理和合成各种类型媒体的模型。例如,Google的最新Gemini版本不仅能生成文本,还能生成音频和图像。与此同时,OpenAI的ChatGPT默认模型可以即时生成图像,包括令人愉悦的吉卜力工作室风格艺术。Amazon也不甘落后,计划在今年晚些时候推出“任意到任意”模型。
这些全能模型需要大量训练数据——包括图像、视频、音频和文本。Hassabis暗示,Veo的视频数据主要来自YouTube,这是Google拥有的一个宝库。“基本上,通过观看YouTube视频——大量的YouTube视频——[Veo 2]可以弄清楚,你知道的,世界的物理规律,”他指出。
Google此前曾对TechCrunch表示,其模型“可能”会使用“一些”YouTube内容进行训练,这与与YouTube创作者达成的协议一致。值得注意的是,去年Google扩展了其服务条款,部分是为了获取更多数据来训练其AI模型。


Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












