谷歌称双子座 2.5 Pro 在编码基准测试中优于 DeepSeek R1 和 Grok 3 Beta
谷歌发布了其旗舰产品 Gemini 2.5 Pro 的更新预览版。这一迭代被称为该公司迄今为止 "最智能 "的人工智能,目前处于预览阶段,计划在几周内全面上市。
企业现在可以尝试使用 Gemini 2.5 Pro 的更新 "I/O 版 "开发新应用或升级现有实施。根据谷歌的官方公告,与之前的迭代版本相比,该版本提供了更具想象力的响应,并展示了编程和逻辑推理方面的卓越能力。
我们最新的双子座 2.5 Pro 更新现已进入预览阶段。
它在编码、推理、科学和数学方面表现更佳,在主要基准测试(AIDER Polyglot、GPQA、HLE 等)中的表现也有所改善,而且 @lmarena_ai 的 Elo 分数比前一版本提高了 24pt。
我们还... pic.twitter.com/SVjdQ2k1tJ
- 桑达尔-皮查伊(@sundarpichai) 2025 年 6 月 5 日
在 5 月份的开发者大会上,谷歌披露了 Gemini 2.5 Pro 的增强功能,这些增强功能超越了其早期的静默版本。谷歌 DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)强调,I/O 版是该公司迄今为止最先进的编码模型。
最新的预览版被命名为 Gemini 2.5 Pro Preview 06-05 Thinking,其功能超越了 I/O 版。即将发布的公开版本承诺提供企业级的性能和可扩展性。
最初的I/O版(gemini-2.5-pro-preview-05-06)已于5月通过谷歌人工智能工作室(Google AI Studio)和顶点人工智能(Vertex AI)向开发人员和企业开放。增强版 Gemini 2.5 预览版 06-05 Thinking 也可通过这些渠道获得。
性能指标
升级后的 Gemini 2.5 Pro 与前代产品相比,性能有了显著提高。
谷歌报告称,Gemini 2.5 Pro 在 LMArena 中提升了 24 分,在 WebDevArena 中提升了 35 分,目前在竞争对手排名中遥遥领先。对比测试显示,该产品在与 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等型号的对比中表现出色。
"谷歌在公告中表示:"我们还解决了之前发布的 2.5 Pro 中的反馈问题,改进了它的风格和结构--它可以通过格式更好的回复来提高创造力。

企业可以期待的
虽然谷歌快速双子座 2.5 Pro 的增强功能看似复杂,但该公司将其定位为对用户输入的直接回应。新版本的定价结构为每百万输入代币 1.25 美元(不含缓存),每百万输出代币 10 美元。
当 Gemini 2.5 Pro 于今年 3 月首次亮相时,行业观察家认为它是一种未得到充分利用的先进模式。此后,谷歌将该技术嵌入到众多应用中,包括 "深度思考 "功能,该功能可在生成响应之前评估多个假设。
Gemini 2.5 Pro 的发布和后续升级巩固了谷歌在竞争激烈的大型语言模型领域的地位,从 DeepSeek 和 OpenAI 的竞争对手推理模型手中夺回了注意力。
在发布后的几个小时内,开发人员就开始测试更新后的 Gemini 2.5 Pro。尽管对其增强功能的全面评估仍在进行中,但早期印象证实了谷歌关于性能加速的说法。
使用 "双子座 2.5 Pro 预览版 06-05" 的第一个小时
优点
- 速度更快
- 输出更多
- 更好的宏播放(多文件编辑,更好的概览)
- 输出结构更好(可读性强)
- 更简洁,更少道歉!!
以前:"你绝对...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日
你们做的饭,真的很喜欢应用程序生成器。
我制作了一个游戏并进行了测试,它是使用 imagen 即时创建资产的。这是目前最好的无经验无代码生成器。
继续建设 vibe 应用程序市场,这可能...
- bone (@boneGPT) 2025 年 6 月 5 日
双子座 2.5 预览版相当不错。昨天用它进行了深入研究,结果比一些大牌软件更好。
- Janak (@janaks09) 2025 年 6 月 5 日
相关文章
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
YouTube 测试基于人工智能的搜索功能,提供引导式答案
许多用户在搜索食谱或旅行计划时会转向YouTube,寻找相关视频。如今,该平台推出了一款由人工智能驱动的交互式搜索工具,能够提供融合文字和视频内容的分步搜索结果。借助全新的“Ask YouTube”功能,用户可以提出诸如“规划从旧金山到圣巴巴拉的3天自驾游”之类的问题,并获得结合了文字、短视频片段和长视频的分步结果——而非仅显示视频结果。YouTube表示,该功能将展示视频及相关片段,同时提供标题
相关专题推荐
评论 (1)
0/500
谷歌发布了其旗舰产品 Gemini 2.5 Pro 的更新预览版。这一迭代被称为该公司迄今为止 "最智能 "的人工智能,目前处于预览阶段,计划在几周内全面上市。
企业现在可以尝试使用 Gemini 2.5 Pro 的更新 "I/O 版 "开发新应用或升级现有实施。根据谷歌的官方公告,与之前的迭代版本相比,该版本提供了更具想象力的响应,并展示了编程和逻辑推理方面的卓越能力。
我们最新的双子座 2.5 Pro 更新现已进入预览阶段。
它在编码、推理、科学和数学方面表现更佳,在主要基准测试(AIDER Polyglot、GPQA、HLE 等)中的表现也有所改善,而且 @lmarena_ai 的 Elo 分数比前一版本提高了 24pt。
我们还... pic.twitter.com/SVjdQ2k1tJ
- 桑达尔-皮查伊(@sundarpichai) 2025 年 6 月 5 日
在 5 月份的开发者大会上,谷歌披露了 Gemini 2.5 Pro 的增强功能,这些增强功能超越了其早期的静默版本。谷歌 DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)强调,I/O 版是该公司迄今为止最先进的编码模型。
最新的预览版被命名为 Gemini 2.5 Pro Preview 06-05 Thinking,其功能超越了 I/O 版。即将发布的公开版本承诺提供企业级的性能和可扩展性。
最初的I/O版(gemini-2.5-pro-preview-05-06)已于5月通过谷歌人工智能工作室(Google AI Studio)和顶点人工智能(Vertex AI)向开发人员和企业开放。增强版 Gemini 2.5 预览版 06-05 Thinking 也可通过这些渠道获得。
性能指标
升级后的 Gemini 2.5 Pro 与前代产品相比,性能有了显著提高。
谷歌报告称,Gemini 2.5 Pro 在 LMArena 中提升了 24 分,在 WebDevArena 中提升了 35 分,目前在竞争对手排名中遥遥领先。对比测试显示,该产品在与 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等型号的对比中表现出色。
"谷歌在公告中表示:"我们还解决了之前发布的 2.5 Pro 中的反馈问题,改进了它的风格和结构--它可以通过格式更好的回复来提高创造力。

企业可以期待的
虽然谷歌快速双子座 2.5 Pro 的增强功能看似复杂,但该公司将其定位为对用户输入的直接回应。新版本的定价结构为每百万输入代币 1.25 美元(不含缓存),每百万输出代币 10 美元。
当 Gemini 2.5 Pro 于今年 3 月首次亮相时,行业观察家认为它是一种未得到充分利用的先进模式。此后,谷歌将该技术嵌入到众多应用中,包括 "深度思考 "功能,该功能可在生成响应之前评估多个假设。
Gemini 2.5 Pro 的发布和后续升级巩固了谷歌在竞争激烈的大型语言模型领域的地位,从 DeepSeek 和 OpenAI 的竞争对手推理模型手中夺回了注意力。
在发布后的几个小时内,开发人员就开始测试更新后的 Gemini 2.5 Pro。尽管对其增强功能的全面评估仍在进行中,但早期印象证实了谷歌关于性能加速的说法。
使用 "双子座 2.5 Pro 预览版 06-05" 的第一个小时
优点
- 速度更快
- 输出更多
- 更好的宏播放(多文件编辑,更好的概览)
- 输出结构更好(可读性强)
- 更简洁,更少道歉!!以前:"你绝对...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日
你们做的饭,真的很喜欢应用程序生成器。
我制作了一个游戏并进行了测试,它是使用 imagen 即时创建资产的。这是目前最好的无经验无代码生成器。
继续建设 vibe 应用程序市场,这可能...
- bone (@boneGPT) 2025 年 6 月 5 日
双子座 2.5 预览版相当不错。昨天用它进行了深入研究,结果比一些大牌软件更好。
- Janak (@janaks09) 2025 年 6 月 5 日
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
YouTube 测试基于人工智能的搜索功能,提供引导式答案
许多用户在搜索食谱或旅行计划时会转向YouTube,寻找相关视频。如今,该平台推出了一款由人工智能驱动的交互式搜索工具,能够提供融合文字和视频内容的分步搜索结果。借助全新的“Ask YouTube”功能,用户可以提出诸如“规划从旧金山到圣巴巴拉的3天自驾游”之类的问题,并获得结合了文字、短视频片段和长视频的分步结果——而非仅显示视频结果。YouTube表示,该功能将展示视频及相关片段,同时提供标题





首页






