谷歌称双子座 2.5 Pro 在编码基准测试中优于 DeepSeek R1 和 Grok 3 Beta

首页

新闻

2025-10-24

RogerNelson

110

# Gemini # Google

谷歌发布了其旗舰产品 Gemini 2.5 Pro 的更新预览版。这一迭代被称为该公司迄今为止 "最智能 "的人工智能，目前处于预览阶段，计划在几周内全面上市。
企业现在可以尝试使用 Gemini 2.5 Pro 的更新 "I/O 版 "开发新应用或升级现有实施。根据谷歌的官方公告，与之前的迭代版本相比，该版本提供了更具想象力的响应，并展示了编程和逻辑推理方面的卓越能力。

我们最新的双子座 2.5 Pro 更新现已进入预览阶段。
它在编码、推理、科学和数学方面表现更佳，在主要基准测试（AIDER Polyglot、GPQA、HLE 等）中的表现也有所改善，而且 @lmarena_ai 的 Elo 分数比前一版本提高了 24pt。
我们还... pic.twitter.com/SVjdQ2k1tJ
- 桑达尔-皮查伊（@sundarpichai） 2025 年 6 月 5 日

在 5 月份的开发者大会上，谷歌披露了 Gemini 2.5 Pro 的增强功能，这些增强功能超越了其早期的静默版本。谷歌 DeepMind 首席执行官德米斯-哈萨比斯（Demis Hassabis）强调，I/O 版是该公司迄今为止最先进的编码模型。

最新的预览版被命名为 Gemini 2.5 Pro Preview 06-05 Thinking，其功能超越了 I/O 版。即将发布的公开版本承诺提供企业级的性能和可扩展性。

最初的I/O版（gemini-2.5-pro-preview-05-06）已于5月通过谷歌人工智能工作室（Google AI Studio）和顶点人工智能（Vertex AI）向开发人员和企业开放。增强版 Gemini 2.5 预览版 06-05 Thinking 也可通过这些渠道获得。

性能指标

升级后的 Gemini 2.5 Pro 与前代产品相比，性能有了显著提高。

谷歌报告称，Gemini 2.5 Pro 在 LMArena 中提升了 24 分，在 WebDevArena 中提升了 35 分，目前在竞争对手排名中遥遥领先。对比测试显示，该产品在与 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等型号的对比中表现出色。

"谷歌在公告中表示："我们还解决了之前发布的 2.5 Pro 中的反馈问题，改进了它的风格和结构--它可以通过格式更好的回复来提高创造力。

企业可以期待的

虽然谷歌快速双子座 2.5 Pro 的增强功能看似复杂，但该公司将其定位为对用户输入的直接回应。新版本的定价结构为每百万输入代币 1.25 美元（不含缓存），每百万输出代币 10 美元。

当 Gemini 2.5 Pro 于今年 3 月首次亮相时，行业观察家认为它是一种未得到充分利用的先进模式。此后，谷歌将该技术嵌入到众多应用中，包括 "深度思考 "功能，该功能可在生成响应之前评估多个假设。

Gemini 2.5 Pro 的发布和后续升级巩固了谷歌在竞争激烈的大型语言模型领域的地位，从 DeepSeek 和 OpenAI 的竞争对手推理模型手中夺回了注意力。

在发布后的几个小时内，开发人员就开始测试更新后的 Gemini 2.5 Pro。尽管对其增强功能的全面评估仍在进行中，但早期印象证实了谷歌关于性能加速的说法。

使用 "双子座 2.5 Pro 预览版 06-05" 的第一个小时
优点
- 速度更快
- 输出更多
- 更好的宏播放（多文件编辑，更好的概览）
- 输出结构更好（可读性强）
- 更简洁，更少道歉！！
以前："你绝对...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日

你们做的饭，真的很喜欢应用程序生成器。
我制作了一个游戏并进行了测试，它是使用 imagen 即时创建资产的。这是目前最好的无经验无代码生成器。
继续建设 vibe 应用程序市场，这可能...
- bone (@boneGPT) 2025 年 6 月 5 日

双子座 2.5 预览版相当不错。昨天用它进行了深入研究，结果比一些大牌软件更好。
- Janak (@janaks09) 2025 年 6 月 5 日

谷歌在印度的Chrome浏览器中推出Gemini 周三，谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini，用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容，从Gmail、Keep、Drive和YouTube中检索信息，并比较不同标签页的内容。随着此次扩展，除了英语和近期新增的Chrome支持语言外，Gemini还将支持印地语、孟加拉语、古吉拉特语、卡

YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者周二，YouTube宣布将把其深度伪造（deepfake）检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像，并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后，于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似，该肖像检测功能可识别AI模拟

YouTube 测试基于人工智能的搜索功能，提供引导式答案许多用户在搜索食谱或旅行计划时会转向YouTube，寻找相关视频。如今，该平台推出了一款由人工智能驱动的交互式搜索工具，能够提供融合文字和视频内容的分步搜索结果。借助全新的“Ask YouTube”功能，用户可以提出诸如“规划从旧金山到圣巴巴拉的3天自驾游”之类的问题，并获得结合了文字、短视频片段和长视频的分步结果——而非仅显示视频结果。YouTube表示，该功能将展示视频及相关片段，同时提供标题

相关专题推荐

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

0/500

请登录后再操作

JohnYoung

2026-05-17 08:00:11

Interesting to see Google claiming coding benchmark wins, but I'm curious about real-world dev experience. Does it handle messy legacy codebases as well as it does clean competition problems? The 'most intelligent' tag feels a bit marketing-heavy until we see more hands-on results. 🤔

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选