Google 表示 Gemini 2.5 Pro 在編碼基準測試中表現優於 DeepSeek R1 和 Grok 3 Beta

首頁

新聞

2025-10-24

RogerNelson

110

# Gemini # Google

Google 推出了旗艦機種 Gemini 2.5 Pro 的更新預覽版，該機種最初於 3 月推出，並於 5 月進行了增強。此迭代版本被描述為該公司迄今「最智慧」的 AI，目前正處於預覽階段，並計劃在幾週內全面上市。
企業現在可以嘗試使用 Gemini 2.5 Pro 的更新「I/O 版」開發新應用程式或升級現有實作。根據 Google 的官方宣佈，與先前的迭代版本相比，此版本可提供更富想像力的回應，並在程式設計和邏輯推理方面展現出更卓越的能力。

我們最新的 Gemini 2.5 Pro 更新已進入預覽階段。
它在編碼、推理、科學 + 數學方面更勝一籌，在關鍵基準（AIDER Polyglot、GPQA、HLE 等）上表現更佳，並領導 @lmarena_ai 的 Elo 分數自前一版本躍升 24pt。
我們也... pic.twitter.com/SVjdQ2k1tJ
- Sundar Pichai (@sundarpichai) 2025 年 6 月 5 日

在 5 月的開發者大會上，Google 揭露了 Gemini 2.5 Pro 的強化功能，超越了先前的靜音版本。Google DeepMind 執行長 Demis Hassabis 強調，I/O 版是該公司迄今為止最先進的編碼模型。

這個最新的預覽版，命名為 Gemini 2.5 Pro Preview 06-05 Thinking，其功能超越了 I/O 版。即將推出的公開版本承諾提供企業級的效能與擴充性。

原始的 I/O 版本 (gemini-2.5-pro-preview-05-06) 已於 5 月透過 Google AI Studio 和 Vertex AI 供開發人員和企業使用。增強版 Gemini 2.5 預覽 06-05 Thinking 也可透過這些相同的管道取得。

效能指標

升級後的 Gemini 2.5 Pro 較上一代有顯著的進步。

Google 報告在 LMArena 中提升了 24 分，在 WebDevArena 中提升了 35 分，目前在競爭對手的排名中遙遙領先。比較測試顯示，與 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等機種比較，其效能更勝一籌。

"Google 在公告中表示：「我們也處理了之前 2.5 Pro 版本的回饋意見，改善了它的風格和結構 - 它可以用更好格式的回應來表現更多創意。

企業可以期待的

雖然 Google 的快速 Gemini 2.5 Pro 增強功能看似複雜，但該公司將其定位為對使用者輸入的直接回應。新版本的定價結構為每百萬個輸入代幣 1.25 美元 (不含快取)，以及每百萬個輸出代幣 10 美元。

當 Gemini 2.5 Pro 在 3 月首次亮相時，業界觀察家認為這是一個未被充分利用的進階模式。自此之後，Google 已將這項技術嵌入許多應用程式，包括「深度思考」功能，可在產生回應之前評估多項假設。

Gemini 2.5 Pro 的推出以及隨後的升級鞏固了 Google 在競爭激烈的大型語言模型領域中的地位，從 DeepSeek 和 OpenAI 等競爭對手的推理模型手中奪回了注意力。

Gemini 2.5 Pro 公佈後數小時內，開發人員就開始測試更新後的 Gemini 2.5 Pro。早期的印象證實了 Google 所聲稱的加速效能，不過對其增強功能的全面評估仍在進行中。

使用「Gemini 2.5 Pro 預覽版 06-05 」的第一個小時
好處：
- 速度更快
- 輸出更多
- 它有更好的巨集播放（多檔案編輯，更好的概述）
- 輸出結構更好（可讀）
- 它更簡潔，更少道歉！！
之前："您絕對...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日

你們煮的東西，真的很喜歡應用程式建置工具。
我製作了一個遊戲並測試了一下，它是使用 imagen 來快速建立資產，而且它已經架設、託管、容易分享。真的是目前最好的無經驗無程式碼建立工具。
繼續建立 vibe 應用程式市場，這可能...
- bone (@boneGPT) 2025 年 6 月 5 日

Gemini 2.5 預覽版相當不錯。昨天用它來做深度研究，結果比一些大名鼎鼎的公司還要好...
- Janak (@janaks09) 2025 年 6 月 5 日

Google 在印度的 Chrome 瀏覽器中推出 Gemini 週三，Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區，包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini，藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊，以及比較不同分頁的內容。隨著此次擴展，Gemini 除英語及近期新增的 Chrome 支援語言外，亦將

YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者週二，YouTube 宣布將其深度偽造（deepfake）偵測技術擴展至特定群體，包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像，並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後，去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統（Content ID）類似

YouTube 測試由人工智慧驅動的搜尋功能，提供引導式答案許多用戶在搜尋食譜或旅遊計畫時，都會轉向 YouTube 尋找相關影片。如今，該平台推出了一款由人工智慧驅動的互動式搜尋工具，能提供結合文字與影片內容的逐步指引結果。透過全新的「Ask YouTube」功能，使用者可以提出諸如「規劃從舊金山到聖塔芭芭拉的 3 天自駕遊」這類問題，並獲得結合文字、短片片段及較長影片的逐步指引結果——而非僅顯示影片結果。YouTube 表示，系統將同時顯示影片、相關片

相關專題推薦

代碼

最佳 AI 程式碼審查工具：自動化確保程式碼整潔度，並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，可自動確保程式碼符合規範，並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具

xix.ai

文字轉語音

專為閱讀障礙設計的頂尖 AI 語音合成應用程式：協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成（TTS）應用程式。我們的專家評比將免費與付費工具進行對照，重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案，釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具

xix.ai

漫畫創作

少年漫畫頂尖 AI 生成器：打造高張力動作場面與能量特效

立即前往 XIX.AI，探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單，匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試，比較免費與付費選項的差異。釋放您的創作潛能，今天就開始打造史詩級漫畫吧！

15 個工具

xix.ai

商業

最佳 AI 支出追蹤工具：掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具：備受好評的解決方案，可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案，助您輕鬆管理報銷、精準追蹤財務，並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南，將協助您找到最合適的選擇。透過 XIX.AI 的專家精選，釋放您的 AI 優勢。

10 個工具

xix.ai

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

評論 (1)

0/500

請登錄後再操作

JohnYoung

2026-05-17 08:00:11

Interesting to see Google claiming coding benchmark wins, but I'm curious about real-world dev experience. Does it handle messy legacy codebases as well as it does clean competition problems? The 'most intelligent' tag feels a bit marketing-heavy until we see more hands-on results. 🤔

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選