選項
首頁
新聞
Google 表示 Gemini 2.5 Pro 在編碼基準測試中表現優於 DeepSeek R1 和 Grok 3 Beta

Google 表示 Gemini 2.5 Pro 在編碼基準測試中表現優於 DeepSeek R1 和 Grok 3 Beta

2025-10-24
110

Google 推出了旗艦機種 Gemini 2.5 Pro 的更新預覽版,該機種最初於 3 月推出,並於 5 月進行了增強。此迭代版本被描述為該公司迄今「最智慧」的 AI,目前正處於預覽階段,並計劃在幾週內全面上市。

企業現在可以嘗試使用 Gemini 2.5 Pro 的更新「I/O 版」開發新應用程式或升級現有實作。根據 Google 的官方宣佈,與先前的迭代版本相比,此版本可提供更富想像力的回應,並在程式設計和邏輯推理方面展現出更卓越的能力。

我們最新的 Gemini 2.5 Pro 更新已進入預覽階段。

它在編碼、推理、科學 + 數學方面更勝一籌,在關鍵基準(AIDER Polyglot、GPQA、HLE 等)上表現更佳,並領導 @lmarena_ai 的 Elo 分數自前一版本躍升 24pt。

我們也... pic.twitter.com/SVjdQ2k1tJ

- Sundar Pichai (@sundarpichai) 2025 年 6 月 5 日

在 5 月的開發者大會上,Google 揭露了 Gemini 2.5 Pro 的強化功能,超越了先前的靜音版本。Google DeepMind 執行長 Demis Hassabis 強調,I/O 版是該公司迄今為止最先進的編碼模型。

這個最新的預覽版,命名為 Gemini 2.5 Pro Preview 06-05 Thinking,其功能超越了 I/O 版。即將推出的公開版本承諾提供企業級的效能與擴充性。

原始的 I/O 版本 (gemini-2.5-pro-preview-05-06) 已於 5 月透過 Google AI Studio 和 Vertex AI 供開發人員和企業使用。增強版 Gemini 2.5 預覽 06-05 Thinking 也可透過這些相同的管道取得。

效能指標

升級後的 Gemini 2.5 Pro 較上一代有顯著的進步。

Google 報告在 LMArena 中提升了 24 分,在 WebDevArena 中提升了 35 分,目前在競爭對手的排名中遙遙領先。比較測試顯示,與 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等機種比較,其效能更勝一籌。

"Google 在公告中表示:「我們也處理了之前 2.5 Pro 版本的回饋意見,改善了它的風格和結構 - 它可以用更好格式的回應來表現更多創意。

企業可以期待的

雖然 Google 的快速 Gemini 2.5 Pro 增強功能看似複雜,但該公司將其定位為對使用者輸入的直接回應。新版本的定價結構為每百萬個輸入代幣 1.25 美元 (不含快取),以及每百萬個輸出代幣 10 美元。

當 Gemini 2.5 Pro 在 3 月首次亮相時,業界觀察家認為這是一個未被充分利用的進階模式。自此之後,Google 已將這項技術嵌入許多應用程式,包括「深度思考」功能,可在產生回應之前評估多項假設。

Gemini 2.5 Pro 的推出以及隨後的升級鞏固了 Google 在競爭激烈的大型語言模型領域中的地位,從 DeepSeek 和 OpenAI 等競爭對手的推理模型手中奪回了注意力。

Gemini 2.5 Pro 公佈後數小時內,開發人員就開始測試更新後的 Gemini 2.5 Pro。早期的印象證實了 Google 所聲稱的加速效能,不過對其增強功能的全面評估仍在進行中。

使用「Gemini 2.5 Pro 預覽版 06-05 」的第一個小時

好處:

- 速度更快
- 輸出更多
- 它有更好的巨集播放(多檔案編輯,更好的概述)
- 輸出結構更好(可讀)
- 它更簡潔,更少道歉!!

之前:"您絕對...

- Patrick Bade (@nishffx) 2025 年 6 月 5 日

你們煮的東西,真的很喜歡應用程式建置工具。

我製作了一個遊戲並測試了一下,它是使用 imagen 來快速建立資產,而且它已經架設、託管、容易分享。真的是目前最好的無經驗無程式碼建立工具。

繼續建立 vibe 應用程式市場,這可能...

- bone (@boneGPT) 2025 年 6 月 5 日

Gemini 2.5 預覽版相當不錯。昨天用它來做深度研究,結果比一些大名鼎鼎的公司還要好...

- Janak (@janaks09) 2025 年 6 月 5 日

相關文章
Google 在印度的 Chrome 瀏覽器中推出 Gemini Google 在印度的 Chrome 瀏覽器中推出 Gemini 週三,Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區,包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini,藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊,以及比較不同分頁的內容。隨著此次擴展,Gemini 除英語及近期新增的 Chrome 支援語言外,亦將
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者 YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者 週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
YouTube 測試由人工智慧驅動的搜尋功能,提供引導式答案 YouTube 測試由人工智慧驅動的搜尋功能,提供引導式答案 許多用戶在搜尋食譜或旅遊計畫時,都會轉向 YouTube 尋找相關影片。如今,該平台推出了一款由人工智慧驅動的互動式搜尋工具,能提供結合文字與影片內容的逐步指引結果。透過全新的「Ask YouTube」功能,使用者可以提出諸如「規劃從舊金山到聖塔芭芭拉的 3 天自駕遊」這類問題,並獲得結合文字、短片片段及較長影片的逐步指引結果——而非僅顯示影片結果。YouTube 表示,系統將同時顯示影片、相關片
相關專題推薦
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
評論 (1)
0/500
JohnYoung
JohnYoung 2026-05-17 08:00:11

Interesting to see Google claiming coding benchmark wins, but I'm curious about real-world dev experience. Does it handle messy legacy codebases as well as it does clean competition problems? The 'most intelligent' tag feels a bit marketing-heavy until we see more hands-on results. 🤔

OR