Google 表示 Gemini 2.5 Pro 在編碼基準測試中表現優於 DeepSeek R1 和 Grok 3 Beta
Google 推出了旗艦機種 Gemini 2.5 Pro 的更新預覽版,該機種最初於 3 月推出,並於 5 月進行了增強。此迭代版本被描述為該公司迄今「最智慧」的 AI,目前正處於預覽階段,並計劃在幾週內全面上市。
企業現在可以嘗試使用 Gemini 2.5 Pro 的更新「I/O 版」開發新應用程式或升級現有實作。根據 Google 的官方宣佈,與先前的迭代版本相比,此版本可提供更富想像力的回應,並在程式設計和邏輯推理方面展現出更卓越的能力。
我們最新的 Gemini 2.5 Pro 更新已進入預覽階段。
它在編碼、推理、科學 + 數學方面更勝一籌,在關鍵基準(AIDER Polyglot、GPQA、HLE 等)上表現更佳,並領導 @lmarena_ai 的 Elo 分數自前一版本躍升 24pt。
我們也... pic.twitter.com/SVjdQ2k1tJ
- Sundar Pichai (@sundarpichai) 2025 年 6 月 5 日
在 5 月的開發者大會上,Google 揭露了 Gemini 2.5 Pro 的強化功能,超越了先前的靜音版本。Google DeepMind 執行長 Demis Hassabis 強調,I/O 版是該公司迄今為止最先進的編碼模型。
這個最新的預覽版,命名為 Gemini 2.5 Pro Preview 06-05 Thinking,其功能超越了 I/O 版。即將推出的公開版本承諾提供企業級的效能與擴充性。
原始的 I/O 版本 (gemini-2.5-pro-preview-05-06) 已於 5 月透過 Google AI Studio 和 Vertex AI 供開發人員和企業使用。增強版 Gemini 2.5 預覽 06-05 Thinking 也可透過這些相同的管道取得。
效能指標
升級後的 Gemini 2.5 Pro 較上一代有顯著的進步。
Google 報告在 LMArena 中提升了 24 分,在 WebDevArena 中提升了 35 分,目前在競爭對手的排名中遙遙領先。比較測試顯示,與 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等機種比較,其效能更勝一籌。
"Google 在公告中表示:「我們也處理了之前 2.5 Pro 版本的回饋意見,改善了它的風格和結構 - 它可以用更好格式的回應來表現更多創意。

企業可以期待的
雖然 Google 的快速 Gemini 2.5 Pro 增強功能看似複雜,但該公司將其定位為對使用者輸入的直接回應。新版本的定價結構為每百萬個輸入代幣 1.25 美元 (不含快取),以及每百萬個輸出代幣 10 美元。
當 Gemini 2.5 Pro 在 3 月首次亮相時,業界觀察家認為這是一個未被充分利用的進階模式。自此之後,Google 已將這項技術嵌入許多應用程式,包括「深度思考」功能,可在產生回應之前評估多項假設。
Gemini 2.5 Pro 的推出以及隨後的升級鞏固了 Google 在競爭激烈的大型語言模型領域中的地位,從 DeepSeek 和 OpenAI 等競爭對手的推理模型手中奪回了注意力。
Gemini 2.5 Pro 公佈後數小時內,開發人員就開始測試更新後的 Gemini 2.5 Pro。早期的印象證實了 Google 所聲稱的加速效能,不過對其增強功能的全面評估仍在進行中。
使用「Gemini 2.5 Pro 預覽版 06-05 」的第一個小時
好處:
- 速度更快
- 輸出更多
- 它有更好的巨集播放(多檔案編輯,更好的概述)
- 輸出結構更好(可讀)
- 它更簡潔,更少道歉!!
之前:"您絕對...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日
你們煮的東西,真的很喜歡應用程式建置工具。
我製作了一個遊戲並測試了一下,它是使用 imagen 來快速建立資產,而且它已經架設、託管、容易分享。真的是目前最好的無經驗無程式碼建立工具。
繼續建立 vibe 應用程式市場,這可能...
- bone (@boneGPT) 2025 年 6 月 5 日
Gemini 2.5 預覽版相當不錯。昨天用它來做深度研究,結果比一些大名鼎鼎的公司還要好...
- Janak (@janaks09) 2025 年 6 月 5 日
相關文章
Google 在印度的 Chrome 瀏覽器中推出 Gemini
週三,Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區,包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini,藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊,以及比較不同分頁的內容。隨著此次擴展,Gemini 除英語及近期新增的 Chrome 支援語言外,亦將
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者
週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
YouTube 測試由人工智慧驅動的搜尋功能,提供引導式答案
許多用戶在搜尋食譜或旅遊計畫時,都會轉向 YouTube 尋找相關影片。如今,該平台推出了一款由人工智慧驅動的互動式搜尋工具,能提供結合文字與影片內容的逐步指引結果。透過全新的「Ask YouTube」功能,使用者可以提出諸如「規劃從舊金山到聖塔芭芭拉的 3 天自駕遊」這類問題,並獲得結合文字、短片片段及較長影片的逐步指引結果——而非僅顯示影片結果。YouTube 表示,系統將同時顯示影片、相關片
相關專題推薦
評論 (1)
0/500
Google 推出了旗艦機種 Gemini 2.5 Pro 的更新預覽版,該機種最初於 3 月推出,並於 5 月進行了增強。此迭代版本被描述為該公司迄今「最智慧」的 AI,目前正處於預覽階段,並計劃在幾週內全面上市。
企業現在可以嘗試使用 Gemini 2.5 Pro 的更新「I/O 版」開發新應用程式或升級現有實作。根據 Google 的官方宣佈,與先前的迭代版本相比,此版本可提供更富想像力的回應,並在程式設計和邏輯推理方面展現出更卓越的能力。
我們最新的 Gemini 2.5 Pro 更新已進入預覽階段。
它在編碼、推理、科學 + 數學方面更勝一籌,在關鍵基準(AIDER Polyglot、GPQA、HLE 等)上表現更佳,並領導 @lmarena_ai 的 Elo 分數自前一版本躍升 24pt。
我們也... pic.twitter.com/SVjdQ2k1tJ
- Sundar Pichai (@sundarpichai) 2025 年 6 月 5 日
在 5 月的開發者大會上,Google 揭露了 Gemini 2.5 Pro 的強化功能,超越了先前的靜音版本。Google DeepMind 執行長 Demis Hassabis 強調,I/O 版是該公司迄今為止最先進的編碼模型。
這個最新的預覽版,命名為 Gemini 2.5 Pro Preview 06-05 Thinking,其功能超越了 I/O 版。即將推出的公開版本承諾提供企業級的效能與擴充性。
原始的 I/O 版本 (gemini-2.5-pro-preview-05-06) 已於 5 月透過 Google AI Studio 和 Vertex AI 供開發人員和企業使用。增強版 Gemini 2.5 預覽 06-05 Thinking 也可透過這些相同的管道取得。
效能指標
升級後的 Gemini 2.5 Pro 較上一代有顯著的進步。
Google 報告在 LMArena 中提升了 24 分,在 WebDevArena 中提升了 35 分,目前在競爭對手的排名中遙遙領先。比較測試顯示,與 OpenAI 的 o3、o3-mini 和 o4-mini、Anthropic 的 Claude 4 Opus、xAI 的 Grok 3 Beta 和 DeepSeek R1 等機種比較,其效能更勝一籌。
"Google 在公告中表示:「我們也處理了之前 2.5 Pro 版本的回饋意見,改善了它的風格和結構 - 它可以用更好格式的回應來表現更多創意。

企業可以期待的
雖然 Google 的快速 Gemini 2.5 Pro 增強功能看似複雜,但該公司將其定位為對使用者輸入的直接回應。新版本的定價結構為每百萬個輸入代幣 1.25 美元 (不含快取),以及每百萬個輸出代幣 10 美元。
當 Gemini 2.5 Pro 在 3 月首次亮相時,業界觀察家認為這是一個未被充分利用的進階模式。自此之後,Google 已將這項技術嵌入許多應用程式,包括「深度思考」功能,可在產生回應之前評估多項假設。
Gemini 2.5 Pro 的推出以及隨後的升級鞏固了 Google 在競爭激烈的大型語言模型領域中的地位,從 DeepSeek 和 OpenAI 等競爭對手的推理模型手中奪回了注意力。
Gemini 2.5 Pro 公佈後數小時內,開發人員就開始測試更新後的 Gemini 2.5 Pro。早期的印象證實了 Google 所聲稱的加速效能,不過對其增強功能的全面評估仍在進行中。
使用「Gemini 2.5 Pro 預覽版 06-05 」的第一個小時
好處:
- 速度更快
- 輸出更多
- 它有更好的巨集播放(多檔案編輯,更好的概述)
- 輸出結構更好(可讀)
- 它更簡潔,更少道歉!!之前:"您絕對...
- Patrick Bade (@nishffx) 2025 年 6 月 5 日
你們煮的東西,真的很喜歡應用程式建置工具。
我製作了一個遊戲並測試了一下,它是使用 imagen 來快速建立資產,而且它已經架設、託管、容易分享。真的是目前最好的無經驗無程式碼建立工具。
繼續建立 vibe 應用程式市場,這可能...
- bone (@boneGPT) 2025 年 6 月 5 日
Gemini 2.5 預覽版相當不錯。昨天用它來做深度研究,結果比一些大名鼎鼎的公司還要好...
- Janak (@janaks09) 2025 年 6 月 5 日
Google 在印度的 Chrome 瀏覽器中推出 Gemini
週三,Google 宣布將把 Chrome 瀏覽器的 Gemini 整合功能擴展至新地區,包括印度、加拿大和新西蘭。此項更新讓桌面版使用者能透過側邊欄存取 Gemini,藉此向 Google 的 AI 聊天機器人詢問螢幕上的內容、從 Gmail、Keep、Drive 和 YouTube 檢索資訊,以及比較不同分頁的內容。隨著此次擴展,Gemini 除英語及近期新增的 Chrome 支援語言外,亦將
YouTube 將 AI 深度偽造偵測功能擴展至政治人物、政府官員及記者
週二,YouTube 宣布將其深度偽造(deepfake)偵測技術擴展至特定群體,包括政府官員、政治候選人及記者。該工具能識別由人工智慧生成的肖像,並允許試點計畫的參與者要求移除其認為違反 YouTube 政策且未經授權的內容。該偵測系統在經過前期測試階段後,去年首度向約 400 萬名 YouTube 合作夥伴計畫的創作者推出。與 YouTube 現有的版權內容識別系統(Content ID)類似
YouTube 測試由人工智慧驅動的搜尋功能,提供引導式答案
許多用戶在搜尋食譜或旅遊計畫時,都會轉向 YouTube 尋找相關影片。如今,該平台推出了一款由人工智慧驅動的互動式搜尋工具,能提供結合文字與影片內容的逐步指引結果。透過全新的「Ask YouTube」功能,使用者可以提出諸如「規劃從舊金山到聖塔芭芭拉的 3 天自駕遊」這類問題,並獲得結合文字、短片片段及較長影片的逐步指引結果——而非僅顯示影片結果。YouTube 表示,系統將同時顯示影片、相關片





首頁






