Google啟動高級AI推理模型系列

週二,Google 推出了 Gemini 2.5,這是一組全新的 AI 模型,會在給出答案前「思考」片刻。就像它們在試圖模仿我們人類,對吧?
領銜的是 Gemini 2.5 Pro Experimental,Google 宣稱這是迄今為止他們最聰明的模型。這款強大的模型支援多模態,能輕鬆應對推理任務。你可以從週二開始在 Google AI Studio 上體驗它,或者如果你每月支付 20 美元訂閱 Gemini Advanced,就可透過 Gemini 應用程式使用它。
Google 對推理功能非常認真——他們計劃將其融入未來所有的 AI 模型中。
自從 OpenAI 在 2024 年 9 月推出了首個 AI 推理模型 o1 後,科技界一直在競相追趕。現在,Anthropic、DeepSeek、Google 和 xAI 都紛紛推出自己的推理模型。這些模型需要更多時間和計算能力來驗證事實並思考問題,然後才給出答案。
推理技術對 AI 來說是一大突破,特別是在數學和程式設計領域。許多科技界人士認為,這些推理模型對 AI 代理至關重要——那些無需人類監督就能自主完成任務的系統。不過,沒錯,它們的成本也更高。
Google 對此並不陌生——他們之前已經嘗試過推理模型,比如去年 12 月發布的 Gemini「思考」版本。但 Gemini 2.5?這是他們試圖超越 OpenAI「o」系列的大手筆。
Google 聲稱 Gemini 2.5 Pro 在多項基準測試中超越了他們的舊模型以及競爭對手的頂尖模型。他們針對視覺效果出色的網頁應用程式和可獨立運作的程式設計項目,特別優化了 Gemini 2.5。
在 Aider Polyglot 程式碼編輯測試中,Gemini 2.5 Pro 獲得了 68.6% 的優異成績,擊敗了 OpenAI、Anthropic 和 DeepSeek 的最佳表現。但在 SWE-bench Verified 軟體開發測試中,它達到了 63.8%——足以擊敗 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但未能超越 Anthropic 的 Claude 3.7 Sonnet,後者得分 70.3%。
還有「人類的最後考試」,這是一項涵蓋數學、人文和科學的艱難多模態測試,包含數千道問題。Gemini 2.5 Pro 取得了 18.8% 的成績,優於大多數知名模型。
一推出,Gemini 2.5 Pro 就具備 100 萬 token 的上下文窗口——這就像能一口氣讀完整個《魔戒》系列。很快,他們還計劃將其擴展到 200 萬 token。
Google 目前尚未公開 API 定價,但他們承諾在未來幾週內會透露詳情。
相關文章
Google 最新的 Gemini AI 模型在測試中顯示安全分數下降
Google 的內部測試顯示,其最新 AI 模型的安全規範與先前版本相比,有令人擔憂的效能落差。根據最新公佈的基準,Gemini 2.5 Flash 模型在處理文字和圖像提示時,在關鍵安全指標上的準則違反率高出 4-10%。這家科技巨擘的自動評估結果突顯出令人憂慮的趨勢:當出現邊界測試提示時,Gemini 2.5 Flash 比其前身 Gemini 2.0 更常跨越既定的內容安全線。Google
Google 的 Stitch AI 簡化應用程式設計流程
Google 在 I/O 2025 發表 Stitch AI 設計工具Google 在 I/O 2025 的主題演講中推出了革命性的 AI 介面設計工具 Stitch。此創新解決方案可將自然語言提示或參考圖片轉換為功能完整的 UI 設計,並提供可供生產的 HTML 與 CSS 程式碼。Stitch 的雙機型架構提供 Gemini 2.5 Pro 與 Flash 機型之間的彈性,可滿足不同的設計需求
Google 為 Gmail、Docs 和影片推出 AI 驅動的工具
Google 在 2025 年 I/O 發表 AI Powered Workspace 更新程式在年度開發者大會上,Google 介紹了其 Workspace 套件的變革性 AI 增強功能,從根本上改變使用者與 Gmail、Docs 及 Vids 的互動方式。這些更新的重點在於智慧型自動化和簡化生產力應用程式的工作流程。圖片來源:GoogleGmail 的智慧型生產力功能電子郵件服務將獲得兩項突破
評論 (37)
0/200
JasonRamirez
2025-08-24 21:01:19
Whoa, Google’s Gemini 2.5 sounds like it’s got a brain of its own, pausing to ‘think’ before answering! 😮 Makes me wonder if it’ll outsmart us at pub quizzes soon. Cool tech, but I hope it doesn’t start overanalyzing my bad jokes.
0
EricMiller
2025-08-10 17:01:00
Google's Gemini 2.5 sounds like a brainy upgrade! I wonder if it’ll outsmart my math homework. 🤓 Excited to see how it stacks up against other AI models.
0
RonaldMartinez
2025-04-24 12:43:27
Gemini 2.5 is pretty cool! It's like it pauses to think before answering, which is kinda human-like. I tried it out and it's definitely smarter than the last version. Only thing is, sometimes it takes too long to respond, but hey, I guess that's the price of deep thinking! 🤔
0
RalphHill
2025-04-22 22:53:21
O Gemini 2.5 é bem legal, mas às vezes demora muito para 'pensar'. Entendo que está tentando ser mais humano, mas quando preciso de respostas rápidas, é um pouco frustrante. Ainda assim, é mais inteligente que a maioria dos AIs por aí! 🤖💭
0
HenryJackson
2025-04-20 14:08:13
ジェミニ2.5は結構クールだけど、時々「考える」のに時間がかかりすぎる。もっと人間っぽくなるのは分かるけど、早く答えが欲しい時はちょっとイライラする。でも、他のAIより賢いからね!🤖💭
0
JerryGonzález
2025-04-19 20:28:17
ジェミニ2.5、面白いですね!回答前に少し考えるのが人間っぽくて好きです。試してみたら前より賢くなってるのがわかりました。ただ、時々レスポンスが遅いのが気になりますが、深く考えるための代償だと思えば許せますね!🤔
0
週二,Google 推出了 Gemini 2.5,這是一組全新的 AI 模型,會在給出答案前「思考」片刻。就像它們在試圖模仿我們人類,對吧?
領銜的是 Gemini 2.5 Pro Experimental,Google 宣稱這是迄今為止他們最聰明的模型。這款強大的模型支援多模態,能輕鬆應對推理任務。你可以從週二開始在 Google AI Studio 上體驗它,或者如果你每月支付 20 美元訂閱 Gemini Advanced,就可透過 Gemini 應用程式使用它。
Google 對推理功能非常認真——他們計劃將其融入未來所有的 AI 模型中。
自從 OpenAI 在 2024 年 9 月推出了首個 AI 推理模型 o1 後,科技界一直在競相追趕。現在,Anthropic、DeepSeek、Google 和 xAI 都紛紛推出自己的推理模型。這些模型需要更多時間和計算能力來驗證事實並思考問題,然後才給出答案。
推理技術對 AI 來說是一大突破,特別是在數學和程式設計領域。許多科技界人士認為,這些推理模型對 AI 代理至關重要——那些無需人類監督就能自主完成任務的系統。不過,沒錯,它們的成本也更高。
Google 對此並不陌生——他們之前已經嘗試過推理模型,比如去年 12 月發布的 Gemini「思考」版本。但 Gemini 2.5?這是他們試圖超越 OpenAI「o」系列的大手筆。
Google 聲稱 Gemini 2.5 Pro 在多項基準測試中超越了他們的舊模型以及競爭對手的頂尖模型。他們針對視覺效果出色的網頁應用程式和可獨立運作的程式設計項目,特別優化了 Gemini 2.5。
在 Aider Polyglot 程式碼編輯測試中,Gemini 2.5 Pro 獲得了 68.6% 的優異成績,擊敗了 OpenAI、Anthropic 和 DeepSeek 的最佳表現。但在 SWE-bench Verified 軟體開發測試中,它達到了 63.8%——足以擊敗 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但未能超越 Anthropic 的 Claude 3.7 Sonnet,後者得分 70.3%。
還有「人類的最後考試」,這是一項涵蓋數學、人文和科學的艱難多模態測試,包含數千道問題。Gemini 2.5 Pro 取得了 18.8% 的成績,優於大多數知名模型。
一推出,Gemini 2.5 Pro 就具備 100 萬 token 的上下文窗口——這就像能一口氣讀完整個《魔戒》系列。很快,他們還計劃將其擴展到 200 萬 token。
Google 目前尚未公開 API 定價,但他們承諾在未來幾週內會透露詳情。



Whoa, Google’s Gemini 2.5 sounds like it’s got a brain of its own, pausing to ‘think’ before answering! 😮 Makes me wonder if it’ll outsmart us at pub quizzes soon. Cool tech, but I hope it doesn’t start overanalyzing my bad jokes.




Google's Gemini 2.5 sounds like a brainy upgrade! I wonder if it’ll outsmart my math homework. 🤓 Excited to see how it stacks up against other AI models.




Gemini 2.5 is pretty cool! It's like it pauses to think before answering, which is kinda human-like. I tried it out and it's definitely smarter than the last version. Only thing is, sometimes it takes too long to respond, but hey, I guess that's the price of deep thinking! 🤔




O Gemini 2.5 é bem legal, mas às vezes demora muito para 'pensar'. Entendo que está tentando ser mais humano, mas quando preciso de respostas rápidas, é um pouco frustrante. Ainda assim, é mais inteligente que a maioria dos AIs por aí! 🤖💭




ジェミニ2.5は結構クールだけど、時々「考える」のに時間がかかりすぎる。もっと人間っぽくなるのは分かるけど、早く答えが欲しい時はちょっとイライラする。でも、他のAIより賢いからね!🤖💭




ジェミニ2.5、面白いですね!回答前に少し考えるのが人間っぽくて好きです。試してみたら前より賢くなってるのがわかりました。ただ、時々レスポンスが遅いのが気になりますが、深く考えるための代償だと思えば許せますね!🤔












