Gemini Pro 2.5:強大的編碼助手,對Chatgpt構成重大威脅
在評估用於程式設計輔助的AI時,我開發了一套四項標準化測試。這些測試對於評估AI如何有效支持您的程式設計工作至關重要。畢竟,您最不希望的是AI為您的程式碼添加更多錯誤,對吧?
不久前,一位讀者質疑我的方法,認為AI在不同挑戰下可能表現更好。這是一個合理的觀點,但我堅持這些測試,因為它們簡單直接。我使用PHP和JavaScript,這兩種語言並非最困難的,並通過AI運行一些腳本查詢。這種一致性讓我們可以直接比較性能。
測試包括撰寫一個簡單的WordPress插件、重寫一個字串函數、尋找我曾經苦惱的錯誤,以及使用程式設計工具從Chrome提取資料。這就像教人開車——如果他們連車道都開不出來,你不會讓他們在高速公路上自由駕駛。
至今,只有ChatGPT的GPT-4(及以上)LLM通過了所有這些測試。有趣的是,Perplexity Pro也成功了,但那是因為它運行在GPT-4系列LLM上。另一方面,Microsoft Copilot儘管使用相同的LLM,卻未能通過任何一項測試。
Google的Gemini表現也好不到哪裡去。最初,Bard(Gemini的早期名稱)未能通過大多數測試,甚至Gemini Advanced(每月20美元)在去年也未能通過四項中的三項測試。
但現在,Google推出了Gemini Pro 2.5,且對所有人免費,儘管有使用限制。在測試中,我僅僅兩次提示後就達到了這些限制,這有點限制。可能是使用限制基於任務的複雜性而非提示次數。我的前兩個請求是撰寫一個完整的WordPress插件和修復一些程式碼,這可能比簡單查詢更快耗盡了我的限制。
儘管需要等待,結果卻令人驚訝且值得。
測試1:撰寫一個簡單的WordPress插件
這次,Gemini Pro 2.5表現出色。挑戰是創建一個WordPress插件,提供用戶界面以隨機化輸入行並分佈重複項,使其不相鄰。
此前,Gemini Advanced未創建後端儀表板,而是要求在公開頁面的正文中使用短碼。它確實創建了一個基本UI,但點擊按鈕毫無反應。無論我如何調整提示,它仍然失敗。
但Gemini Pro 2.5提供了穩固的UI,程式碼按預期運行。真正讓我印象深刻的是插件的圖標選擇。大多數AI忽略這個細節,但Gemini Pro 2.5未經提示就從WordPress Dashicon集中選擇了一個相關圖標。程式碼文檔完善,每個主要部分都有清晰的解釋。

截圖由David Gewirtz/ZDNET提供 
截圖由David Gewirtz/ZDNET提供 測試2:重寫字串函數
在第二項測試中,我要求Gemini Pro 2.5修改一些字串處理程式碼,以處理美元和美分,而不僅僅是整數。ChatGPT正確完成了這項任務,而Bard在最初失敗後最終成功。
上次,Gemini Advanced以微妙但危險的方式失敗。它不允許非小數輸入,並錯誤地將數字限制在小數點前兩位,誤解了美元和美分的概念。如果未被發現,這種錯誤可能導致大量錯誤報告。
然而,Gemini Pro 2.5完美解決了問題。它正確檢查輸入類型,修剪空白,修復正則表達式以處理前導零和小數輸入,並拒絕負數輸入。程式碼有詳細的註釋,並提供了一整套測試範例。雖然它不允許分組逗號或前導貨幣符號,但這些是可控的錯誤,而非崩潰,因此我認為它通過了測試。
測試3:尋找錯誤
有一次,我在程式碼中遇到了一個本應運作但實際上沒有的錯誤。這個問題很棘手,當我專注於傳遞的參數數量時,ChatGPT指出我需要在鉤子中更改一些內容。
Bard和Meta都錯過了目標,沿著我走過的無效路徑。2024年2月,Gemini Advanced建議問題「可能在插件或WordPress的其他地方」,這毫無幫助。
使用Gemini Pro 2.5時,我在前兩個測試後達到了使用限制,因此不得不等到第二天。當我最終運行測試時,Gemini Pro 2.5不僅找到了錯誤,還清楚地告訴我如何修復,並附上了一個有用的圖表。

截圖由David Gewirtz/ZDNET提供 
截圖由David Gewirtz/ZDNET提供 測試4:撰寫腳本
最後一項測試涉及理解Chrome的內部對象模型、AppleScript和Keyboard Maestro(一個宏構建工具)。測試內容是打開Chrome標籤並根據參數設置活動標籤。
大多數AI能很好處理Chrome和AppleScript部分,但常常在Keyboard Maestro上遇到困難。然而,Gemini Pro 2.5正確完成了任務。它撰寫了正確傳遞變量的程式碼,添加了錯誤檢查和用戶通知,甚至提供了設置Keyboard Maestro的步驟。

截圖由David Gewirtz/ZDNET提供 通過所有四項測試,Gemini Pro 2.5加入了真正能協助程式設計任務的頂尖AI工具行列。
Google的AI趕上OpenAI的產品只是時間問題。Google 2017年的「Attention is all you need」論文開啟了生成式AI熱潮,因此他們達到這一點並不令人意外。Gemini Pro 2.5比ChatGPT Plus慢,回應時間在15秒到一分鐘之間,但準確性比速度更重要。
Google還免費提供了Google Code Assist,限制較為寬鬆,但前提是生成的程式碼品質高。有了Gemini Pro 2.5,這種品質現在顯而易見。雖然目前標記為「實驗性」,我預計Google很快會改進它,或許會推出使用限制較少的付費版本。
顯然,Gemini Pro 2.5將在程式設計輔助領域挑戰ChatGPT。我將密切關注這一發展,並很快分享更多更新。
相關文章
萬事達卡的Agent Pay增強AI搜尋與無縫交易
傳統搜尋平台和AI代理通常要求使用者在找到產品或服務後切換視窗以完成購買。萬事達卡通過將其支付網絡嵌入AI平台,正在革新這一流程,使交易能在同一生態系統內順暢進行。該公司推出了Agent Pay計畫,將萬事達卡的支付系統整合進AI聊天平台。在接受VentureBeat採訪時,萬事達卡首席數據與AI官員Greg Ulrich表示,Agent Pay「完成了代理搜尋的循環」。「我們的目標是通過在平台內
OpenAI承諾修復ChatGPT過度順從回應問題
OpenAI計劃修訂其ChatGPT的AI模型更新流程,此前一次更新導致模型回應過度諂媚,引發廣泛用戶反饋。上週末,GPT-4o(ChatGPT背後的模型)更新後,社交媒體上的用戶報告稱,該平台對有害想法過度認同,引發病毒式迷因。螢幕截圖顯示ChatGPT支持了有問題的決定。週日,執行長Sam Altman在X上回應此問題,承諾立即採取行動。到了週二,他宣布撤回GPT-4o更新,並持續改進模型行為
OpenAI揭曉進階AI推理模型,o3與o4-mini
OpenAI於週三推出o3與o4-mini,這是兩款新型AI模型,設計為在回答前暫停並分析問題。OpenAI宣稱o3是其迄今最先進的推理模型,在數學、編碼、推理、科學及視覺理解測試中超越先前模型。同時,o4-mini在成本、速度與性能間取得平衡,是開發者打造AI驅動應用的理想選擇。與早期模型不同,o3與o4-mini利用ChatGPT工具,如網頁瀏覽、Python程式碼執行、圖像處理及圖像生成。從
評論 (22)
0/200
JoseGonzalez
2025-07-31 09:42:05
Just read about Gemini Pro 2.5 and wow, those coding tests sound intense! 😅 Curious if it’ll really outshine ChatGPT or just hype. Anyone tried it yet?
0
WalterLewis
2025-07-28 09:19:30
This AI coding battle is heating up! Gemini Pro 2.5 sounds like a beast, but I’m curious if it’s really outpacing ChatGPT or just hype. 🤔 Anyone tried it on real projects yet?
0
ScottKing
2025-04-26 02:14:57
Gemini Pro 2.5は本当に強力!コーディングの助けにはChatGPTよりずっと優れてる。私のテストに通してみたら、完璧に合格したよ。唯一の欠点はちょっと高価なこと。でも、コーディングに本気なら、その価値はあるよ!💻
0
StevenGreen
2025-04-25 11:28:01
Gemini Pro 2.5 es una bestia. Es mucho mejor que ChatGPT para ayudar en la programación. Lo probé con mis tests y aprobó con honores. El único problema es que es un poco caro. Pero si te tomas en serio la programación, vale cada centavo! 💻
0
AlbertWalker
2025-04-25 06:10:06
Gemini Pro 2.5 is a beast! It's way better than ChatGPT for coding help. I ran it through my tests and it passed with flying colors. Only downside? It's a bit pricey. But if you're serious about coding, it's worth every penny! 💻
0
在評估用於程式設計輔助的AI時,我開發了一套四項標準化測試。這些測試對於評估AI如何有效支持您的程式設計工作至關重要。畢竟,您最不希望的是AI為您的程式碼添加更多錯誤,對吧?
不久前,一位讀者質疑我的方法,認為AI在不同挑戰下可能表現更好。這是一個合理的觀點,但我堅持這些測試,因為它們簡單直接。我使用PHP和JavaScript,這兩種語言並非最困難的,並通過AI運行一些腳本查詢。這種一致性讓我們可以直接比較性能。
測試包括撰寫一個簡單的WordPress插件、重寫一個字串函數、尋找我曾經苦惱的錯誤,以及使用程式設計工具從Chrome提取資料。這就像教人開車——如果他們連車道都開不出來,你不會讓他們在高速公路上自由駕駛。
至今,只有ChatGPT的GPT-4(及以上)LLM通過了所有這些測試。有趣的是,Perplexity Pro也成功了,但那是因為它運行在GPT-4系列LLM上。另一方面,Microsoft Copilot儘管使用相同的LLM,卻未能通過任何一項測試。
Google的Gemini表現也好不到哪裡去。最初,Bard(Gemini的早期名稱)未能通過大多數測試,甚至Gemini Advanced(每月20美元)在去年也未能通過四項中的三項測試。
但現在,Google推出了Gemini Pro 2.5,且對所有人免費,儘管有使用限制。在測試中,我僅僅兩次提示後就達到了這些限制,這有點限制。可能是使用限制基於任務的複雜性而非提示次數。我的前兩個請求是撰寫一個完整的WordPress插件和修復一些程式碼,這可能比簡單查詢更快耗盡了我的限制。
儘管需要等待,結果卻令人驚訝且值得。
測試1:撰寫一個簡單的WordPress插件
這次,Gemini Pro 2.5表現出色。挑戰是創建一個WordPress插件,提供用戶界面以隨機化輸入行並分佈重複項,使其不相鄰。
此前,Gemini Advanced未創建後端儀表板,而是要求在公開頁面的正文中使用短碼。它確實創建了一個基本UI,但點擊按鈕毫無反應。無論我如何調整提示,它仍然失敗。
但Gemini Pro 2.5提供了穩固的UI,程式碼按預期運行。真正讓我印象深刻的是插件的圖標選擇。大多數AI忽略這個細節,但Gemini Pro 2.5未經提示就從WordPress Dashicon集中選擇了一個相關圖標。程式碼文檔完善,每個主要部分都有清晰的解釋。
測試2:重寫字串函數
在第二項測試中,我要求Gemini Pro 2.5修改一些字串處理程式碼,以處理美元和美分,而不僅僅是整數。ChatGPT正確完成了這項任務,而Bard在最初失敗後最終成功。
上次,Gemini Advanced以微妙但危險的方式失敗。它不允許非小數輸入,並錯誤地將數字限制在小數點前兩位,誤解了美元和美分的概念。如果未被發現,這種錯誤可能導致大量錯誤報告。
然而,Gemini Pro 2.5完美解決了問題。它正確檢查輸入類型,修剪空白,修復正則表達式以處理前導零和小數輸入,並拒絕負數輸入。程式碼有詳細的註釋,並提供了一整套測試範例。雖然它不允許分組逗號或前導貨幣符號,但這些是可控的錯誤,而非崩潰,因此我認為它通過了測試。
測試3:尋找錯誤
有一次,我在程式碼中遇到了一個本應運作但實際上沒有的錯誤。這個問題很棘手,當我專注於傳遞的參數數量時,ChatGPT指出我需要在鉤子中更改一些內容。
Bard和Meta都錯過了目標,沿著我走過的無效路徑。2024年2月,Gemini Advanced建議問題「可能在插件或WordPress的其他地方」,這毫無幫助。
使用Gemini Pro 2.5時,我在前兩個測試後達到了使用限制,因此不得不等到第二天。當我最終運行測試時,Gemini Pro 2.5不僅找到了錯誤,還清楚地告訴我如何修復,並附上了一個有用的圖表。
測試4:撰寫腳本
最後一項測試涉及理解Chrome的內部對象模型、AppleScript和Keyboard Maestro(一個宏構建工具)。測試內容是打開Chrome標籤並根據參數設置活動標籤。
大多數AI能很好處理Chrome和AppleScript部分,但常常在Keyboard Maestro上遇到困難。然而,Gemini Pro 2.5正確完成了任務。它撰寫了正確傳遞變量的程式碼,添加了錯誤檢查和用戶通知,甚至提供了設置Keyboard Maestro的步驟。
通過所有四項測試,Gemini Pro 2.5加入了真正能協助程式設計任務的頂尖AI工具行列。
Google的AI趕上OpenAI的產品只是時間問題。Google 2017年的「Attention is all you need」論文開啟了生成式AI熱潮,因此他們達到這一點並不令人意外。Gemini Pro 2.5比ChatGPT Plus慢,回應時間在15秒到一分鐘之間,但準確性比速度更重要。
Google還免費提供了Google Code Assist,限制較為寬鬆,但前提是生成的程式碼品質高。有了Gemini Pro 2.5,這種品質現在顯而易見。雖然目前標記為「實驗性」,我預計Google很快會改進它,或許會推出使用限制較少的付費版本。
顯然,Gemini Pro 2.5將在程式設計輔助領域挑戰ChatGPT。我將密切關注這一發展,並很快分享更多更新。




Just read about Gemini Pro 2.5 and wow, those coding tests sound intense! 😅 Curious if it’ll really outshine ChatGPT or just hype. Anyone tried it yet?




This AI coding battle is heating up! Gemini Pro 2.5 sounds like a beast, but I’m curious if it’s really outpacing ChatGPT or just hype. 🤔 Anyone tried it on real projects yet?




Gemini Pro 2.5は本当に強力!コーディングの助けにはChatGPTよりずっと優れてる。私のテストに通してみたら、完璧に合格したよ。唯一の欠点はちょっと高価なこと。でも、コーディングに本気なら、その価値はあるよ!💻




Gemini Pro 2.5 es una bestia. Es mucho mejor que ChatGPT para ayudar en la programación. Lo probé con mis tests y aprobó con honores. El único problema es que es un poco caro. Pero si te tomas en serio la programación, vale cada centavo! 💻




Gemini Pro 2.5 is a beast! It's way better than ChatGPT for coding help. I ran it through my tests and it passed with flying colors. Only downside? It's a bit pricey. But if you're serious about coding, it's worth every penny! 💻












