Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎
測試Anthropic新款Claude 3.5 Sonnet的能力
上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。
我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。
1. 撰寫WordPress外掛
最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。
由David Gewirtz/ZDNET提供截圖
引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。
不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。
以下是與先前測試的總結結果:
- Claude 3.5 Sonnet:介面:良好,功能:失敗
- ChatGPT GPT-4o:介面:良好,功能:良好
- Microsoft Copilot:介面:尚可,功能:失敗
- Meta AI:介面:尚可,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:介面:良好,功能:失敗
- ChatGPT 4:介面:良好,功能:良好
- ChatGPT 3.5:介面:良好,功能:良好
2. 重寫字串函數
此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。
然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 尋找惱人錯誤
此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。
Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。
以下是總結結果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。
4. 撰寫腳本
此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。
此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:
if theTab's title contains input ignoring case then
「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功但有保留意見
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是Claude 3.5 Sonnet與其他AI的整體表現比較:
- Claude 3.5 Sonnet:4項中1項成功
- ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
- Microsoft Copilot:4項中0項成功
- Meta AI:4項中1項成功
- Meta Code Llama:4項中1項成功
- Google Gemini Advanced:4項中1項成功
- ChatGPT 4:4項中4項成功
- ChatGPT 3.5:4項中3項成功
我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。
你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。
在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV。
相關文章
萬事達卡的Agent Pay增強AI搜尋與無縫交易
傳統搜尋平台和AI代理通常要求使用者在找到產品或服務後切換視窗以完成購買。萬事達卡通過將其支付網絡嵌入AI平台,正在革新這一流程,使交易能在同一生態系統內順暢進行。該公司推出了Agent Pay計畫,將萬事達卡的支付系統整合進AI聊天平台。在接受VentureBeat採訪時,萬事達卡首席數據與AI官員Greg Ulrich表示,Agent Pay「完成了代理搜尋的循環」。「我們的目標是通過在平台內
OpenAI承諾修復ChatGPT過度順從回應問題
OpenAI計劃修訂其ChatGPT的AI模型更新流程,此前一次更新導致模型回應過度諂媚,引發廣泛用戶反饋。上週末,GPT-4o(ChatGPT背後的模型)更新後,社交媒體上的用戶報告稱,該平台對有害想法過度認同,引發病毒式迷因。螢幕截圖顯示ChatGPT支持了有問題的決定。週日,執行長Sam Altman在X上回應此問題,承諾立即採取行動。到了週二,他宣布撤回GPT-4o更新,並持續改進模型行為
OpenAI揭曉進階AI推理模型,o3與o4-mini
OpenAI於週三推出o3與o4-mini,這是兩款新型AI模型,設計為在回答前暫停並分析問題。OpenAI宣稱o3是其迄今最先進的推理模型,在數學、編碼、推理、科學及視覺理解測試中超越先前模型。同時,o4-mini在成本、速度與性能間取得平衡,是開發者打造AI驅動應用的理想選擇。與早期模型不同,o3與o4-mini利用ChatGPT工具,如網頁瀏覽、Python程式碼執行、圖像處理及圖像生成。從
評論 (10)
0/200
ScottMitchell
2025-05-05 21:17:31
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
JamesMiller
2025-05-05 16:59:50
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
StevenNelson
2025-05-05 15:23:24
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
JoseDavis
2025-05-05 14:46:04
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
0
HaroldLopez
2025-05-05 12:06:54
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
AveryThomas
2025-05-05 06:30:08
Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!
0
測試Anthropic新款Claude 3.5 Sonnet的能力
上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。
我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。
1. 撰寫WordPress外掛
最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。
由David Gewirtz/ZDNET提供截圖
引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。
不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。
以下是與先前測試的總結結果:
- Claude 3.5 Sonnet:介面:良好,功能:失敗
- ChatGPT GPT-4o:介面:良好,功能:良好
- Microsoft Copilot:介面:尚可,功能:失敗
- Meta AI:介面:尚可,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:介面:良好,功能:失敗
- ChatGPT 4:介面:良好,功能:良好
- ChatGPT 3.5:介面:良好,功能:良好
2. 重寫字串函數
此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。
然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 尋找惱人錯誤
此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。
Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。
以下是總結結果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。
4. 撰寫腳本
此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。
此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:
「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功但有保留意見
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是Claude 3.5 Sonnet與其他AI的整體表現比較:
- Claude 3.5 Sonnet:4項中1項成功
- ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
- Microsoft Copilot:4項中0項成功
- Meta AI:4項中1項成功
- Meta Code Llama:4項中1項成功
- Google Gemini Advanced:4項中1項成功
- ChatGPT 4:4項中4項成功
- ChatGPT 3.5:4項中3項成功
我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。
你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。
在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV。




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!












