Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

首頁

新聞

2025-05-04

FrankWilliams

169

# ChatGPT

測試Anthropic新款Claude 3.5 Sonnet的能力

上週，我收到Anthropic的電子郵件，宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準，在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務，如程式碼生成。我自然得測試這些說法。

我對多個AI進行了一系列程式碼測試，你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何，並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。

1. 撰寫WordPress外掛

最初，Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻，佈局乾淨，首次在測試的AI中將資料欄位並排放置。

Claude 3.5 Sonnet創建的WordPress外掛介面截圖由David Gewirtz/ZDNET提供截圖

引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案，而是提供單一PHP檔案，自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法，但風險在於其依賴作業系統設定允許外掛寫入自身資料夾，這在生產環境中是重大安全漏洞。

不幸的是，儘管解決方案具創意，外掛無法運作。「隨機化」按鈕毫無反應，令人失望。

以下是與先前測試的總結結果：

Claude 3.5 Sonnet：介面：良好，功能：失敗
ChatGPT GPT-4o：介面：良好，功能：良好
Microsoft Copilot：介面：尚可，功能：失敗
Meta AI：介面：尚可，功能：失敗
Meta Code Llama：完全失敗
Google Gemini Advanced：介面：良好，功能：失敗
ChatGPT 4：介面：良好，功能：良好
ChatGPT 3.5：介面：良好，功能：良好

2. 重寫字串函數

此測試評估AI如何依特定需求重寫程式碼，此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」，有助於避免錯誤。

然而，它未能允許如「.50」代表50美分的輸入，這是需求之一。因此，修改後的程式碼在現實場景中無法運作，我必須標記為失敗。

以下是總結結果：

Claude 3.5 Sonnet：失敗
ChatGPT GPT-4o：成功
Microsoft Copilot：失敗
Meta AI：失敗
Meta Code Llama：成功
Google Gemini Advanced：失敗
ChatGPT 4：成功
ChatGPT 3.5：成功

3. 尋找惱人錯誤

此測試很棘手，因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤，需借助ChatGPT解決。

Claude 3.5 Sonnet不僅找到並修復了錯誤，還注意到發布過程中引入的錯誤，我隨後修正。這是我發布完整測試集以來，AI中的首次表現。

以下是總結結果：

Claude 3.5 Sonnet：成功
ChatGPT GPT-4o：成功
Microsoft Copilot：失敗。極其、熱情地、表情符號地失敗。
Meta AI：成功
Meta Code Llama：失敗
Google Gemini Advanced：失敗
ChatGPT 4：成功
ChatGPT 3.5：成功

目前，Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。

4. 撰寫腳本

此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練，但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動，但完全忽略Keyboard Maestro部分。

此外，AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時，Claude生成一行導致運行時錯誤的程式碼：

if theTab's title contains input ignoring case then

「contains」語句已不區分大小寫，「ignoring case」短語放錯位置，導致錯誤。

以下是總結結果：

Claude 3.5 Sonnet：失敗
ChatGPT GPT-4o：成功但有保留意見
Microsoft Copilot：失敗
Meta AI：失敗
Meta Code Llama：失敗
Google Gemini Advanced：成功
ChatGPT 4：成功
ChatGPT 3.5：失敗

總體結果

以下是Claude 3.5 Sonnet與其他AI的整體表現比較：

Claude 3.5 Sonnet：4項中1項成功
ChatGPT GPT-4o：4項中4項成功，但有一個奇怪的雙選答案
Microsoft Copilot：4項中0項成功
Meta AI：4項中1項成功
Meta Code Llama：4項中1項成功
Google Gemini Advanced：4項中1項成功
ChatGPT 4：4項中4項成功
ChatGPT 3.5：4項中3項成功

我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計，但未達預期。它不是不能程式設計，只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI，特別是這些模型融入程式環境時。但目前，我仍選擇ChatGPT作為程式設計輔助，建議你也如此。

你有沒有用AI進行程式設計？用了哪個，效果如何？請在下方評論分享你的經驗。

在社交媒體上關注我的項目更新，訂閱我的每週新聞信，並在Twitter/X上以@DavidGewirtz與我聯繫，在Facebook上以Facebook.com/DavidGewirtz，在Instagram上以Instagram.com/DavidGewirtz，以及在YouTube上以YouTube.com/DavidGewirtzTV。

OpenAI 與 Yubico 合作強化 ChatGPT 安全性，以提升帳戶保護 OpenAI 正採取重大措施來強化帳戶安全性。週四，該公司推出了「進階帳戶安全」功能，這是一套針對 ChatGPT 用戶的可選防護措施。雖然這些功能是為高知名度人士設計的，但任何尋求更強大安全保障的人士皆可使用。作為此項計畫的一環，數位安全公司 Yubico 宣布與 OpenAI 合作，將兩款新型安全金鑰產品整合至 ChatGPT 帳戶中。此項合作旨在保護使用者免受針對聊天機器人平台日益加劇的網路

OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版上週五，OpenAI 為美國境內的 ChatGPT Pro 訂閱用戶推出了全新個人理財工具套件的預覽版。此功能讓使用者能連結自己的金融帳戶，並提出從消費分析到長期財務規劃等各類問題。為管理這些連結，OpenAI 與金融數據網路 Plaid 合作。用戶可連結來自超過 12,000 家金融機構的帳戶，包括查爾斯·施瓦布（Charles Schwab）、富達（Fidelity）、大通銀行（Chase）、

OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破 OpenAI 宣稱，其最新的推理模型已生成一份原創的數學證明，推翻了保羅·埃爾德什（Paul Erdős）於 1946 年首次提出的著名未解幾何猜想。若這聽起來似曾相識，那是因為 OpenAI 過去曾提出過類似的大膽聲明。七個月前，該公司前副總裁凱文·韋爾（Kevin Weil）在 X 平台發文表示：「GPT-5 找到了 10 個（！）先前未解的埃爾德什問題的解法，並在另外 11 個問題上取得了進

相關專題推薦

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

聊天機器人

最受好評的 AI 浪漫聊天機器人：透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人，助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較，以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶，並開始建立這段關係吧。

10 個工具

xix.ai

教育與學習

最佳AI資料科學導師：精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師，幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單，獲得強大而具有變革性的指導。透過對比免費和付費選項，並結合實際應用案例進行了解，今天就開啟你的資料科學精通之路吧。

10 個工具

xix.ai

聊天機器人

最佳 AI 調情與對話訓練工具：即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單，能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具，並透過免費與付費版本的比較，以及每週更新的排行榜，立即解鎖您的社交優勢。

10 個工具

xix.ai

代碼

最適合自動化單元測試的最佳AI工具：一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具，這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具，它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上，您可以免費檢視各種選項，並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具，提升您的開發效率吧！

10 個工具

xix.ai

評論 (11)

0/500

請登錄後再操作

CharlesYoung

2025-10-06 22:30:46

Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷‍♂️

ScottMitchell

2025-05-05 21:17:31

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

2025-05-05 16:59:50

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

2025-05-05 15:23:24

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

2025-05-05 14:46:04

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

2025-05-05 12:06:54

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選