選項
首頁
新聞
Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

2025-05-04
164

測試Anthropic新款Claude 3.5 Sonnet的能力

上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。

我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。

1. 撰寫WordPress外掛

最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。

Claude 3.5 Sonnet創建的WordPress外掛介面截圖由David Gewirtz/ZDNET提供截圖

引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。

不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。

以下是與先前測試的總結結果:

  • Claude 3.5 Sonnet:介面:良好,功能:失敗
  • ChatGPT GPT-4o:介面:良好,功能:良好
  • Microsoft Copilot:介面:尚可,功能:失敗
  • Meta AI:介面:尚可,功能:失敗
  • Meta Code Llama:完全失敗
  • Google Gemini Advanced:介面:良好,功能:失敗
  • ChatGPT 4:介面:良好,功能:良好
  • ChatGPT 3.5:介面:良好,功能:良好

2. 重寫字串函數

此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。

然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。

以下是總結結果:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:成功
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 尋找惱人錯誤

此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。

Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。

以下是總結結果:

  • Claude 3.5 Sonnet:成功
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
  • Meta AI:成功
  • Meta Code Llama:失敗
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。

4. 撰寫腳本

此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。

此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:

if theTab's title contains input ignoring case then

「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。

以下是總結結果:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功但有保留意見
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:失敗
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失敗

總體結果

以下是Claude 3.5 Sonnet與其他AI的整體表現比較:

  • Claude 3.5 Sonnet:4項中1項成功
  • ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
  • Microsoft Copilot:4項中0項成功
  • Meta AI:4項中1項成功
  • Meta Code Llama:4項中1項成功
  • Google Gemini Advanced:4項中1項成功
  • ChatGPT 4:4項中4項成功
  • ChatGPT 3.5:4項中3項成功

我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。

你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。

在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV

相關文章
OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護 OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護 OpenAI 正採取重大措施來強化帳戶安全性。週四,該公司推出了「進階帳戶安全」功能,這是一套針對 ChatGPT 用戶的可選防護措施。雖然這些功能是為高知名度人士設計的,但任何尋求更強大安全保障的人士皆可使用。作為此項計畫的一環,數位安全公司 Yubico 宣布與 OpenAI 合作,將兩款新型安全金鑰產品整合至 ChatGPT 帳戶中。此項合作旨在保護使用者免受針對聊天機器人平台日益加劇的網路
OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版 OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版 上週五,OpenAI 為美國境內的 ChatGPT Pro 訂閱用戶推出了全新個人理財工具套件的預覽版。此功能讓使用者能連結自己的金融帳戶,並提出從消費分析到長期財務規劃等各類問題。為管理這些連結,OpenAI 與金融數據網路 Plaid 合作。用戶可連結來自超過 12,000 家金融機構的帳戶,包括查爾斯·施瓦布(Charles Schwab)、富達(Fidelity)、大通銀行(Chase)、
OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破 OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破 OpenAI 宣稱,其最新的推理模型已生成一份原創的數學證明,推翻了保羅·埃爾德什(Paul Erdős)於 1946 年首次提出的著名未解幾何猜想。若這聽起來似曾相識,那是因為 OpenAI 過去曾提出過類似的大膽聲明。七個月前,該公司前副總裁凱文·韋爾(Kevin Weil)在 X 平台發文表示:「GPT-5 找到了 10 個(!)先前未解的埃爾德什問題的解法,並在另外 11 個問題上取得了進
相關專題推薦
寫作 最佳 AI 仙俠與武俠助手:撰寫史詩級的修煉歷程與武術動作設計
最佳 AI 仙俠與武俠助手:撰寫史詩級的修煉歷程與武術動作設計

探索 2026 年最優秀的 AI 助手,助您創作史詩級仙俠與武俠故事。XIX.AI 精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,助您駕馭修煉進程與武術動作設計。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始動筆吧!

10 個工具
xix.ai
代碼 AI移動應用開發工具:根據提示生成跨平臺的Flutter與React Native程式碼
AI移動應用開發工具:根據提示生成跨平臺的Flutter與React Native程式碼

探索2026年最適合Flutter和React Native的最佳AI移動應用開發工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您根據提示生成跨平臺程式碼。透過實際測試來對比免費選項和付費選項,讓開發更加高效,從而打造出更出色的應用程式。現在就訪問XIX.AI檢視排名吧!

10 個工具
xix.ai
代碼 最佳 AI Chrome 擴充功能生成工具:無需任何程式設計經驗即可建立自訂瀏覽器擴充功能
最佳 AI Chrome 擴充功能生成工具:無需任何程式設計經驗即可建立自訂瀏覽器擴充功能

在 XIX.AI 探索 2026 年最佳的 AI Chrome 擴充功能生成工具。我們精心挑選的清單收錄了評價最高、絕對值得一試的工具,讓您無需編寫任何程式碼即可建立客製化的瀏覽器擴充功能。比較免費與付費選項、查看實際測試結果,並釋放您的生產力。立即探索最新排行榜,找到最適合您的工具!

10 個工具
xix.ai
文字轉語音 最佳人工智慧多語言文字轉語音技術:能夠生成50多種語言的逼真原聲發音
最佳人工智慧多語言文字轉語音技術:能夠生成50多種語言的逼真原聲發音

探索2026年最優秀的人工智慧多語言文字轉語音工具,這些工具能夠生成50多種語言中具有真實母語口音的語音。檢視我們精心挑選的排名榜單,瞭解免費版本與付費版本的差異,並透過實際測試來驗證它們的效果。在XIX.AI上找到最適合你的語音工具,立即開啟全球交流的新篇章吧。

10 個工具
xix.ai
會議助理 最適合提升協作效率的最佳人工智慧會議自動化工具
最適合提升協作效率的最佳人工智慧會議自動化工具

探索2026年最新評選出的頂級AI會議自動化工具,讓協作變得更智慧、更高效。我們精心挑選的這些工具能夠有效實現筆記、總結和待辦事項的自動化處理。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項的差異。立即訪問XIX.AI,發現最適合您需求的工具,提升團隊生產力吧。

10 個工具
xix.ai
迅速的 適用於「基礎架構即代碼」的 AI 提示:安全部署 Terraform 與 Docker 配置
適用於「基礎架構即代碼」的 AI 提示:安全部署 Terraform 與 Docker 配置

探索 2026 年最新、評價最高的「基礎架構即代碼」(Infrastructure-as-Code)AI 提示語。XIX.AI 精心挑選的清單,能協助您安全地部署 Terraform 與 Docker 設定、自動化雲端環境建置,並提升 DevOps 生產力。透過實際測試比較免費與付費選項。立即探索,釋放您的 AI 優勢。

10 個工具
xix.ai
評論 (11)
0/500
CharlesYoung
CharlesYoung 2025-10-06 22:30:46

Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷‍♂️

ScottMitchell
ScottMitchell 2025-05-05 21:17:31

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 2025-05-05 16:59:50

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 2025-05-05 15:23:24

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 2025-05-05 14:46:04

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 2025-05-05 12:06:54

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

OR