選項
首頁
新聞
Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

2025-05-04
169

測試Anthropic新款Claude 3.5 Sonnet的能力

上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。

我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。

1. 撰寫WordPress外掛

最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。

Claude 3.5 Sonnet創建的WordPress外掛介面截圖由David Gewirtz/ZDNET提供截圖

引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。

不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。

以下是與先前測試的總結結果:

  • Claude 3.5 Sonnet:介面:良好,功能:失敗
  • ChatGPT GPT-4o:介面:良好,功能:良好
  • Microsoft Copilot:介面:尚可,功能:失敗
  • Meta AI:介面:尚可,功能:失敗
  • Meta Code Llama:完全失敗
  • Google Gemini Advanced:介面:良好,功能:失敗
  • ChatGPT 4:介面:良好,功能:良好
  • ChatGPT 3.5:介面:良好,功能:良好

2. 重寫字串函數

此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。

然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。

以下是總結結果:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:成功
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 尋找惱人錯誤

此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。

Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。

以下是總結結果:

  • Claude 3.5 Sonnet:成功
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
  • Meta AI:成功
  • Meta Code Llama:失敗
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。

4. 撰寫腳本

此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。

此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:

if theTab's title contains input ignoring case then

「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。

以下是總結結果:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功但有保留意見
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:失敗
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失敗

總體結果

以下是Claude 3.5 Sonnet與其他AI的整體表現比較:

  • Claude 3.5 Sonnet:4項中1項成功
  • ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
  • Microsoft Copilot:4項中0項成功
  • Meta AI:4項中1項成功
  • Meta Code Llama:4項中1項成功
  • Google Gemini Advanced:4項中1項成功
  • ChatGPT 4:4項中4項成功
  • ChatGPT 3.5:4項中3項成功

我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。

你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。

在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV

相關文章
OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護 OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護 OpenAI 正採取重大措施來強化帳戶安全性。週四,該公司推出了「進階帳戶安全」功能,這是一套針對 ChatGPT 用戶的可選防護措施。雖然這些功能是為高知名度人士設計的,但任何尋求更強大安全保障的人士皆可使用。作為此項計畫的一環,數位安全公司 Yubico 宣布與 OpenAI 合作,將兩款新型安全金鑰產品整合至 ChatGPT 帳戶中。此項合作旨在保護使用者免受針對聊天機器人平台日益加劇的網路
OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版 OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版 上週五,OpenAI 為美國境內的 ChatGPT Pro 訂閱用戶推出了全新個人理財工具套件的預覽版。此功能讓使用者能連結自己的金融帳戶,並提出從消費分析到長期財務規劃等各類問題。為管理這些連結,OpenAI 與金融數據網路 Plaid 合作。用戶可連結來自超過 12,000 家金融機構的帳戶,包括查爾斯·施瓦布(Charles Schwab)、富達(Fidelity)、大通銀行(Chase)、
OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破 OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破 OpenAI 宣稱,其最新的推理模型已生成一份原創的數學證明,推翻了保羅·埃爾德什(Paul Erdős)於 1946 年首次提出的著名未解幾何猜想。若這聽起來似曾相識,那是因為 OpenAI 過去曾提出過類似的大膽聲明。七個月前,該公司前副總裁凱文·韋爾(Kevin Weil)在 X 平台發文表示:「GPT-5 找到了 10 個(!)先前未解的埃爾德什問題的解法,並在另外 11 個問題上取得了進
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (11)
0/500
CharlesYoung
CharlesYoung 2025-10-06 22:30:46

Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷‍♂️

ScottMitchell
ScottMitchell 2025-05-05 21:17:31

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 2025-05-05 16:59:50

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 2025-05-05 15:23:24

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 2025-05-05 14:46:04

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 2025-05-05 12:06:54

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

OR