Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎
測試Anthropic新款Claude 3.5 Sonnet的能力
上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。
我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。
1. 撰寫WordPress外掛
最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。
由David Gewirtz/ZDNET提供截圖
引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。
不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。
以下是與先前測試的總結結果:
- Claude 3.5 Sonnet:介面:良好,功能:失敗
- ChatGPT GPT-4o:介面:良好,功能:良好
- Microsoft Copilot:介面:尚可,功能:失敗
- Meta AI:介面:尚可,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:介面:良好,功能:失敗
- ChatGPT 4:介面:良好,功能:良好
- ChatGPT 3.5:介面:良好,功能:良好
2. 重寫字串函數
此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。
然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 尋找惱人錯誤
此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。
Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。
以下是總結結果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。
4. 撰寫腳本
此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。
此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:
if theTab's title contains input ignoring case then
「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功但有保留意見
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是Claude 3.5 Sonnet與其他AI的整體表現比較:
- Claude 3.5 Sonnet:4項中1項成功
- ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
- Microsoft Copilot:4項中0項成功
- Meta AI:4項中1項成功
- Meta Code Llama:4項中1項成功
- Google Gemini Advanced:4項中1項成功
- ChatGPT 4:4項中4項成功
- ChatGPT 3.5:4項中3項成功
我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。
你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。
在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV。
相關文章
OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護
OpenAI 正採取重大措施來強化帳戶安全性。週四,該公司推出了「進階帳戶安全」功能,這是一套針對 ChatGPT 用戶的可選防護措施。雖然這些功能是為高知名度人士設計的,但任何尋求更強大安全保障的人士皆可使用。作為此項計畫的一環,數位安全公司 Yubico 宣布與 OpenAI 合作,將兩款新型安全金鑰產品整合至 ChatGPT 帳戶中。此項合作旨在保護使用者免受針對聊天機器人平台日益加劇的網路
OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版
上週五,OpenAI 為美國境內的 ChatGPT Pro 訂閱用戶推出了全新個人理財工具套件的預覽版。此功能讓使用者能連結自己的金融帳戶,並提出從消費分析到長期財務規劃等各類問題。為管理這些連結,OpenAI 與金融數據網路 Plaid 合作。用戶可連結來自超過 12,000 家金融機構的帳戶,包括查爾斯·施瓦布(Charles Schwab)、富達(Fidelity)、大通銀行(Chase)、
OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破
OpenAI 宣稱,其最新的推理模型已生成一份原創的數學證明,推翻了保羅·埃爾德什(Paul Erdős)於 1946 年首次提出的著名未解幾何猜想。若這聽起來似曾相識,那是因為 OpenAI 過去曾提出過類似的大膽聲明。七個月前,該公司前副總裁凱文·韋爾(Kevin Weil)在 X 平台發文表示:「GPT-5 找到了 10 個(!)先前未解的埃爾德什問題的解法,並在另外 11 個問題上取得了進
相關專題推薦
評論 (11)
0/500
Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷♂️
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
測試Anthropic新款Claude 3.5 Sonnet的能力
上週,我收到Anthropic的電子郵件,宣布推出Claude 3.5 Sonnet。他們誇耀其「提升了業界智能標準,在多項評估中超越競爭對手模型及Claude 3 Opus」。他們還宣稱其非常適合複雜任務,如程式碼生成。我自然得測試這些說法。
我對多個AI進行了一系列程式碼測試,你也可以試試。只要前往如何測試AI聊天機器人的程式碼能力 - 你也可以查看所有細節。讓我們來看看Claude 3.5 Sonnet在我的標準測試中表現如何,並與其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced及ChatGPT比較。
1. 撰寫WordPress外掛
最初,Claude 3.5 Sonnet展現了很大潛力。其生成的使用者介面令人印象深刻,佈局乾淨,首次在測試的AI中將資料欄位並排放置。
由David Gewirtz/ZDNET提供截圖
引起我注意的是Claude的程式碼生成方式。它未使用常見的獨立PHP、JavaScript及CSS檔案,而是提供單一PHP檔案,自動生成JavaScript及CSS檔案到外掛目錄。雖然這是創新方法,但風險在於其依賴作業系統設定允許外掛寫入自身資料夾,這在生產環境中是重大安全漏洞。
不幸的是,儘管解決方案具創意,外掛無法運作。「隨機化」按鈕毫無反應,令人失望。
以下是與先前測試的總結結果:
- Claude 3.5 Sonnet:介面:良好,功能:失敗
- ChatGPT GPT-4o:介面:良好,功能:良好
- Microsoft Copilot:介面:尚可,功能:失敗
- Meta AI:介面:尚可,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:介面:良好,功能:失敗
- ChatGPT 4:介面:良好,功能:良好
- ChatGPT 3.5:介面:良好,功能:良好
2. 重寫字串函數
此測試評估AI如何依特定需求重寫程式碼,此處為美元與美分轉換。Claude 3.5 Sonnet在移除前導零、正確處理整數與小數及防止負值方面表現良好。它還巧妙地對意外輸入返回「0」,有助於避免錯誤。
然而,它未能允許如「.50」代表50美分的輸入,這是需求之一。因此,修改後的程式碼在現實場景中無法運作,我必須標記為失敗。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 尋找惱人錯誤
此測試很棘手,因其要求AI找出需要特定WordPress知識的細微錯誤。這是我最初忽略的錯誤,需借助ChatGPT解決。
Claude 3.5 Sonnet不僅找到並修復了錯誤,還注意到發布過程中引入的錯誤,我隨後修正。這是我發布完整測試集以來,AI中的首次表現。
以下是總結結果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其、熱情地、表情符號地失敗。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
目前,Claude 3.5 Sonnet在三項測試中失敗了兩項。讓我們看看它在最後一項的表現。
4. 撰寫腳本
此測試檢查AI對專業程式工具如AppleScript及Keyboard Maestro的知識。雖然ChatGPT在兩者上表現熟練,但Claude 3.5 Sonnet表現不佳。它撰寫的AppleScript試圖與Chrome互動,但完全忽略Keyboard Maestro部分。
此外,AppleScript包含語法錯誤。在試圖使匹配不區分大小寫時,Claude生成一行導致運行時錯誤的程式碼:
「contains」語句已不區分大小寫,「ignoring case」短語放錯位置,導致錯誤。
以下是總結結果:
- Claude 3.5 Sonnet:失敗
- ChatGPT GPT-4o:成功但有保留意見
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是Claude 3.5 Sonnet與其他AI的整體表現比較:
- Claude 3.5 Sonnet:4項中1項成功
- ChatGPT GPT-4o:4項中4項成功,但有一個奇怪的雙選答案
- Microsoft Copilot:4項中0項成功
- Meta AI:4項中1項成功
- Meta Code Llama:4項中1項成功
- Google Gemini Advanced:4項中1項成功
- ChatGPT 4:4項中4項成功
- ChatGPT 3.5:4項中3項成功
我對Claude 3.5 Sonnet感到相當失望。Anthropic承諾其適合程式設計,但未達預期。它不是不能程式設計,只是無法正確程式設計。我一直希望找到能超越ChatGPT的AI,特別是這些模型融入程式環境時。但目前,我仍選擇ChatGPT作為程式設計輔助,建議你也如此。
你有沒有用AI進行程式設計?用了哪個,效果如何?請在下方評論分享你的經驗。
在社交媒體上關注我的項目更新,訂閱我的每週新聞信,並在Twitter/X上以@DavidGewirtz與我聯繫,在Facebook上以Facebook.com/DavidGewirtz,在Instagram上以Instagram.com/DavidGewirtz,以及在YouTube上以YouTube.com/DavidGewirtzTV。
OpenAI 與 Yubico 合作強化 ChatGPT 安全性,以提升帳戶保護
OpenAI 正採取重大措施來強化帳戶安全性。週四,該公司推出了「進階帳戶安全」功能,這是一套針對 ChatGPT 用戶的可選防護措施。雖然這些功能是為高知名度人士設計的,但任何尋求更強大安全保障的人士皆可使用。作為此項計畫的一環,數位安全公司 Yubico 宣布與 OpenAI 合作,將兩款新型安全金鑰產品整合至 ChatGPT 帳戶中。此項合作旨在保護使用者免受針對聊天機器人平台日益加劇的網路
OpenAI 推出整合銀行帳戶功能的 ChatGPT 個人理財版
上週五,OpenAI 為美國境內的 ChatGPT Pro 訂閱用戶推出了全新個人理財工具套件的預覽版。此功能讓使用者能連結自己的金融帳戶,並提出從消費分析到長期財務規劃等各類問題。為管理這些連結,OpenAI 與金融數據網路 Plaid 合作。用戶可連結來自超過 12,000 家金融機構的帳戶,包括查爾斯·施瓦布(Charles Schwab)、富達(Fidelity)、大通銀行(Chase)、
OpenAI 宣稱在解決這道存在數十年的數學難題方面取得了真正的突破
OpenAI 宣稱,其最新的推理模型已生成一份原創的數學證明,推翻了保羅·埃爾德什(Paul Erdős)於 1946 年首次提出的著名未解幾何猜想。若這聽起來似曾相識,那是因為 OpenAI 過去曾提出過類似的大膽聲明。七個月前,該公司前副總裁凱文·韋爾(Kevin Weil)在 X 平台發文表示:「GPT-5 找到了 10 個(!)先前未解的埃爾德什問題的解法,並在另外 11 個問題上取得了進
Intéressant de voir Claude 3.5 Sonnet avoir du mal avec le codage créatif. Est-ce qu'on attend trop des IA actuellement ? Après tout, l'intelligence humaine reste unique 🤷♂️
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !





首頁






