Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎
測試人類新的Claude 3.5十四行詩的能力
上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。
我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。編寫WordPress插件
最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。
David Gewirtz/Zdnet的屏幕截圖
引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。
不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。
這是與以前的測試相比的總結果:
- Claude 3.5十四行詩:接口:良好,功能:失敗
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足夠,功能:失敗
- 元AI:接口:足夠,功能:失敗
- 元代碼駱駝:完全失敗
- Google Gemini高級:接口:良好,功能:失敗
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重寫字符串功能
該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。
但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。
這是總結果:
- 克勞德3.5十四行詩:失敗
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:成功
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一個煩人的錯誤
該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。
Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。
這是總結果:
- 克勞德3.5十四行詩:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗。壯觀。踴躍。表情符。
- META AI:成功
- 元代碼駱駝:失敗
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。
4。編寫腳本
該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。
此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:
如果Thetab的標題包含忽略案例的輸入,則
“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。
這是總結果:
- 克勞德3.5十四行詩:失敗
- Chatgpt GPT-4O:成功,但有預訂
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:失敗
- Google Gemini高級:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失敗
總體結果
與其他AI相比,Claude 3.5十四行詩的整體表現:
- 克勞德(Claude)3.5十四行詩:1分之1成功
- chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
- Microsoft Copilot:4分中的0個成功
- meta ai:四分之一的成功
- 元代碼駱駝:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4個成功
- Chatgpt 3.5:3分中的3個成功
我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。
您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。
關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。
相關文章
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版
OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
評論 (5)
0/200
ScottMitchell
2025-05-05 08:00:00
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
StevenNelson
2025-05-05 08:00:00
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
HaroldLopez
2025-05-05 08:00:00
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
JamesMiller
2025-05-05 08:00:00
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
SebastianAnderson
2025-05-05 08:00:00
Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!
0
測試人類新的Claude 3.5十四行詩的能力
上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。
我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。編寫WordPress插件
最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。
David Gewirtz/Zdnet的屏幕截圖
引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。
不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。
這是與以前的測試相比的總結果:
- Claude 3.5十四行詩:接口:良好,功能:失敗
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足夠,功能:失敗
- 元AI:接口:足夠,功能:失敗
- 元代碼駱駝:完全失敗
- Google Gemini高級:接口:良好,功能:失敗
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重寫字符串功能
該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。
但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。
這是總結果:
- 克勞德3.5十四行詩:失敗
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:成功
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一個煩人的錯誤
該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。
Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。
這是總結果:
- 克勞德3.5十四行詩:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗。壯觀。踴躍。表情符。
- META AI:成功
- 元代碼駱駝:失敗
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。
4。編寫腳本
該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。
此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:
如果Thetab的標題包含忽略案例的輸入,則
“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。
這是總結果:
- 克勞德3.5十四行詩:失敗
- Chatgpt GPT-4O:成功,但有預訂
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:失敗
- Google Gemini高級:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失敗
總體結果
與其他AI相比,Claude 3.5十四行詩的整體表現:
- 克勞德(Claude)3.5十四行詩:1分之1成功
- chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
- Microsoft Copilot:4分中的0個成功
- meta ai:四分之一的成功
- 元代碼駱駝:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4個成功
- Chatgpt 3.5:3分中的3個成功
我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。
您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。
關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!












