Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎
2025年05月03日
FrankWilliams
2
測試人類新的Claude 3.5十四行詩的能力
上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。
我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。編寫WordPress插件
最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。
David Gewirtz/Zdnet的屏幕截圖
引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。
不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。
這是與以前的測試相比的總結果:
- Claude 3.5十四行詩:接口:良好,功能:失敗
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足夠,功能:失敗
- 元AI:接口:足夠,功能:失敗
- 元代碼駱駝:完全失敗
- Google Gemini高級:接口:良好,功能:失敗
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重寫字符串功能
該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。
但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。
這是總結果:
- 克勞德3.5十四行詩:失敗
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:成功
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一個煩人的錯誤
該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。
Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。
這是總結果:
- 克勞德3.5十四行詩:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗。壯觀。踴躍。表情符。
- META AI:成功
- 元代碼駱駝:失敗
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。
4。編寫腳本
該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。
此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:
如果Thetab的標題包含忽略案例的輸入,則
“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。
這是總結果:
- 克勞德3.5十四行詩:失敗
- Chatgpt GPT-4O:成功,但有預訂
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:失敗
- Google Gemini高級:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失敗
總體結果
與其他AI相比,Claude 3.5十四行詩的整體表現:
- 克勞德(Claude)3.5十四行詩:1分之1成功
- chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
- Microsoft Copilot:4分中的0個成功
- meta ai:四分之一的成功
- 元代碼駱駝:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4個成功
- Chatgpt 3.5:3分中的3個成功
我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。
您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。
關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。
相關文章
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks
Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner
Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
評論 (0)
0/200






測試人類新的Claude 3.5十四行詩的能力
上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。
我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。編寫WordPress插件
最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。
David Gewirtz/Zdnet的屏幕截圖
引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。
不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。
這是與以前的測試相比的總結果:
- Claude 3.5十四行詩:接口:良好,功能:失敗
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足夠,功能:失敗
- 元AI:接口:足夠,功能:失敗
- 元代碼駱駝:完全失敗
- Google Gemini高級:接口:良好,功能:失敗
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重寫字符串功能
該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。
但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。
這是總結果:
- 克勞德3.5十四行詩:失敗
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:成功
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一個煩人的錯誤
該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。
Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。
這是總結果:
- 克勞德3.5十四行詩:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失敗。壯觀。踴躍。表情符。
- META AI:成功
- 元代碼駱駝:失敗
- Google Gemini高級:失敗
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。
4。編寫腳本
該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。
此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:
如果Thetab的標題包含忽略案例的輸入,則
“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。
這是總結果:
- 克勞德3.5十四行詩:失敗
- Chatgpt GPT-4O:成功,但有預訂
- Microsoft Copilot:失敗
- META AI:失敗
- 元代碼駱駝:失敗
- Google Gemini高級:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失敗
總體結果
與其他AI相比,Claude 3.5十四行詩的整體表現:
- 克勞德(Claude)3.5十四行詩:1分之1成功
- chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
- Microsoft Copilot:4分中的0個成功
- meta ai:四分之一的成功
- 元代碼駱駝:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4個成功
- Chatgpt 3.5:3分中的3個成功
我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。
您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。
關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。












