選項
首頁
新聞
Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

2025-05-04
89

測試人類新的Claude 3.5十四行詩的能力

上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。

我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。

1。編寫WordPress插件

最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。

WordPress插件接口的屏幕截圖由Claude 3.5十四行詩創建 David Gewirtz/Zdnet的屏幕截圖

引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。

不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。

這是與以前的測試相比的總結果:

  • Claude 3.5十四行詩:接口:良好,功能:失敗
  • Chatgpt GPT-4O:接口:良好,功能:好
  • Microsoft Copilot:接口:足夠,功能:失敗
  • 元AI:接口:足夠,功能:失敗
  • 元代碼駱駝:完全失敗
  • Google Gemini高級:接口:良好,功能:失敗
  • chatgpt 4:接口:良好,功能:好
  • chatgpt 3.5:接口:良好,功能:好

2。重寫字符串功能

該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。

但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。

這是總結果:

  • 克勞德3.5十四行詩:失敗
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失敗
  • META AI:失敗
  • 元代碼駱駝:成功
  • Google Gemini高級:失敗
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

3。找到一個煩人的錯誤

該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。

Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。

這是總結果:

  • 克勞德3.5十四行詩:成功
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失敗。壯觀。踴躍。表情符。
  • META AI:成功
  • 元代碼駱駝:失敗
  • Google Gemini高級:失敗
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。

4。編寫腳本

該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。

此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:

如果Thetab的標題包含忽略案例的輸入,則

“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。

這是總結果:

  • 克勞德3.5十四行詩:失敗
  • Chatgpt GPT-4O:成功,但有預訂
  • Microsoft Copilot:失敗
  • META AI:失敗
  • 元代碼駱駝:失敗
  • Google Gemini高級:成功
  • CHATGPT 4:成功
  • CHATGPT 3.5:失敗

總體結果

與其他AI相比,Claude 3.5十四行詩的整體表現:

  • 克勞德(Claude)3.5十四行詩:1分之1成功
  • chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
  • Microsoft Copilot:4分中的0個成功
  • meta ai:四分之一的成功
  • 元代碼駱駝:4分之1成功
  • Google Gemini Advanced:4分之一的成功
  • chatgpt 4:4分中的4個成功
  • Chatgpt 3.5:3分中的3個成功

我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。

您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。

關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv

相關文章
OpenAI承諾修復ChatGPT過度順從回應問題 OpenAI承諾修復ChatGPT過度順從回應問題 OpenAI計劃修訂其ChatGPT的AI模型更新流程,此前一次更新導致模型回應過度諂媚,引發廣泛用戶反饋。上週末,GPT-4o(ChatGPT背後的模型)更新後,社交媒體上的用戶報告稱,該平台對有害想法過度認同,引發病毒式迷因。螢幕截圖顯示ChatGPT支持了有問題的決定。週日,執行長Sam Altman在X上回應此問題,承諾立即採取行動。到了週二,他宣布撤回GPT-4o更新,並持續改進模型行為
OpenAI揭曉進階AI推理模型,o3與o4-mini OpenAI揭曉進階AI推理模型,o3與o4-mini OpenAI於週三推出o3與o4-mini,這是兩款新型AI模型,設計為在回答前暫停並分析問題。OpenAI宣稱o3是其迄今最先進的推理模型,在數學、編碼、推理、科學及視覺理解測試中超越先前模型。同時,o4-mini在成本、速度與性能間取得平衡,是開發者打造AI驅動應用的理想選擇。與早期模型不同,o3與o4-mini利用ChatGPT工具,如網頁瀏覽、Python程式碼執行、圖像處理及圖像生成。從
重塑您的家居:AI驅動的Pinterest與ChatGPT裝飾 重塑您的家居:AI驅動的Pinterest與ChatGPT裝飾 難以從眾多選項中重新設計您的家居?結合人工智慧與Pinterest的視覺靈感,打造您的理想空間。本指南揭示如何融合Pinterest的圖像與ChatGPT的創意規劃,創造令人驚艷的家居裝飾。主要亮點利用Pinterest尋找視覺靈感:探索Pinterest以收集多樣的家居裝飾風格,精準定位您的獨特品味。使用ChatGPT進行智能規劃:運用ChatGPT塑造您的願景,制定詳細的裝飾策略,並解決設計難
評論 (10)
0/200
ScottMitchell
ScottMitchell 2025-05-05 21:17:31

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 2025-05-05 16:59:50

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 2025-05-05 15:23:24

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 2025-05-05 14:46:04

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 2025-05-05 12:06:54

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas
AveryThomas 2025-05-05 06:30:08

Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!

回到頂部
OR