選項
首頁
消息
Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

Claude 3.5十四行詩在以Chatgpt為主的AI編碼測試中創造性地掙扎

2025-05-04
66

測試人類新的Claude 3.5十四行詩的能力

上週,我收到了擬人化的電子郵件,宣布發布Claude 3.5十四行詩。他們誇口說,它“提高了情報,優於競爭對手模型和克勞德3的行業標準,並進行了廣泛的評估。”他們還聲稱,它非常適合代碼生成等複雜任務。自然,我不得不對這些主張進行測試。

我已經在各種AIS上運行了一系列的編碼測試,您也可以。只需介紹一下 我如何測試AI聊天機器人的編碼功能 - 您也可以找到所有詳細信息。讓我們深入了解Claude 3.5十四行詩在我的標準測試中的表現,並查看它如何與其他AIS堆疊,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。

1。編寫WordPress插件

最初,克勞德3.5十四行詩表現出了很多希望。它生成的用戶界面令人印象深刻,並帶有乾淨的佈局,該佈局首次將數據字段並排放置在我測試過的AIS中。

WordPress插件接口的屏幕截圖由Claude 3.5十四行詩創建 David Gewirtz/Zdnet的屏幕截圖

引起我注意的是克勞德(Claude)如何對代碼生成。它沒有用於PHP,JavaScript和CSS的通常單獨的文件,而是提供了一個單個PHP文件,該文件將JavaScript和CSS文件自動生成到插件目錄中。儘管這是一種創新的方法,但它具有風險,因為它取決於OS設置,允許插件寫入自己的文件夾,這是生產環境中的主要安全缺陷。

不幸的是,儘管有創造性的解決方案,但插件仍行不通。 “隨機化”按鈕什麼也沒做,鑑於其最初的承諾,這令人失望。

這是與以前的測試相比的總結果:

  • Claude 3.5十四行詩:接口:良好,功能:失敗
  • Chatgpt GPT-4O:接口:良好,功能:好
  • Microsoft Copilot:接口:足夠,功能:失敗
  • 元AI:接口:足夠,功能:失敗
  • 元代碼駱駝:完全失敗
  • Google Gemini高級:接口:良好,功能:失敗
  • chatgpt 4:接口:良好,功能:好
  • chatgpt 3.5:接口:良好,功能:好

2。重寫字符串功能

該測試評估了AI可以重寫代碼以滿足特定需求的能力,在這種情況下為美元和百分比轉換。 Claude 3.5十四行詩在刪除領先的零,正確處理整數和小數並防止負值方面做得很好。對於意外輸入,它還巧妙地返回了“ 0”,這有助於避免錯誤。

但是,它不允許50美分的條目“ .50”之類的條目,這是一項要求。這意味著修訂的代碼在實際情況下無法使用,因此我必須將其標記為失敗。

這是總結果:

  • 克勞德3.5十四行詩:失敗
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失敗
  • META AI:失敗
  • 元代碼駱駝:成功
  • Google Gemini高級:失敗
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

3。找到一個煩人的錯誤

該測試很棘手,因為它要求AI找到需要特定WordPress知識的微妙錯誤。這是我想念自己的錯誤,不得不轉向Chatgpt最初解決。

Claude 3.5十四行詩不僅找到並修復了錯誤,而且還注意到發布過程中引入的錯誤,然後我進行了更正。自發布完整測試以來,這是我測試過的AI中的第一個。

這是總結果:

  • 克勞德3.5十四行詩:成功
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失敗。壯觀。踴躍。表情符。
  • META AI:成功
  • 元代碼駱駝:失敗
  • Google Gemini高級:失敗
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

到目前為止,Claude 3.5十四行詩在三個測試中未能進行兩次。讓我們看看它如何處理最後一個。

4。編寫腳本

該測試檢查了AI對AppleScript和鍵盤Maestro等專業編程工具的知識。儘管Chatgpt都表現出兩者的熟練程度,但Claude 3.5十四行詩的表現也不那麼出色。它寫了一個試圖與Chrome互動但完全忽略鍵盤Maestro組件的AppleScript。

此外,AppleScript包含語法錯誤。在試圖使比賽不敏感的情況下,克勞德生成了一條線,該行會導致運行時錯誤:

如果Thetab的標題包含忽略案例的輸入,則

“包含”語句已經對病例不敏感,並且“忽略的情況”短語放錯了位置,導致錯誤。

這是總結果:

  • 克勞德3.5十四行詩:失敗
  • Chatgpt GPT-4O:成功,但有預訂
  • Microsoft Copilot:失敗
  • META AI:失敗
  • 元代碼駱駝:失敗
  • Google Gemini高級:成功
  • CHATGPT 4:成功
  • CHATGPT 3.5:失敗

總體結果

與其他AI相比,Claude 3.5十四行詩的整體表現:

  • 克勞德(Claude)3.5十四行詩:1分之1成功
  • chatgpt gpt-4o:4分中的4個成功,但有一個怪異的雙選擇性答案
  • Microsoft Copilot:4分中的0個成功
  • meta ai:四分之一的成功
  • 元代碼駱駝:4分之1成功
  • Google Gemini Advanced:4分之一的成功
  • chatgpt 4:4分中的4個成功
  • Chatgpt 3.5:3分中的3個成功

我對Claude 3.5十四行詩感到非常失望。擬人化承諾它適用於編程,但它不符合這些期望。並不是說它不能編程;它只是無法正確編程。我一直希望找到一個可以勝過ChatGpt的AI,尤其是當這些模型被整合到編程環境中時。但是目前,我堅持使用Chatgpt進行編程幫助,我建議您這樣做。

您是否使用過AI進行編程?哪一個,怎麼走?在下面的評論中分享您的經驗。

關注我在社交媒體上的項目更新,訂閱我的每週新聞通訊,然後在@davidgewirtz上的Twitter/x上與我聯繫,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv

相關文章
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
評論 (5)
0/200
ScottMitchell
ScottMitchell 2025-05-05 08:00:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 2025-05-05 08:00:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 2025-05-05 08:00:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 2025-05-05 08:00:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 2025-05-05 08:00:00

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

回到頂部
OR