Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎
测试人类新的Claude 3.5十四行诗的能力
上周,我收到了拟人化的电子邮件,宣布发布Claude 3.5十四行诗。他们夸口说,它“提高了情报,优于竞争对手模型和克劳德3的行业标准,并进行了广泛的评估。”他们还声称,它非常适合代码生成等复杂任务。自然,我不得不对这些主张进行测试。
我已经在各种AIS上运行了一系列的编码测试,您也可以。只需介绍一下 我如何测试AI聊天机器人的编码功能 - 您也可以找到所有详细信息。让我们深入了解Claude 3.5十四行诗在我的标准测试中的表现,并查看它如何与其他AIS堆叠,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。编写WordPress插件
最初,克劳德3.5十四行诗表现出了很多希望。它生成的用户界面令人印象深刻,并带有干净的布局,该布局首次将数据字段并排放置在我测试过的AIS中。
David Gewirtz/Zdnet的屏幕截图
引起我注意的是克劳德(Claude)如何对代码生成。它没有用于PHP,JavaScript和CSS的通常单独的文件,而是提供了一个单个PHP文件,该文件将JavaScript和CSS文件自动生成到插件目录中。尽管这是一种创新的方法,但它具有风险,因为它取决于OS设置,允许插件写入自己的文件夹,这是生产环境中的主要安全缺陷。
不幸的是,尽管有创造性的解决方案,但插件仍行不通。 “随机化”按钮什么也没做,鉴于其最初的承诺,这令人失望。
这是与以前的测试相比的总结果:
- Claude 3.5十四行诗:接口:良好,功能:失败
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足够,功能:失败
- 元AI:接口:足够,功能:失败
- 元代码骆驼:完全失败
- Google Gemini高级:接口:良好,功能:失败
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重写字符串功能
该测试评估了AI可以重写代码以满足特定需求的能力,在这种情况下为美元和百分比转换。 Claude 3.5十四行诗在删除领先的零,正确处理整数和小数并防止负值方面做得很好。对于意外输入,它还巧妙地返回了“ 0”,这有助于避免错误。
但是,它不允许50美分的条目“ .50”之类的条目,这是一项要求。这意味着修订的代码在实际情况下无法使用,因此我必须将其标记为失败。
这是总结果:
- 克劳德3.5十四行诗:失败
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:成功
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一个烦人的错误
该测试很棘手,因为它要求AI找到需要特定WordPress知识的微妙错误。这是我想念自己的错误,不得不转向Chatgpt最初解决。
Claude 3.5十四行诗不仅找到并修复了错误,而且还注意到发布过程中引入的错误,然后我进行了更正。自发布完整测试以来,这是我测试过的AI中的第一个。
这是总结果:
- 克劳德3.5十四行诗:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败。壮观。踊跃。表情符。
- META AI:成功
- 元代码骆驼:失败
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前为止,Claude 3.5十四行诗在三个测试中未能进行两次。让我们看看它如何处理最后一个。
4。编写脚本
该测试检查了AI对AppleScript和键盘Maestro等专业编程工具的知识。尽管Chatgpt都表现出两者的熟练程度,但Claude 3.5十四行诗的表现也不那么出色。它写了一个试图与Chrome互动但完全忽略键盘Maestro组件的AppleScript。
此外,AppleScript包含语法错误。在试图使比赛不敏感的情况下,克劳德生成了一条线,该行会导致运行时错误:
如果Thetab的标题包含忽略案例的输入,则
“包含”语句已经对病例不敏感,并且“忽略的情况”短语放错了位置,导致错误。
这是总结果:
- 克劳德3.5十四行诗:失败
- Chatgpt GPT-4O:成功,但有预订
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:失败
- Google Gemini高级:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失败
总体结果
与其他AI相比,Claude 3.5十四行诗的整体表现:
- 克劳德(Claude)3.5十四行诗:1分之1成功
- chatgpt gpt-4o:4分中的4个成功,但有一个怪异的双选择性答案
- Microsoft Copilot:4分中的0个成功
- meta ai:四分之一的成功
- 元代码骆驼:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4个成功
- Chatgpt 3.5:3分中的3个成功
我对Claude 3.5十四行诗感到非常失望。拟人化承诺它适用于编程,但它不符合这些期望。并不是说它不能编程;它只是无法正确编程。我一直希望找到一个可以胜过ChatGpt的AI,尤其是当这些模型被整合到编程环境中时。但是目前,我坚持使用Chatgpt进行编程帮助,我建议您这样做。
您是否使用过AI进行编程?哪一个,怎么走?在下面的评论中分享您的经验。
关注我在社交媒体上的项目更新,订阅我的每周新闻通讯,然后在@davidgewirtz上的Twitter/x上与我联系,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。
相关文章
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版
OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
评论 (5)
0/200
ScottMitchell
2025-05-05 08:00:00
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
StevenNelson
2025-05-05 08:00:00
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
HaroldLopez
2025-05-05 08:00:00
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
JamesMiller
2025-05-05 08:00:00
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
SebastianAnderson
2025-05-05 08:00:00
Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!
0
测试人类新的Claude 3.5十四行诗的能力
上周,我收到了拟人化的电子邮件,宣布发布Claude 3.5十四行诗。他们夸口说,它“提高了情报,优于竞争对手模型和克劳德3的行业标准,并进行了广泛的评估。”他们还声称,它非常适合代码生成等复杂任务。自然,我不得不对这些主张进行测试。
我已经在各种AIS上运行了一系列的编码测试,您也可以。只需介绍一下 我如何测试AI聊天机器人的编码功能 - 您也可以找到所有详细信息。让我们深入了解Claude 3.5十四行诗在我的标准测试中的表现,并查看它如何与其他AIS堆叠,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。编写WordPress插件
最初,克劳德3.5十四行诗表现出了很多希望。它生成的用户界面令人印象深刻,并带有干净的布局,该布局首次将数据字段并排放置在我测试过的AIS中。
David Gewirtz/Zdnet的屏幕截图
引起我注意的是克劳德(Claude)如何对代码生成。它没有用于PHP,JavaScript和CSS的通常单独的文件,而是提供了一个单个PHP文件,该文件将JavaScript和CSS文件自动生成到插件目录中。尽管这是一种创新的方法,但它具有风险,因为它取决于OS设置,允许插件写入自己的文件夹,这是生产环境中的主要安全缺陷。
不幸的是,尽管有创造性的解决方案,但插件仍行不通。 “随机化”按钮什么也没做,鉴于其最初的承诺,这令人失望。
这是与以前的测试相比的总结果:
- Claude 3.5十四行诗:接口:良好,功能:失败
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足够,功能:失败
- 元AI:接口:足够,功能:失败
- 元代码骆驼:完全失败
- Google Gemini高级:接口:良好,功能:失败
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重写字符串功能
该测试评估了AI可以重写代码以满足特定需求的能力,在这种情况下为美元和百分比转换。 Claude 3.5十四行诗在删除领先的零,正确处理整数和小数并防止负值方面做得很好。对于意外输入,它还巧妙地返回了“ 0”,这有助于避免错误。
但是,它不允许50美分的条目“ .50”之类的条目,这是一项要求。这意味着修订的代码在实际情况下无法使用,因此我必须将其标记为失败。
这是总结果:
- 克劳德3.5十四行诗:失败
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:成功
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一个烦人的错误
该测试很棘手,因为它要求AI找到需要特定WordPress知识的微妙错误。这是我想念自己的错误,不得不转向Chatgpt最初解决。
Claude 3.5十四行诗不仅找到并修复了错误,而且还注意到发布过程中引入的错误,然后我进行了更正。自发布完整测试以来,这是我测试过的AI中的第一个。
这是总结果:
- 克劳德3.5十四行诗:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败。壮观。踊跃。表情符。
- META AI:成功
- 元代码骆驼:失败
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前为止,Claude 3.5十四行诗在三个测试中未能进行两次。让我们看看它如何处理最后一个。
4。编写脚本
该测试检查了AI对AppleScript和键盘Maestro等专业编程工具的知识。尽管Chatgpt都表现出两者的熟练程度,但Claude 3.5十四行诗的表现也不那么出色。它写了一个试图与Chrome互动但完全忽略键盘Maestro组件的AppleScript。
此外,AppleScript包含语法错误。在试图使比赛不敏感的情况下,克劳德生成了一条线,该行会导致运行时错误:
如果Thetab的标题包含忽略案例的输入,则
“包含”语句已经对病例不敏感,并且“忽略的情况”短语放错了位置,导致错误。
这是总结果:
- 克劳德3.5十四行诗:失败
- Chatgpt GPT-4O:成功,但有预订
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:失败
- Google Gemini高级:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失败
总体结果
与其他AI相比,Claude 3.5十四行诗的整体表现:
- 克劳德(Claude)3.5十四行诗:1分之1成功
- chatgpt gpt-4o:4分中的4个成功,但有一个怪异的双选择性答案
- Microsoft Copilot:4分中的0个成功
- meta ai:四分之一的成功
- 元代码骆驼:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4个成功
- Chatgpt 3.5:3分中的3个成功
我对Claude 3.5十四行诗感到非常失望。拟人化承诺它适用于编程,但它不符合这些期望。并不是说它不能编程;它只是无法正确编程。我一直希望找到一个可以胜过ChatGpt的AI,尤其是当这些模型被整合到编程环境中时。但是目前,我坚持使用Chatgpt进行编程帮助,我建议您这样做。
您是否使用过AI进行编程?哪一个,怎么走?在下面的评论中分享您的经验。
关注我在社交媒体上的项目更新,订阅我的每周新闻通讯,然后在@davidgewirtz上的Twitter/x上与我联系,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!












