Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎
测试Anthropic新款Claude 3.5 Sonnet的能力
上周,我收到Anthropic的电子邮件,宣布Claude 3.5 Sonnet发布。他们宣称它“提升了行业智能标准,在广泛的评估中超越了竞争对手模型和Claude 3 Opus”。他们还声称它非常适合复杂的任务,如代码生成。自然,我必须验证这些说法。
我对各种AI进行了一系列编码测试,你也可以试试。只需访问如何测试AI聊天机器人的编码能力 - 你也可以以获取所有细节。让我们深入探讨Claude 3.5 Sonnet在我的标准测试中的表现,看看它与其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced和ChatGPT相比如何。
1. 编写WordPress插件
最初,Claude 3.5 Sonnet表现出了很大的潜力。它生成的用户界面令人印象深刻,布局清晰,首次在测试的AI中将数据字段并排放置。
David Gewirtz/ZDNET拍摄的截图
引起我注意的是Claude的代码生成方式。它没有像通常那样为PHP、JavaScript和CSS生成单独文件,而是提供了一个自动生成JavaScript和CSS文件的单一PHP文件,放入插件目录。虽然这是一个创新的方法,但有风险,因为它依赖于操作系统设置允许插件写入自己的文件夹——在生产环境中这是一个重大的安全漏洞。
遗憾的是,尽管解决方案很有创意,插件并未正常工作。“随机”按钮毫无反应,鉴于其最初的潜力,这令人失望。
以下是与之前测试的综合结果:
- Claude 3.5 Sonnet:界面:良好,功能:失败
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:一般,功能:失败
- Meta AI:界面:一般,功能:失败
- Meta Code Llama:完全失败
- Google Gemini Advanced:界面:良好,功能:失败
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重写字符串函数
此测试评估AI在重写代码以满足特定需求(本例中为美元和美分转换)方面的表现。Claude 3.5 Sonnet在去除前导零、正确处理整数和小数以及防止负值方面表现良好。它还智能地对意外输入返回“0”,有助于避免错误。
然而,它未能允许类似“.50”表示50美分的输入,这是需求之一。这意味着修改后的代码在现实场景中无法工作,因此我必须标记为失败。
以下是综合结果:
- Claude 3.5 Sonnet:失败
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:成功
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 查找一个烦人的错误
此测试很棘手,因为它要求AI找到一个需要特定WordPress知识的微妙错误。这是我自己错过的错误,最初不得不求助于ChatGPT解决。
Claude 3.5 Sonnet不仅找到并修复了错误,还注意到发布过程中引入的一个错误,我随后进行了更正。这是我发布完整测试集以来测试的AI中的首例。
以下是综合结果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败。非常、热情地、表情丰富地失败。
- Meta AI:成功
- Meta Code Llama:失败
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前为止,Claude 3.5 Sonnet在三个测试中有两个失败了。让我们看看它在最后一个测试中的表现。
4. 编写脚本
此测试检查AI对专业编程工具如AppleScript和Keyboard Maestro的了解。虽然ChatGPT在这两方面表现出色,但Claude 3.5 Sonnet表现不佳。它编写了一个试图与Chrome交互的AppleScript,但完全忽略了Keyboard Maestro部分。
此外,AppleScript中包含一个语法错误。在尝试使匹配不区分大小写时,Claude生成了一行会导致运行时错误的代码:
if theTab's title contains input ignoring case then
“contains”语句已是不区分大小写,“ignoring case”短语位置错误,导致错误。
以下是综合结果:
- Claude 3.5 Sonnet:失败
- ChatGPT GPT-4o:成功但有保留
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:失败
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失败
总体结果
以下是Claude 3.5 Sonnet与其他AI的总体表现对比:
- Claude 3.5 Sonnet:4个中1个成功
- ChatGPT GPT-4o:4个中4个成功,但有一个奇怪的双重选择答案
- Microsoft Copilot:4个中0个成功
- Meta AI:4个中1个成功
- Meta Code Llama:4个中1个成功
- Google Gemini Advanced:4个中1个成功
- ChatGPT 4:4个中4个成功
- ChatGPT 3.5:4个中3个成功
我对Claude 3.5 Sonnet的表现相当失望。Anthropic承诺它适合编程,但未能达到预期。并非它完全不能编程,只是无法正确编程。我一直希望找到一个能超越ChatGPT的AI,尤其是在这些模型集成到编程环境中时。但目前,我仍会选择ChatGPT来帮助编程,建议你也这样做。
你用过AI进行编程吗?用了哪个,效果如何?请在下方评论中分享你的经验。
在社交媒体上关注我的项目更新,订阅我的每周简讯,并在Twitter/X上通过@DavidGewirtz与我联系,在Facebook上通过Facebook.com/DavidGewirtz,在Instagram上通过Instagram.com/DavidGewirtz,在YouTube上通过YouTube.com/DavidGewirtzTV。
相关文章
OpenAI承诺在ChatGPT过度顺从回应后进行修复
OpenAI计划修改其AI模型更新流程,以解决ChatGPT因更新导致的过度谄媚回应,引发了广泛的用户反馈。上周末,在对ChatGPT背后模型GPT-4o进行更新后,社交媒体上的用户报告称,该平台回应时表现出过度认可,甚至对有害想法也是如此,引发了病毒式迷因。截图显示ChatGPT支持了有争议的决定。周日,首席执行官Sam Altman在X上回应了这一问题,承诺立即采取行动。到周二,他宣布回滚GP
OpenAI发布高级AI推理模型,o3和o4-mini
OpenAI周三推出o3和o4-mini,新AI模型设计为在回答前暂停并分析问题。OpenAI称o3是其迄今最先进的推理模型,在数学、编码、推理、科学和视觉理解测试中超越先前模型。同时,o4-mini平衡了成本、速度和性能,是开发者构建AI驱动应用的优选。与早期模型不同,o3和o4-mini利用ChatGPT工具,如网页浏览、Python代码执行、图像处理和图像生成。从今天起,这些模型及o4-mi
重塑您的家:人工智能驱动的装饰与Pinterest和ChatGPT的结合
在无数选择中挣扎于重新设计您的家?将人工智能与Pinterest的视觉灵感相结合,打造您的理想空间。本指南揭示了如何将Pinterest的图像与ChatGPT的创意规划融合,创造出令人惊叹的家居装饰。主要亮点利用Pinterest获取视觉灵感:探索Pinterest以收集多样化的家居装饰风格,锁定您的独特品味。使用ChatGPT进行智能规划:运用ChatGPT塑造您的愿景,制定详细的装饰策略,解决
评论 (10)
0/200
ScottMitchell
2025-05-05 21:17:31
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
JamesMiller
2025-05-05 16:59:50
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
StevenNelson
2025-05-05 15:23:24
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
JoseDavis
2025-05-05 14:46:04
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
0
HaroldLopez
2025-05-05 12:06:54
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
AveryThomas
2025-05-05 06:30:08
Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!
0
测试Anthropic新款Claude 3.5 Sonnet的能力
上周,我收到Anthropic的电子邮件,宣布Claude 3.5 Sonnet发布。他们宣称它“提升了行业智能标准,在广泛的评估中超越了竞争对手模型和Claude 3 Opus”。他们还声称它非常适合复杂的任务,如代码生成。自然,我必须验证这些说法。
我对各种AI进行了一系列编码测试,你也可以试试。只需访问如何测试AI聊天机器人的编码能力 - 你也可以以获取所有细节。让我们深入探讨Claude 3.5 Sonnet在我的标准测试中的表现,看看它与其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced和ChatGPT相比如何。
1. 编写WordPress插件
最初,Claude 3.5 Sonnet表现出了很大的潜力。它生成的用户界面令人印象深刻,布局清晰,首次在测试的AI中将数据字段并排放置。
David Gewirtz/ZDNET拍摄的截图
引起我注意的是Claude的代码生成方式。它没有像通常那样为PHP、JavaScript和CSS生成单独文件,而是提供了一个自动生成JavaScript和CSS文件的单一PHP文件,放入插件目录。虽然这是一个创新的方法,但有风险,因为它依赖于操作系统设置允许插件写入自己的文件夹——在生产环境中这是一个重大的安全漏洞。
遗憾的是,尽管解决方案很有创意,插件并未正常工作。“随机”按钮毫无反应,鉴于其最初的潜力,这令人失望。
以下是与之前测试的综合结果:
- Claude 3.5 Sonnet:界面:良好,功能:失败
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:一般,功能:失败
- Meta AI:界面:一般,功能:失败
- Meta Code Llama:完全失败
- Google Gemini Advanced:界面:良好,功能:失败
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重写字符串函数
此测试评估AI在重写代码以满足特定需求(本例中为美元和美分转换)方面的表现。Claude 3.5 Sonnet在去除前导零、正确处理整数和小数以及防止负值方面表现良好。它还智能地对意外输入返回“0”,有助于避免错误。
然而,它未能允许类似“.50”表示50美分的输入,这是需求之一。这意味着修改后的代码在现实场景中无法工作,因此我必须标记为失败。
以下是综合结果:
- Claude 3.5 Sonnet:失败
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:成功
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 查找一个烦人的错误
此测试很棘手,因为它要求AI找到一个需要特定WordPress知识的微妙错误。这是我自己错过的错误,最初不得不求助于ChatGPT解决。
Claude 3.5 Sonnet不仅找到并修复了错误,还注意到发布过程中引入的一个错误,我随后进行了更正。这是我发布完整测试集以来测试的AI中的首例。
以下是综合结果:
- Claude 3.5 Sonnet:成功
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败。非常、热情地、表情丰富地失败。
- Meta AI:成功
- Meta Code Llama:失败
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前为止,Claude 3.5 Sonnet在三个测试中有两个失败了。让我们看看它在最后一个测试中的表现。
4. 编写脚本
此测试检查AI对专业编程工具如AppleScript和Keyboard Maestro的了解。虽然ChatGPT在这两方面表现出色,但Claude 3.5 Sonnet表现不佳。它编写了一个试图与Chrome交互的AppleScript,但完全忽略了Keyboard Maestro部分。
此外,AppleScript中包含一个语法错误。在尝试使匹配不区分大小写时,Claude生成了一行会导致运行时错误的代码:
“contains”语句已是不区分大小写,“ignoring case”短语位置错误,导致错误。
以下是综合结果:
- Claude 3.5 Sonnet:失败
- ChatGPT GPT-4o:成功但有保留
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:失败
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失败
总体结果
以下是Claude 3.5 Sonnet与其他AI的总体表现对比:
- Claude 3.5 Sonnet:4个中1个成功
- ChatGPT GPT-4o:4个中4个成功,但有一个奇怪的双重选择答案
- Microsoft Copilot:4个中0个成功
- Meta AI:4个中1个成功
- Meta Code Llama:4个中1个成功
- Google Gemini Advanced:4个中1个成功
- ChatGPT 4:4个中4个成功
- ChatGPT 3.5:4个中3个成功
我对Claude 3.5 Sonnet的表现相当失望。Anthropic承诺它适合编程,但未能达到预期。并非它完全不能编程,只是无法正确编程。我一直希望找到一个能超越ChatGPT的AI,尤其是在这些模型集成到编程环境中时。但目前,我仍会选择ChatGPT来帮助编程,建议你也这样做。
你用过AI进行编程吗?用了哪个,效果如何?请在下方评论中分享你的经验。
在社交媒体上关注我的项目更新,订阅我的每周简讯,并在Twitter/X上通过@DavidGewirtz与我联系,在Facebook上通过Facebook.com/DavidGewirtz,在Instagram上通过Instagram.com/DavidGewirtz,在YouTube上通过YouTube.com/DavidGewirtzTV。




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!












