Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎

首页

新闻

2025-05-04

FrankWilliams

# ChatGPT

测试Anthropic新款Claude 3.5 Sonnet的能力

上周，我收到Anthropic的电子邮件，宣布Claude 3.5 Sonnet发布。他们宣称它“提升了行业智能标准，在广泛的评估中超越了竞争对手模型和Claude 3 Opus”。他们还声称它非常适合复杂的任务，如代码生成。自然，我必须验证这些说法。

我对各种AI进行了一系列编码测试，你也可以试试。只需访问如何测试AI聊天机器人的编码能力 - 你也可以以获取所有细节。让我们深入探讨Claude 3.5 Sonnet在我的标准测试中的表现，看看它与其他AI如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced和ChatGPT相比如何。

1. 编写WordPress插件

最初，Claude 3.5 Sonnet表现出了很大的潜力。它生成的用户界面令人印象深刻，布局清晰，首次在测试的AI中将数据字段并排放置。

Claude 3.5 Sonnet创建的WordPress插件界面截图 David Gewirtz/ZDNET拍摄的截图

引起我注意的是Claude的代码生成方式。它没有像通常那样为PHP、JavaScript和CSS生成单独文件，而是提供了一个自动生成JavaScript和CSS文件的单一PHP文件，放入插件目录。虽然这是一个创新的方法，但有风险，因为它依赖于操作系统设置允许插件写入自己的文件夹——在生产环境中这是一个重大的安全漏洞。

遗憾的是，尽管解决方案很有创意，插件并未正常工作。“随机”按钮毫无反应，鉴于其最初的潜力，这令人失望。

以下是与之前测试的综合结果：

Claude 3.5 Sonnet：界面：良好，功能：失败
ChatGPT GPT-4o：界面：良好，功能：良好
Microsoft Copilot：界面：一般，功能：失败
Meta AI：界面：一般，功能：失败
Meta Code Llama：完全失败
Google Gemini Advanced：界面：良好，功能：失败
ChatGPT 4：界面：良好，功能：良好
ChatGPT 3.5：界面：良好，功能：良好

2. 重写字符串函数

此测试评估AI在重写代码以满足特定需求（本例中为美元和美分转换）方面的表现。Claude 3.5 Sonnet在去除前导零、正确处理整数和小数以及防止负值方面表现良好。它还智能地对意外输入返回“0”，有助于避免错误。

然而，它未能允许类似“.50”表示50美分的输入，这是需求之一。这意味着修改后的代码在现实场景中无法工作，因此我必须标记为失败。

以下是综合结果：

Claude 3.5 Sonnet：失败
ChatGPT GPT-4o：成功
Microsoft Copilot：失败
Meta AI：失败
Meta Code Llama：成功
Google Gemini Advanced：失败
ChatGPT 4：成功
ChatGPT 3.5：成功

3. 查找一个烦人的错误

此测试很棘手，因为它要求AI找到一个需要特定WordPress知识的微妙错误。这是我自己错过的错误，最初不得不求助于ChatGPT解决。

Claude 3.5 Sonnet不仅找到并修复了错误，还注意到发布过程中引入的一个错误，我随后进行了更正。这是我发布完整测试集以来测试的AI中的首例。

以下是综合结果：

Claude 3.5 Sonnet：成功
ChatGPT GPT-4o：成功
Microsoft Copilot：失败。非常、热情地、表情丰富地失败。
Meta AI：成功
Meta Code Llama：失败
Google Gemini Advanced：失败
ChatGPT 4：成功
ChatGPT 3.5：成功

到目前为止，Claude 3.5 Sonnet在三个测试中有两个失败了。让我们看看它在最后一个测试中的表现。

4. 编写脚本

此测试检查AI对专业编程工具如AppleScript和Keyboard Maestro的了解。虽然ChatGPT在这两方面表现出色，但Claude 3.5 Sonnet表现不佳。它编写了一个试图与Chrome交互的AppleScript，但完全忽略了Keyboard Maestro部分。

此外，AppleScript中包含一个语法错误。在尝试使匹配不区分大小写时，Claude生成了一行会导致运行时错误的代码：

if theTab's title contains input ignoring case then

“contains”语句已是不区分大小写，“ignoring case”短语位置错误，导致错误。

以下是综合结果：

Claude 3.5 Sonnet：失败
ChatGPT GPT-4o：成功但有保留
Microsoft Copilot：失败
Meta AI：失败
Meta Code Llama：失败
Google Gemini Advanced：成功
ChatGPT 4：成功
ChatGPT 3.5：失败

总体结果

以下是Claude 3.5 Sonnet与其他AI的总体表现对比：

Claude 3.5 Sonnet：4个中1个成功
ChatGPT GPT-4o：4个中4个成功，但有一个奇怪的双重选择答案
Microsoft Copilot：4个中0个成功
Meta AI：4个中1个成功
Meta Code Llama：4个中1个成功
Google Gemini Advanced：4个中1个成功
ChatGPT 4：4个中4个成功
ChatGPT 3.5：4个中3个成功

我对Claude 3.5 Sonnet的表现相当失望。Anthropic承诺它适合编程，但未能达到预期。并非它完全不能编程，只是无法正确编程。我一直希望找到一个能超越ChatGPT的AI，尤其是在这些模型集成到编程环境中时。但目前，我仍会选择ChatGPT来帮助编程，建议你也这样做。

你用过AI进行编程吗？用了哪个，效果如何？请在下方评论中分享你的经验。

在社交媒体上关注我的项目更新，订阅我的每周简讯，并在Twitter/X上通过@DavidGewirtz与我联系，在Facebook上通过Facebook.com/DavidGewirtz，在Instagram上通过Instagram.com/DavidGewirtz，在YouTube上通过YouTube.com/DavidGewirtzTV。

万事达卡的Agent Pay通过无缝交易增强AI搜索传统搜索平台和AI代理通常要求用户在找到产品或服务后切换窗口以完成购买。万事达卡通过将其支付网络嵌入AI平台，正在革新这一过程，实现同一生态系统内的顺畅交易。该公司推出了Agent Pay计划，将万事达卡的支付系统整合到AI聊天平台中。在接受VentureBeat采访时，万事达卡首席数据与AI官Greg Ulrich解释说，Agent Pay“完成了代理搜索的循环”。“我们的目标是通过在平台内实现

OpenAI承诺在ChatGPT过度顺从回应后进行修复 OpenAI计划修改其AI模型更新流程，以解决ChatGPT因更新导致的过度谄媚回应，引发了广泛的用户反馈。上周末，在对ChatGPT背后模型GPT-4o进行更新后，社交媒体上的用户报告称，该平台回应时表现出过度认可，甚至对有害想法也是如此，引发了病毒式迷因。截图显示ChatGPT支持了有争议的决定。周日，首席执行官Sam Altman在X上回应了这一问题，承诺立即采取行动。到周二，他宣布回滚GP

OpenAI发布高级AI推理模型，o3和o4-mini OpenAI周三推出o3和o4-mini，新AI模型设计为在回答前暂停并分析问题。OpenAI称o3是其迄今最先进的推理模型，在数学、编码、推理、科学和视觉理解测试中超越先前模型。同时，o4-mini平衡了成本、速度和性能，是开发者构建AI驱动应用的优选。与早期模型不同，o3和o4-mini利用ChatGPT工具，如网页浏览、Python代码执行、图像处理和图像生成。从今天起，这些模型及o4-mi

0/200

提交

ScottMitchell

2025-05-05 21:17:31

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

2025-05-05 16:59:50

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

2025-05-05 15:23:24

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

2025-05-05 14:46:04

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

2025-05-05 12:06:54

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

2025-05-05 06:30:08

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Cambium的AI将垃圾木头变成木材 Openai增强了AI语音助手以进行更好的聊天如何确保您的数据值得信赖AI集成 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量 Google利用AI暂停了超过3900万的广告帐户，以涉嫌欺诈 AI语音克隆：掌握语音转换的终极指南

精选