选项
首页
新闻
Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎

Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎

2025-05-04
66

测试人类新的Claude 3.5十四行诗的能力

上周,我收到了拟人化的电子邮件,宣布发布Claude 3.5十四行诗。他们夸口说,它“提高了情报,优于竞争对手模型和克劳德3的行业标准,并进行了广泛的评估。”他们还声称,它非常适合代码生成等复杂任务。自然,我不得不对这些主张进行测试。

我已经在各种AIS上运行了一系列的编码测试,您也可以。只需介绍一下 我如何测试AI聊天机器人的编码功能 - 您也可以找到所有详细信息。让我们深入了解Claude 3.5十四行诗在我的标准测试中的表现,并查看它如何与其他AIS堆叠,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。

1。编写WordPress插件

最初,克劳德3.5十四行诗表现出了很多希望。它生成的用户界面令人印象深刻,并带有干净的布局,该布局首次将数据字段并排放置在我测试过的AIS中。

WordPress插件接口的屏幕截图由Claude 3.5十四行诗创建 David Gewirtz/Zdnet的屏幕截图

引起我注意的是克劳德(Claude)如何对代码生成。它没有用于PHP,JavaScript和CSS的通常单独的文件,而是提供了一个单个PHP文件,该文件将JavaScript和CSS文件自动生成到插件目录中。尽管这是一种创新的方法,但它具有风险,因为它取决于OS设置,允许插件写入自己的文件夹,这是生产环境中的主要安全缺陷。

不幸的是,尽管有创造性的解决方案,但插件仍行不通。 “随机化”按钮什么也没做,鉴于其最初的承诺,这令人失望。

这是与以前的测试相比的总结果:

  • Claude 3.5十四行诗:接口:良好,功能:失败
  • Chatgpt GPT-4O:接口:良好,功能:好
  • Microsoft Copilot:接口:足够,功能:失败
  • 元AI:接口:足够,功能:失败
  • 元代码骆驼:完全失败
  • Google Gemini高级:接口:良好,功能:失败
  • chatgpt 4:接口:良好,功能:好
  • chatgpt 3.5:接口:良好,功能:好

2。重写字符串功能

该测试评估了AI可以重写代码以满足特定需求的能力,在这种情况下为美元和百分比转换。 Claude 3.5十四行诗在删除领先的零,正确处理整数和小数并防止负值方面做得很好。对于意外输入,它还巧妙地返回了“ 0”,这有助于避免错误。

但是,它不允许50美分的条目“ .50”之类的条目,这是一项要求。这意味着修订的代码在实际情况下无法使用,因此我必须将其标记为失败。

这是总结果:

  • 克劳德3.5十四行诗:失败
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失败
  • META AI:失败
  • 元代码骆驼:成功
  • Google Gemini高级:失败
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

3。找到一个烦人的错误

该测试很棘手,因为它要求AI找到需要特定WordPress知识的微妙错误。这是我想念自己的错误,不得不转向Chatgpt最初解决。

Claude 3.5十四行诗不仅找到并修复了错误,而且还注意到发布过程中引入的错误,然后我进行了更正。自发布完整测试以来,这是我测试过的AI中的第一个。

这是总结果:

  • 克劳德3.5十四行诗:成功
  • CHATGPT GPT-4O:成功
  • Microsoft Copilot:失败。壮观。踊跃。表情符。
  • META AI:成功
  • 元代码骆驼:失败
  • Google Gemini高级:失败
  • CHATGPT 4:成功
  • CHATGPT 3.5:成功

到目前为止,Claude 3.5十四行诗在三个测试中未能进行两次。让我们看看它如何处理最后一个。

4。编写脚本

该测试检查了AI对AppleScript和键盘Maestro等专业编程工具的知识。尽管Chatgpt都表现出两者的熟练程度,但Claude 3.5十四行诗的表现也不那么出色。它写了一个试图与Chrome互动但完全忽略键盘Maestro组件的AppleScript。

此外,AppleScript包含语法错误。在试图使比赛不敏感的情况下,克劳德生成了一条线,该行会导致运行时错误:

如果Thetab的标题包含忽略案例的输入,则

“包含”语句已经对病例不敏感,并且“忽略的情况”短语放错了位置,导致错误。

这是总结果:

  • 克劳德3.5十四行诗:失败
  • Chatgpt GPT-4O:成功,但有预订
  • Microsoft Copilot:失败
  • META AI:失败
  • 元代码骆驼:失败
  • Google Gemini高级:成功
  • CHATGPT 4:成功
  • CHATGPT 3.5:失败

总体结果

与其他AI相比,Claude 3.5十四行诗的整体表现:

  • 克劳德(Claude)3.5十四行诗:1分之1成功
  • chatgpt gpt-4o:4分中的4个成功,但有一个怪异的双选择性答案
  • Microsoft Copilot:4分中的0个成功
  • meta ai:四分之一的成功
  • 元代码骆驼:4分之1成功
  • Google Gemini Advanced:4分之一的成功
  • chatgpt 4:4分中的4个成功
  • Chatgpt 3.5:3分中的3个成功

我对Claude 3.5十四行诗感到非常失望。拟人化承诺它适用于编程,但它不符合这些期望。并不是说它不能编程;它只是无法正确编程。我一直希望找到一个可以胜过ChatGpt的AI,尤其是当这些模型被整合到编程环境中时。但是目前,我坚持使用Chatgpt进行编程帮助,我建议您这样做。

您是否使用过AI进行编程?哪一个,怎么走?在下面的评论中分享您的经验。

关注我在社交媒体上的项目更新,订阅我的每周新闻通讯,然后在@davidgewirtz上的Twitter/x上与我联系,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv

相关文章
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
评论 (5)
0/200
ScottMitchell
ScottMitchell 2025-05-05 08:00:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 2025-05-05 08:00:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 2025-05-05 08:00:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 2025-05-05 08:00:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 2025-05-05 08:00:00

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

返回顶部
OR