Claude 3.5十四行诗在以Chatgpt为主的AI编码测试中创造性地挣扎
2025年05月03日
FrankWilliams
2
测试人类新的Claude 3.5十四行诗的能力
上周,我收到了拟人化的电子邮件,宣布发布Claude 3.5十四行诗。他们夸口说,它“提高了情报,优于竞争对手模型和克劳德3的行业标准,并进行了广泛的评估。”他们还声称,它非常适合代码生成等复杂任务。自然,我不得不对这些主张进行测试。
我已经在各种AIS上运行了一系列的编码测试,您也可以。只需介绍一下 我如何测试AI聊天机器人的编码功能 - 您也可以找到所有详细信息。让我们深入了解Claude 3.5十四行诗在我的标准测试中的表现,并查看它如何与其他AIS堆叠,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。编写WordPress插件
最初,克劳德3.5十四行诗表现出了很多希望。它生成的用户界面令人印象深刻,并带有干净的布局,该布局首次将数据字段并排放置在我测试过的AIS中。
David Gewirtz/Zdnet的屏幕截图
引起我注意的是克劳德(Claude)如何对代码生成。它没有用于PHP,JavaScript和CSS的通常单独的文件,而是提供了一个单个PHP文件,该文件将JavaScript和CSS文件自动生成到插件目录中。尽管这是一种创新的方法,但它具有风险,因为它取决于OS设置,允许插件写入自己的文件夹,这是生产环境中的主要安全缺陷。
不幸的是,尽管有创造性的解决方案,但插件仍行不通。 “随机化”按钮什么也没做,鉴于其最初的承诺,这令人失望。
这是与以前的测试相比的总结果:
- Claude 3.5十四行诗:接口:良好,功能:失败
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足够,功能:失败
- 元AI:接口:足够,功能:失败
- 元代码骆驼:完全失败
- Google Gemini高级:接口:良好,功能:失败
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重写字符串功能
该测试评估了AI可以重写代码以满足特定需求的能力,在这种情况下为美元和百分比转换。 Claude 3.5十四行诗在删除领先的零,正确处理整数和小数并防止负值方面做得很好。对于意外输入,它还巧妙地返回了“ 0”,这有助于避免错误。
但是,它不允许50美分的条目“ .50”之类的条目,这是一项要求。这意味着修订的代码在实际情况下无法使用,因此我必须将其标记为失败。
这是总结果:
- 克劳德3.5十四行诗:失败
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:成功
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一个烦人的错误
该测试很棘手,因为它要求AI找到需要特定WordPress知识的微妙错误。这是我想念自己的错误,不得不转向Chatgpt最初解决。
Claude 3.5十四行诗不仅找到并修复了错误,而且还注意到发布过程中引入的错误,然后我进行了更正。自发布完整测试以来,这是我测试过的AI中的第一个。
这是总结果:
- 克劳德3.5十四行诗:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败。壮观。踊跃。表情符。
- META AI:成功
- 元代码骆驼:失败
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前为止,Claude 3.5十四行诗在三个测试中未能进行两次。让我们看看它如何处理最后一个。
4。编写脚本
该测试检查了AI对AppleScript和键盘Maestro等专业编程工具的知识。尽管Chatgpt都表现出两者的熟练程度,但Claude 3.5十四行诗的表现也不那么出色。它写了一个试图与Chrome互动但完全忽略键盘Maestro组件的AppleScript。
此外,AppleScript包含语法错误。在试图使比赛不敏感的情况下,克劳德生成了一条线,该行会导致运行时错误:
如果Thetab的标题包含忽略案例的输入,则
“包含”语句已经对病例不敏感,并且“忽略的情况”短语放错了位置,导致错误。
这是总结果:
- 克劳德3.5十四行诗:失败
- Chatgpt GPT-4O:成功,但有预订
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:失败
- Google Gemini高级:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失败
总体结果
与其他AI相比,Claude 3.5十四行诗的整体表现:
- 克劳德(Claude)3.5十四行诗:1分之1成功
- chatgpt gpt-4o:4分中的4个成功,但有一个怪异的双选择性答案
- Microsoft Copilot:4分中的0个成功
- meta ai:四分之一的成功
- 元代码骆驼:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4个成功
- Chatgpt 3.5:3分中的3个成功
我对Claude 3.5十四行诗感到非常失望。拟人化承诺它适用于编程,但它不符合这些期望。并不是说它不能编程;它只是无法正确编程。我一直希望找到一个可以胜过ChatGpt的AI,尤其是当这些模型被整合到编程环境中时。但是目前,我坚持使用Chatgpt进行编程帮助,我建议您这样做。
您是否使用过AI进行编程?哪一个,怎么走?在下面的评论中分享您的经验。
关注我在社交媒体上的项目更新,订阅我的每周新闻通讯,然后在@davidgewirtz上的Twitter/x上与我联系,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。
相关文章
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks
Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner
Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
评论 (0)
0/200






测试人类新的Claude 3.5十四行诗的能力
上周,我收到了拟人化的电子邮件,宣布发布Claude 3.5十四行诗。他们夸口说,它“提高了情报,优于竞争对手模型和克劳德3的行业标准,并进行了广泛的评估。”他们还声称,它非常适合代码生成等复杂任务。自然,我不得不对这些主张进行测试。
我已经在各种AIS上运行了一系列的编码测试,您也可以。只需介绍一下 我如何测试AI聊天机器人的编码功能 - 您也可以找到所有详细信息。让我们深入了解Claude 3.5十四行诗在我的标准测试中的表现,并查看它如何与其他AIS堆叠,例如Microsoft Copilot,Meta AI,Meta Code Llama,Google Gemini Advanced和Chatgpt。
1。编写WordPress插件
最初,克劳德3.5十四行诗表现出了很多希望。它生成的用户界面令人印象深刻,并带有干净的布局,该布局首次将数据字段并排放置在我测试过的AIS中。
David Gewirtz/Zdnet的屏幕截图
引起我注意的是克劳德(Claude)如何对代码生成。它没有用于PHP,JavaScript和CSS的通常单独的文件,而是提供了一个单个PHP文件,该文件将JavaScript和CSS文件自动生成到插件目录中。尽管这是一种创新的方法,但它具有风险,因为它取决于OS设置,允许插件写入自己的文件夹,这是生产环境中的主要安全缺陷。
不幸的是,尽管有创造性的解决方案,但插件仍行不通。 “随机化”按钮什么也没做,鉴于其最初的承诺,这令人失望。
这是与以前的测试相比的总结果:
- Claude 3.5十四行诗:接口:良好,功能:失败
- Chatgpt GPT-4O:接口:良好,功能:好
- Microsoft Copilot:接口:足够,功能:失败
- 元AI:接口:足够,功能:失败
- 元代码骆驼:完全失败
- Google Gemini高级:接口:良好,功能:失败
- chatgpt 4:接口:良好,功能:好
- chatgpt 3.5:接口:良好,功能:好
2。重写字符串功能
该测试评估了AI可以重写代码以满足特定需求的能力,在这种情况下为美元和百分比转换。 Claude 3.5十四行诗在删除领先的零,正确处理整数和小数并防止负值方面做得很好。对于意外输入,它还巧妙地返回了“ 0”,这有助于避免错误。
但是,它不允许50美分的条目“ .50”之类的条目,这是一项要求。这意味着修订的代码在实际情况下无法使用,因此我必须将其标记为失败。
这是总结果:
- 克劳德3.5十四行诗:失败
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:成功
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
3。找到一个烦人的错误
该测试很棘手,因为它要求AI找到需要特定WordPress知识的微妙错误。这是我想念自己的错误,不得不转向Chatgpt最初解决。
Claude 3.5十四行诗不仅找到并修复了错误,而且还注意到发布过程中引入的错误,然后我进行了更正。自发布完整测试以来,这是我测试过的AI中的第一个。
这是总结果:
- 克劳德3.5十四行诗:成功
- CHATGPT GPT-4O:成功
- Microsoft Copilot:失败。壮观。踊跃。表情符。
- META AI:成功
- 元代码骆驼:失败
- Google Gemini高级:失败
- CHATGPT 4:成功
- CHATGPT 3.5:成功
到目前为止,Claude 3.5十四行诗在三个测试中未能进行两次。让我们看看它如何处理最后一个。
4。编写脚本
该测试检查了AI对AppleScript和键盘Maestro等专业编程工具的知识。尽管Chatgpt都表现出两者的熟练程度,但Claude 3.5十四行诗的表现也不那么出色。它写了一个试图与Chrome互动但完全忽略键盘Maestro组件的AppleScript。
此外,AppleScript包含语法错误。在试图使比赛不敏感的情况下,克劳德生成了一条线,该行会导致运行时错误:
如果Thetab的标题包含忽略案例的输入,则
“包含”语句已经对病例不敏感,并且“忽略的情况”短语放错了位置,导致错误。
这是总结果:
- 克劳德3.5十四行诗:失败
- Chatgpt GPT-4O:成功,但有预订
- Microsoft Copilot:失败
- META AI:失败
- 元代码骆驼:失败
- Google Gemini高级:成功
- CHATGPT 4:成功
- CHATGPT 3.5:失败
总体结果
与其他AI相比,Claude 3.5十四行诗的整体表现:
- 克劳德(Claude)3.5十四行诗:1分之1成功
- chatgpt gpt-4o:4分中的4个成功,但有一个怪异的双选择性答案
- Microsoft Copilot:4分中的0个成功
- meta ai:四分之一的成功
- 元代码骆驼:4分之1成功
- Google Gemini Advanced:4分之一的成功
- chatgpt 4:4分中的4个成功
- Chatgpt 3.5:3分中的3个成功
我对Claude 3.5十四行诗感到非常失望。拟人化承诺它适用于编程,但它不符合这些期望。并不是说它不能编程;它只是无法正确编程。我一直希望找到一个可以胜过ChatGpt的AI,尤其是当这些模型被整合到编程环境中时。但是目前,我坚持使用Chatgpt进行编程帮助,我建议您这样做。
您是否使用过AI进行编程?哪一个,怎么走?在下面的评论中分享您的经验。
关注我在社交媒体上的项目更新,订阅我的每周新闻通讯,然后在@davidgewirtz上的Twitter/x上与我联系,在Facebook上, lackace.com /davidgewirtz,在Instagram上的Instagram.com/davidgewirtz ,以及在youtube上的Instagram, youtube.com.com/davidgewidgewightignwidgewightighirtztv 。












