选项
首页
新闻
我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

2025-04-17
141

我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

如果你一直在关注科技界,你可能已经知道OpenAI刚刚发布了其最新的大型语言模型GPT-4o,其中“o”代表“omni”。这个新模型承诺在文本、图形和语音方面具有多功能性,我迫不及待地想用我的标准编码测试集来检验它的能力。这些测试已经针对多种AI模型进行了运行,得出了一些非常有趣的结果。坚持看到最后,因为有一个你不想错过的转折。

如果你有兴趣进行自己的实验,请查看这个指南:如何测试AI聊天机器人的编码能力 - 你也可以。它概述了我使用的所有测试,以及它们如何工作和结果中需要关注的内容的详细解释。

现在,让我们深入探讨每个测试的结果,看看GPT-4o与之前的竞争者如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced以及早期版本的ChatGPT相比表现如何。

1. 编写WordPress插件

以下是GPT-4o用户界面的一瞥:

有趣的是,GPT-4o自行决定包含一个JavaScript文件,该文件动态更新两个字段中的行数。虽然提示中没有明确排除JavaScript,但这种创造性的方法出乎意料且有效。JavaScript还增强了Randomize按钮的功能,允许在不刷新整个页面的情况下生成多个结果集。

行排列正确,重复项按照规格适当分开。这是一段扎实的代码,只有一个小问题:Randomize按钮没有单独放在一行上,尽管我在提示中没有明确要求这一点,所以不扣分。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:界面:良好,功能:良好
  • Microsoft Copilot:界面:合格,功能:失败
  • Meta AI:界面:合格,功能:失败
  • Meta Code Llama:完全失败
  • Google Gemini Advanced:界面:良好,功能:失败
  • ChatGPT 4:界面:良好,功能:良好
  • ChatGPT 3.5:界面:良好,功能:良好

2. 重写字符串函数

此测试评估模型处理美元和美分转换的能力。GPT-4o成功重写了代码,以拒绝可能导致后续行问题的输入,确保仅处理有效的美元和美分值。

我有点失望的是,它没有自动为像.75这样的值添加前导零,转换为0.75。然而,由于我没有明确要求此功能,这不是AI的错。这提醒我们,即使AI提供了功能性代码,你可能仍需优化提示以获得你所需的确切结果。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失败
  • Meta AI:失败
  • Meta Code Llama:成功
  • Google Gemini Advanced:失败
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 查找一个烦人的错误

此测试很有趣,因为解决方案并非一目了然。我在自己的编码中最初被这个错误难住了,所以我向第一个ChatGPT模型求助。它立即找到了错误,当时真是令人震惊。

相比之下,我测试的其他三个大型语言模型错过了这个问题中的误导。错误信息指向代码的某一部分,但实际问题出在别处,需要深入了解WordPress框架才能识别。

幸运的是,GPT-4o正确识别了问题并准确描述了修复方法。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失败。极其失败。热情失败。表情符号失败。
  • Meta AI:成功
  • Meta Code Llama:失败
  • Google Gemini Advanced:失败
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

到目前为止,GPT-4o三战三胜。让我们看看它在最后测试中的表现。

4. 编写脚本

针对此测试,GPT-4o实际上提供了超出我要求的内容。测试涉及使用鲜为人知的Mac脚本工具Keyboard Maestro、Apple的AppleScript和Chrome脚本行为。顺便说一句,Keyboard Maestro对我来说是个游戏改变者,它能够重新编程操作系统和应用程序,使Mac成为我的生产力首选。

要通过测试,AI需要正确概述一个使用Keyboard Maestro代码、AppleScript和Chrome API功能的组合解决方案。

令人惊讶的是,GPT-4o给了我两个不同版本:

两个版本都正确与Keyboard Maestro交互,但它们在处理大小写敏感性上有所不同。左侧版本不正确,因为AppleScript不支持“as lowercase”。右侧版本使用“contains”且不区分大小写,运行良好。

我谨慎地给GPT-4o通过,因为它确实提供了可用的代码。然而,返回两个选项,其中一个不正确,让我需要额外工作来评估和选择正确的一个。这可能与我自己编写代码一样耗时。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功,但有保留
  • Microsoft Copilot:失败
  • Meta AI:失败
  • Meta Code Llama:失败
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失败

总体结果

以下是所有模型在四个测试中的表现:

  • ChatGPT GPT-4o:4个测试全部成功,但有一个奇怪的双选答案
  • Microsoft Copilot:4个测试全部失败
  • Meta AI:4个测试中1个成功
  • Meta Code Llama:4个测试中1个成功
  • Google Gemini Advanced:4个测试中1个成功
  • ChatGPT 4:4个测试全部成功
  • ChatGPT 3.5:4个测试中3个成功

到目前为止,ChatGPT一直是我的编码助手首选。它总是能交付(除了偶尔失误)。其他AI在我的测试中大多表现不佳。但GPT-4o在最后一个双答案回应中给了我一个意外的难题。这让我质疑这个模型内部发生了什么,导致了这样的小问题。

尽管如此,GPT-4o仍是我的编码测试中的最佳表现者,所以我可能会继续使用它并更熟悉它的特性。或者,我可能会回退到ChatGPT Plus中的GPT-3.5或GPT-4。请继续关注;下次ChatGPT更新其模型时,我肯定会重新运行这些测试,看看它能否在所有四个测试中始终选择正确答案。

你有否尝试过用这些AI模型进行编码?你的体验如何?请在下面的评论中告诉我们。

相关文章
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度 在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
Meta AI 现已在 Facebook Marketplace 上回复买家消息 Meta AI 现已在 Facebook Marketplace 上回复买家消息 Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
相关专题推荐
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
数据分析 最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘
最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘

在 XIX.AI 探索 2026 年最佳 AI 数据可视化工具。我们精心挑选的顶级工具助您即时从原始文件中自动生成功能强大且交互式的商业智能仪表盘。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即释放您数据的潜力。

10 个工具
xix.ai
评论 (22)
0/500
RoyMartínez
RoyMartínez 2026-05-01 10:01:09

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung
PaulYoung 2026-03-15 08:00:58

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen
JonathanAllen 2025-04-26 19:46:22

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025-04-26 02:21:39

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025-04-24 19:41:59

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025-04-23 13:12:28

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

OR