选项
首页
新闻
我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

2025-04-17
63

我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

如果你一直在关注科技界,你可能已经知道OpenAI刚刚发布了其最新的大型语言模型GPT-4o,其中“o”代表“omni”。这个新模型承诺在文本、图形和语音方面具有多功能性,我迫不及待地想用我的标准编码测试集来检验它的能力。这些测试已经针对多种AI模型进行了运行,得出了一些非常有趣的结果。坚持看到最后,因为有一个你不想错过的转折。

如果你有兴趣进行自己的实验,请查看这个指南:如何测试AI聊天机器人的编码能力 - 你也可以。它概述了我使用的所有测试,以及它们如何工作和结果中需要关注的内容的详细解释。

现在,让我们深入探讨每个测试的结果,看看GPT-4o与之前的竞争者如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced以及早期版本的ChatGPT相比表现如何。

1. 编写WordPress插件

以下是GPT-4o用户界面的一瞥:

有趣的是,GPT-4o自行决定包含一个JavaScript文件,该文件动态更新两个字段中的行数。虽然提示中没有明确排除JavaScript,但这种创造性的方法出乎意料且有效。JavaScript还增强了Randomize按钮的功能,允许在不刷新整个页面的情况下生成多个结果集。

行排列正确,重复项按照规格适当分开。这是一段扎实的代码,只有一个小问题:Randomize按钮没有单独放在一行上,尽管我在提示中没有明确要求这一点,所以不扣分。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:界面:良好,功能:良好
  • Microsoft Copilot:界面:合格,功能:失败
  • Meta AI:界面:合格,功能:失败
  • Meta Code Llama:完全失败
  • Google Gemini Advanced:界面:良好,功能:失败
  • ChatGPT 4:界面:良好,功能:良好
  • ChatGPT 3.5:界面:良好,功能:良好

2. 重写字符串函数

此测试评估模型处理美元和美分转换的能力。GPT-4o成功重写了代码,以拒绝可能导致后续行问题的输入,确保仅处理有效的美元和美分值。

我有点失望的是,它没有自动为像.75这样的值添加前导零,转换为0.75。然而,由于我没有明确要求此功能,这不是AI的错。这提醒我们,即使AI提供了功能性代码,你可能仍需优化提示以获得你所需的确切结果。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失败
  • Meta AI:失败
  • Meta Code Llama:成功
  • Google Gemini Advanced:失败
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 查找一个烦人的错误

此测试很有趣,因为解决方案并非一目了然。我在自己的编码中最初被这个错误难住了,所以我向第一个ChatGPT模型求助。它立即找到了错误,当时真是令人震惊。

相比之下,我测试的其他三个大型语言模型错过了这个问题中的误导。错误信息指向代码的某一部分,但实际问题出在别处,需要深入了解WordPress框架才能识别。

幸运的是,GPT-4o正确识别了问题并准确描述了修复方法。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失败。极其失败。热情失败。表情符号失败。
  • Meta AI:成功
  • Meta Code Llama:失败
  • Google Gemini Advanced:失败
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

到目前为止,GPT-4o三战三胜。让我们看看它在最后测试中的表现。

4. 编写脚本

针对此测试,GPT-4o实际上提供了超出我要求的内容。测试涉及使用鲜为人知的Mac脚本工具Keyboard Maestro、Apple的AppleScript和Chrome脚本行为。顺便说一句,Keyboard Maestro对我来说是个游戏改变者,它能够重新编程操作系统和应用程序,使Mac成为我的生产力首选。

要通过测试,AI需要正确概述一个使用Keyboard Maestro代码、AppleScript和Chrome API功能的组合解决方案。

令人惊讶的是,GPT-4o给了我两个不同版本:

两个版本都正确与Keyboard Maestro交互,但它们在处理大小写敏感性上有所不同。左侧版本不正确,因为AppleScript不支持“as lowercase”。右侧版本使用“contains”且不区分大小写,运行良好。

我谨慎地给GPT-4o通过,因为它确实提供了可用的代码。然而,返回两个选项,其中一个不正确,让我需要额外工作来评估和选择正确的一个。这可能与我自己编写代码一样耗时。

以下是本次及之前测试的综合结果:

  • ChatGPT GPT-4o:成功,但有保留
  • Microsoft Copilot:失败
  • Meta AI:失败
  • Meta Code Llama:失败
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失败

总体结果

以下是所有模型在四个测试中的表现:

  • ChatGPT GPT-4o:4个测试全部成功,但有一个奇怪的双选答案
  • Microsoft Copilot:4个测试全部失败
  • Meta AI:4个测试中1个成功
  • Meta Code Llama:4个测试中1个成功
  • Google Gemini Advanced:4个测试中1个成功
  • ChatGPT 4:4个测试全部成功
  • ChatGPT 3.5:4个测试中3个成功

到目前为止,ChatGPT一直是我的编码助手首选。它总是能交付(除了偶尔失误)。其他AI在我的测试中大多表现不佳。但GPT-4o在最后一个双答案回应中给了我一个意外的难题。这让我质疑这个模型内部发生了什么,导致了这样的小问题。

尽管如此,GPT-4o仍是我的编码测试中的最佳表现者,所以我可能会继续使用它并更熟悉它的特性。或者,我可能会回退到ChatGPT Plus中的GPT-3.5或GPT-4。请继续关注;下次ChatGPT更新其模型时,我肯定会重新运行这些测试,看看它能否在所有四个测试中始终选择正确答案。

你有否尝试过用这些AI模型进行编码?你的体验如何?请在下面的评论中告诉我们。

相关文章
谷歌发布Deep Think以提升Gemini AI性能 谷歌发布Deep Think以提升Gemini AI性能 谷歌正在推进其顶级Gemini AI模型。在2025年谷歌I/O大会上,公司于周二推出了Deep Think,这是其旗舰Gemini 2.5 Pro模型的高级推理模式。Deep Think使模型能够在回答前评估多种响应,从而提升其在特定基准测试中的表现。“Deep Think最大化了模型的能力,”谷歌DeepMind的负责人Demis Hassabis在新闻发布会上表示,DeepMind是公司的A
AI驱动的音乐革命:布兰妮AI的《放弃吧》发布 AI驱动的音乐革命:布兰妮AI的《放弃吧》发布 音乐行业正在经历一场变革,由尖端人工智能技术驱动。AI已超越单纯的生产工具,成为创意合作伙伴。布兰妮AI的《放弃吧》体现了这一转变,凸显了AI在音乐创作和表演中的能力。本文深入探讨了这首歌曲、其背后的技术以及对艺术家和观众的影响。主要亮点AI正在重塑音乐创作,开启了艺术创新的新途径。布兰妮AI的《放弃吧》展示了AI生成音乐的独特能力。理解AI的潜力与局限性对于导航音乐行业的未来至关重要。AI音乐引
Wispr Flow推出iOS应用以革新语音听写 Wispr Flow推出iOS应用以革新语音听写 人工智能公司日益鼓励用户通过语音与其产品互动。像Meta、Google、OpenAI和Anthropic这样的巨头已增强其AI机器人的高级语音转文本功能,实现无缝对话。Wispr Flow,一家初创公司,宣称其听写技术优于其他,支持超过100种语言。今天,它推出了一款iOS应用,可作为键盘集成,允许在任何应用程序中使用语音输入。起初持怀疑态度,这位记者对Wispr Flow的表现印象深刻。作为一名
评论 (20)
0/200
JonathanAllen
JonathanAllen 2025-04-26 19:46:22

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025-04-26 02:21:39

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025-04-24 19:41:59

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025-04-23 13:12:28

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 2025-04-23 10:12:49

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 2025-04-23 01:04:24

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

返回顶部
OR