我将gpt -4O通过编码测试进行了,它使它们呈现 - 除了一个奇怪的结果

如果你一直在关注科技界,你可能已经知道OpenAI刚刚发布了其最新的大型语言模型GPT-4o,其中“o”代表“omni”。这个新模型承诺在文本、图形和语音方面具有多功能性,我迫不及待地想用我的标准编码测试集来检验它的能力。这些测试已经针对多种AI模型进行了运行,得出了一些非常有趣的结果。坚持看到最后,因为有一个你不想错过的转折。
如果你有兴趣进行自己的实验,请查看这个指南:如何测试AI聊天机器人的编码能力 - 你也可以。它概述了我使用的所有测试,以及它们如何工作和结果中需要关注的内容的详细解释。
现在,让我们深入探讨每个测试的结果,看看GPT-4o与之前的竞争者如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced以及早期版本的ChatGPT相比表现如何。
1. 编写WordPress插件
以下是GPT-4o用户界面的一瞥:
有趣的是,GPT-4o自行决定包含一个JavaScript文件,该文件动态更新两个字段中的行数。虽然提示中没有明确排除JavaScript,但这种创造性的方法出乎意料且有效。JavaScript还增强了Randomize按钮的功能,允许在不刷新整个页面的情况下生成多个结果集。
行排列正确,重复项按照规格适当分开。这是一段扎实的代码,只有一个小问题:Randomize按钮没有单独放在一行上,尽管我在提示中没有明确要求这一点,所以不扣分。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:合格,功能:失败
- Meta AI:界面:合格,功能:失败
- Meta Code Llama:完全失败
- Google Gemini Advanced:界面:良好,功能:失败
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重写字符串函数
此测试评估模型处理美元和美分转换的能力。GPT-4o成功重写了代码,以拒绝可能导致后续行问题的输入,确保仅处理有效的美元和美分值。
我有点失望的是,它没有自动为像.75这样的值添加前导零,转换为0.75。然而,由于我没有明确要求此功能,这不是AI的错。这提醒我们,即使AI提供了功能性代码,你可能仍需优化提示以获得你所需的确切结果。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:成功
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 查找一个烦人的错误
此测试很有趣,因为解决方案并非一目了然。我在自己的编码中最初被这个错误难住了,所以我向第一个ChatGPT模型求助。它立即找到了错误,当时真是令人震惊。
相比之下,我测试的其他三个大型语言模型错过了这个问题中的误导。错误信息指向代码的某一部分,但实际问题出在别处,需要深入了解WordPress框架才能识别。
幸运的是,GPT-4o正确识别了问题并准确描述了修复方法。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败。极其失败。热情失败。表情符号失败。
- Meta AI:成功
- Meta Code Llama:失败
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前为止,GPT-4o三战三胜。让我们看看它在最后测试中的表现。
4. 编写脚本
针对此测试,GPT-4o实际上提供了超出我要求的内容。测试涉及使用鲜为人知的Mac脚本工具Keyboard Maestro、Apple的AppleScript和Chrome脚本行为。顺便说一句,Keyboard Maestro对我来说是个游戏改变者,它能够重新编程操作系统和应用程序,使Mac成为我的生产力首选。
要通过测试,AI需要正确概述一个使用Keyboard Maestro代码、AppleScript和Chrome API功能的组合解决方案。
令人惊讶的是,GPT-4o给了我两个不同版本:
两个版本都正确与Keyboard Maestro交互,但它们在处理大小写敏感性上有所不同。左侧版本不正确,因为AppleScript不支持“as lowercase”。右侧版本使用“contains”且不区分大小写,运行良好。
我谨慎地给GPT-4o通过,因为它确实提供了可用的代码。然而,返回两个选项,其中一个不正确,让我需要额外工作来评估和选择正确的一个。这可能与我自己编写代码一样耗时。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功,但有保留
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:失败
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失败
总体结果
以下是所有模型在四个测试中的表现:
- ChatGPT GPT-4o:4个测试全部成功,但有一个奇怪的双选答案
- Microsoft Copilot:4个测试全部失败
- Meta AI:4个测试中1个成功
- Meta Code Llama:4个测试中1个成功
- Google Gemini Advanced:4个测试中1个成功
- ChatGPT 4:4个测试全部成功
- ChatGPT 3.5:4个测试中3个成功
到目前为止,ChatGPT一直是我的编码助手首选。它总是能交付(除了偶尔失误)。其他AI在我的测试中大多表现不佳。但GPT-4o在最后一个双答案回应中给了我一个意外的难题。这让我质疑这个模型内部发生了什么,导致了这样的小问题。
尽管如此,GPT-4o仍是我的编码测试中的最佳表现者,所以我可能会继续使用它并更熟悉它的特性。或者,我可能会回退到ChatGPT Plus中的GPT-3.5或GPT-4。请继续关注;下次ChatGPT更新其模型时,我肯定会重新运行这些测试,看看它能否在所有四个测试中始终选择正确答案。
你有否尝试过用这些AI模型进行编码?你的体验如何?请在下面的评论中告诉我们。
相关文章
谷歌的 Stitch AI 简化了应用程序设计流程
谷歌在 I/O 2025 大会上发布人工智能设计工具 Stitch在 2025 年谷歌 I/O 大会的主题演讲中,谷歌推出了革命性的人工智能界面设计工具 Stitch。这一创新解决方案可将自然语言提示或参考图片转化为功能齐全的用户界面设计,并提供可直接投入生产的 HTML 和 CSS 代码。Stitch的双模型架构可在Gemini 2.5 Pro和Flash模型之间灵活切换,以满足不同的设计需求图
克劳德 4 人工智能在编码和逻辑推理任务中胜过前人
Anthropic 推出了下一代克劳德人工智能模型--克劳德 Opus 4 和克劳德 Sonnet 4--代表了混合推理能力的重大进步,特别是在编程应用和复杂问题解决场景方面。Claude Opus 4 被定位为 Anthropic 迄今最复杂的人工智能,通过长时间连续执行要求苛刻的任务,展示了前所未有的耐力。在内部评估中,该模型成功地保持了连续七个小时的自主运行--这是一个里程碑,极大地增强了人
Flowomatic 人工智能代理 2.0 利用尖端技术变革业务自动化
在当今竞争激烈的商业环境中,人工智能已成为运营效率和增长战略背后的驱动力。Flowomatic AI Agents 2.0 代表着商业自动化技术的飞跃,它提供了一个一体化的人工智能解决方案,可处理从内容制作到数字营销执行的所有事务。这一新一代平台消除了传统人工智能工具的复杂性,为企业提供了数百个预配置工作流,只需极少的输入即可在多个业务功能中生成专业品质的输出。Flowomatic AI Agen
评论 (20)
0/200
JonathanAllen
2025-04-26 19:46:22
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
0
WillHarris
2025-04-26 02:21:39
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
0
DonaldGonzález
2025-04-24 19:41:59
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔
0
JustinAnderson
2025-04-23 13:12:28
¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎
0
NicholasClark
2025-04-23 10:12:49
GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅
0
DavidThomas
2025-04-23 01:04:24
GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔
0
如果你一直在关注科技界,你可能已经知道OpenAI刚刚发布了其最新的大型语言模型GPT-4o,其中“o”代表“omni”。这个新模型承诺在文本、图形和语音方面具有多功能性,我迫不及待地想用我的标准编码测试集来检验它的能力。这些测试已经针对多种AI模型进行了运行,得出了一些非常有趣的结果。坚持看到最后,因为有一个你不想错过的转折。
如果你有兴趣进行自己的实验,请查看这个指南:如何测试AI聊天机器人的编码能力 - 你也可以。它概述了我使用的所有测试,以及它们如何工作和结果中需要关注的内容的详细解释。
现在,让我们深入探讨每个测试的结果,看看GPT-4o与之前的竞争者如Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced以及早期版本的ChatGPT相比表现如何。
1. 编写WordPress插件
以下是GPT-4o用户界面的一瞥:
有趣的是,GPT-4o自行决定包含一个JavaScript文件,该文件动态更新两个字段中的行数。虽然提示中没有明确排除JavaScript,但这种创造性的方法出乎意料且有效。JavaScript还增强了Randomize按钮的功能,允许在不刷新整个页面的情况下生成多个结果集。
行排列正确,重复项按照规格适当分开。这是一段扎实的代码,只有一个小问题:Randomize按钮没有单独放在一行上,尽管我在提示中没有明确要求这一点,所以不扣分。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:合格,功能:失败
- Meta AI:界面:合格,功能:失败
- Meta Code Llama:完全失败
- Google Gemini Advanced:界面:良好,功能:失败
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重写字符串函数
此测试评估模型处理美元和美分转换的能力。GPT-4o成功重写了代码,以拒绝可能导致后续行问题的输入,确保仅处理有效的美元和美分值。
我有点失望的是,它没有自动为像.75这样的值添加前导零,转换为0.75。然而,由于我没有明确要求此功能,这不是AI的错。这提醒我们,即使AI提供了功能性代码,你可能仍需优化提示以获得你所需的确切结果。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:成功
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 查找一个烦人的错误
此测试很有趣,因为解决方案并非一目了然。我在自己的编码中最初被这个错误难住了,所以我向第一个ChatGPT模型求助。它立即找到了错误,当时真是令人震惊。
相比之下,我测试的其他三个大型语言模型错过了这个问题中的误导。错误信息指向代码的某一部分,但实际问题出在别处,需要深入了解WordPress框架才能识别。
幸运的是,GPT-4o正确识别了问题并准确描述了修复方法。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失败。极其失败。热情失败。表情符号失败。
- Meta AI:成功
- Meta Code Llama:失败
- Google Gemini Advanced:失败
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前为止,GPT-4o三战三胜。让我们看看它在最后测试中的表现。
4. 编写脚本
针对此测试,GPT-4o实际上提供了超出我要求的内容。测试涉及使用鲜为人知的Mac脚本工具Keyboard Maestro、Apple的AppleScript和Chrome脚本行为。顺便说一句,Keyboard Maestro对我来说是个游戏改变者,它能够重新编程操作系统和应用程序,使Mac成为我的生产力首选。
要通过测试,AI需要正确概述一个使用Keyboard Maestro代码、AppleScript和Chrome API功能的组合解决方案。
令人惊讶的是,GPT-4o给了我两个不同版本:
两个版本都正确与Keyboard Maestro交互,但它们在处理大小写敏感性上有所不同。左侧版本不正确,因为AppleScript不支持“as lowercase”。右侧版本使用“contains”且不区分大小写,运行良好。
我谨慎地给GPT-4o通过,因为它确实提供了可用的代码。然而,返回两个选项,其中一个不正确,让我需要额外工作来评估和选择正确的一个。这可能与我自己编写代码一样耗时。
以下是本次及之前测试的综合结果:
- ChatGPT GPT-4o:成功,但有保留
- Microsoft Copilot:失败
- Meta AI:失败
- Meta Code Llama:失败
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失败
总体结果
以下是所有模型在四个测试中的表现:
- ChatGPT GPT-4o:4个测试全部成功,但有一个奇怪的双选答案
- Microsoft Copilot:4个测试全部失败
- Meta AI:4个测试中1个成功
- Meta Code Llama:4个测试中1个成功
- Google Gemini Advanced:4个测试中1个成功
- ChatGPT 4:4个测试全部成功
- ChatGPT 3.5:4个测试中3个成功
到目前为止,ChatGPT一直是我的编码助手首选。它总是能交付(除了偶尔失误)。其他AI在我的测试中大多表现不佳。但GPT-4o在最后一个双答案回应中给了我一个意外的难题。这让我质疑这个模型内部发生了什么,导致了这样的小问题。
尽管如此,GPT-4o仍是我的编码测试中的最佳表现者,所以我可能会继续使用它并更熟悉它的特性。或者,我可能会回退到ChatGPT Plus中的GPT-3.5或GPT-4。请继续关注;下次ChatGPT更新其模型时,我肯定会重新运行这些测试,看看它能否在所有四个测试中始终选择正确答案。
你有否尝试过用这些AI模型进行编码?你的体验如何?请在下面的评论中告诉我们。




GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔




GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔




GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔




¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎




GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅




GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔












