Github Copilot的AI测试:混合编码成功使我感到困惑
探索AI编码工具的不一致性
令人费解的是,所有基于相同基础大语言模型的AI工具,竟然会产生如此不同的结果。例如,ChatGPT、Perplexity 和 GitHub Copilot 都使用了 OpenAI 的 GPT-4 模型。然而,我最近的测试显示性能差异明显:ChatGPT 和 Perplexity 的专业版表现出色,而 GitHub Copilot 的成功率只有50%。
我在 VS Code 环境中集成了 GitHub Copilot 进行这些测试。我将在即将发布的一篇文章中分享设置的详细指南。现在,让我们深入探讨我进行的测试细节。
如果你对我的测试方法和使用的提示词感到好奇,可以查看我关于评估AI聊天机器人编码能力的详细指南。
TL;DR: GitHub Copilot 在我进行的四项测试中通过了两项。
测试1:编写 WordPress 插件
这次测试完全令人失望。这是我的初步实验,让我不确定是 GitHub Copilot 在编码方面存在问题,还是 VS Code 环境中的交互限制影响了其能力。
背景是这样的:我要求AI开发一个功能完整的 WordPress 插件,包括管理界面和操作逻辑。插件的任务是接受一个名字列表,对其排序,并将任何重复项分开以避免相邻。
这项任务源自我妻子数字商品电商业务的实际需求,她管理着一个活跃的 Facebook 群组。
在测试的十个AI模型中,五个完全通过了这项测试,三个部分通过,两个(包括 Microsoft Copilot)完全失败。尽管 GitHub Copilot 使用了相同的提示词,但它只生成了 PHP 代码。虽然这个问题确实可以用 PHP 单独解决,但 GitHub Copilot 试图引用 JavaScript,却没有实际生成 JavaScript 代码。

David Gewirtz/ZDNET 截图 当我尝试在 JavaScript 文件中提示 GitHub Copilot 完成任务时,它竟然又生成了更多的 PHP 代码,仍然引用了一个不存在的 JavaScript 文件。

David Gewirtz/ZDNET 截图 测试2:重写字符串函数
这项测试相对简单:我提供了一个用于验证美元和美分的函数,但它只检查整数美元。挑战在于让AI纠正这个函数。
GitHub Copilot 确实修改了代码,但结果有问题。它假设任何输入字符串都是有效的,如果字符串为空,就会导致错误。此外,更新后的正则表达式无法处理各种边缘情况,例如“3.”、“.3”或“00.30”等输入。对于一个用于验证货币的函数,这种疏忽是不可接受的,这标志着 GitHub Copilot 的又一次失败。
测试3:查找一个烦人的错误
在这项测试中,GitHub Copilot 表现出色。这项测试基于我遇到的一个真实编码挑战,错误信息并未直接指向实际问题。这有点像一个编码谜题,需要深入理解 WordPress API 调用才能解决。
虽然 Microsoft Copilot、Gemini 和 Meta Code Llama 在这项测试中表现不佳,但 GitHub Copilot 完美应对,展现了其处理复杂现实问题的能力。
测试4:编写脚本
GitHub Copilot 在这项测试中也成功了,而 Microsoft Copilot 则失败了。任务涉及创建一个需要整合 AppleScript、Chrome 对象模型和 Mac 专用工具 Keyboard Maestro 的脚本。
要通过测试,AI需要识别并处理这三个环境的细微差别,而 GitHub Copilot 做到了这一点。
最终思考
看到使用先进 GPT-4 模型的 GitHub Copilot 在一半的测试中失败,令人失望。鉴于 GitHub 作为领先的源代码管理平台的地位,人们会期望其AI编码支持更加可靠。
然而,AI的世界在不断发展,我乐观地认为 GitHub Copilot 的性能会随着时间推移而改善。我们将在几个月后重新审视它的进展。
你依赖AI进行编码辅助吗?你的首选AI工具是哪个?你尝试过 GitHub Copilot 吗?在下面的评论中分享你的经验。
在社交媒体上关注我的每日项目进展。不要忘记订阅我的每周通讯,并在 Twitter/X 上关注我,账号为 @DavidGewirtz,在 Facebook 上为 Facebook.com/DavidGewirtz,在 Instagram 上为 Instagram.com/DavidGewirtz,在 Bluesky 上为 @DavidGewirtz.com,在 YouTube 上为 YouTube.com/DavidGewirtzTV。
相关文章
OpenAI 合作伙伴透露新 O3 人工智能模型的测试时间有限
Metr是OpenAI在人工智能安全测试方面的经常性评估合作伙伴,该公司报告称,其评估公司先进的新模型o3的时间有限。他们在周三的博文中透露,与之前的旗舰模型评估相比,测试时间被压缩了,这可能会影响评估的全面性。评估时间问题"Metr 表示:"我们对 o3 的红队基准测试时间大大少于以往的评估时间。该组织强调,o3 展示了大量尚未开发的潜力:"更高的基准性能可能有待通过更多的探测来发现。全行业的测
人工智能小说革命:用 ChatGPT 和 M&M's 来激发创造力
与 ChatGPT 一起踏上人工智能驱动的非凡叙事之旅,在这里,创意的界限被打破,想象力无极限。这次探索揭示了人工智能如何制作非传统的同人小说,将深受喜爱的品牌角色与叙事融合在一起,打破人们的期望,同时开启新的创造可能性。要点利用 ChatGPT 等人工智能工具开展富有想象力的写作项目用意想不到的角色搭配创作跨品牌同人小说研究人工智能讲故事的能力和局限性用糖果品牌吉祥物开发浪漫的太空冒险故事通过创
谷歌 NotebookLM 为幻灯片推出人工智能字幕
谷歌的 NotebookLM 正在推出一项创新的视频概览功能,利用人工智能技术自动生成有解说的幻灯片演示。目前推出的是英语支持,谷歌已确认计划在不久的将来扩大语言可用性。这些新的视频演示可作为现有音频概述的视觉对应。正如官方博文中解释的那样"由人工智能驱动的系统会动态生成相关的视觉辅助材料,同时无缝整合源材料中的图表、关键引语和重要数据点。这一功能使该功能在可视化复杂信息、演示工作流程和阐明理
评论 (24)
0/200
StephenRoberts
2025-08-14 03:01:01
GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?
0
WalterWilliams
2025-08-05 21:01:00
It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?
0
WillieLee
2025-07-29 20:25:16
GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?
0
JerryGonzalez
2025-07-28 09:19:04
GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.
0
JuanLewis
2025-04-24 07:53:39
GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔
0
HenryJackson
2025-04-23 22:51:43
GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔
0
探索AI编码工具的不一致性
令人费解的是,所有基于相同基础大语言模型的AI工具,竟然会产生如此不同的结果。例如,ChatGPT、Perplexity 和 GitHub Copilot 都使用了 OpenAI 的 GPT-4 模型。然而,我最近的测试显示性能差异明显:ChatGPT 和 Perplexity 的专业版表现出色,而 GitHub Copilot 的成功率只有50%。
我在 VS Code 环境中集成了 GitHub Copilot 进行这些测试。我将在即将发布的一篇文章中分享设置的详细指南。现在,让我们深入探讨我进行的测试细节。
如果你对我的测试方法和使用的提示词感到好奇,可以查看我关于评估AI聊天机器人编码能力的详细指南。
TL;DR: GitHub Copilot 在我进行的四项测试中通过了两项。
测试1:编写 WordPress 插件
这次测试完全令人失望。这是我的初步实验,让我不确定是 GitHub Copilot 在编码方面存在问题,还是 VS Code 环境中的交互限制影响了其能力。
背景是这样的:我要求AI开发一个功能完整的 WordPress 插件,包括管理界面和操作逻辑。插件的任务是接受一个名字列表,对其排序,并将任何重复项分开以避免相邻。
这项任务源自我妻子数字商品电商业务的实际需求,她管理着一个活跃的 Facebook 群组。
在测试的十个AI模型中,五个完全通过了这项测试,三个部分通过,两个(包括 Microsoft Copilot)完全失败。尽管 GitHub Copilot 使用了相同的提示词,但它只生成了 PHP 代码。虽然这个问题确实可以用 PHP 单独解决,但 GitHub Copilot 试图引用 JavaScript,却没有实际生成 JavaScript 代码。
当我尝试在 JavaScript 文件中提示 GitHub Copilot 完成任务时,它竟然又生成了更多的 PHP 代码,仍然引用了一个不存在的 JavaScript 文件。
测试2:重写字符串函数
这项测试相对简单:我提供了一个用于验证美元和美分的函数,但它只检查整数美元。挑战在于让AI纠正这个函数。
GitHub Copilot 确实修改了代码,但结果有问题。它假设任何输入字符串都是有效的,如果字符串为空,就会导致错误。此外,更新后的正则表达式无法处理各种边缘情况,例如“3.”、“.3”或“00.30”等输入。对于一个用于验证货币的函数,这种疏忽是不可接受的,这标志着 GitHub Copilot 的又一次失败。
测试3:查找一个烦人的错误
在这项测试中,GitHub Copilot 表现出色。这项测试基于我遇到的一个真实编码挑战,错误信息并未直接指向实际问题。这有点像一个编码谜题,需要深入理解 WordPress API 调用才能解决。
虽然 Microsoft Copilot、Gemini 和 Meta Code Llama 在这项测试中表现不佳,但 GitHub Copilot 完美应对,展现了其处理复杂现实问题的能力。
测试4:编写脚本
GitHub Copilot 在这项测试中也成功了,而 Microsoft Copilot 则失败了。任务涉及创建一个需要整合 AppleScript、Chrome 对象模型和 Mac 专用工具 Keyboard Maestro 的脚本。
要通过测试,AI需要识别并处理这三个环境的细微差别,而 GitHub Copilot 做到了这一点。
最终思考
看到使用先进 GPT-4 模型的 GitHub Copilot 在一半的测试中失败,令人失望。鉴于 GitHub 作为领先的源代码管理平台的地位,人们会期望其AI编码支持更加可靠。
然而,AI的世界在不断发展,我乐观地认为 GitHub Copilot 的性能会随着时间推移而改善。我们将在几个月后重新审视它的进展。
你依赖AI进行编码辅助吗?你的首选AI工具是哪个?你尝试过 GitHub Copilot 吗?在下面的评论中分享你的经验。
在社交媒体上关注我的每日项目进展。不要忘记订阅我的每周通讯,并在 Twitter/X 上关注我,账号为 @DavidGewirtz,在 Facebook 上为 Facebook.com/DavidGewirtz,在 Instagram 上为 Instagram.com/DavidGewirtz,在 Bluesky 上为 @DavidGewirtz.com,在 YouTube 上为 YouTube.com/DavidGewirtzTV。




GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?




It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?




GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?




GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.




GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔




GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔












