Github Copilot的AI测试:混合编码成功使我感到困惑
探索AI编码工具的不一致性
令人费解的是,所有基于相同基础大语言模型的AI工具,竟然会产生如此不同的结果。例如,ChatGPT、Perplexity 和 GitHub Copilot 都使用了 OpenAI 的 GPT-4 模型。然而,我最近的测试显示性能差异明显:ChatGPT 和 Perplexity 的专业版表现出色,而 GitHub Copilot 的成功率只有50%。
我在 VS Code 环境中集成了 GitHub Copilot 进行这些测试。我将在即将发布的一篇文章中分享设置的详细指南。现在,让我们深入探讨我进行的测试细节。
如果你对我的测试方法和使用的提示词感到好奇,可以查看我关于评估AI聊天机器人编码能力的详细指南。
TL;DR: GitHub Copilot 在我进行的四项测试中通过了两项。
测试1:编写 WordPress 插件
这次测试完全令人失望。这是我的初步实验,让我不确定是 GitHub Copilot 在编码方面存在问题,还是 VS Code 环境中的交互限制影响了其能力。
背景是这样的:我要求AI开发一个功能完整的 WordPress 插件,包括管理界面和操作逻辑。插件的任务是接受一个名字列表,对其排序,并将任何重复项分开以避免相邻。
这项任务源自我妻子数字商品电商业务的实际需求,她管理着一个活跃的 Facebook 群组。
在测试的十个AI模型中,五个完全通过了这项测试,三个部分通过,两个(包括 Microsoft Copilot)完全失败。尽管 GitHub Copilot 使用了相同的提示词,但它只生成了 PHP 代码。虽然这个问题确实可以用 PHP 单独解决,但 GitHub Copilot 试图引用 JavaScript,却没有实际生成 JavaScript 代码。

David Gewirtz/ZDNET 截图 当我尝试在 JavaScript 文件中提示 GitHub Copilot 完成任务时,它竟然又生成了更多的 PHP 代码,仍然引用了一个不存在的 JavaScript 文件。

David Gewirtz/ZDNET 截图 测试2:重写字符串函数
这项测试相对简单:我提供了一个用于验证美元和美分的函数,但它只检查整数美元。挑战在于让AI纠正这个函数。
GitHub Copilot 确实修改了代码,但结果有问题。它假设任何输入字符串都是有效的,如果字符串为空,就会导致错误。此外,更新后的正则表达式无法处理各种边缘情况,例如“3.”、“.3”或“00.30”等输入。对于一个用于验证货币的函数,这种疏忽是不可接受的,这标志着 GitHub Copilot 的又一次失败。
测试3:查找一个烦人的错误
在这项测试中,GitHub Copilot 表现出色。这项测试基于我遇到的一个真实编码挑战,错误信息并未直接指向实际问题。这有点像一个编码谜题,需要深入理解 WordPress API 调用才能解决。
虽然 Microsoft Copilot、Gemini 和 Meta Code Llama 在这项测试中表现不佳,但 GitHub Copilot 完美应对,展现了其处理复杂现实问题的能力。
测试4:编写脚本
GitHub Copilot 在这项测试中也成功了,而 Microsoft Copilot 则失败了。任务涉及创建一个需要整合 AppleScript、Chrome 对象模型和 Mac 专用工具 Keyboard Maestro 的脚本。
要通过测试,AI需要识别并处理这三个环境的细微差别,而 GitHub Copilot 做到了这一点。
最终思考
看到使用先进 GPT-4 模型的 GitHub Copilot 在一半的测试中失败,令人失望。鉴于 GitHub 作为领先的源代码管理平台的地位,人们会期望其AI编码支持更加可靠。
然而,AI的世界在不断发展,我乐观地认为 GitHub Copilot 的性能会随着时间推移而改善。我们将在几个月后重新审视它的进展。
你依赖AI进行编码辅助吗?你的首选AI工具是哪个?你尝试过 GitHub Copilot 吗?在下面的评论中分享你的经验。
在社交媒体上关注我的每日项目进展。不要忘记订阅我的每周通讯,并在 Twitter/X 上关注我,账号为 @DavidGewirtz,在 Facebook 上为 Facebook.com/DavidGewirtz,在 Instagram 上为 Instagram.com/DavidGewirtz,在 Bluesky 上为 @DavidGewirtz.com,在 YouTube 上为 YouTube.com/DavidGewirtzTV。
相关文章
AI语音翻译器G5 Pro:无缝全球沟通
在全球互联至关重要的世界中,弥合语言差距比以往任何时候都更重要。AI语音翻译器G5 Pro以其实时翻译功能为多种场景提供实用解决方案。无论您是探索新国家、进行国际商务,还是学习新语言,此设备都能轻松简化沟通。本文深入探讨AI语音翻译器G5 Pro的功能、优势和应用,展示其如何在多语言环境中增强互动。主要亮点AI语音翻译器G5 Pro支持多种语言,促进全球互联。其即时翻译功能支持旅行、教育和商务等场
使用HitPaw AI照片增强器提升您的图像:全面指南
想改变您的照片编辑体验吗?凭借尖端人工智能技术,改善您的图像现在变得轻而易举。本详细指南介绍了HitPaw AI照片增强器,这是一款离线AI工具,可自动提升图像质量和分辨率。无论您是经验丰富的摄影师还是希望优化个人快照的爱好者,HitPaw AI照片增强器都能提供强大的功能,带来惊艳的效果。主要亮点HitPaw AI照片增强器是一款适用于Windows和Mac的AI驱动解决方案,旨在提升图像质量。
AI驱动的音乐创作:轻松打造歌曲与视频
音乐创作可能复杂,需要时间、资源和专业知识。人工智能已转变这一过程,使其简单易用。本指南介绍如何利用AI让任何人都能免费创作独特的歌曲和视觉效果,开启新的创作可能性。我们探索了具有直观界面和先进AI的平台,将您的音乐创意转化为现实,无需高昂成本。关键要点AI可生成完整歌曲,包括人声,而不仅是器乐。Suno AI和Hailuo AI等平台提供免费音乐创作工具。ChatGPT等AI工具可简化歌词创作,
评论 (24)
0/200
StephenRoberts
2025-08-14 03:01:01
GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?
0
WalterWilliams
2025-08-05 21:01:00
It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?
0
WillieLee
2025-07-29 20:25:16
GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?
0
JerryGonzalez
2025-07-28 09:19:04
GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.
0
JuanLewis
2025-04-24 07:53:39
GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔
0
HenryJackson
2025-04-23 22:51:43
GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔
0
探索AI编码工具的不一致性
令人费解的是,所有基于相同基础大语言模型的AI工具,竟然会产生如此不同的结果。例如,ChatGPT、Perplexity 和 GitHub Copilot 都使用了 OpenAI 的 GPT-4 模型。然而,我最近的测试显示性能差异明显:ChatGPT 和 Perplexity 的专业版表现出色,而 GitHub Copilot 的成功率只有50%。
我在 VS Code 环境中集成了 GitHub Copilot 进行这些测试。我将在即将发布的一篇文章中分享设置的详细指南。现在,让我们深入探讨我进行的测试细节。
如果你对我的测试方法和使用的提示词感到好奇,可以查看我关于评估AI聊天机器人编码能力的详细指南。
TL;DR: GitHub Copilot 在我进行的四项测试中通过了两项。
测试1:编写 WordPress 插件
这次测试完全令人失望。这是我的初步实验,让我不确定是 GitHub Copilot 在编码方面存在问题,还是 VS Code 环境中的交互限制影响了其能力。
背景是这样的:我要求AI开发一个功能完整的 WordPress 插件,包括管理界面和操作逻辑。插件的任务是接受一个名字列表,对其排序,并将任何重复项分开以避免相邻。
这项任务源自我妻子数字商品电商业务的实际需求,她管理着一个活跃的 Facebook 群组。
在测试的十个AI模型中,五个完全通过了这项测试,三个部分通过,两个(包括 Microsoft Copilot)完全失败。尽管 GitHub Copilot 使用了相同的提示词,但它只生成了 PHP 代码。虽然这个问题确实可以用 PHP 单独解决,但 GitHub Copilot 试图引用 JavaScript,却没有实际生成 JavaScript 代码。
当我尝试在 JavaScript 文件中提示 GitHub Copilot 完成任务时,它竟然又生成了更多的 PHP 代码,仍然引用了一个不存在的 JavaScript 文件。
测试2:重写字符串函数
这项测试相对简单:我提供了一个用于验证美元和美分的函数,但它只检查整数美元。挑战在于让AI纠正这个函数。
GitHub Copilot 确实修改了代码,但结果有问题。它假设任何输入字符串都是有效的,如果字符串为空,就会导致错误。此外,更新后的正则表达式无法处理各种边缘情况,例如“3.”、“.3”或“00.30”等输入。对于一个用于验证货币的函数,这种疏忽是不可接受的,这标志着 GitHub Copilot 的又一次失败。
测试3:查找一个烦人的错误
在这项测试中,GitHub Copilot 表现出色。这项测试基于我遇到的一个真实编码挑战,错误信息并未直接指向实际问题。这有点像一个编码谜题,需要深入理解 WordPress API 调用才能解决。
虽然 Microsoft Copilot、Gemini 和 Meta Code Llama 在这项测试中表现不佳,但 GitHub Copilot 完美应对,展现了其处理复杂现实问题的能力。
测试4:编写脚本
GitHub Copilot 在这项测试中也成功了,而 Microsoft Copilot 则失败了。任务涉及创建一个需要整合 AppleScript、Chrome 对象模型和 Mac 专用工具 Keyboard Maestro 的脚本。
要通过测试,AI需要识别并处理这三个环境的细微差别,而 GitHub Copilot 做到了这一点。
最终思考
看到使用先进 GPT-4 模型的 GitHub Copilot 在一半的测试中失败,令人失望。鉴于 GitHub 作为领先的源代码管理平台的地位,人们会期望其AI编码支持更加可靠。
然而,AI的世界在不断发展,我乐观地认为 GitHub Copilot 的性能会随着时间推移而改善。我们将在几个月后重新审视它的进展。
你依赖AI进行编码辅助吗?你的首选AI工具是哪个?你尝试过 GitHub Copilot 吗?在下面的评论中分享你的经验。
在社交媒体上关注我的每日项目进展。不要忘记订阅我的每周通讯,并在 Twitter/X 上关注我,账号为 @DavidGewirtz,在 Facebook 上为 Facebook.com/DavidGewirtz,在 Instagram 上为 Instagram.com/DavidGewirtz,在 Bluesky 上为 @DavidGewirtz.com,在 YouTube 上为 YouTube.com/DavidGewirtzTV。




GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?




It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?




GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?




GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.




GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔




GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔












