Github Copilot的AI測試：混合編碼成功使我感到困惑

首頁

新聞

2025-04-21

GregoryAllen

288

探索 AI 編碼工具的不一致性

令人困惑的是，所有基於同一基礎大型語言模型的 AI 工具，為何表現結果如此不同。例如，ChatGPT、Perplexity 和 GitHub Copilot 皆使用 OpenAI 的 GPT-4 模型。然而，我最近的測試顯示出顯著的性能差異：ChatGPT 和 Perplexity 的專業計劃表現出色，而 GitHub Copilot 的成功率僅為 50%。

我使用整合於 VS Code 環境中的 GitHub Copilot 進行了這些測試。我將在即將推出的文章中分享設置的詳細指南。現在，讓我們深入探討我所進行的測試細節。

如果你對我的測試方法和使用的提示語感到好奇，可以查看我關於評估 AI 聊天機器人編碼能力的詳細指南。

TL;DR： GitHub Copilot 在我進行的四項測試中通過了兩項。

測試 1：撰寫 WordPress 插件

這項測試完全令人失望。這是我的初步實驗，讓我不確定 GitHub Copilot 是否在編碼上存在問題，還是 VS Code 內的交互限制影響了其能力。

背景如下：我要求 AI 開發一個功能完整的 WordPress 插件，包含管理界面和操作邏輯。插件的任務是接受一組名稱列表，對其進行排序，並分離任何重複項以避免相鄰。

這項任務源自我妻子數位商品電子商務業務的實際需求，她管理一個活躍的 Facebook 社群。

在測試的十個 AI 模型中，五個完全通過了這項測試，三個部分通過，兩個（包括 Microsoft Copilot）完全失敗。儘管給予了相同的提示語，GitHub Copilot 僅生成了 PHP 代碼。雖然問題確實可以用 PHP 獨立解決，但 GitHub Copilot 試圖引用 JavaScript 卻未實際生成。

David Gewirtz/ZDNET 截圖

當我嘗試從 JavaScript 文件中提示 GitHub Copilot 完成任務時，它居然回應了更多 PHP 代碼，仍然引用了一個不存在的 JavaScript 文件。

David Gewirtz/ZDNET 截圖

測試 2：重寫字串函數

這項測試相對簡單：我提供了一個用於驗證美元和美分的函數，但僅檢查整數美元。挑戰在於讓 AI 修正該函數。

GitHub Copilot 確實修改了代碼，但結果有問題。它假設任何輸入字串都是有效的，若字串為空則會導致錯誤。此外，更新後的正則表達式無法處理各種邊緣情況，例如 "3."、".3" 或 "00.30" 等輸入。對於一個用於驗證貨幣的函數來說，這種疏忽是不可接受的，GitHub Copilot 再次失敗。

測試 3：尋找惱人的錯誤

在這項測試中，GitHub Copilot 表現出色。這項測試基於我遇到的真實編碼挑戰，錯誤訊息並未直接指向實際問題。這有點像編碼謎題，需要深入理解 WordPress API 調用才能解決。

Microsoft Copilot、Gemini 和 Meta Code Llama 在這項測試中表現不佳，但 GitHub Copilot 完美解決，展示了其處理複雜真實世界問題的能力。

測試 4：撰寫腳本

GitHub Copilot 在這項測試中也成功了，而 Microsoft Copilot 則表現不佳。該任務涉及創建一個需要整合 AppleScript、Chrome 對象模型和 Mac 專用工具 Keyboard Maestro 的腳本。

要通過測試，AI 需要識別並處理這三個環境的細微差別，GitHub Copilot 做到了這一點。

最終想法

看到使用先進 GPT-4 模型的 GitHub Copilot 在一半的測試中失敗，令人失望。鑑於 GitHub 作為領先的源碼管理平台的地位，人們會期望其 AI 編碼支持更為可靠。

然而，AI 世界不斷演進，我樂觀地認為 GitHub Copilot 的表現將隨時間改善。我們將在幾個月後重新審視其進展。

你是否依賴 AI 進行編碼協助？你最常用的 AI 工具是哪個？你有沒有試過 GitHub Copilot？請在下方評論中分享你的經驗。

在社交媒體上關注我的每日項目進展。別忘了訂閱我的每週電子報，並在 Twitter/X 上關注我 @DavidGewirtz，在 Facebook 上關注 Facebook.com/DavidGewirtz，在 Instagram 上關注 Instagram.com/DavidGewirtz，在 Bluesky 上關注 @DavidGewirtz.com，以及在 YouTube 上關注 YouTube.com/DavidGewirtzTV。

DeepSeek Code 即將推出隨著人工智慧技術的加速發展，DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露，已獲得超過 700 億元的資金。管理層強調，公司致力於突破性的人工智慧研究，而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發，尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形，該公司職缺頁面已發布數個相關職位，例如「Agen

馬斯克的 Grok：1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者，還是虛張聲勢？伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中，OpenAI 和 Anthropic 正加速前進，而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡，然而儘管 Grok4.X 系列已進行多次更新，成果在理論上看似不錯，但在實際應用中卻未能達標，兩者之間的差距幾乎未見縮小。不過，這次他握有一張新王牌。馬斯克在 X 平台上證實，Grok 的新版本即將問世。這款基礎模型第九版

OpenAI 悄悄修改章程，使解僱阿爾特曼變得更困難繼 2023 年的「政變式」事件後，OpenAI 透過更新公司章程，進一步鞏固了對執行長山姆·奧特曼（Sam Altman）的保障。近期公布的法院文件顯示，奧特曼的職位如今已穩如磐石，面對外部干預或內部董事會試圖罷免他的行動，其職位設有大幅提高的防線。在伊隆·馬斯克（Elon Musk）對 OpenAI 提起的訴訟中，一名專家證人指出，這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡

相關專題推薦

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

聊天機器人

最受好評的 AI 浪漫聊天機器人：透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人，助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較，以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶，並開始建立這段關係吧。

10 個工具

xix.ai

教育與學習

最佳AI資料科學導師：精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師，幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單，獲得強大而具有變革性的指導。透過對比免費和付費選項，並結合實際應用案例進行了解，今天就開啟你的資料科學精通之路吧。

10 個工具

xix.ai

聊天機器人

最佳 AI 調情與對話訓練工具：即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單，能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具，並透過免費與付費版本的比較，以及每週更新的排行榜，立即解鎖您的社交優勢。

10 個工具

xix.ai

代碼

最適合自動化單元測試的最佳AI工具：一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具，這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具，它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上，您可以免費檢視各種選項，並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具，提升您的開發效率吧！

10 個工具

xix.ai

評論 (40)

0/500

請登錄後再操作

HarryMartinez

2026-05-28 14:00:14

Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔

EricAllen

2026-05-19 10:00:12

Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.

ArthurJackson

2026-03-12 04:00:47

Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.

LarryMartin

2025-11-27 20:30:43

이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!

PaulRoberts

2025-11-08 12:30:36

Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔

EricDavis

2025-11-02 00:30:33

看完這篇測試我笑了 😂 明明都是用GPT-4，怎麼Copilot寫程式碼的表現這麼迷？有時候像資深工程師，有時候根本在胡言亂語。該不會AI也有生理期吧？（開玩笑的）不過這倒是讓我猶豫要不要續訂了...

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選