選項
首頁
新聞
Github Copilot的AI測試:混合編碼成功使我感到困惑

Github Copilot的AI測試:混合編碼成功使我感到困惑

2025-04-21
195

探索 AI 編碼工具的不一致性

令人困惑的是,所有基於同一基礎大型語言模型的 AI 工具,為何表現結果如此不同。例如,ChatGPT、Perplexity 和 GitHub Copilot 皆使用 OpenAI 的 GPT-4 模型。然而,我最近的測試顯示出顯著的性能差異:ChatGPT 和 Perplexity 的專業計劃表現出色,而 GitHub Copilot 的成功率僅為 50%。

我使用整合於 VS Code 環境中的 GitHub Copilot 進行了這些測試。我將在即將推出的文章中分享設置的詳細指南。現在,讓我們深入探討我所進行的測試細節。

如果你對我的測試方法和使用的提示語感到好奇,可以查看我關於評估 AI 聊天機器人編碼能力的詳細指南。

TL;DR: GitHub Copilot 在我進行的四項測試中通過了兩項。

測試 1:撰寫 WordPress 插件

這項測試完全令人失望。這是我的初步實驗,讓我不確定 GitHub Copilot 是否在編碼上存在問題,還是 VS Code 內的交互限制影響了其能力。

背景如下:我要求 AI 開發一個功能完整的 WordPress 插件,包含管理界面和操作邏輯。插件的任務是接受一組名稱列表,對其進行排序,並分離任何重複項以避免相鄰。

這項任務源自我妻子數位商品電子商務業務的實際需求,她管理一個活躍的 Facebook 社群。

在測試的十個 AI 模型中,五個完全通過了這項測試,三個部分通過,兩個(包括 Microsoft Copilot)完全失敗。儘管給予了相同的提示語,GitHub Copilot 僅生成了 PHP 代碼。雖然問題確實可以用 PHP 獨立解決,但 GitHub Copilot 試圖引用 JavaScript 卻未實際生成。

David Gewirtz/ZDNET 截圖

David Gewirtz/ZDNET 截圖

當我嘗試從 JavaScript 文件中提示 GitHub Copilot 完成任務時,它居然回應了更多 PHP 代碼,仍然引用了一個不存在的 JavaScript 文件。

David Gewirtz/ZDNET 截圖

David Gewirtz/ZDNET 截圖

測試 2:重寫字串函數

這項測試相對簡單:我提供了一個用於驗證美元和美分的函數,但僅檢查整數美元。挑戰在於讓 AI 修正該函數。

GitHub Copilot 確實修改了代碼,但結果有問題。它假設任何輸入字串都是有效的,若字串為空則會導致錯誤。此外,更新後的正則表達式無法處理各種邊緣情況,例如 "3."、".3" 或 "00.30" 等輸入。對於一個用於驗證貨幣的函數來說,這種疏忽是不可接受的,GitHub Copilot 再次失敗。

測試 3:尋找惱人的錯誤

在這項測試中,GitHub Copilot 表現出色。這項測試基於我遇到的真實編碼挑戰,錯誤訊息並未直接指向實際問題。這有點像編碼謎題,需要深入理解 WordPress API 調用才能解決。

Microsoft Copilot、Gemini 和 Meta Code Llama 在這項測試中表現不佳,但 GitHub Copilot 完美解決,展示了其處理複雜真實世界問題的能力。

測試 4:撰寫腳本

GitHub Copilot 在這項測試中也成功了,而 Microsoft Copilot 則表現不佳。該任務涉及創建一個需要整合 AppleScript、Chrome 對象模型和 Mac 專用工具 Keyboard Maestro 的腳本。

要通過測試,AI 需要識別並處理這三個環境的細微差別,GitHub Copilot 做到了這一點。

最終想法

看到使用先進 GPT-4 模型的 GitHub Copilot 在一半的測試中失敗,令人失望。鑑於 GitHub 作為領先的源碼管理平台的地位,人們會期望其 AI 編碼支持更為可靠。

然而,AI 世界不斷演進,我樂觀地認為 GitHub Copilot 的表現將隨時間改善。我們將在幾個月後重新審視其進展。

你是否依賴 AI 進行編碼協助?你最常用的 AI 工具是哪個?你有沒有試過 GitHub Copilot?請在下方評論中分享你的經驗。

在社交媒體上關注我的每日項目進展。別忘了訂閱我的每週電子報,並在 Twitter/X 上關注我 @DavidGewirtz,在 Facebook 上關注 Facebook.com/DavidGewirtz,在 Instagram 上關注 Instagram.com/DavidGewirtz,在 Bluesky 上關注 @DavidGewirtz.com,以及在 YouTube 上關注 YouTube.com/DavidGewirtzTV。

相關文章
Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo,一家專注於程式碼品質的以色列AI編碼新創公司,與Google Cloud合作推出夥伴關係,以提升AI生成軟體的完整性。隨著企業越來越依賴AI進行編碼,對強大監督和品質保證工具的需求日益增長。Qodo執行長Itamar Friedman指出,AI生成程式碼現已成為現代開發的核心。「想像一個未來,AI撰寫所有程式碼;人類無法全部審查,」Friedman說。「我們需要系統確保程式碼符合預期價值
DeepMind的AI在2025年數學奧林匹克奪金 DeepMind的AI在2025年數學奧林匹克奪金 DeepMind的AI在數學推理上實現驚人突破,在2025年國際數學奧林匹克(IMO)奪得金牌,僅一年後即從2024年的銀牌躍升。此突破凸顯AI在解決需要人類創意的複雜抽象問題上的成長實力。本文探討DeepMind的轉型歷程、關鍵技術進展及此里程碑的廣泛影響。國際數學奧林匹克的重要性自1959年起,國際數學奧林匹克一直是全球頂尖的高中生數學競賽。它以代數、幾何、數論及組合數學的六道複雜題目挑戰參賽
AI驅動的視差製作工具:打造動態2.5D動畫 AI驅動的視差製作工具:打造動態2.5D動畫 將靜態圖像轉化為引人入勝的2.5D動畫,使用Parallax Maker。此開源工具賦予藝術家和遊戲開發者為其作品注入深度與動態的能力。透過利用Stability AI API,Parallax Maker確保即使在普通硬體上也能實現流暢的工作流程。探索此工具的功能以及如何提升您的創意項目。主要亮點Parallax Maker是一個用於製作2.5D動畫的開源解決方案。它將圖像轉化為與Blender
評論 (24)
0/200
StephenRoberts
StephenRoberts 2025-08-14 03:01:01

GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?

WalterWilliams
WalterWilliams 2025-08-05 21:01:00

It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?

WillieLee
WillieLee 2025-07-29 20:25:16

GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?

JerryGonzalez
JerryGonzalez 2025-07-28 09:19:04

GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.

JuanLewis
JuanLewis 2025-04-24 07:53:39

GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔

HenryJackson
HenryJackson 2025-04-23 22:51:43

GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔

回到頂部
OR