選項
首頁
新聞
Meta AI在編碼測試中未能與Llama,Gemini和Chatgpt競爭

Meta AI在編碼測試中未能與Llama,Gemini和Chatgpt競爭

2025-06-03
222

AI工具如何撰寫程式碼?

過去一年左右,我測試了多個大型語言模型,檢視它們處理基本程式設計挑戰的成效。測試的理念很簡單:如果它們無法應對基礎挑戰,則不太可能在更複雜的任務中有所幫助。但如果它們在這些基礎挑戰中表現出色,則可能成為開發者節省時間的寶貴盟友。

為了建立基準,我使用了四項不同的測試。這些測試從簡單的程式設計任務到需要深入了解WordPress等框架的除錯練習。讓我們深入探討每個測試,並比較Meta的新AI工具與其他工具的表現。

測試1:撰寫WordPress插件

創建WordPress插件涉及在WordPress生態系統中使用PHP進行網頁開發,還需要一些UI設計。如果AI聊天機器人能做到這一點,它可能成為網頁開發者的得力助手。

結果:

  • Meta AI:介面尚可,但功能失敗。
  • Meta Code Llama:完全失敗。
  • Google Gemini Advanced:介面良好,功能失敗。
  • ChatGPT:介面乾淨且功能正常。

以下是視覺比較: UI測試(注意:請將"/path-to-image/"替換為圖像檔案的實際路徑。)

ChatGPT提供了更整潔的介面,並將「隨機化」按鈕放置得更合理。然而,在實際運行插件時,Meta AI崩潰,出現了可怕的「白屏死機」。

測試2:重寫字串函數

此測試評估AI改進實用函數的能力。成功表示對開發者有潛在幫助,失敗則意味著有改進空間。

結果:

  • Meta AI:因錯誤值修正、多位小數處理不佳及格式問題而失敗。
  • Meta Code Llama:成功。
  • Google Gemini Advanced:失敗。
  • ChatGPT:成功。

雖然Meta AI在這個看似簡單的任務上失誤,但Meta Code Llama表現出色,展示了其能力。ChatGPT也表現優異。

測試3:尋找惱人錯誤

這不是關於撰寫程式碼,而是診斷問題。成功需要深入了解WordPress API以及程式碼不同部分之間的交互。

結果:

  • Meta AI:表現出色,識別問題並提出提升效率的建議。
  • Meta Code Llama:失敗。
  • Google Gemini Advanced:失敗。
  • ChatGPT:通過。

令人意外的是,儘管Meta AI之前表現不佳,但在此表現卓越,證明了其潛力,但也凸顯了其回應的不一致性。

測試4:撰寫腳本

此測試評估對Keyboard Maestro和AppleScript等專業工具的知識。這兩個工具相對小眾,但代表了更廣泛的程式設計技能。

結果:

  • Meta AI:無法從Keyboard Maestro檢索資料。
  • Meta Code Llama:同樣失敗。
  • Google Gemini Advanced:成功。
  • ChatGPT:成功。

Gemini和ChatGPT展現了對這些工具的熟練掌握,而Meta的產品則表現不足。

總體結果

模型成功率
Meta AI1/4
Meta Code Llama1/4
Google Gemini1/4
ChatGPT4/4

根據我六個月使用ChatGPT進行程式設計項目的經驗,我對其可靠性仍充滿信心。其他模型尚未能匹敵其一致性和有效性。雖然Meta AI偶有亮眼表現,但整體表現仍有很大改進空間。

你有沒有試過這些工具?請在下方評論中分享你的想法!

相關文章
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償 騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償 騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞 Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞 備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
Claude Opus 4.7 正式推出,重視可靠性勝於智能 Claude Opus 4.7 正式推出,重視可靠性勝於智能 Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試
相關專題推薦
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
評論 (6)
0/500
OliverPhillips
OliverPhillips 2026-05-14 10:00:09

Interesting test! I've been using ChatGPT for coding help and it's been decent, but honestly I'm more curious about the open-source alternatives like Llama. Meta's AI being behind isn't a huge shock, but it makes you wonder if they're focusing on different strengths. Maybe coding isn't their main goal? 🤔 Still, competition is good for us users!

BillyWilson
BillyWilson 2025-09-30 16:30:37

Meta AI 코딩 테스트 결과는 참 실망스럽네요 😅 다른 경쟁사들보다 확실히 뒤처지는 모습인데... 그래도 아직 초기 단계니까 차차 나아지지 않을까요? 물론 빠르게 따라잡아야 하지만 말이죠!

ChristopherTaylor
ChristopherTaylor 2025-08-12 23:00:59

¡Qué decepción con Meta AI! No me esperaba que fallara tan estrepitosamente en las pruebas de programación. Si no puede con lo básico, ¿cómo va a competir con los grandes como Gemini o ChatGPT? 🤔

PaulHarris
PaulHarris 2025-08-01 21:47:34

Meta AI's coding skills are lagging behind? Ouch, that’s a rough one! 😅 Llama and Gemini are eating its lunch. Maybe it’s time for Meta to rethink their AI game plan.

MarkGonzalez
MarkGonzalez 2025-07-28 09:20:02

Meta AI's coding skills seem underwhelming compared to Llama and others. 😕 I was hoping for a stronger contender in the AI coding space, but it looks like they’ve got some catching up to do. Anyone else tried using it for coding yet?

TerryRoberts
TerryRoberts 2025-07-22 09:25:03

This article's take on Meta AI flopping in coding tests is wild! 😅 I mean, with all the hype around AI, you'd think they'd at least nail the basics. Makes me wonder if we're overhyping these models or if Meta's just lagging behind. Anyone else skeptical about AI coding tools now?

OR