Meta捍衛Llama 4版本，引用Bug作為混合質量報告的原因

首頁

新聞

2025-04-23

BillyAdams

173

# meta # llama # nlp # llama-4 # Scandal

週末期間，擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta，出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本，而是推出了三個新版本，每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法（涉及固定超參數）而具備增強的功能。更重要的是，這三個模型都擁有廣泛的上下文窗口，使它們能夠在單次互動中處理更多資訊。

儘管發布令人興奮，但AI社群的反應充其量只能說是冷淡。週六，Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用，但反響遠非熱烈。

Llama 4引發AI使用者的困惑與批評

在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子，傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員，聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示，Meta的領導層通過在後訓練階段混合測試集來操縱結果，以滿足各種指標並呈現有利結果。該說法的真實性受到質疑，Meta尚未回應VentureBeat的詢問。

然而，對Llama 4性能的質疑並未止於此。在X上，用戶@cto_junior對該模型的表現表示難以置信，引用了一項獨立測試，顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。

AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口，指出這是“虛擬的”，因為該模型未在超過256k token的提示上進行訓練。他警告說，發送更長的提示可能會導致低品質的輸出。

在r/LocalLlama子版塊上，用戶Dr_Karminski對Llama 4表示失望，比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。

前Meta研究員、現為AI2高級研究科學家的Nathan Lambert，在其Interconnects Substack博客上批評了Meta的基準比較。他指出，Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同，後者被優化為更具對話性。Lambert指出這一差異，說道：“狡猾。下面展示的結果是假的，對Meta的社群來說，不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說，雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”，但在其他平台上可用的實際模型“相當聰明且語氣合理”。

Meta回應，否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤

針對批評和指控，Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情，但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控，強調品質變化的原因是實現錯誤，而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心，以及與社群合作實現其潛力的承諾。

然而，這一回應並未平息社群的挫折感，許多人仍報告性能不佳，並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題，引發了關於其開發和推出的疑問。

此次發布的時機引人注目，因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩，並於週末推廣了Llama 4模型系列。

隨著Llama 4繼續被其他推理提供者採用，結果喜憂參半，顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon，將是模型系列第三方開發者的首次聚會，預計將成為討論和爭論的熱點。我們將密切關注進展，請持續關注。

Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息 Facebook Marketplace 推出新的 Meta AI 功能，包括針對買家詢問的自動回覆，該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案，並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問，Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時，賣家可利用 Meta AI 根據商品資訊（如描述、庫存狀況、

Meta 簽署協議，採購數百萬顆亞馬遜 AI 處理器亞馬遜已與 Meta 達成一項重要合作，再次仰賴其自行設計的晶片。亞馬遜週五證實，Meta 已同意部署數百萬顆 AWS Graviton 晶片，以滿足其日益增長的人工智慧需求。請注意，AWS Graviton 是一款基於 ARM 架構的 CPU（中央處理器，專為通用運算設計），而非 GPU（圖形處理器）。雖然 GPU 仍是訓練大型模型的首選晶片，但一旦模型訓練完成，基於這些模型建構的 AI 代理程

Meta 的天然氣需求激增可能為南達科他州的電力網注入動能資料中心的規模已膨脹至如此之大，其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例：一旦完工，其用電量將與南達科他州相當。Meta最近宣布，除了已規劃的三座天然氣發電廠外，將再投資興建七座，以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣，Meta 長期以

相關專題推薦

商業

頂尖 AI 定價優化軟體：追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，這些工具不僅能追蹤競爭對手，還能自動調整您的商店價格，以實現利潤最大化。透過實際測試，比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具

xix.ai

代碼

最佳 AI 程式碼審查工具：自動化確保程式碼整潔度，並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，可自動確保程式碼符合規範，並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具

xix.ai

文字轉語音

專為閱讀障礙設計的頂尖 AI 語音合成應用程式：協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成（TTS）應用程式。我們的專家評比將免費與付費工具進行對照，重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案，釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具

xix.ai

漫畫創作

少年漫畫頂尖 AI 生成器：打造高張力動作場面與能量特效

立即前往 XIX.AI，探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單，匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試，比較免費與付費選項的差異。釋放您的創作潛能，今天就開始打造史詩級漫畫吧！

15 個工具

xix.ai

商業

最佳 AI 支出追蹤工具：掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具：備受好評的解決方案，可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案，助您輕鬆管理報銷、精準追蹤財務，並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南，將協助您找到最合適的選擇。透過 XIX.AI 的專家精選，釋放您的 AI 優勢。

10 個工具

xix.ai

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

評論 (11)

0/500

請登錄後再操作

PaulGonzalez

2026-05-06 10:00:47

Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!

WalterHarris

2025-12-30 00:30:49

Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔

HenryBrown

2025-10-04 08:30:32

Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant

JohnWilson

2025-08-26 09:01:18

Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐

HarryRoberts

2025-08-22 05:01:34

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙

ArthurJones

2025-08-12 19:00:59

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選