Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因
週末期間,擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta,出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本,而是推出了三個新版本,每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法(涉及固定超參數)而具備增強的功能。更重要的是,這三個模型都擁有廣泛的上下文窗口,使它們能夠在單次互動中處理更多資訊。
儘管發布令人興奮,但AI社群的反應充其量只能說是冷淡。週六,Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用,但反響遠非熱烈。
Llama 4引發AI使用者的困惑與批評
在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子,傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員,聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示,Meta的領導層通過在後訓練階段混合測試集來操縱結果,以滿足各種指標並呈現有利結果。該說法的真實性受到質疑,Meta尚未回應VentureBeat的詢問。
然而,對Llama 4性能的質疑並未止於此。在X上,用戶@cto_junior對該模型的表現表示難以置信,引用了一項獨立測試,顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。
AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口,指出這是“虛擬的”,因為該模型未在超過256k token的提示上進行訓練。他警告說,發送更長的提示可能會導致低品質的輸出。
在r/LocalLlama子版塊上,用戶Dr_Karminski對Llama 4表示失望,比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。
前Meta研究員、現為AI2高級研究科學家的Nathan Lambert,在其Interconnects Substack博客上批評了Meta的基準比較。他指出,Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同,後者被優化為更具對話性。Lambert指出這一差異,說道:“狡猾。下面展示的結果是假的,對Meta的社群來說,不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說,雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”,但在其他平台上可用的實際模型“相當聰明且語氣合理”。

Meta回應,否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤
針對批評和指控,Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情,但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控,強調品質變化的原因是實現錯誤,而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心,以及與社群合作實現其潛力的承諾。
然而,這一回應並未平息社群的挫折感,許多人仍報告性能不佳,並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題,引發了關於其開發和推出的疑問。
此次發布的時機引人注目,因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩,並於週末推廣了Llama 4模型系列。
隨著Llama 4繼續被其他推理提供者採用,結果喜憂參半,顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon,將是模型系列第三方開發者的首次聚會,預計將成為討論和爭論的熱點。我們將密切關注進展,請持續關注。
相關文章
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力
來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
Anthropic 的 AI 升級:Claude 現在可立即搜尋整個 Google 工作空間
Anthropic 今天的重大升級,將 Claude 從 AI 助理轉型為該公司所謂的「真正的虛擬協作員」,並引進突破性的自主研究功能和 Google Workspace 的無縫整合。這些進步讓 Claude 在日益擁擠的企業 AI 生產力領域中,成為 OpenAI 和 Microsoft 的有力競爭者。新的研究力量自主多重搜尋功能Claude 的增強研究功能代表著人工智能輔助調查的一大躍進 -
阿里巴巴的「ZeroSearch」AI 透過自主學習將訓練成本降低 88
阿里巴巴的 ZeroSearch:改變人工智能訓練效率的遊戲規則阿里巴巴集團的研究人員開創了一種突破性的方法,有可能徹底改變人工智能系統學習信息檢索的方式,完全繞過成本高昂的商業搜索引擎 API。他們的 ZeroSearch 技術可讓大型語言模型在訓練階段透過模擬環境培養複雜的搜尋能力,而非傳統的搜尋引擎互動。"研究人員在最新發表的 arXiv 論文中解釋說:「傳統的強化學習需要大量的搜尋要求,累
評論 (8)
0/200
JohnWilson
2025-08-26 09:01:18
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
0
HarryRoberts
2025-08-22 05:01:34
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙
0
ArthurJones
2025-08-12 19:00:59
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙
0
CharlesYoung
2025-04-25 03:47:05
Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.
0
AlbertLee
2025-04-24 19:01:02
¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.
0
HarryLewis
2025-04-24 07:06:55
ラマ4の発表、めっちゃ驚いた!😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ?
0
週末期間,擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta,出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本,而是推出了三個新版本,每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法(涉及固定超參數)而具備增強的功能。更重要的是,這三個模型都擁有廣泛的上下文窗口,使它們能夠在單次互動中處理更多資訊。
儘管發布令人興奮,但AI社群的反應充其量只能說是冷淡。週六,Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用,但反響遠非熱烈。
Llama 4引發AI使用者的困惑與批評
在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子,傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員,聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示,Meta的領導層通過在後訓練階段混合測試集來操縱結果,以滿足各種指標並呈現有利結果。該說法的真實性受到質疑,Meta尚未回應VentureBeat的詢問。
然而,對Llama 4性能的質疑並未止於此。在X上,用戶@cto_junior對該模型的表現表示難以置信,引用了一項獨立測試,顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。
AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口,指出這是“虛擬的”,因為該模型未在超過256k token的提示上進行訓練。他警告說,發送更長的提示可能會導致低品質的輸出。
在r/LocalLlama子版塊上,用戶Dr_Karminski對Llama 4表示失望,比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。
前Meta研究員、現為AI2高級研究科學家的Nathan Lambert,在其Interconnects Substack博客上批評了Meta的基準比較。他指出,Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同,後者被優化為更具對話性。Lambert指出這一差異,說道:“狡猾。下面展示的結果是假的,對Meta的社群來說,不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說,雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”,但在其他平台上可用的實際模型“相當聰明且語氣合理”。
Meta回應,否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤
針對批評和指控,Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情,但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控,強調品質變化的原因是實現錯誤,而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心,以及與社群合作實現其潛力的承諾。
然而,這一回應並未平息社群的挫折感,許多人仍報告性能不佳,並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題,引發了關於其開發和推出的疑問。
此次發布的時機引人注目,因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩,並於週末推廣了Llama 4模型系列。
隨著Llama 4繼續被其他推理提供者採用,結果喜憂參半,顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon,將是模型系列第三方開發者的首次聚會,預計將成為討論和爭論的熱點。我們將密切關注進展,請持續關注。




Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐




Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙




Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙




Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.




¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.




ラマ4の発表、めっちゃ驚いた!😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ?












