Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因
週末期間,擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta,出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本,而是推出了三個新版本,每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法(涉及固定超參數)而具備增強的功能。更重要的是,這三個模型都擁有廣泛的上下文窗口,使它們能夠在單次互動中處理更多資訊。
儘管發布令人興奮,但AI社群的反應充其量只能說是冷淡。週六,Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用,但反響遠非熱烈。
Llama 4引發AI使用者的困惑與批評
在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子,傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員,聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示,Meta的領導層通過在後訓練階段混合測試集來操縱結果,以滿足各種指標並呈現有利結果。該說法的真實性受到質疑,Meta尚未回應VentureBeat的詢問。
然而,對Llama 4性能的質疑並未止於此。在X上,用戶@cto_junior對該模型的表現表示難以置信,引用了一項獨立測試,顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。
AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口,指出這是“虛擬的”,因為該模型未在超過256k token的提示上進行訓練。他警告說,發送更長的提示可能會導致低品質的輸出。
在r/LocalLlama子版塊上,用戶Dr_Karminski對Llama 4表示失望,比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。
前Meta研究員、現為AI2高級研究科學家的Nathan Lambert,在其Interconnects Substack博客上批評了Meta的基準比較。他指出,Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同,後者被優化為更具對話性。Lambert指出這一差異,說道:“狡猾。下面展示的結果是假的,對Meta的社群來說,不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說,雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”,但在其他平台上可用的實際模型“相當聰明且語氣合理”。

Meta回應,否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤
針對批評和指控,Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情,但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控,強調品質變化的原因是實現錯誤,而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心,以及與社群合作實現其潛力的承諾。
然而,這一回應並未平息社群的挫折感,許多人仍報告性能不佳,並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題,引發了關於其開發和推出的疑問。
此次發布的時機引人注目,因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩,並於週末推廣了Llama 4模型系列。
隨著Llama 4繼續被其他推理提供者採用,結果喜憂參半,顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon,將是模型系列第三方開發者的首次聚會,預計將成為討論和爭論的熱點。我們將密切關注進展,請持續關注。
相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
相關專題推薦
評論 (11)
0/500
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙
週末期間,擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta,出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本,而是推出了三個新版本,每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法(涉及固定超參數)而具備增強的功能。更重要的是,這三個模型都擁有廣泛的上下文窗口,使它們能夠在單次互動中處理更多資訊。
儘管發布令人興奮,但AI社群的反應充其量只能說是冷淡。週六,Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用,但反響遠非熱烈。
Llama 4引發AI使用者的困惑與批評
在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子,傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員,聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示,Meta的領導層通過在後訓練階段混合測試集來操縱結果,以滿足各種指標並呈現有利結果。該說法的真實性受到質疑,Meta尚未回應VentureBeat的詢問。
然而,對Llama 4性能的質疑並未止於此。在X上,用戶@cto_junior對該模型的表現表示難以置信,引用了一項獨立測試,顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。
AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口,指出這是“虛擬的”,因為該模型未在超過256k token的提示上進行訓練。他警告說,發送更長的提示可能會導致低品質的輸出。
在r/LocalLlama子版塊上,用戶Dr_Karminski對Llama 4表示失望,比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。
前Meta研究員、現為AI2高級研究科學家的Nathan Lambert,在其Interconnects Substack博客上批評了Meta的基準比較。他指出,Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同,後者被優化為更具對話性。Lambert指出這一差異,說道:“狡猾。下面展示的結果是假的,對Meta的社群來說,不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說,雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”,但在其他平台上可用的實際模型“相當聰明且語氣合理”。

Meta回應,否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤
針對批評和指控,Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情,但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控,強調品質變化的原因是實現錯誤,而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心,以及與社群合作實現其潛力的承諾。
然而,這一回應並未平息社群的挫折感,許多人仍報告性能不佳,並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題,引發了關於其開發和推出的疑問。
此次發布的時機引人注目,因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩,並於週末推廣了Llama 4模型系列。
隨著Llama 4繼續被其他推理提供者採用,結果喜憂參半,顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon,將是模型系列第三方開發者的首次聚會,預計將成為討論和爭論的熱點。我們將密切關注進展,請持續關注。
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙





首頁






