選項
首頁
新聞
Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

2025-04-23
100

週末期間,擁有Facebook、Instagram、WhatsApp和Quest VR的強大企業Meta,出人意料地推出了其最新的AI語言模型Llama 4。不僅僅是一個版本,而是推出了三個新版本,每個版本都因採用了“專家混合”架構和一種名為MetaP的新穎訓練方法(涉及固定超參數)而具備增強的功能。更重要的是,這三個模型都擁有廣泛的上下文窗口,使它們能夠在單次互動中處理更多資訊。

儘管發布令人興奮,但AI社群的反應充其量只能說是冷淡。週六,Meta將其中兩個模型Llama 4 Scout和Llama 4 Maverick開放供下載和使用,但反響遠非熱烈。

Llama 4引發AI使用者的困惑與批評

在北美流行的中文社群論壇1point3acres上的一則未經證實的帖子,傳到了Reddit的r/LocalLlama子版塊。該帖子據稱來自Meta的GenAI組織的一名研究人員,聲稱Llama 4在內部第三方基準測試中表現不佳。帖子暗示,Meta的領導層通過在後訓練階段混合測試集來操縱結果,以滿足各種指標並呈現有利結果。該說法的真實性受到質疑,Meta尚未回應VentureBeat的詢問。

然而,對Llama 4性能的質疑並未止於此。在X上,用戶@cto_junior對該模型的表現表示難以置信,引用了一項獨立測試,顯示Llama 4 Maverick在測試編碼任務的aider polyglot基準測試中僅得分16%。這一得分遠低於DeepSeek V3和Claude 3.7 Sonnet等同等規模的舊模型。

AI博士兼作者Andriy Burkov也在X上質疑Llama 4 Scout宣稱的1000萬token上下文窗口,指出這是“虛擬的”,因為該模型未在超過256k token的提示上進行訓練。他警告說,發送更長的提示可能會導致低品質的輸出。

在r/LocalLlama子版塊上,用戶Dr_Karminski對Llama 4表示失望,比較其在模擬七邊形內球體運動等任務上的表現與DeepSeek的非推理V3模型相比表現不佳。

前Meta研究員、現為AI2高級研究科學家的Nathan Lambert,在其Interconnects Substack博客上批評了Meta的基準比較。他指出,Meta宣傳材料中使用的Llama 4 Maverick模型與公開發布的模型不同,後者被優化為更具對話性。Lambert指出這一差異,說道:“狡猾。下面展示的結果是假的,對Meta的社群來說,不發布他們用於主要行銷推廣的模型是一大侮辱。”他補充說,雖然宣傳模型“因其幼稚的特性而損害了發布的技術聲譽”,但在其他平台上可用的實際模型“相當聰明且語氣合理”。

Meta回應,否認“在測試集上訓練”並歸咎於快速推出導致的實現錯誤

針對批評和指控,Meta的副總裁兼GenAI負責人Ahmad Al-Dahle在X上回應了這些擔憂。他對社群與Llama 4的互動表示熱情,但承認不同服務的品質報告不一致。他將這些問題歸因於快速推出以及公開實現穩定所需的時間。Al-Dahle堅決否認在測試集上訓練的指控,強調品質變化的原因是實現錯誤,而非任何不當行為。他重申Meta對Llama 4模型重大進展的信心,以及與社群合作實現其潛力的承諾。

然而,這一回應並未平息社群的挫折感,許多人仍報告性能不佳,並要求提供更多關於模型訓練過程的技術文件。這次發布比之前的Llama版本面臨更多問題,引發了關於其開發和推出的疑問。

此次發布的時機引人注目,因為它是在Meta研究副總裁Joelle Pineau宣佈離職之後。Joelle Pineau上週在LinkedIn上表達了對公司在職期間的感恩,並於週末推廣了Llama 4模型系列。

隨著Llama 4繼續被其他推理提供者採用,結果喜憂參半,顯然這次初步發布並未如Meta所希望的那樣成功。即將於4月29日舉行的首屆Meta LlamaCon,將是模型系列第三方開發者的首次聚會,預計將成為討論和爭論的熱點。我們將密切關注進展,請持續關注。

相關文章
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
Meta增強AI安全以先進Llama工具 Meta增強AI安全以先進Llama工具 Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
評論 (5)
0/200
CharlesYoung
CharlesYoung 2025-04-25 03:47:05

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee
AlbertLee 2025-04-24 19:01:02

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis
HarryLewis 2025-04-24 07:06:55

ラマ4の発表、めっちゃ驚いた!😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ?

JackClark
JackClark 2025-04-23 14:26:04

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez
DanielPerez 2025-04-23 10:18:50

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

回到頂部
OR