首頁 消息 Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

2025年04月22日
BillyAdams
29

上週末,Facebook,Instagram,WhatsApp和Quest VR背後的強大企業Meta通過揭開其最新的AI語言模型Llama 4的方式使所有人感到驚訝。不僅是一個,而且引入了三個新版本,每個版本都具有增強的功能,這要歸功於“ Expexperts的混合物”和一種新穎的培訓方法,並具有一種固定的超級鏡頭,這使人感到更加固定的培訓方法,這使人感到更加。更重要的是,這三個模型都帶有擴展的上下文窗口,從而使他們可以在單個交互中處理更多信息。

儘管發行了興奮,但AI社區的反應充其量只是不冷不熱。週六,Meta製作了其中兩個模型,即Llama 4 Scout和Llama 4 Maverick,可下載和使用,但響應遠非熱情。

Llama 4在AI用戶中引起困惑和批評

在北美受歡迎的中文社區1Point3Acres論壇上的未經驗證的帖子找到了Reddit上R/Localllama Subreddit的方式。據稱,該帖子來自Meta Genai組織的一名研究人員,聲稱Llama 4在內部第三方基準測試方面表現不佳。它表明,梅塔(Meta)的領導能夠通過在培訓後融合測試集以滿足各種指標並提出有利的結果來操縱結果。這一主張的真實性受到了懷疑,元尚未回應VentureBeat的詢問。

然而,對駱駝4的表現的懷疑並沒有止步於此。在X上,用戶@cto_junior在模型的性能上表示難以置信,並引用了獨立的測試,其中Llama 4 Maverick在AIDER Polyglot基準測試中僅得分16%,該基準測試了編碼任務。該分數明顯低於較舊的,類似大小的模型,例如DeepSeek V3和Claude 3.7十四行詩。

AI博士學位和作家Andriy Burkov還涉及X質疑該模型為Llama 4 Scout的1000萬個tokenting上下文窗口質疑這是“虛擬”,因為該模型未在提示上訓練的時間超過256K令牌。他警告說,發送更長的提示可能會導致低質量的產出。

在R/Localllama subreddit上,用戶DR_Karminski對Llama 4分享了失望,將其糟糕的性能與DeepSeek的非爭議V3模型進行了比較,例如在含Heptagon中模擬球移動的任務。

Nathan Lambert是AI2的前META研究員兼現任高級研究科學家,在其InterConnects替代博客上批評了Meta的基準比較。他指出,在元促銷材料中使用的Llama 4 Maverick模型不同於公開發布的模型,而不是公開發行的材料,而是以對話性進行了優化。蘭伯特(Lambert)指出,差異說:“偷偷摸摸。以下結果是假的,對於梅塔(Meta)社區來說,不釋放他們用來創造主要營銷推動的模型的重要性。”他補充說,雖然促銷模型“贏得了發行版的技術聲譽,因為其角色是少年的,但其他平台上可用的實際模型“很聰明,具有合理的語氣”。

元回應,否認“測試集培訓”,並引用由於快速推出而在實施中引用錯誤

為了回應批評和指控,梅塔(Meta)的副總裁兼Genai的負責人艾哈邁德·達勒(Ahmad al-Dahle)提出了X來解決問題。他對社區與駱駝4的互動表示熱情,但承認各種服務質量不一致的報導。他將這些問題歸因於公眾實施穩定所需的時間。 Al-Dahle堅定地否認了對測試集培訓的指控,強調可變質量是由於實施錯誤而不是任何不當行為所致。他重申了Meta對Llama 4模型的重大進步的信念,以及他們致力於與社區合作以實現其潛力的承諾。

但是,這種反應幾乎沒有使社區的挫敗感平息了,許多人仍報告表現不佳,並要求有關模型的培訓過程的更多技術文檔。該版本比以前的美洲駝(Llama)版本面臨更多的問題,這引發了有關其開發和推出的問題。

該版本的時機是值得注意的,因為它是Meta的研究副總裁Joelle Pineau的離開,後者在上周宣布了她在LinkedIn的退出,並感謝她在公司的時間。 Pineau還在周末推廣了Llama 4模型家族。

由於Llama 4繼續被其他推理提供者採用,結果不同,很明顯,最初的發布並不是Meta可能希望的成功。即將到來的Meta Llamacon將於4月29日成為模特家族第三方開發商的第一個聚會,可能是討論和辯論的溫床。我們將密切關注發展,因此請繼續關注。

相關文章
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US Das KI -Startup sichert 7,5 Millionen US 1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
評論 (0)
0/200
Back to Top
OR