選項
首頁
消息
Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

Meta捍衛Llama 4版本,引用Bug作為混合質量報告的原因

2025-04-23
72

上週末,Facebook,Instagram,WhatsApp和Quest VR背後的強大企業Meta通過揭開其最新的AI語言模型Llama 4的方式使所有人感到驚訝。不僅是一個,而且引入了三個新版本,每個版本都具有增強的功能,這要歸功於“ Expexperts的混合物”和一種新穎的培訓方法,並具有一種固定的超級鏡頭,這使人感到更加固定的培訓方法,這使人感到更加。更重要的是,這三個模型都帶有擴展的上下文窗口,從而使他們可以在單個交互中處理更多信息。

儘管發行了興奮,但AI社區的反應充其量只是不冷不熱。週六,Meta製作了其中兩個模型,即Llama 4 Scout和Llama 4 Maverick,可下載和使用,但響應遠非熱情。

Llama 4在AI用戶中引起困惑和批評

在北美受歡迎的中文社區1Point3Acres論壇上的未經驗證的帖子找到了Reddit上R/Localllama Subreddit的方式。據稱,該帖子來自Meta Genai組織的一名研究人員,聲稱Llama 4在內部第三方基準測試方面表現不佳。它表明,梅塔(Meta)的領導能夠通過在培訓後融合測試集以滿足各種指標並提出有利的結果來操縱結果。這一主張的真實性受到了懷疑,元尚未回應VentureBeat的詢問。

然而,對駱駝4的表現的懷疑並沒有止步於此。在X上,用戶@cto_junior在模型的性能上表示難以置信,並引用了獨立的測試,其中Llama 4 Maverick在AIDER Polyglot基準測試中僅得分16%,該基準測試了編碼任務。該分數明顯低於較舊的,類似大小的模型,例如DeepSeek V3和Claude 3.7十四行詩。

AI博士學位和作家Andriy Burkov還涉及X質疑該模型為Llama 4 Scout的1000萬個tokenting上下文窗口質疑這是“虛擬”,因為該模型未在提示上訓練的時間超過256K令牌。他警告說,發送更長的提示可能會導致低質量的產出。

在R/Localllama subreddit上,用戶DR_Karminski對Llama 4分享了失望,將其糟糕的性能與DeepSeek的非爭議V3模型進行了比較,例如在含Heptagon中模擬球移動的任務。

Nathan Lambert是AI2的前META研究員兼現任高級研究科學家,在其InterConnects替代博客上批評了Meta的基準比較。他指出,在元促銷材料中使用的Llama 4 Maverick模型不同於公開發布的模型,而不是公開發行的材料,而是以對話性進行了優化。蘭伯特(Lambert)指出,差異說:“偷偷摸摸。以下結果是假的,對於梅塔(Meta)社區來說,不釋放他們用來創造主要營銷推動的模型的重要性。”他補充說,雖然促銷模型“贏得了發行版的技術聲譽,因為其角色是少年的,但其他平台上可用的實際模型“很聰明,具有合理的語氣”。

元回應,否認“測試集培訓”,並引用由於快速推出而在實施中引用錯誤

為了回應批評和指控,梅塔(Meta)的副總裁兼Genai的負責人艾哈邁德·達勒(Ahmad al-Dahle)提出了X來解決問題。他對社區與駱駝4的互動表示熱情,但承認各種服務質量不一致的報導。他將這些問題歸因於公眾實施穩定所需的時間。 Al-Dahle堅定地否認了對測試集培訓的指控,強調可變質量是由於實施錯誤而不是任何不當行為所致。他重申了Meta對Llama 4模型的重大進步的信念,以及他們致力於與社區合作以實現其潛力的承諾。

但是,這種反應幾乎沒有使社區的挫敗感平息了,許多人仍報告表現不佳,並要求有關模型的培訓過程的更多技術文檔。該版本比以前的美洲駝(Llama)版本面臨更多的問題,這引發了有關其開發和推出的問題。

該版本的時機是值得注意的,因為它是Meta的研究副總裁Joelle Pineau的離開,後者在上周宣布了她在LinkedIn的退出,並感謝她在公司的時間。 Pineau還在周末推廣了Llama 4模型家族。

由於Llama 4繼續被其他推理提供者採用,結果不同,很明顯,最初的發布並不是Meta可能希望的成功。即將到來的Meta Llamacon將於4月29日成為模特家族第三方開發商的第一個聚會,可能是討論和辯論的溫床。我們將密切關注發展,因此請繼續關注。

相關文章
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
評論 (0)
0/200
回到頂部
OR