选项
首页
新闻
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

2025-04-23
100

在周末,Meta,这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头,出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款,而是三种新版本,每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法(涉及固定超参数)而拥有增强的功能。此外,所有三种模型都具有扩展的上下文窗口,使它们能在一次交互中处理更多信息。

尽管发布令人兴奋,但AI社区的反应最多只能算是不温不火。周六,Meta将其中两款模型,Llama 4 Scout和Llama 4 Maverick,开放供下载和使用,但回应远非热情。

Llama 4引发AI用户的困惑和批评

在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子,这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员,声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果,以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑,Meta尚未回应VentureBeat的询问。

然而,对Llama 4性能的质疑并未止于此。在X平台上,用户@cto_junior对模型的性能表示怀疑,引用了一项独立测试,Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型,如DeepSeek V3和Claude 3.7 Sonnet。

AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口,称其为“虚拟的”,因为该模型未在超过256k token的提示上进行训练。他警告说,发送更长的提示可能会导致低质量输出。

在r/LocalLlama子版块上,用户Dr_Karminski对Llama 4表示失望,将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。

前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出,Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同,后者针对对话性进行了优化。Lambert指出这种差异,称:“狡猾。下面的结果是假的,对Meta社区来说,不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说,尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”,但其他平台上可用的实际模型“相当聪明,语气也合理。”

Meta回应,否认“在测试集上训练”并归因于快速推出导致的实施错误

针对批评和指控,Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情,但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控,强调质量不一的原因是实施错误,而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念,以及与社区合作实现其潜力的承诺。

然而,这一回应并未能平息社区的失望,许多人仍报告性能不佳,并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题,引发了对其开发和推出的疑问。

此次发布的时间点引人注目,因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激,并于周末推广了Llama 4模型系列。

随着Llama 4继续被其他推理提供商采用,结果好坏参半,显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会,预计将成为讨论和辩论的热点。我们将密切关注进展,敬请关注。

相关文章
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
Meta 增强人工智能安全,推出高级 Llama 工具 Meta 增强人工智能安全,推出高级 Llama 工具 Meta 发布了新的 Llama 安全工具,以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合,旨在增强网络安全团队利用人工智能进行防御的能力,提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。
评论 (5)
0/200
CharlesYoung
CharlesYoung 2025-04-25 03:47:05

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee
AlbertLee 2025-04-24 19:01:02

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis
HarryLewis 2025-04-24 07:06:55

ラマ4の発表、めっちゃ驚いた!😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ?

JackClark
JackClark 2025-04-23 14:26:04

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez
DanielPerez 2025-04-23 10:18:50

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

返回顶部
OR