选项
首页
新闻
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

2025-04-23
140

在周末,Meta,这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头,出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款,而是三种新版本,每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法(涉及固定超参数)而拥有增强的功能。此外,所有三种模型都具有扩展的上下文窗口,使它们能在一次交互中处理更多信息。

尽管发布令人兴奋,但AI社区的反应最多只能算是不温不火。周六,Meta将其中两款模型,Llama 4 Scout和Llama 4 Maverick,开放供下载和使用,但回应远非热情。

Llama 4引发AI用户的困惑和批评

在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子,这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员,声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果,以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑,Meta尚未回应VentureBeat的询问。

然而,对Llama 4性能的质疑并未止于此。在X平台上,用户@cto_junior对模型的性能表示怀疑,引用了一项独立测试,Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型,如DeepSeek V3和Claude 3.7 Sonnet。

AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口,称其为“虚拟的”,因为该模型未在超过256k token的提示上进行训练。他警告说,发送更长的提示可能会导致低质量输出。

在r/LocalLlama子版块上,用户Dr_Karminski对Llama 4表示失望,将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。

前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出,Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同,后者针对对话性进行了优化。Lambert指出这种差异,称:“狡猾。下面的结果是假的,对Meta社区来说,不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说,尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”,但其他平台上可用的实际模型“相当聪明,语气也合理。”

Meta回应,否认“在测试集上训练”并归因于快速推出导致的实施错误

针对批评和指控,Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情,但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控,强调质量不一的原因是实施错误,而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念,以及与社区合作实现其潜力的承诺。

然而,这一回应并未能平息社区的失望,许多人仍报告性能不佳,并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题,引发了对其开发和推出的疑问。

此次发布的时间点引人注目,因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激,并于周末推广了Llama 4模型系列。

随着Llama 4继续被其他推理提供商采用,结果好坏参半,显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会,预计将成为讨论和辩论的热点。我们将密切关注进展,敬请关注。

相关文章
顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 顶级人工智能实验室警告人类正在失去理解人工智能系统的能力 来自 OpenAI、谷歌 DeepMind、Anthropic 和 Meta 的研究人员前所未有地团结起来,搁置竞争分歧,就负责任的人工智能发展发出集体警告。来自这些通常相互竞争的组织的 40 多名顶尖科学家共同撰写了一篇开创性的研究论文,强调确保人工智能决策过程透明度的窗口正在迅速关闭。这次合作的重点是现代人工智能系统的一个关键发展--它们在生成最终输出之前,能够以人类可读的语言阐明推理过程的新
人类学的人工智能升级:克劳德现在能即时搜索整个谷歌工作区 人类学的人工智能升级:克劳德现在能即时搜索整个谷歌工作区 Anthropic 今天的重大升级将 Claude 从人工智能助手转变为该公司所称的 "真正的虚拟协作者",引入了开创性的自主研究功能和无缝谷歌工作空间集成。这些进步使 Claude 在日益拥挤的企业人工智能生产力领域成为 OpenAI 和微软的有力竞争者。新的研究力量自主多搜索功能Claude 的增强型研究功能代表了人工智能辅助调查领域的一次飞跃--在智能确定后续研究方向的同时,还能进行连续搜索
阿里巴巴的 阿里巴巴的 "零搜索 "人工智能通过自主学习将培训成本降低 88 阿里巴巴的 ZeroSearch:改变人工智能训练效率的游戏规则阿里巴巴集团的研究人员开创了一种突破性的方法,有可能彻底改变人工智能系统学习信息检索的方式,完全绕过成本高昂的商业搜索引擎 API。他们的 "零搜索"(ZeroSearch)技术能让大型语言模型在训练阶段通过模拟环境培养复杂的搜索能力,而非传统的搜索引擎交互。"研究人员在他们最新发表的 arXiv 论文中解释说:"传统的强化学习需要大
评论 (8)
0/200
JohnWilson
JohnWilson 2025-08-26 09:01:18

Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐

HarryRoberts
HarryRoberts 2025-08-22 05:01:34

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙

ArthurJones
ArthurJones 2025-08-12 19:00:59

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙

CharlesYoung
CharlesYoung 2025-04-25 03:47:05

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee
AlbertLee 2025-04-24 19:01:02

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis
HarryLewis 2025-04-24 07:06:55

ラマ4の発表、めっちゃ驚いた!😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ?

返回顶部
OR