Meta捍卫Llama 4版本，引用Bug作为混合质量报告的原因

首页

新闻

2025-04-23

BillyAdams

172

# meta # llama # nlp # llama-4 # Scandal

在周末，Meta，这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头，出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款，而是三种新版本，每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法（涉及固定超参数）而拥有增强的功能。此外，所有三种模型都具有扩展的上下文窗口，使它们能在一次交互中处理更多信息。

尽管发布令人兴奋，但AI社区的反应最多只能算是不温不火。周六，Meta将其中两款模型，Llama 4 Scout和Llama 4 Maverick，开放供下载和使用，但回应远非热情。

Llama 4引发AI用户的困惑和批评

在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子，这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员，声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果，以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑，Meta尚未回应VentureBeat的询问。

然而，对Llama 4性能的质疑并未止于此。在X平台上，用户@cto_junior对模型的性能表示怀疑，引用了一项独立测试，Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型，如DeepSeek V3和Claude 3.7 Sonnet。

AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口，称其为“虚拟的”，因为该模型未在超过256k token的提示上进行训练。他警告说，发送更长的提示可能会导致低质量输出。

在r/LocalLlama子版块上，用户Dr_Karminski对Llama 4表示失望，将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。

前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出，Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同，后者针对对话性进行了优化。Lambert指出这种差异，称：“狡猾。下面的结果是假的，对Meta社区来说，不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说，尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”，但其他平台上可用的实际模型“相当聪明，语气也合理。”

Meta回应，否认“在测试集上训练”并归因于快速推出导致的实施错误

针对批评和指控，Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情，但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控，强调质量不一的原因是实施错误，而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念，以及与社区合作实现其潜力的承诺。

然而，这一回应并未能平息社区的失望，许多人仍报告性能不佳，并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题，引发了对其开发和推出的疑问。

此次发布的时间点引人注目，因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激，并于周末推广了Llama 4模型系列。

随着Llama 4继续被其他推理提供商采用，结果好坏参半，显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会，预计将成为讨论和辩论的热点。我们将密切关注进展，敬请关注。

Meta AI 现已在 Facebook Marketplace 上回复买家消息 Facebook周四宣布，Facebook Marketplace推出了新的Meta AI功能，包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料，并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询，Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时，卖家可利用Meta AI根据商品详情（如描述、库存、自提地点和价格）自

Meta签署协议，采购数百万颗亚马逊AI处理器亚马逊已与Meta达成一项重要合作，再次依托其自主设计的芯片。亚马逊周五证实，Meta已同意部署数百万颗AWS Graviton芯片，以满足其不断增长的人工智能需求。需注意，AWS Graviton是一款基于ARM架构的CPU（中央处理器，用于通用计算），而非GPU（图形处理器）。虽然GPU仍是训练大型模型的首选芯片，但一旦模型训练完成，基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代

Meta的天然气需求激增或将为南达科他州的电网提供动力数据中心的规模已变得如此庞大，其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例：建成后，其耗电量将与南达科他州相当。Meta最近宣布，除了已规划的三座天然气发电厂外，还将为另外七座提供资金，以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样，Meta长期以来

相关专题推荐

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

0/500

请登录后再操作

PaulGonzalez

2026-05-06 10:00:47

Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!

WalterHarris

2025-12-30 00:30:49

Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔

HenryBrown

2025-10-04 08:30:32

Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant

JohnWilson

2025-08-26 09:01:18

Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐

HarryRoberts

2025-08-22 05:01:34

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙

ArthurJones

2025-08-12 19:00:59

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选