选项
首页
新闻
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

2025-04-23
172

在周末,Meta,这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头,出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款,而是三种新版本,每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法(涉及固定超参数)而拥有增强的功能。此外,所有三种模型都具有扩展的上下文窗口,使它们能在一次交互中处理更多信息。

尽管发布令人兴奋,但AI社区的反应最多只能算是不温不火。周六,Meta将其中两款模型,Llama 4 Scout和Llama 4 Maverick,开放供下载和使用,但回应远非热情。

Llama 4引发AI用户的困惑和批评

在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子,这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员,声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果,以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑,Meta尚未回应VentureBeat的询问。

然而,对Llama 4性能的质疑并未止于此。在X平台上,用户@cto_junior对模型的性能表示怀疑,引用了一项独立测试,Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型,如DeepSeek V3和Claude 3.7 Sonnet。

AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口,称其为“虚拟的”,因为该模型未在超过256k token的提示上进行训练。他警告说,发送更长的提示可能会导致低质量输出。

在r/LocalLlama子版块上,用户Dr_Karminski对Llama 4表示失望,将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。

前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出,Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同,后者针对对话性进行了优化。Lambert指出这种差异,称:“狡猾。下面的结果是假的,对Meta社区来说,不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说,尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”,但其他平台上可用的实际模型“相当聪明,语气也合理。”

Meta回应,否认“在测试集上训练”并归因于快速推出导致的实施错误

针对批评和指控,Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情,但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控,强调质量不一的原因是实施错误,而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念,以及与社区合作实现其潜力的承诺。

然而,这一回应并未能平息社区的失望,许多人仍报告性能不佳,并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题,引发了对其开发和推出的疑问。

此次发布的时间点引人注目,因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激,并于周末推广了Llama 4模型系列。

随着Llama 4继续被其他推理提供商采用,结果好坏参半,显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会,预计将成为讨论和辩论的热点。我们将密切关注进展,敬请关注。

相关文章
Meta AI 现已在 Facebook Marketplace 上回复买家消息 Meta AI 现已在 Facebook Marketplace 上回复买家消息 Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器 Meta签署协议,采购数百万颗亚马逊AI处理器 亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力 Meta的天然气需求激增或将为南达科他州的电网提供动力 数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (11)
0/500
PaulGonzalez
PaulGonzalez 2026-05-06 10:00:47

Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!

WalterHarris
WalterHarris 2025-12-30 00:30:49

Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔

HenryBrown
HenryBrown 2025-10-04 08:30:32

Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant

JohnWilson
JohnWilson 2025-08-26 09:01:18

Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐

HarryRoberts
HarryRoberts 2025-08-22 05:01:34

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙

ArthurJones
ArthurJones 2025-08-12 19:00:59

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? That’s a bit concerning for a big player like Meta. Hope they iron it out soon, I’m curious to see how it stacks up against other models! 🦙

OR