Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因
在周末,Meta,这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头,出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款,而是三种新版本,每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法(涉及固定超参数)而拥有增强的功能。此外,所有三种模型都具有扩展的上下文窗口,使它们能在一次交互中处理更多信息。
尽管发布令人兴奋,但AI社区的反应最多只能算是不温不火。周六,Meta将其中两款模型,Llama 4 Scout和Llama 4 Maverick,开放供下载和使用,但回应远非热情。
Llama 4引发AI用户的困惑和批评
在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子,这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员,声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果,以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑,Meta尚未回应VentureBeat的询问。
然而,对Llama 4性能的质疑并未止于此。在X平台上,用户@cto_junior对模型的性能表示怀疑,引用了一项独立测试,Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型,如DeepSeek V3和Claude 3.7 Sonnet。
AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口,称其为“虚拟的”,因为该模型未在超过256k token的提示上进行训练。他警告说,发送更长的提示可能会导致低质量输出。
在r/LocalLlama子版块上,用户Dr_Karminski对Llama 4表示失望,将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。
前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出,Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同,后者针对对话性进行了优化。Lambert指出这种差异,称:“狡猾。下面的结果是假的,对Meta社区来说,不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说,尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”,但其他平台上可用的实际模型“相当聪明,语气也合理。”

Meta回应,否认“在测试集上训练”并归因于快速推出导致的实施错误
针对批评和指控,Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情,但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控,强调质量不一的原因是实施错误,而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念,以及与社区合作实现其潜力的承诺。
然而,这一回应并未能平息社区的失望,许多人仍报告性能不佳,并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题,引发了对其开发和推出的疑问。
此次发布的时间点引人注目,因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激,并于周末推广了Llama 4模型系列。
随着Llama 4继续被其他推理提供商采用,结果好坏参半,显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会,预计将成为讨论和辩论的热点。我们将密切关注进展,敬请关注。
相关文章
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
相关专题推荐
评论 (11)
0/500
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙
在周末,Meta,这个支持Facebook、Instagram、WhatsApp和Quest VR的巨头,出人意料地推出了他们最新的AI语言模型Llama 4。不仅推出了一款,而是三种新版本,每种都因“Mixture-of-Experts”架构和一种名为MetaP的新训练方法(涉及固定超参数)而拥有增强的功能。此外,所有三种模型都具有扩展的上下文窗口,使它们能在一次交互中处理更多信息。
尽管发布令人兴奋,但AI社区的反应最多只能算是不温不火。周六,Meta将其中两款模型,Llama 4 Scout和Llama 4 Maverick,开放供下载和使用,但回应远非热情。
Llama 4引发AI用户的困惑和批评
在北美颇受欢迎的中文社区1point3acres论坛上出现了一篇未经证实帖子,这篇帖子被转到了Reddit的r/LocalLlama子版块。据称这篇帖子来自Meta GenAI组织的一名研究员,声称Llama 4在内部第三方基准测试中表现不佳。帖子暗示Meta领导层通过在后训练期间混合测试集来操纵结果,以满足各种指标并呈现有利的结果。这一说法的真实性受到质疑,Meta尚未回应VentureBeat的询问。
然而,对Llama 4性能的质疑并未止于此。在X平台上,用户@cto_junior对模型的性能表示怀疑,引用了一项独立测试,Llama 4 Maverick在测试编码任务的aider polyglot基准测试中仅得分16%。这一分数远低于同等规模的旧模型,如DeepSeek V3和Claude 3.7 Sonnet。
AI博士兼作者Andriy Burkov也在X上质疑Llama 4 Scout宣称的1000万token上下文窗口,称其为“虚拟的”,因为该模型未在超过256k token的提示上进行训练。他警告说,发送更长的提示可能会导致低质量输出。
在r/LocalLlama子版块上,用户Dr_Karminski对Llama 4表示失望,将其较差的性能与DeepSeek的非推理V3模型在模拟七边形内球运动等任务上进行比较。
前Meta研究员、现AI2高级研究科学家Nathan Lambert在其Interconnects Substack博客上批评了Meta的基准比较。他指出,Meta宣传材料中使用的Llama 4 Maverick模型与公开发布的模型不同,后者针对对话性进行了优化。Lambert指出这种差异,称:“狡猾。下面的结果是假的,对Meta社区来说,不发布他们用于主要营销推广的模型是一个重大冒犯。”他补充说,尽管宣传模型“因其幼稚的特性正在损害发布的技术声誉”,但其他平台上可用的实际模型“相当聪明,语气也合理。”

Meta回应,否认“在测试集上训练”并归因于快速推出导致的实施错误
针对批评和指控,Meta的副总裁兼GenAI负责人Ahmad Al-Dahle在X上回应了这些关切。他表达了对社区参与Llama 4的热情,但承认不同服务中质量不一致的报告。他将这些问题归因于快速推出以及公共实施稳定所需的时间。Al-Dahle坚决否认了在测试集上训练的指控,强调质量不一的原因是实施错误,而非任何不当行为。他重申了Meta对Llama 4模型重大进步的信念,以及与社区合作实现其潜力的承诺。
然而,这一回应并未能平息社区的失望,许多人仍报告性能不佳,并要求提供更多关于模型训练过程的技术文档。此次发布比之前的Llama版本面临更多问题,引发了对其开发和推出的疑问。
此次发布的时间点引人注目,因为它是在Meta研究副总裁Joelle Pineau宣布离职之后。她上周在LinkedIn上表达了对公司的感激,并于周末推广了Llama 4模型系列。
随着Llama 4继续被其他推理提供商采用,结果好坏参半,显然初始发布并未达到Meta所期望的成功。即将于4月29日举行的首届Meta LlamaCon将是第三方开发者的首次聚会,预计将成为讨论和辩论的热点。我们将密切关注进展,敬请关注。
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
Meta签署协议,采购数百万颗亚马逊AI处理器
亚马逊已与Meta达成一项重要合作,再次依托其自主设计的芯片。亚马逊周五证实,Meta已同意部署数百万颗AWS Graviton芯片,以满足其不断增长的人工智能需求。需注意,AWS Graviton是一款基于ARM架构的CPU(中央处理器,用于通用计算),而非GPU(图形处理器)。虽然GPU仍是训练大型模型的首选芯片,但一旦模型训练完成,基于这些模型构建的AI代理正推动着所需芯片类型的转变。这些代
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙





首页






