首页 新闻 Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因

2025年04月22日
BillyAdams
29

上周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大企业Meta通过揭开其最新的AI语言模型Llama 4的方式使所有人感到惊讶。不仅是一个,而且引入了三个新版本,每个版本都具有增强的功能,这要归功于“ Expexperts的混合物”和一种新颖的培训方法,并具有一种固定的超级镜头,这使人感到更加固定的培训方法,这使人感到更加。更重要的是,这三个模型都带有扩展的上下文窗口,从而使他们可以在单个交互中处理更多信息。

尽管发行了兴奋,但AI社区的反应充其量只是不冷不热。周六,Meta制作了其中两个模型,即Llama 4 Scout和Llama 4 Maverick,可下载和使用,但响应远非热情。

Llama 4在AI用户中引起困惑和批评

在北美受欢迎的中文社区1Point3Acres论坛上的未经验证的帖子找到了Reddit上R/Localllama Subreddit的方式。据称,该帖子来自Meta Genai组织的一名研究人员,声称Llama 4在内部第三方基准测试方面表现不佳。它表明,梅塔(Meta)的领导能够通过在培训后融合测试集以满足各种指标并提出有利的结果来操纵结果。这一主张的真实性受到了怀疑,元尚未回应VentureBeat的询问。

然而,对骆驼4的表现的怀疑并没有止步于此。在X上,用户@cto_junior在模型的性能上表示难以置信,并引用了独立的测试,其中Llama 4 Maverick在AIDER Polyglot基准测试中仅得分16%,该基准测试了编码任务。该分数明显低于较旧的,类似大小的模型,例如DeepSeek V3和Claude 3.7十四行诗。

AI博士学位和作家Andriy Burkov还涉及X质疑该模型为Llama 4 Scout的1000万个tokenting上下文窗口质疑这是“虚拟”,因为该模型未在提示上训练的时间超过256K令牌。他警告说,发送更长的提示可能会导致低质量的产出。

在R/Localllama subreddit上,用户DR_Karminski对Llama 4分享了失望,将其糟糕的性能与DeepSeek的非争议V3模型进行了比较,例如在含Heptagon中模拟球移动的任务。

Nathan Lambert是AI2的前META研究员兼现任高级研究科学家,在其InterConnects替代博客上批评了Meta的基准比较。他指出,在元促销材料中使用的Llama 4 Maverick模型不同于公开发布的模型,而不是公开发行的材料,而是以对话性进行了优化。兰伯特(Lambert)指出,差异说:“偷偷摸摸。以下结果是假的,对于梅塔(Meta)社区来说,不释放他们用来创造主要营销推动的模型的重要性。”他补充说,虽然促销模型“赢得了发行版的技术声誉,因为其角色是少年的,但其他平台上可用的实际模型“很聪明,具有合理的语气”。

元回应,否认“测试集培训”,并引用由于快速推出而在实施中引用错误

为了应对批评和指控,梅塔(Meta)的副总裁兼Genai的负责人艾哈迈德·达勒(Ahmad al-Dahle)提出了X来解决问题。他对社区与骆驼4的互动表示热情,但承认各种服务质量不一致的报道。他将这些问题归因于公众实施稳定所需的时间。 Al-Dahle坚定地否认了对测试集培训的指控,强调可变质量是由于实施错误而不是任何不当行为所致。他重申了Meta对Llama 4模型的重大进步的信念,以及他们致力于与社区合作以实现其潜力的承诺。

但是,这种反应几乎没有使社区的挫败感平息了,许多人仍报告表现不佳,并要求有关模型的培训过程的更多技术文档。该版本比以前的美洲驼(Llama)版本面临更多的问题,这引发了有关其开发和推出的问题。

该版本的时机是值得注意的,因为它是Meta的研究副总裁Joelle Pineau的离开,后者在上周宣布了她在LinkedIn的退出,并感谢她在公司的时间。 Pineau还在周末推广了Llama 4模型家族。

由于Llama 4继续被其他推理提供者采用,结果不同,很明显,最初的发布并不是Meta可能希望的成功。即将到来的Meta Llamacon将于4月29日成为模特家族第三方开发商的第一个聚会,可能是讨论和辩论的温床。我们将密切关注发展,因此请继续关注。

相关文章
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US Das KI -Startup sichert 7,5 Millionen US 1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
评论 (0)
0/200
返回顶部
OR