Meta的AI模型基准:误导性?

Meta 在周末发布了他们的新 AI 模型 Maverick,它已经在 LM Arena 上掀起波澜,夺得了第二名的位置。你知道的,那个地方是人类扮演法官和陪审团的角色,比较不同的 AI 模型并挑选他们喜欢的。不过,等等,有个转折!结果发现,在 LM Arena 上展示风采的 Maverick 版本,与开发者可以下载和使用的版本并不完全相同。
一些敏锐的 AI 研究者在 X(是的,那个以前叫 Twitter 的平台)上发现,Meta 将 LM Arena 版本称为“实验性聊天版本”。如果你去 Llama 网站上看,有一张图表透露了细节,称测试使用的是“为对话优化设计的 Llama 4 Maverick”。我们之前讨论过这个,但 LM Arena 并不是衡量 AI 性能的黄金标准。大多数 AI 公司不会为了在这个测试中得分更高而专门调整模型——或者至少,他们不会承认这样做。
问题是,当你调整一个模型以在基准测试中表现出色,但随后向公众发布一个不同的“普通”版本时,开发者很难弄清楚这个模型在现实场景中的实际表现如何。而且,这有点误导,对吧?基准测试虽然有缺陷,但应该为我们提供模型在不同任务中能做什么和不能做什么的清晰图景。
X 上的研究者很快就注意到,你可以下载的 Maverick 和 LM Arena 上的版本之间存在一些重大差异。Arena 版本似乎特别喜欢使用表情符号,而且回答总是冗长而拖沓。
好吧,Llama 4 确实有点过头了,哈哈,这是什么啰嗦之城 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
出于某种原因,Arena 中的 Llama 4 模型使用了更多的表情符号
在 together.ai 上,它似乎表现更好:pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 2025年4月6日
我们已经联系了 Meta 和运行 LM Arena 的 Chatbot Arena 团队,看看他们对此有什么说法。敬请期待!
相关文章
Meta为AI人才提供高薪,否认1亿美元签约奖金
Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
Meta 增强人工智能安全,推出高级 Llama 工具
Meta 发布了新的 Llama 安全工具,以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合,旨在增强网络安全团队利用人工智能进行防御的能力,提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。
Meta加强努力遏制Facebook上的非原创内容
周一,Meta宣布了更严格的措施,以处理在Facebook上发布非原创内容的账户,针对那些反复使用他人文本、图片或视频的账户。该公司报告称,今年已移除约1000万个冒充知名内容创作者的账户。此外,Meta已处理了50万个涉及垃圾行为或虚假互动的账户,采取措施如降低评论排名和限制内容分发,以阻碍变现努力。此举是在YouTube更新其非原创内容政策后不久,特别是在人工智能技术进步使得大规模生产或重复视
评论 (36)
0/200
ScottWalker
2025-07-28 09:20:54
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
0
KennethMartin
2025-04-21 18:14:21
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
0
WalterThomas
2025-04-21 10:55:14
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
0
JohnYoung
2025-04-18 23:03:42
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔
0
JohnHernández
2025-04-18 00:58:48
Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀
0
MarkScott
2025-04-17 13:54:17
Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀
0
Meta 在周末发布了他们的新 AI 模型 Maverick,它已经在 LM Arena 上掀起波澜,夺得了第二名的位置。你知道的,那个地方是人类扮演法官和陪审团的角色,比较不同的 AI 模型并挑选他们喜欢的。不过,等等,有个转折!结果发现,在 LM Arena 上展示风采的 Maverick 版本,与开发者可以下载和使用的版本并不完全相同。
一些敏锐的 AI 研究者在 X(是的,那个以前叫 Twitter 的平台)上发现,Meta 将 LM Arena 版本称为“实验性聊天版本”。如果你去 Llama 网站上看,有一张图表透露了细节,称测试使用的是“为对话优化设计的 Llama 4 Maverick”。我们之前讨论过这个,但 LM Arena 并不是衡量 AI 性能的黄金标准。大多数 AI 公司不会为了在这个测试中得分更高而专门调整模型——或者至少,他们不会承认这样做。
问题是,当你调整一个模型以在基准测试中表现出色,但随后向公众发布一个不同的“普通”版本时,开发者很难弄清楚这个模型在现实场景中的实际表现如何。而且,这有点误导,对吧?基准测试虽然有缺陷,但应该为我们提供模型在不同任务中能做什么和不能做什么的清晰图景。
X 上的研究者很快就注意到,你可以下载的 Maverick 和 LM Arena 上的版本之间存在一些重大差异。Arena 版本似乎特别喜欢使用表情符号,而且回答总是冗长而拖沓。
好吧,Llama 4 确实有点过头了,哈哈,这是什么啰嗦之城 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
出于某种原因,Arena 中的 Llama 4 模型使用了更多的表情符号
— Tech Dev Notes (@techdevnotes) 2025年4月6日
在 together.ai 上,它似乎表现更好:pic.twitter.com/f74ODX4zTt
我们已经联系了 Meta 和运行 LM Arena 的 Chatbot Arena 团队,看看他们对此有什么说法。敬请期待!



Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?




Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!




मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!




메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔




Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀




Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀












