Meta的AI模型基准:误导性?
2025年04月10日
TimothyMitchell
10

因此,梅塔(Meta)在周末放弃了他们的新AI模特Maverick,并且已经在LM Arena上抢购第二名的人已经引起了轰动。您知道,这是人类可以扮演法官和陪审团的地方,比较不同的AI模型并选择他们的收藏夹。但是,抓住,有一个转折!事实证明,Maverick版本在LM Arena上构成其内容并不与您可以下载并与开发人员一起播放的版本完全相同。
X上的一些鹰眼的AI研究人员(是的,以前称为Twitter的平台)发现Meta将LM Arena版本称为“实验性聊天版本”。而且,如果您浏览Llama网站,则有一张图表洒了豆子,称测试是通过“ Llama 4 Maverick进行了优化的对话性”进行的。现在,我们之前已经讨论过这个问题,但是LM Arena并不是测量AI性能的金标准。大多数AI公司不会只是为了在此测试中得分更好,或者至少他们不承认自己的模型。
问题是,当您调整模型以ace的基准测试,然后向公众发布不同的“香草”版本时,开发人员很难弄清楚该模型在现实世界中的实际表现如何。另外,这有点具有误导性,对吗?基准,因为它们是有缺陷的,应该让我们清楚地了解模型可以和在不同任务中无法做的事情。
X上的研究人员很快就会注意到您可以下载的特立独行者与LM竞技场上的研究人员之间存在一些巨大差异。竞技场版本显然是关于表情符号的,并且喜欢给您漫长的,吸引人的答案。
好的骆驼4是一个煮熟的大声笑,这个Yap City pic.twitter.com/y3gvhbvz65
- 内森·兰伯特(@natolambert) 2025年4月6日
由于某种原因,竞技场中的Llama 4模型使用了更多的表情符号
一起。 AI,看起来更好: pic.twitter.com/f74odx4ztt
- 技术开发笔记(@TechDevnotes) 2025年4月6日
我们已经与Meta和经营LM Arena的Chatbot Arena的人们联系,以了解他们对所有这一切的看法。敬请关注!
相关文章
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.
주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤의 강국 인 Meta는 최신 AI 언어 모델 인 Llama 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었습니다.
법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다.
한 저작권법 교수 그룹은 기술 대기업이 저자의 동의없이 전자 책에 대해 LLAMA AI 모델을 전자 책으로 훈련 시켰다고 주장하면서 메타를 고소하는 저자의지지를 주었다. 교수들은 금요일 캘리포니아 북부 지역의 미국 지방 법원에서 아미 쿠스 브리핑을 제출했습니다.
Meta AI는 곧 EU 사용자의 데이터를 훈련시킬 것입니다
Meta는 최근 Facebook 및 Instagram과 같은 플랫폼의 EU 사용자의 데이터를 사용하여 AI를 교육 할 계획을 공개했습니다. 이 이니셔티브는 메타 AI와의 공개 게시물, 의견 및 채팅 이력을 활용하지만 친구 및 가족과의 개인 메시지는 제한이 없습니다.
评论 (35)
0/200
JerryGonzalez
2025年04月10日 10:18:45
Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.
0
CarlKing
2025年04月10日 10:18:45
MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。
0
SamuelEvans
2025年04月10日 10:18:45
Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.
0
BenWalker
2025年04月10日 10:18:45
Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.
0
RobertLewis
2025年04月10日 10:18:45
Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.
0
KevinBaker
2025年04月11日 18:25:04
I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?
0






因此,梅塔(Meta)在周末放弃了他们的新AI模特Maverick,并且已经在LM Arena上抢购第二名的人已经引起了轰动。您知道,这是人类可以扮演法官和陪审团的地方,比较不同的AI模型并选择他们的收藏夹。但是,抓住,有一个转折!事实证明,Maverick版本在LM Arena上构成其内容并不与您可以下载并与开发人员一起播放的版本完全相同。
X上的一些鹰眼的AI研究人员(是的,以前称为Twitter的平台)发现Meta将LM Arena版本称为“实验性聊天版本”。而且,如果您浏览Llama网站,则有一张图表洒了豆子,称测试是通过“ Llama 4 Maverick进行了优化的对话性”进行的。现在,我们之前已经讨论过这个问题,但是LM Arena并不是测量AI性能的金标准。大多数AI公司不会只是为了在此测试中得分更好,或者至少他们不承认自己的模型。
问题是,当您调整模型以ace的基准测试,然后向公众发布不同的“香草”版本时,开发人员很难弄清楚该模型在现实世界中的实际表现如何。另外,这有点具有误导性,对吗?基准,因为它们是有缺陷的,应该让我们清楚地了解模型可以和在不同任务中无法做的事情。
X上的研究人员很快就会注意到您可以下载的特立独行者与LM竞技场上的研究人员之间存在一些巨大差异。竞技场版本显然是关于表情符号的,并且喜欢给您漫长的,吸引人的答案。
好的骆驼4是一个煮熟的大声笑,这个Yap City pic.twitter.com/y3gvhbvz65
- 内森·兰伯特(@natolambert) 2025年4月6日
由于某种原因,竞技场中的Llama 4模型使用了更多的表情符号
- 技术开发笔记(@TechDevnotes) 2025年4月6日
一起。 AI,看起来更好: pic.twitter.com/f74odx4ztt
我们已经与Meta和经营LM Arena的Chatbot Arena的人们联系,以了解他们对所有这一切的看法。敬请关注!




Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.




MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。




Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.




Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.




Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.




I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?












