opção
Lar
Notícias
Benchmarks de modelo de AI da Meta: enganosos?

Benchmarks de modelo de AI da Meta: enganosos?

10 de Abril de 2025
70

Benchmarks de modelo de AI da Meta: enganosos?

Então, a Meta lançou seu novo modelo de IA, Maverick, no fim de semana, e já está fazendo ondas conseguindo o segundo lugar na LM Arena. Você sabe, esse é o lugar onde os humanos interpretam o juiz e o júri, comparando diferentes modelos de IA e escolhendo seus favoritos. Mas, aguente, há uma reviravolta! Acontece que a versão do Maverick que se destaca na LM Arena não é exatamente a mesma daquele que você pode baixar e jogar como desenvolvedor.

Alguns pesquisadores de IA de olhos de águia sobre X (sim, a plataforma anteriormente conhecida como Twitter) avistaram que a Meta chamou a versão da LM Arena de "versão experimental de bate-papo". E se você espiar no site da LLAMA, há um gráfico que derrama o feijão, dizendo que o teste foi feito com "Llama 4 Maverick otimizado para conversacionalidade". Agora, já conversamos sobre isso antes, mas a LM Arena não é exatamente o padrão -ouro para medir o desempenho da IA. A maioria das empresas de IA não mexe com seus modelos apenas para marcar melhor neste teste - ou pelo menos, não admitem.

O problema é que, quando você ajusta um modelo para aceitar uma referência, mas, em seguida, libera uma versão diferente "Vanilla" para o público, é difícil para os desenvolvedores descobrirem bem o bem o modelo em cenários do mundo real. Além disso, é meio enganador, certo? Os benchmarks, por mais falhos que sejam, devem nos dar uma imagem clara do que um modelo pode e não pode fazer em diferentes tarefas.

Os pesquisadores do X foram rápidos em notar algumas grandes diferenças entre o Maverick que você pode baixar e o da LM Arena. Aparentemente, a versão da arena é sobre emojis e adora dar a você respostas longas e prolongadas.

Entramos em contato com a Meta e o pessoal da Chatbot Arena, que administra a LM Arena, para ver o que eles têm a dizer sobre tudo isso. Fique atento!

Artigo relacionado
Meta AI在歐盟推出並實施限制 Meta AI在歐盟推出並實施限制 Meta 的由人工智能驱动的虛擬助手 Meta AI,終於在歐洲聯盟登陸,這是在與歐洲隱私當局的激烈規管爭議中實現的。該公司在星期四宣布,這個類似聊天機器人的工具將整合到其社交平台套件中,不過其功能比美國市場上的版本更加有限。在另一項發展中,Meta 向 TechCrunch 確認,Meta AI 即將在英國的 WhatsApp 上推出,從最初於去年十月在
OpenAI 聘請前Facebook應用程式負責人 OpenAI 聘請前Facebook應用程式負責人 菲吉·西莫加入OpenAI担任应用程序业务主管OpenAI通过聘请现任Instacart首席执行官兼前Facebook应用程序负责人菲吉·西莫来领导其应用程序业务,引起了广泛关注。这一任命直接来自高层,OpenAI首席执行官山姆·阿尔特曼在X上分享道,这个新职位将使他能够更多地关注研究、计算和安全性。显然,他们正在为应用程序领域的某些令人兴奋的发展奠定基础!
Meta預測到2035年生成性AI收入將達1.4萬億美元 Meta預測到2035年生成性AI收入將達1.4萬億美元 去年,Meta大膽預測其生成式AI產品到2025年將產生20億至30億美元的收入。展望更遠的未來,他們預計到2035年將增長到驚人的4600億至1.4兆美元之間。這些預測是在週三浮出水面的法庭文件中揭示的,當時正值書籍作者對Meta提起訴訟。他們指控該公司未經許可就用他們的作品訓練AI。然而,文件並未具體說明Meta將何謂“生成式AI產品”。不過,眾所周知,
Comentários (35)
0/200
JerryGonzalez
JerryGonzalez 10 de Abril de 2025 à0 00:00:00 GMT

Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.

CarlKing
CarlKing 10 de Abril de 2025 à0 00:00:00 GMT

MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。

SamuelEvans
SamuelEvans 10 de Abril de 2025 à0 00:00:00 GMT

Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.

BenWalker
BenWalker 10 de Abril de 2025 à0 00:00:00 GMT

Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.

RobertLewis
RobertLewis 10 de Abril de 2025 à0 00:00:00 GMT

Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.

KevinBaker
KevinBaker 12 de Abril de 2025 à0 00:00:00 GMT

I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?

De volta ao topo
OR