Benchmarks de modelo de AI da Meta: enganosos?

Lar

Notícias

10 de Abril de 2025

TimothyMitchell

104

# meta # llama # llama 4

Benchmarks de modelo de AI da Meta: enganosos?

Então, a Meta lançou seu novo modelo de IA, Maverick, no fim de semana, e ele já está causando impacto ao conquistar o segundo lugar no LM Arena. Sabe, aquele é o lugar onde humanos podem atuar como juiz e júri, comparando diferentes modelos de IA e escolhendo seus favoritos. Mas, espera aí, tem uma reviravolta! Acontece que a versão do Maverick que está se exibindo no LM Arena não é exatamente a mesma que você pode baixar e experimentar como desenvolvedor.

Alguns pesquisadores de IA com olhos de águia no X (sim, a plataforma anteriormente conhecida como Twitter) notaram que a Meta chamou a versão do LM Arena de uma "versão experimental de chat". E se você der uma espiada no site do Llama, há um gráfico que revela tudo, dizendo que os testes foram feitos com "Llama 4 Maverick otimizado para conversação". Já falamos sobre isso antes, mas o LM Arena não é exatamente o padrão ouro para medir o desempenho de IA. A maioria das empresas de IA não mexe em seus modelos só para obter uma pontuação melhor nesse teste — ou pelo menos, elas não admitem isso.

O problema é que, quando você ajusta um modelo para arrasar em um benchmark, mas depois lança uma versão "vanilla" diferente para o público, é difícil para os desenvolvedores descobrirem como o modelo realmente se sairá em cenários do mundo real. Além disso, é meio enganador, né? Benchmarks, por mais falhos que sejam, deveriam nos dar uma imagem clara do que um modelo pode ou não fazer em diferentes tarefas.

Pesquisadores no X foram rápidos em notar algumas grandes diferenças entre o Maverick que você pode baixar e o que está no LM Arena. A versão do Arena aparentemente adora emojis e gosta de dar respostas longas e prolongadas.

Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 6 de abril de 2025

por algum motivo, o modelo Llama 4 no Arena usa muito mais emojis

no together.ai, parece melhor: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 6 de abril de 2025

Entramos em contato com a Meta e com as pessoas do Chatbot Arena, que administram o LM Arena, para ver o que eles têm a dizer sobre tudo isso. Fique ligado!

Artigo relacionado

Zuckerberg, da Meta, diz que nem todos os modelos de "superinteligência" de IA serão de código aberto Mudança estratégica da Meta em direção à superinteligência pessoalO CEO da Meta, Mark Zuckerberg, delineou esta semana uma visão ambiciosa para a "superinteligência pessoal" - sistemas de IA que capac

A inteligência artificial da Meta lida com a dublagem de vídeos para conteúdo do Instagram A Meta está expandindo o acesso à sua inovadora tecnologia de dublagem alimentada por IA no Facebook e no Instagram, introduzindo recursos de tradução de vídeo perfeitos que mantêm sua voz autêntica e

Aplicativo Meta AI Introduzirá Nível Premium e Anúncios O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime

Comentários (36)

0/200

Enviar

ScottWalker

28 de Julho de 2025 à54 02:20:54 WEST

Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?

KennethMartin

21 de Abril de 2025 à21 11:14:21 WEST

Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!

WalterThomas

21 de Abril de 2025 à14 03:55:14 WEST

मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!

JohnYoung

18 de Abril de 2025 à42 16:03:42 WEST

메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

JohnHernández

17 de Abril de 2025 à48 17:58:48 WEST

Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀

MarkScott

17 de Abril de 2025 à17 06:54:17 WEST

Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou