Meta de Meta Modelo de referencia de Meta: ¿engañoso?
10 de abril de 2025
TimothyMitchell
10

Entonces, Meta dejó caer su nuevo modelo de IA, Maverick, durante el fin de semana, y ya está haciendo olas enganchando el segundo lugar en el LM Arena. Sabes, ese es el lugar donde los humanos pueden interpretar al juez y al jurado, comparando diferentes modelos de IA y eligiendo sus favoritos. Pero, espera, ¡hay un giro! Resulta que la versión Maverick que se pavonea en LM Arena no es la misma que la que puedes descargar y jugar como desarrollador.
Algunos investigadores de IA con ojos de águila en X (sí, la plataforma anteriormente conocida como Twitter) vieron que Meta llamó a la versión de LM Arena como una "versión de chat experimental". Y si mira el sitio web de LLAMA, hay un cuadro que derrama los frijoles, diciendo que las pruebas se realizaron con "Llama 4 Maverick optimizado para la conversación". Ahora, hemos hablado de esto antes, pero LM Arena no es exactamente el estándar de oro para medir el rendimiento de la IA. La mayoría de las compañías de IA no se meten con sus modelos solo para obtener mejor en esta prueba, o al menos, no lo admiten.
La cuestión es que, cuando modificas un modelo para que asciendas un punto de referencia, pero luego lanzas una versión "vainilla" diferente al público, es difícil para los desarrolladores descubrir qué tan bien funcionará realmente el modelo en escenarios del mundo real. Además, es un poco engañoso, ¿verdad? Los puntos de referencia, defectuosos como están, deberían darnos una imagen clara de lo que un modelo puede y no puede hacer en diferentes tareas.
Los investigadores en X han notado rápidamente algunas grandes diferencias entre el Maverick que puede descargar y el del LM Arena. Aparentemente, la versión de la arena se trata de emojis y le encanta darte respuestas largas y prolongadas.
Okl Llama 4 es definitivamente una cocción cocinada jajaja, ¿qué es esta city yap city pic.twitter.com/y3gvhbvz65
- Nathan Lambert (@natolambert) 6 de abril de 2025
Por alguna razón, el modelo Llama 4 en Arena usa muchos más emojis
en juntos. Ai, parece mejor: pic.twitter.com/f74odx4ztt
- Tech Dev Notes (@techdevnotes) 6 de abril de 2025
Nos hemos comunicado con Meta y la gente del Chatbot Arena, que dirige el LM Arena, para ver lo que tienen que decir sobre todo esto. ¡Manténganse al tanto!
Artículo relacionado
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.
주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤의 강국 인 Meta는 최신 AI 언어 모델 인 Llama 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었습니다.
법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다.
한 저작권법 교수 그룹은 기술 대기업이 저자의 동의없이 전자 책에 대해 LLAMA AI 모델을 전자 책으로 훈련 시켰다고 주장하면서 메타를 고소하는 저자의지지를 주었다. 교수들은 금요일 캘리포니아 북부 지역의 미국 지방 법원에서 아미 쿠스 브리핑을 제출했습니다.
Meta AI는 곧 EU 사용자의 데이터를 훈련시킬 것입니다
Meta는 최근 Facebook 및 Instagram과 같은 플랫폼의 EU 사용자의 데이터를 사용하여 AI를 교육 할 계획을 공개했습니다. 이 이니셔티브는 메타 AI와의 공개 게시물, 의견 및 채팅 이력을 활용하지만 친구 및 가족과의 개인 메시지는 제한이 없습니다.
comentario (35)
0/200
JerryGonzalez
10 de abril de 2025 10:18:45 GMT
Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.
0
CarlKing
10 de abril de 2025 10:18:45 GMT
MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。
0
SamuelEvans
10 de abril de 2025 10:18:45 GMT
Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.
0
BenWalker
10 de abril de 2025 10:18:45 GMT
Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.
0
RobertLewis
10 de abril de 2025 10:18:45 GMT
Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.
0
KevinBaker
11 de abril de 2025 18:25:04 GMT
I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?
0






Entonces, Meta dejó caer su nuevo modelo de IA, Maverick, durante el fin de semana, y ya está haciendo olas enganchando el segundo lugar en el LM Arena. Sabes, ese es el lugar donde los humanos pueden interpretar al juez y al jurado, comparando diferentes modelos de IA y eligiendo sus favoritos. Pero, espera, ¡hay un giro! Resulta que la versión Maverick que se pavonea en LM Arena no es la misma que la que puedes descargar y jugar como desarrollador.
Algunos investigadores de IA con ojos de águila en X (sí, la plataforma anteriormente conocida como Twitter) vieron que Meta llamó a la versión de LM Arena como una "versión de chat experimental". Y si mira el sitio web de LLAMA, hay un cuadro que derrama los frijoles, diciendo que las pruebas se realizaron con "Llama 4 Maverick optimizado para la conversación". Ahora, hemos hablado de esto antes, pero LM Arena no es exactamente el estándar de oro para medir el rendimiento de la IA. La mayoría de las compañías de IA no se meten con sus modelos solo para obtener mejor en esta prueba, o al menos, no lo admiten.
La cuestión es que, cuando modificas un modelo para que asciendas un punto de referencia, pero luego lanzas una versión "vainilla" diferente al público, es difícil para los desarrolladores descubrir qué tan bien funcionará realmente el modelo en escenarios del mundo real. Además, es un poco engañoso, ¿verdad? Los puntos de referencia, defectuosos como están, deberían darnos una imagen clara de lo que un modelo puede y no puede hacer en diferentes tareas.
Los investigadores en X han notado rápidamente algunas grandes diferencias entre el Maverick que puede descargar y el del LM Arena. Aparentemente, la versión de la arena se trata de emojis y le encanta darte respuestas largas y prolongadas.
Okl Llama 4 es definitivamente una cocción cocinada jajaja, ¿qué es esta city yap city pic.twitter.com/y3gvhbvz65
- Nathan Lambert (@natolambert) 6 de abril de 2025
Por alguna razón, el modelo Llama 4 en Arena usa muchos más emojis
- Tech Dev Notes (@techdevnotes) 6 de abril de 2025
en juntos. Ai, parece mejor: pic.twitter.com/f74odx4ztt
Nos hemos comunicado con Meta y la gente del Chatbot Arena, que dirige el LM Arena, para ver lo que tienen que decir sobre todo esto. ¡Manténganse al tanto!




Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.




MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。




Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.




Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.




Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.




I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?












