Meta Defiense Llama 4 Lanzamiento, cita errores como causa de informes de calidad mixta

Hogar

Noticias

23 de abril de 2025

BillyAdams

100

# meta # llama # nlp # llama-4 # Scandal

Durante el fin de semana, Meta, la potencia detrás de Facebook, Instagram, WhatsApp y Quest VR, sorprendió a todos al presentar su último modelo de lenguaje de IA, Llama 4. No solo uno, sino tres nuevas versiones fueron introducidas, cada una con capacidades mejoradas gracias a la arquitectura "Mixture-of-Experts" y un nuevo enfoque de entrenamiento llamado MetaP, que implica hiperparámetros fijos. Además, todos los modelos vienen con ventanas de contexto expansivas, permitiéndoles procesar más información en una sola interacción.

A pesar de la emoción del lanzamiento, la reacción de la comunidad de IA ha sido, en el mejor de los casos, tibia. El sábado, Meta puso a disposición para descarga y uso dos de estos modelos, Llama 4 Scout y Llama 4 Maverick, pero la respuesta ha estado lejos de ser entusiasta.

Llama 4 Genera Confusión y Críticas Entre Usuarios de IA

Una publicación no verificada en el foro 1point3acres, una comunidad popular en chino en América del Norte, llegó al subreddit r/LocalLlama en Reddit. La publicación, supuestamente de un investigador de la organización GenAI de Meta, afirmaba que Llama 4 tuvo un desempeño inferior en pruebas internas de terceros. Sugería que el liderazgo de Meta manipuló los resultados mezclando conjuntos de pruebas durante el post-entrenamiento para cumplir con varias métricas y presentar un resultado favorable. La autenticidad de esta afirmación fue recibida con escepticismo, y Meta aún no ha respondido a las consultas de VentureBeat.

Sin embargo, las dudas sobre el rendimiento de Llama 4 no terminaron ahí. En X, el usuario @cto_junior expresó incredulidad sobre el rendimiento del modelo, citando una prueba independiente donde Llama 4 Maverick obtuvo solo un 16% en el benchmark aider polyglot, que evalúa tareas de codificación. Esta puntuación es significativamente menor que la de modelos más antiguos de tamaño similar como DeepSeek V3 y Claude 3.7 Sonnet.

El doctor en IA y autor Andriy Burkov también recurrió a X para cuestionar la ventana de contexto de 10 millones de tokens anunciada para Llama 4 Scout, afirmando que es "virtual" porque el modelo no fue entrenado con prompts más largos de 256k tokens. Advirtió que enviar prompts más largos probablemente resultaría en salidas de baja calidad.

En el subreddit r/LocalLlama, el usuario Dr_Karminski expresó decepción con Llama 4, comparando su pobre rendimiento con el modelo V3 sin razonamiento de DeepSeek en tareas como simular movimientos de pelotas dentro de un heptágono.

Nathan Lambert, exinvestigador de Meta y actual Científico Investigador Senior en AI2, criticó las comparaciones de benchmarks de Meta en su blog Interconnects Substack. Señaló que el modelo Llama 4 Maverick usado en los materiales promocionales de Meta era diferente al lanzado públicamente, optimizado en cambio para la conversacionalidad. Lambert notó la discrepancia, diciendo: "Astuto. Los resultados a continuación son falsos, y es un gran desaire a la comunidad de Meta no lanzar el modelo que usaron para crear su gran campaña de marketing." Añadió que mientras el modelo promocional estaba "dañando la reputación técnica del lanzamiento porque su carácter es juvenil," el modelo real disponible en otras plataformas era "bastante inteligente y tiene un tono razonable."

Meta Responde, Niega 'Entrenamiento en Conjuntos de Prueba' y Cita Errores en la Implementación Debido al Rápido Lanzamiento

En respuesta a las críticas y acusaciones, el VP y Jefe de GenAI de Meta, Ahmad Al-Dahle, recurrió a X para abordar las preocupaciones. Expresó entusiasmo por el compromiso de la comunidad con Llama 4, pero reconoció informes de calidad inconsistente en diferentes servicios. Atribuyó estos problemas al rápido lanzamiento y al tiempo necesario para que las implementaciones públicas se estabilicen. Al-Dahle negó firmemente las acusaciones de entrenamiento en conjuntos de prueba, enfatizando que la calidad variable se debía a errores de implementación en lugar de cualquier mala conducta. Reafirmó la creencia de Meta en los avances significativos de los modelos Llama 4 y su compromiso de trabajar con la comunidad para realizar su potencial.

Sin embargo, la respuesta hizo poco para calmar las frustraciones de la comunidad, con muchos aún reportando un rendimiento pobre y exigiendo más documentación técnica sobre los procesos de entrenamiento de los modelos. Este lanzamiento ha enfrentado más problemas que las versiones anteriores de Llama, generando preguntas sobre su desarrollo y lanzamiento.

El momento de este lanzamiento es notable, ya que sigue a la salida de Joelle Pineau, VP de Investigación de Meta, quien anunció su salida en LinkedIn la semana pasada con gratitud por su tiempo en la empresa. Pineau también había promocionado la familia de modelos Llama 4 durante el fin de semana.

A medida que Llama 4 sigue siendo adoptado por otros proveedores de inferencia con resultados mixtos, está claro que el lanzamiento inicial no ha sido el éxito que Meta podría haber esperado. La próxima Meta LlamaCon el 29 de abril, que será la primera reunión para desarrolladores de terceros de la familia de modelos, probablemente será un hervidero de discusión y debate. Estaremos atentos a los desarrollos, así que mantente informado.

Artículo relacionado

Google Presenta Modelos de IA Gemini 2.5 Listos para Producción para Competir con OpenAI en el Mercado Empresarial Google intensificó su estrategia de IA el lunes, lanzando sus avanzados modelos Gemini 2.5 para uso empresarial e introduciendo una variante rentable para competir en precio y rendimiento.La empresa p

Meta Ofrece Altos Salarios para Talento en IA, Niega Bonos de Firma de $100M Meta está atrayendo a investigadores de IA a su nuevo laboratorio de superinteligencia con paquetes de compensación multimillonarios sustanciales. Sin embargo, las afirmaciones de bonos de firma de $1

Meta Mejora la Seguridad de la IA con Herramientas Avanzadas de Llama Meta ha lanzado nuevas herramientas de seguridad de Llama para fortalecer el desarrollo de la IA y proteger contra amenazas emergentes.Estas herramientas de seguridad mejoradas del modelo de IA Llama

comentario (5)

0/200

Entregar

CharlesYoung

24 de abril de 2025 21:47:05 GMT+02:00

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee

24 de abril de 2025 13:01:02 GMT+02:00

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis

24 de abril de 2025 01:06:55 GMT+02:00

ラマ4の発表、めっちゃ驚いた！😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ？

JackClark

23 de abril de 2025 08:26:04 GMT+02:00

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez

23 de abril de 2025 04:18:50 GMT+02:00

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Operai mejora el asistente de voz de IA para mejores chats Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Doblaje AI: Guía Definitiva para la Creación de Voz Realista AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador Clonación de Voz IA: La guía definitiva para dominar la conversión de voz Experimente el crucigrama de E/S con IA: un giro moderno en el clásico juego de palabras El CEO de NVIDIA aclara los conceptos erróneos sobre el impacto del mercado de Deepseek

Más

Presentado