

Meta Defiense Llama 4 Lanzamiento, cita errores como causa de informes de calidad mixta
22 de abril de 2025
BillyAdams
29
Durante el fin de semana, Meta, la potencia detrás de Facebook, Instagram, WhatsApp y Quest VR, sorprendió a todos al presentar su último modelo de lenguaje de IA, Llama 4. No solo una, sino tres nuevas versiones, se introdujeron, cada una de las capacidades mejoradas gracias a la arquitectura de "mezcla de existentes" y un enfoque de entrenamiento novedoso llamado Metap, que involucra hyperparameters fijos. Además, los tres modelos vienen con ventanas de contexto expansivas, lo que les permite procesar más información en una sola interacción.
A pesar de la emoción del lanzamiento, la reacción de la comunidad de IA ha sido tibia en el mejor de los casos. El sábado, Meta hizo dos de estos modelos, Llama 4 Scout y Llama 4 Maverick, disponible para descargar y usar, pero la respuesta ha estado lejos de ser entusiasta.
Llama 4 Spare confusión y crítica entre los usuarios de IA
Una publicación no verificada en el Foro 1Point3Acres, una popular comunidad de idioma chino en América del Norte, encontró su camino al subreddit R/Localllama en Reddit. El Post, supuestamente de un investigador de la organización Genai de Meta, afirmó que Llama 4 tuvo un rendimiento inferior en puntos de referencia internos de terceros. Sugirió que el liderazgo de Meta había manipulado los resultados mediante la mezcla de conjuntos de pruebas durante el post-entrenamiento para cumplir con varias métricas y presentar un resultado favorable. La autenticidad de este reclamo se encontró con escepticismo, y Meta aún no ha respondido a las consultas de VentureBeat.
Sin embargo, las dudas sobre la actuación de Llama 4 no se detuvieron allí. En X, el usuario @cto_junior expresó incredulidad por el rendimiento del modelo, citando una prueba independiente donde Llama 4 Maverick obtuvo un solo 16% en el punto de referencia de Polyglot de auxiliar, que prueba las tareas de codificación. Esta puntuación es significativamente más baja que la de modelos más antiguos, de tamaño similar, como Deepseek V3 y Claude 3.7 sonnet.
AI PhD y el autor Andriy Burkov también recurrieron a X para cuestionar la ventana de contexto de 10 millones de token publicitados de la modelo para Llama 4 Scout, afirmando que es "virtual" porque el modelo no estaba entrenado en indicaciones de más de 256k tokens. Advirtió que enviar indicaciones más largas probablemente daría como resultado resultados de baja calidad.
En el subreddit R/Localllama, el usuario DR_KARMINSKI compartió la decepción con Llama 4, comparando su bajo rendimiento con el modelo V3 no inicial de Deepseek en tareas como simular movimientos de pelota dentro de un heptágono.
Nathan Lambert, un ex investigador y actual científico senior de investigación de AI2, criticó las comparaciones de referencia de Meta en su blog de Interconnects Sustects. Señaló que el modelo de Llama 4 Maverick utilizado en los materiales promocionales de Meta era diferente de la lanzada públicamente, optimizada en su lugar para la conversación. Lambert señaló la discrepancia, diciendo: "Sneaky. Los resultados a continuación son falsos, y es una gran idea para la comunidad de Meta no lanzar el modelo que usaron para crear su importante impulso de marketing". Agregó que si bien el modelo promocional estaba "Tanking la reputación técnica del lanzamiento porque su carácter es juvenil", el modelo real disponible en otras plataformas era "bastante inteligente y tiene un tono razonable".

Meta responde, negando 'capacitación en conjuntos de pruebas' y citando errores en la implementación debido a un lanzamiento rápido
En respuesta a las críticas y acusaciones, el vicepresidente de Meta y jefe de Genai, Ahmad al-Dahle, recurrió a X para abordar las preocupaciones. Expresó el entusiasmo por el compromiso de la comunidad con Llama 4, pero reconoció informes de calidad inconsistente en diferentes servicios. Atribuyó estos problemas al lanzamiento rápido y el tiempo necesario para que las implementaciones públicas se estabilicen. Al-Dahle negó firmemente las acusaciones de capacitación en los conjuntos de pruebas, enfatizando que la calidad variable se debió a errores de implementación en lugar de cualquier mala conducta. Reafirmó la creencia de Meta en los avances significativos de los modelos LLAMA 4 y su compromiso de trabajar con la comunidad para realizar su potencial.
Sin embargo, la respuesta hizo poco para sofocar las frustraciones de la comunidad, y muchos todavía informaron un bajo rendimiento y exigieron una documentación más técnica sobre los procesos de capacitación de los modelos. Este lanzamiento ha enfrentado más problemas que las versiones anteriores de LLAMA, planteando preguntas sobre su desarrollo y despliegue.
El momento de este lanzamiento es notable, ya que sigue la partida de Joelle Pineau, vicepresidente de investigación de Meta, quien anunció su salida en LinkedIn la semana pasada con gratitud por su tiempo en la compañía. Pineau también había promovido a la familia Model Llama 4 durante el fin de semana.
Como Llama 4 continúa siendo adoptada por otros proveedores de inferencia con resultados mixtos, está claro que la versión inicial no ha sido el éxito que Meta podría haber esperado. El próximo Meta Llamacon el 29 de abril, que será la primera reunión para los desarrolladores externos de la Familia Modelo, es probable que sea un semillero de discusión y debate. Estaremos de cerca en los desarrollos, así que estén atentos.
Artículo relacionado
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein
Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US
1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta.
Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
Comentario (0)
0/200






Durante el fin de semana, Meta, la potencia detrás de Facebook, Instagram, WhatsApp y Quest VR, sorprendió a todos al presentar su último modelo de lenguaje de IA, Llama 4. No solo una, sino tres nuevas versiones, se introdujeron, cada una de las capacidades mejoradas gracias a la arquitectura de "mezcla de existentes" y un enfoque de entrenamiento novedoso llamado Metap, que involucra hyperparameters fijos. Además, los tres modelos vienen con ventanas de contexto expansivas, lo que les permite procesar más información en una sola interacción.
A pesar de la emoción del lanzamiento, la reacción de la comunidad de IA ha sido tibia en el mejor de los casos. El sábado, Meta hizo dos de estos modelos, Llama 4 Scout y Llama 4 Maverick, disponible para descargar y usar, pero la respuesta ha estado lejos de ser entusiasta.
Llama 4 Spare confusión y crítica entre los usuarios de IA
Una publicación no verificada en el Foro 1Point3Acres, una popular comunidad de idioma chino en América del Norte, encontró su camino al subreddit R/Localllama en Reddit. El Post, supuestamente de un investigador de la organización Genai de Meta, afirmó que Llama 4 tuvo un rendimiento inferior en puntos de referencia internos de terceros. Sugirió que el liderazgo de Meta había manipulado los resultados mediante la mezcla de conjuntos de pruebas durante el post-entrenamiento para cumplir con varias métricas y presentar un resultado favorable. La autenticidad de este reclamo se encontró con escepticismo, y Meta aún no ha respondido a las consultas de VentureBeat.
Sin embargo, las dudas sobre la actuación de Llama 4 no se detuvieron allí. En X, el usuario @cto_junior expresó incredulidad por el rendimiento del modelo, citando una prueba independiente donde Llama 4 Maverick obtuvo un solo 16% en el punto de referencia de Polyglot de auxiliar, que prueba las tareas de codificación. Esta puntuación es significativamente más baja que la de modelos más antiguos, de tamaño similar, como Deepseek V3 y Claude 3.7 sonnet.
AI PhD y el autor Andriy Burkov también recurrieron a X para cuestionar la ventana de contexto de 10 millones de token publicitados de la modelo para Llama 4 Scout, afirmando que es "virtual" porque el modelo no estaba entrenado en indicaciones de más de 256k tokens. Advirtió que enviar indicaciones más largas probablemente daría como resultado resultados de baja calidad.
En el subreddit R/Localllama, el usuario DR_KARMINSKI compartió la decepción con Llama 4, comparando su bajo rendimiento con el modelo V3 no inicial de Deepseek en tareas como simular movimientos de pelota dentro de un heptágono.
Nathan Lambert, un ex investigador y actual científico senior de investigación de AI2, criticó las comparaciones de referencia de Meta en su blog de Interconnects Sustects. Señaló que el modelo de Llama 4 Maverick utilizado en los materiales promocionales de Meta era diferente de la lanzada públicamente, optimizada en su lugar para la conversación. Lambert señaló la discrepancia, diciendo: "Sneaky. Los resultados a continuación son falsos, y es una gran idea para la comunidad de Meta no lanzar el modelo que usaron para crear su importante impulso de marketing". Agregó que si bien el modelo promocional estaba "Tanking la reputación técnica del lanzamiento porque su carácter es juvenil", el modelo real disponible en otras plataformas era "bastante inteligente y tiene un tono razonable".
Meta responde, negando 'capacitación en conjuntos de pruebas' y citando errores en la implementación debido a un lanzamiento rápido
En respuesta a las críticas y acusaciones, el vicepresidente de Meta y jefe de Genai, Ahmad al-Dahle, recurrió a X para abordar las preocupaciones. Expresó el entusiasmo por el compromiso de la comunidad con Llama 4, pero reconoció informes de calidad inconsistente en diferentes servicios. Atribuyó estos problemas al lanzamiento rápido y el tiempo necesario para que las implementaciones públicas se estabilicen. Al-Dahle negó firmemente las acusaciones de capacitación en los conjuntos de pruebas, enfatizando que la calidad variable se debió a errores de implementación en lugar de cualquier mala conducta. Reafirmó la creencia de Meta en los avances significativos de los modelos LLAMA 4 y su compromiso de trabajar con la comunidad para realizar su potencial.
Sin embargo, la respuesta hizo poco para sofocar las frustraciones de la comunidad, y muchos todavía informaron un bajo rendimiento y exigieron una documentación más técnica sobre los procesos de capacitación de los modelos. Este lanzamiento ha enfrentado más problemas que las versiones anteriores de LLAMA, planteando preguntas sobre su desarrollo y despliegue.
El momento de este lanzamiento es notable, ya que sigue la partida de Joelle Pineau, vicepresidente de investigación de Meta, quien anunció su salida en LinkedIn la semana pasada con gratitud por su tiempo en la compañía. Pineau también había promovido a la familia Model Llama 4 durante el fin de semana.
Como Llama 4 continúa siendo adoptada por otros proveedores de inferencia con resultados mixtos, está claro que la versión inicial no ha sido el éxito que Meta podría haber esperado. El próximo Meta Llamacon el 29 de abril, que será la primera reunión para los desarrolladores externos de la Familia Modelo, es probable que sea un semillero de discusión y debate. Estaremos de cerca en los desarrollos, así que estén atentos.












