Meta Defiense Llama 4 Lanzamiento, cita errores como causa de informes de calidad mixta
Durante el fin de semana, Meta, la potencia detrás de Facebook, Instagram, WhatsApp y Quest VR, sorprendió a todos al presentar su último modelo de lenguaje de IA, Llama 4. No solo una, sino tres nuevas versiones, se introdujeron, cada una de las capacidades mejoradas gracias a la arquitectura de "mezcla de existentes" y un enfoque de entrenamiento novedoso llamado Metap, que involucra hyperparameters fijos. Además, los tres modelos vienen con ventanas de contexto expansivas, lo que les permite procesar más información en una sola interacción.
A pesar de la emoción del lanzamiento, la reacción de la comunidad de IA ha sido tibia en el mejor de los casos. El sábado, Meta hizo dos de estos modelos, Llama 4 Scout y Llama 4 Maverick, disponible para descargar y usar, pero la respuesta ha estado lejos de ser entusiasta.
Llama 4 Spare confusión y crítica entre los usuarios de IA
Una publicación no verificada en el Foro 1Point3Acres, una popular comunidad de idioma chino en América del Norte, encontró su camino al subreddit R/Localllama en Reddit. El Post, supuestamente de un investigador de la organización Genai de Meta, afirmó que Llama 4 tuvo un rendimiento inferior en puntos de referencia internos de terceros. Sugirió que el liderazgo de Meta había manipulado los resultados mediante la mezcla de conjuntos de pruebas durante el post-entrenamiento para cumplir con varias métricas y presentar un resultado favorable. La autenticidad de este reclamo se encontró con escepticismo, y Meta aún no ha respondido a las consultas de VentureBeat.
Sin embargo, las dudas sobre la actuación de Llama 4 no se detuvieron allí. En X, el usuario @cto_junior expresó incredulidad por el rendimiento del modelo, citando una prueba independiente donde Llama 4 Maverick obtuvo un solo 16% en el punto de referencia de Polyglot de auxiliar, que prueba las tareas de codificación. Esta puntuación es significativamente más baja que la de modelos más antiguos, de tamaño similar, como Deepseek V3 y Claude 3.7 sonnet.
AI PhD y el autor Andriy Burkov también recurrieron a X para cuestionar la ventana de contexto de 10 millones de token publicitados de la modelo para Llama 4 Scout, afirmando que es "virtual" porque el modelo no estaba entrenado en indicaciones de más de 256k tokens. Advirtió que enviar indicaciones más largas probablemente daría como resultado resultados de baja calidad.
En el subreddit R/Localllama, el usuario DR_KARMINSKI compartió la decepción con Llama 4, comparando su bajo rendimiento con el modelo V3 no inicial de Deepseek en tareas como simular movimientos de pelota dentro de un heptágono.
Nathan Lambert, un ex investigador y actual científico senior de investigación de AI2, criticó las comparaciones de referencia de Meta en su blog de Interconnects Sustects. Señaló que el modelo de Llama 4 Maverick utilizado en los materiales promocionales de Meta era diferente de la lanzada públicamente, optimizada en su lugar para la conversación. Lambert señaló la discrepancia, diciendo: "Sneaky. Los resultados a continuación son falsos, y es una gran idea para la comunidad de Meta no lanzar el modelo que usaron para crear su importante impulso de marketing". Agregó que si bien el modelo promocional estaba "Tanking la reputación técnica del lanzamiento porque su carácter es juvenil", el modelo real disponible en otras plataformas era "bastante inteligente y tiene un tono razonable".

Meta responde, negando 'capacitación en conjuntos de pruebas' y citando errores en la implementación debido a un lanzamiento rápido
En respuesta a las críticas y acusaciones, el vicepresidente de Meta y jefe de Genai, Ahmad al-Dahle, recurrió a X para abordar las preocupaciones. Expresó el entusiasmo por el compromiso de la comunidad con Llama 4, pero reconoció informes de calidad inconsistente en diferentes servicios. Atribuyó estos problemas al lanzamiento rápido y el tiempo necesario para que las implementaciones públicas se estabilicen. Al-Dahle negó firmemente las acusaciones de capacitación en los conjuntos de pruebas, enfatizando que la calidad variable se debió a errores de implementación en lugar de cualquier mala conducta. Reafirmó la creencia de Meta en los avances significativos de los modelos LLAMA 4 y su compromiso de trabajar con la comunidad para realizar su potencial.
Sin embargo, la respuesta hizo poco para sofocar las frustraciones de la comunidad, y muchos todavía informaron un bajo rendimiento y exigieron una documentación más técnica sobre los procesos de capacitación de los modelos. Este lanzamiento ha enfrentado más problemas que las versiones anteriores de LLAMA, planteando preguntas sobre su desarrollo y despliegue.
El momento de este lanzamiento es notable, ya que sigue la partida de Joelle Pineau, vicepresidente de investigación de Meta, quien anunció su salida en LinkedIn la semana pasada con gratitud por su tiempo en la compañía. Pineau también había promovido a la familia Model Llama 4 durante el fin de semana.
Como Llama 4 continúa siendo adoptada por otros proveedores de inferencia con resultados mixtos, está claro que la versión inicial no ha sido el éxito que Meta podría haber esperado. El próximo Meta Llamacon el 29 de abril, que será la primera reunión para los desarrolladores externos de la Familia Modelo, es probable que sea un semillero de discusión y debate. Estaremos de cerca en los desarrollos, así que estén atentos.
Artículo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
comentario (0)
0/200
Durante el fin de semana, Meta, la potencia detrás de Facebook, Instagram, WhatsApp y Quest VR, sorprendió a todos al presentar su último modelo de lenguaje de IA, Llama 4. No solo una, sino tres nuevas versiones, se introdujeron, cada una de las capacidades mejoradas gracias a la arquitectura de "mezcla de existentes" y un enfoque de entrenamiento novedoso llamado Metap, que involucra hyperparameters fijos. Además, los tres modelos vienen con ventanas de contexto expansivas, lo que les permite procesar más información en una sola interacción.
A pesar de la emoción del lanzamiento, la reacción de la comunidad de IA ha sido tibia en el mejor de los casos. El sábado, Meta hizo dos de estos modelos, Llama 4 Scout y Llama 4 Maverick, disponible para descargar y usar, pero la respuesta ha estado lejos de ser entusiasta.
Llama 4 Spare confusión y crítica entre los usuarios de IA
Una publicación no verificada en el Foro 1Point3Acres, una popular comunidad de idioma chino en América del Norte, encontró su camino al subreddit R/Localllama en Reddit. El Post, supuestamente de un investigador de la organización Genai de Meta, afirmó que Llama 4 tuvo un rendimiento inferior en puntos de referencia internos de terceros. Sugirió que el liderazgo de Meta había manipulado los resultados mediante la mezcla de conjuntos de pruebas durante el post-entrenamiento para cumplir con varias métricas y presentar un resultado favorable. La autenticidad de este reclamo se encontró con escepticismo, y Meta aún no ha respondido a las consultas de VentureBeat.
Sin embargo, las dudas sobre la actuación de Llama 4 no se detuvieron allí. En X, el usuario @cto_junior expresó incredulidad por el rendimiento del modelo, citando una prueba independiente donde Llama 4 Maverick obtuvo un solo 16% en el punto de referencia de Polyglot de auxiliar, que prueba las tareas de codificación. Esta puntuación es significativamente más baja que la de modelos más antiguos, de tamaño similar, como Deepseek V3 y Claude 3.7 sonnet.
AI PhD y el autor Andriy Burkov también recurrieron a X para cuestionar la ventana de contexto de 10 millones de token publicitados de la modelo para Llama 4 Scout, afirmando que es "virtual" porque el modelo no estaba entrenado en indicaciones de más de 256k tokens. Advirtió que enviar indicaciones más largas probablemente daría como resultado resultados de baja calidad.
En el subreddit R/Localllama, el usuario DR_KARMINSKI compartió la decepción con Llama 4, comparando su bajo rendimiento con el modelo V3 no inicial de Deepseek en tareas como simular movimientos de pelota dentro de un heptágono.
Nathan Lambert, un ex investigador y actual científico senior de investigación de AI2, criticó las comparaciones de referencia de Meta en su blog de Interconnects Sustects. Señaló que el modelo de Llama 4 Maverick utilizado en los materiales promocionales de Meta era diferente de la lanzada públicamente, optimizada en su lugar para la conversación. Lambert señaló la discrepancia, diciendo: "Sneaky. Los resultados a continuación son falsos, y es una gran idea para la comunidad de Meta no lanzar el modelo que usaron para crear su importante impulso de marketing". Agregó que si bien el modelo promocional estaba "Tanking la reputación técnica del lanzamiento porque su carácter es juvenil", el modelo real disponible en otras plataformas era "bastante inteligente y tiene un tono razonable".
Meta responde, negando 'capacitación en conjuntos de pruebas' y citando errores en la implementación debido a un lanzamiento rápido
En respuesta a las críticas y acusaciones, el vicepresidente de Meta y jefe de Genai, Ahmad al-Dahle, recurrió a X para abordar las preocupaciones. Expresó el entusiasmo por el compromiso de la comunidad con Llama 4, pero reconoció informes de calidad inconsistente en diferentes servicios. Atribuyó estos problemas al lanzamiento rápido y el tiempo necesario para que las implementaciones públicas se estabilicen. Al-Dahle negó firmemente las acusaciones de capacitación en los conjuntos de pruebas, enfatizando que la calidad variable se debió a errores de implementación en lugar de cualquier mala conducta. Reafirmó la creencia de Meta en los avances significativos de los modelos LLAMA 4 y su compromiso de trabajar con la comunidad para realizar su potencial.
Sin embargo, la respuesta hizo poco para sofocar las frustraciones de la comunidad, y muchos todavía informaron un bajo rendimiento y exigieron una documentación más técnica sobre los procesos de capacitación de los modelos. Este lanzamiento ha enfrentado más problemas que las versiones anteriores de LLAMA, planteando preguntas sobre su desarrollo y despliegue.
El momento de este lanzamiento es notable, ya que sigue la partida de Joelle Pineau, vicepresidente de investigación de Meta, quien anunció su salida en LinkedIn la semana pasada con gratitud por su tiempo en la compañía. Pineau también había promovido a la familia Model Llama 4 durante el fin de semana.
Como Llama 4 continúa siendo adoptada por otros proveedores de inferencia con resultados mixtos, está claro que la versión inicial no ha sido el éxito que Meta podría haber esperado. El próximo Meta Llamacon el 29 de abril, que será la primera reunión para los desarrolladores externos de la Familia Modelo, es probable que sea un semillero de discusión y debate. Estaremos de cerca en los desarrollos, así que estén atentos.












