

Meta -se ve a la Llama 4 con un largo contexto Scout y Maverick Models, 2t Parameter Behemoth próximamente!
16 de abril de 2025
HenryWalker
59
En enero de 2025, el mundo de la IA se sacudió cuando una startup de IA china relativamente desconocida, Deepseek, arrojó el guante con su innovador modelo de razonamiento de lenguaje abierto, Deepseek R1. Este modelo no solo superó a los gustos de Meta, sino que lo hizo a una fracción del costo, se convirtió en tan solo unos pocos millones de dólares. ¡Ese es el tipo de presupuesto que Meta podría gastar en solo un par de líderes de equipo de IA! Esta noticia envió a Meta a un poco de frenesí, especialmente porque su último modelo de llamas, la versión 3.3, lanzado justo el mes anterior, ya se veía un poco anticuado.
Avance rápido hasta hoy, y el fundador y CEO de Meta, Mark Zuckerberg, ha llevado a Instagram para anunciar el lanzamiento de la nueva serie LLAMA 4. Esta serie incluye el 400 billones de parámetros Llama 4 Maverick y el 109 mil millones de parámetros Llama 4 Scout, ambos disponibles para que los desarrolladores los descarguen y comiencen a jugar de inmediato en LLAMA.com y abrazando la cara. También hay un vistazo a un colosal modelo de parámetros de 2 billones, Llama 4 Behemoth, todavía en entrenamiento, sin una fecha de lanzamiento a la vista.
Capacidades multimodales y de contexto largo
Una de las características destacadas de estos nuevos modelos es su naturaleza multimodal. No se trata solo de texto; También pueden manejar videos e imágenes. Y vienen con ventanas de contexto increíblemente largas: 1 millón de tokens para Maverick y la friolera de 10 millones para Scout. Para poner eso en perspectiva, ¡es como manejar hasta 1,500 y 15,000 páginas de texto de una vez! Imagine las posibilidades de campos como medicina, ciencia o literatura donde necesita procesar y generar grandes cantidades de información.
Arquitectura de la mezcla de expertos
Los tres modelos LLAMA 4 emplean la arquitectura de "mezcla de expertos (MOE)", una técnica que ha estado haciendo olas, popularizadas por compañías como OpenAi y Mistral. Este enfoque combina múltiples modelos más pequeños y especializados en un modelo más grande y más eficiente. Cada modelo de LLAMA 4 es una mezcla de 128 expertos diferentes, lo que significa solo el experto necesario y uno compartido en cada token, lo que hace que los modelos sean más rentables y más rápidos de ejecutar. Meta se jacta de que Llama 4 Maverick se puede ejecutar en un solo host NVIDIA H100 DGX, haciendo que el despliegue sea muy fácil.
Rentable y accesible
Meta se trata de hacer que estos modelos sean accesibles. Tanto Scout como Maverick están disponibles para autohospedar, e incluso han compartido algunas estimaciones de costos atractivas. Por ejemplo, el costo de inferencia para Llama 4 Maverick está entre $ 0.19 y $ 0.49 por millón de tokens, que es un robo en comparación con otros modelos patentados como GPT-4O. Y si está interesado en usar estos modelos a través de un proveedor de nubes, Groq ya ha intensificado los precios competitivos.
Razonamiento mejorado y metap
Estos modelos están construidos con razonamiento, codificación y resolución de problemas en mente. Meta usó algunas técnicas inteligentes durante el entrenamiento para aumentar estas capacidades, como eliminar las indicaciones fáciles y el uso de un aprendizaje de refuerzo continuo con indicaciones cada vez más difíciles. También han introducido METAP, una nueva técnica que permite establecer hiperparámetros en un modelo y aplicarlos a otros, ahorrando tiempo y dinero. Es un cambio de juego, especialmente para entrenar monstruos como Behemoth, que utiliza 32K GPU y procesos de más de 30 billones de tokens.
Rendimiento y comparaciones
Entonces, ¿cómo se acumulan estos modelos? Zuckerberg ha sido claro sobre su visión de IA de código abierto que lidera la carga, y Llama 4 es un gran paso en esa dirección. Si bien es posible que no establezcan nuevos registros de rendimiento en todos los ámbitos, ciertamente están cerca de la parte superior de su clase. Por ejemplo, Llama 4 Behemoth supera a algunos bateadores pesados en ciertos puntos de referencia, aunque todavía está jugando con Deepseek R1 y la serie O1 de Openii en otros.
LLAMA 4 Behemoth
- Superforma a GPT-4.5, Gemini 2.0 Pro y Claude Sonnet 3.7 en Math-500 (95.0), GPQA Diamond (73.7) y MMLU Pro (82.2)

Llama 4 Maverick
- Beats GPT-4O y Gemini 2.0 Flash en la mayoría de los puntos de referencia de razonamiento multimodal como Chartqa, Docvqa, Mathvista y MMMU
- Competitivo con Deepseek v3.1 mientras usa menos de la mitad de los parámetros activos
- Puntajes de referencia: Chartqa (90.0), Docvqa (94.4), MMLU Pro (80.5)

Llama 4 Scout
- Coincide o superan modelos como Mistral 3.1, Gemini 2.0 Flash-Lite y Gemma 3 en Docvqa (94.4), MMLU Pro (74.3) y Mathvista (70.7)
- Longitud de contexto de token de 10 m inigualable: ideal para documentos largos y bases de código

Comparando con Deepseek R1
Cuando se trata de las grandes ligas, Llama 4 Behemoth se mantiene la suya pero no destrona Deepseek R1 o la serie O1 de OpenAi. Está ligeramente atrasado en Math-500 y MMLU, pero por delante en GPQA Diamond. Aún así, está claro que Llama 4 es un fuerte contendiente en el espacio de razonamiento.
Punto de referencia LLAMA 4 Behemoth Deepseek r1 OPERAI O1-1217 Matemáticas-500 95.0 97.3 96.4 Diamante gpqa 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
Seguridad y neutralidad política
Meta tampoco se ha olvidado de la seguridad. Han introducido herramientas como Guardia de Llama, Pronta Guard y Cyberseceval para mantener las cosas en el aliento. Y están haciendo un punto sobre la reducción del sesgo político, apuntando a un enfoque más equilibrado, especialmente después del notable apoyo de Zuckerberg a la política republicana después de las elecciones de 2014.
El futuro con Llama 4
Con Llama 4, Meta está empujando los límites de la eficiencia, la apertura y el rendimiento en la IA. Ya sea que esté buscando construir asistentes de IA de nivel empresarial o sumergirse en la investigación de IA, Llama 4 ofrece opciones poderosas y flexibles que priorizan el razonamiento. Está claro que Meta se compromete a hacer que la IA sea más accesible e impactante para todos.
Artículo relacionado
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
How we’re using AI to help cities tackle extreme heat
It's looking like 2024 might just break the record for the hottest year yet, surpassing 2023. This trend is particularly tough on folks living in urban heat islands—those spots in cities where concrete and asphalt soak up the sun's rays and then radiate the heat right back out. These areas can warm
comentario (20)
0/200
TimothyEvans
19 de abril de 2025 04:25:17 GMT
Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?
0
EricJohnson
17 de abril de 2025 12:34:32 GMT
メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊
0
JohnGarcia
22 de abril de 2025 03:11:00 GMT
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
21 de abril de 2025 13:31:17 GMT
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
PaulGonzalez
21 de abril de 2025 10:16:18 GMT
Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?
0
IsabellaDavis
18 de abril de 2025 12:35:20 GMT
Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀
0






En enero de 2025, el mundo de la IA se sacudió cuando una startup de IA china relativamente desconocida, Deepseek, arrojó el guante con su innovador modelo de razonamiento de lenguaje abierto, Deepseek R1. Este modelo no solo superó a los gustos de Meta, sino que lo hizo a una fracción del costo, se convirtió en tan solo unos pocos millones de dólares. ¡Ese es el tipo de presupuesto que Meta podría gastar en solo un par de líderes de equipo de IA! Esta noticia envió a Meta a un poco de frenesí, especialmente porque su último modelo de llamas, la versión 3.3, lanzado justo el mes anterior, ya se veía un poco anticuado.
Avance rápido hasta hoy, y el fundador y CEO de Meta, Mark Zuckerberg, ha llevado a Instagram para anunciar el lanzamiento de la nueva serie LLAMA 4. Esta serie incluye el 400 billones de parámetros Llama 4 Maverick y el 109 mil millones de parámetros Llama 4 Scout, ambos disponibles para que los desarrolladores los descarguen y comiencen a jugar de inmediato en LLAMA.com y abrazando la cara. También hay un vistazo a un colosal modelo de parámetros de 2 billones, Llama 4 Behemoth, todavía en entrenamiento, sin una fecha de lanzamiento a la vista.
Capacidades multimodales y de contexto largo
Una de las características destacadas de estos nuevos modelos es su naturaleza multimodal. No se trata solo de texto; También pueden manejar videos e imágenes. Y vienen con ventanas de contexto increíblemente largas: 1 millón de tokens para Maverick y la friolera de 10 millones para Scout. Para poner eso en perspectiva, ¡es como manejar hasta 1,500 y 15,000 páginas de texto de una vez! Imagine las posibilidades de campos como medicina, ciencia o literatura donde necesita procesar y generar grandes cantidades de información.
Arquitectura de la mezcla de expertos
Los tres modelos LLAMA 4 emplean la arquitectura de "mezcla de expertos (MOE)", una técnica que ha estado haciendo olas, popularizadas por compañías como OpenAi y Mistral. Este enfoque combina múltiples modelos más pequeños y especializados en un modelo más grande y más eficiente. Cada modelo de LLAMA 4 es una mezcla de 128 expertos diferentes, lo que significa solo el experto necesario y uno compartido en cada token, lo que hace que los modelos sean más rentables y más rápidos de ejecutar. Meta se jacta de que Llama 4 Maverick se puede ejecutar en un solo host NVIDIA H100 DGX, haciendo que el despliegue sea muy fácil.
Rentable y accesible
Meta se trata de hacer que estos modelos sean accesibles. Tanto Scout como Maverick están disponibles para autohospedar, e incluso han compartido algunas estimaciones de costos atractivas. Por ejemplo, el costo de inferencia para Llama 4 Maverick está entre $ 0.19 y $ 0.49 por millón de tokens, que es un robo en comparación con otros modelos patentados como GPT-4O. Y si está interesado en usar estos modelos a través de un proveedor de nubes, Groq ya ha intensificado los precios competitivos.
Razonamiento mejorado y metap
Estos modelos están construidos con razonamiento, codificación y resolución de problemas en mente. Meta usó algunas técnicas inteligentes durante el entrenamiento para aumentar estas capacidades, como eliminar las indicaciones fáciles y el uso de un aprendizaje de refuerzo continuo con indicaciones cada vez más difíciles. También han introducido METAP, una nueva técnica que permite establecer hiperparámetros en un modelo y aplicarlos a otros, ahorrando tiempo y dinero. Es un cambio de juego, especialmente para entrenar monstruos como Behemoth, que utiliza 32K GPU y procesos de más de 30 billones de tokens.
Rendimiento y comparaciones
Entonces, ¿cómo se acumulan estos modelos? Zuckerberg ha sido claro sobre su visión de IA de código abierto que lidera la carga, y Llama 4 es un gran paso en esa dirección. Si bien es posible que no establezcan nuevos registros de rendimiento en todos los ámbitos, ciertamente están cerca de la parte superior de su clase. Por ejemplo, Llama 4 Behemoth supera a algunos bateadores pesados en ciertos puntos de referencia, aunque todavía está jugando con Deepseek R1 y la serie O1 de Openii en otros.
LLAMA 4 Behemoth
- Superforma a GPT-4.5, Gemini 2.0 Pro y Claude Sonnet 3.7 en Math-500 (95.0), GPQA Diamond (73.7) y MMLU Pro (82.2)
Llama 4 Maverick
- Beats GPT-4O y Gemini 2.0 Flash en la mayoría de los puntos de referencia de razonamiento multimodal como Chartqa, Docvqa, Mathvista y MMMU
- Competitivo con Deepseek v3.1 mientras usa menos de la mitad de los parámetros activos
- Puntajes de referencia: Chartqa (90.0), Docvqa (94.4), MMLU Pro (80.5)
Llama 4 Scout
- Coincide o superan modelos como Mistral 3.1, Gemini 2.0 Flash-Lite y Gemma 3 en Docvqa (94.4), MMLU Pro (74.3) y Mathvista (70.7)
- Longitud de contexto de token de 10 m inigualable: ideal para documentos largos y bases de código
Comparando con Deepseek R1
Cuando se trata de las grandes ligas, Llama 4 Behemoth se mantiene la suya pero no destrona Deepseek R1 o la serie O1 de OpenAi. Está ligeramente atrasado en Math-500 y MMLU, pero por delante en GPQA Diamond. Aún así, está claro que Llama 4 es un fuerte contendiente en el espacio de razonamiento.
Punto de referencia | LLAMA 4 Behemoth | Deepseek r1 | OPERAI O1-1217 |
---|---|---|---|
Matemáticas-500 | 95.0 | 97.3 | 96.4 |
Diamante gpqa | 73.7 | 71.5 | 75.7 |
MMLU | 82.2 | 90.8 | 91.8 |
Seguridad y neutralidad política
Meta tampoco se ha olvidado de la seguridad. Han introducido herramientas como Guardia de Llama, Pronta Guard y Cyberseceval para mantener las cosas en el aliento. Y están haciendo un punto sobre la reducción del sesgo político, apuntando a un enfoque más equilibrado, especialmente después del notable apoyo de Zuckerberg a la política republicana después de las elecciones de 2014.
El futuro con Llama 4
Con Llama 4, Meta está empujando los límites de la eficiencia, la apertura y el rendimiento en la IA. Ya sea que esté buscando construir asistentes de IA de nivel empresarial o sumergirse en la investigación de IA, Llama 4 ofrece opciones poderosas y flexibles que priorizan el razonamiento. Está claro que Meta se compromete a hacer que la IA sea más accesible e impactante para todos.




Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?




メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?




Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?




Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀












