3 formas en que Meta's Llama 3.1 es un avance para la Generación AI

El martes, Meta levantó el telón sobre la última incorporación a su familia de modelos de lenguaje grandes (LLMs) Llama, presentando Llama 3.1. La compañía presume con orgullo que Llama 3.1 es el primer modelo de código abierto "frontera", un término generalmente reservado para los modelos de IA más avanzados que existen.
Llama 3.1 viene en varios tamaños, pero es el colosal "405B" el que realmente llama la atención. Con un asombroso 405 mil millones de "pesos" neuronales, o parámetros, supera a otros modelos de código abierto destacados como Nemotron 4 de Nvidia, Gemma 2 de Google y Mixtral. Lo que es aún más intrigante son las tres decisiones clave que el equipo de Meta tomó al crear este gigante.
Estas decisiones son nada menos que una clase magistral de ingeniería de redes neuronales, formando la columna vertebral de cómo se construyó y entrenó Llama 3.1 405B. También se basan en las ganancias de eficiencia que Meta demostró con Llama 2, que mostró formas prometedoras de reducir el presupuesto general de cómputo para el aprendizaje profundo.
En primer lugar, Llama 3.1 405B abandona el enfoque de "mezcla de expertos", que Google usa para su Gemini 1.5 de código cerrado y Mistral para Mixtral. Este método implica crear diferentes combinaciones de pesos neuronales, algunos de los cuales pueden desactivarse para agilizar las predicciones. En cambio, los investigadores de Meta se mantuvieron con la arquitectura de modelo transformador de solo decodificador, probada y verdadera, un pilar desde que Google la presentó en 2017. Afirman que esta elección conduce a un proceso de entrenamiento más estable.
En segundo lugar, para mejorar el rendimiento de este modelo basado en transformadores sencillo, el equipo de Meta ideó un enfoque de entrenamiento de múltiples etapas ingenioso. Todos sabemos que equilibrar la cantidad de datos de entrenamiento y el cómputo puede impactar significativamente en la calidad de la predicción. Pero las "leyes de escalado" tradicionales, que predicen el rendimiento del modelo según el tamaño y los datos, no necesariamente reflejan qué tan bien manejará un modelo tareas "posteriores" como pruebas de razonamiento.
Entonces, Meta desarrolló su propia ley de escalado. Incrementaron tanto los datos de entrenamiento como el cómputo, probando diferentes combinaciones en múltiples iteraciones para ver qué tan bien se desempeñaba el modelo resultante en esas tareas posteriores cruciales. Este proceso meticuloso les ayudó a identificar el punto óptimo, lo que llevó a la elección de 405 mil millones de parámetros para su modelo insignia. El entrenamiento final fue impulsado por 16,000 chips GPU H100 de Nvidia en el servidor AI Grand Teton de Meta, con un sistema complejo para ejecutar datos y pesos en paralelo.
La tercera innovación radica en la fase posterior al entrenamiento. Después de cada ronda de entrenamiento, Llama 3.1 pasa por un proceso riguroso guiado por retroalimentación humana, similar a lo que hacen OpenAI y otros para refinar las salidas de sus modelos. Esto implica un "ajuste fino supervisado", donde el modelo aprende a distinguir entre salidas deseables e indeseables basándose en las preferencias humanas.
Meta luego añade un giro con la "optimización directa de preferencias" (DPO), una versión más eficiente del aprendizaje por refuerzo a partir de retroalimentación humana, desarrollada por académicos de IA de la Universidad de Stanford este año. También entrenan a Llama 3.1 para usar "herramientas", como motores de búsqueda externos, mostrándole ejemplos de prompts resueltos con llamadas a API, potenciando sus capacidades de uso de herramientas en "cero disparos".
Para combatir las "alucinaciones", el equipo selecciona datos de entrenamiento específicos y crea pares de preguntas y respuestas originales, ajustando el modelo para responder solo lo que sabe y rechazar lo que no está seguro.
A lo largo del desarrollo, los investigadores de Meta enfatizaron la simplicidad, afirmando que datos de alta calidad, escala y enfoques directos entregaron consistentemente los mejores resultados. A pesar de explorar arquitecturas y recetas de entrenamiento más complejas, encontraron que la complejidad añadida no justificaba los beneficios.
La escala de Llama 3.1 405B es un hito para los modelos de código abierto, típicamente superados por sus contrapartes comerciales de código cerrado. El CEO de Meta, Mark Zuckerberg, destacó las ventajas económicas, señalando que los desarrolladores pueden ejecutar inferencias en Llama 3.1 405B a la mitad del costo de usar modelos como GPT-4o.
Zuckerberg también defendió la IA de código abierto como una progresión natural del software, comparándola con la evolución de Unix de propietario a un ecosistema más avanzado, seguro y amplio gracias al desarrollo de código abierto.
Sin embargo, como señala Steven Vaughan-Nichols de ZDNET, faltan algunos detalles en la publicación del código de Meta en Hugging Face, y la licencia del código es más restrictiva que las licencias de código abierto típicas. Entonces, aunque Llama 3.1 es una especie de código abierto, no lo es del todo. Sin embargo, el gran volumen de detalles sobre su proceso de entrenamiento es un cambio refrescante, especialmente cuando gigantes como OpenAI y Google son cada vez más reservados sobre sus modelos de código cerrado.
Artículo relacionado
Raspado eficiente de perfiles de LinkedIn a gran escala con herramientas basadas en IA
En nuestro panorama profesional dominado por los datos, la automatización de la extracción de perfiles de LinkedIn ofrece importantes ventajas competitivas para la prospección de ventas, el marketing
Anthropic resuelve un caso de piratería de libros generados por inteligencia artificial
Anthropic ha llegado a una resolución en un importante litigio sobre derechos de autor con autores estadounidenses, aceptando una propuesta de acuerdo de demanda colectiva que evita un juicio potencia
Meta comparte ingresos con los anfitriones de los modelos de inteligencia artificial de Llama, según un expediente
Aunque Mark Zuckerberg, consejero delegado de Meta, enfatizó en julio de 2023 que "vender acceso" no es su modelo de negocio para los modelos de IA de Llama, archivos judiciales recientemente revelado
comentario (27)
0/200
DavidRodriguez
30 de agosto de 2025 18:30:32 GMT+02:00
Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐
0
ThomasBaker
31 de julio de 2025 03:41:20 GMT+02:00
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
22 de abril de 2025 17:18:49 GMT+02:00
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
22 de abril de 2025 10:13:48 GMT+02:00
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
22 de abril de 2025 09:26:53 GMT+02:00
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
20 de abril de 2025 23:42:32 GMT+02:00
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
El martes, Meta levantó el telón sobre la última incorporación a su familia de modelos de lenguaje grandes (LLMs) Llama, presentando Llama 3.1. La compañía presume con orgullo que Llama 3.1 es el primer modelo de código abierto "frontera", un término generalmente reservado para los modelos de IA más avanzados que existen.
Llama 3.1 viene en varios tamaños, pero es el colosal "405B" el que realmente llama la atención. Con un asombroso 405 mil millones de "pesos" neuronales, o parámetros, supera a otros modelos de código abierto destacados como Nemotron 4 de Nvidia, Gemma 2 de Google y Mixtral. Lo que es aún más intrigante son las tres decisiones clave que el equipo de Meta tomó al crear este gigante.
Estas decisiones son nada menos que una clase magistral de ingeniería de redes neuronales, formando la columna vertebral de cómo se construyó y entrenó Llama 3.1 405B. También se basan en las ganancias de eficiencia que Meta demostró con Llama 2, que mostró formas prometedoras de reducir el presupuesto general de cómputo para el aprendizaje profundo.
En primer lugar, Llama 3.1 405B abandona el enfoque de "mezcla de expertos", que Google usa para su Gemini 1.5 de código cerrado y Mistral para Mixtral. Este método implica crear diferentes combinaciones de pesos neuronales, algunos de los cuales pueden desactivarse para agilizar las predicciones. En cambio, los investigadores de Meta se mantuvieron con la arquitectura de modelo transformador de solo decodificador, probada y verdadera, un pilar desde que Google la presentó en 2017. Afirman que esta elección conduce a un proceso de entrenamiento más estable.
En segundo lugar, para mejorar el rendimiento de este modelo basado en transformadores sencillo, el equipo de Meta ideó un enfoque de entrenamiento de múltiples etapas ingenioso. Todos sabemos que equilibrar la cantidad de datos de entrenamiento y el cómputo puede impactar significativamente en la calidad de la predicción. Pero las "leyes de escalado" tradicionales, que predicen el rendimiento del modelo según el tamaño y los datos, no necesariamente reflejan qué tan bien manejará un modelo tareas "posteriores" como pruebas de razonamiento.
Entonces, Meta desarrolló su propia ley de escalado. Incrementaron tanto los datos de entrenamiento como el cómputo, probando diferentes combinaciones en múltiples iteraciones para ver qué tan bien se desempeñaba el modelo resultante en esas tareas posteriores cruciales. Este proceso meticuloso les ayudó a identificar el punto óptimo, lo que llevó a la elección de 405 mil millones de parámetros para su modelo insignia. El entrenamiento final fue impulsado por 16,000 chips GPU H100 de Nvidia en el servidor AI Grand Teton de Meta, con un sistema complejo para ejecutar datos y pesos en paralelo.
La tercera innovación radica en la fase posterior al entrenamiento. Después de cada ronda de entrenamiento, Llama 3.1 pasa por un proceso riguroso guiado por retroalimentación humana, similar a lo que hacen OpenAI y otros para refinar las salidas de sus modelos. Esto implica un "ajuste fino supervisado", donde el modelo aprende a distinguir entre salidas deseables e indeseables basándose en las preferencias humanas.
Meta luego añade un giro con la "optimización directa de preferencias" (DPO), una versión más eficiente del aprendizaje por refuerzo a partir de retroalimentación humana, desarrollada por académicos de IA de la Universidad de Stanford este año. También entrenan a Llama 3.1 para usar "herramientas", como motores de búsqueda externos, mostrándole ejemplos de prompts resueltos con llamadas a API, potenciando sus capacidades de uso de herramientas en "cero disparos".
Para combatir las "alucinaciones", el equipo selecciona datos de entrenamiento específicos y crea pares de preguntas y respuestas originales, ajustando el modelo para responder solo lo que sabe y rechazar lo que no está seguro.
A lo largo del desarrollo, los investigadores de Meta enfatizaron la simplicidad, afirmando que datos de alta calidad, escala y enfoques directos entregaron consistentemente los mejores resultados. A pesar de explorar arquitecturas y recetas de entrenamiento más complejas, encontraron que la complejidad añadida no justificaba los beneficios.
La escala de Llama 3.1 405B es un hito para los modelos de código abierto, típicamente superados por sus contrapartes comerciales de código cerrado. El CEO de Meta, Mark Zuckerberg, destacó las ventajas económicas, señalando que los desarrolladores pueden ejecutar inferencias en Llama 3.1 405B a la mitad del costo de usar modelos como GPT-4o.
Zuckerberg también defendió la IA de código abierto como una progresión natural del software, comparándola con la evolución de Unix de propietario a un ecosistema más avanzado, seguro y amplio gracias al desarrollo de código abierto.
Sin embargo, como señala Steven Vaughan-Nichols de ZDNET, faltan algunos detalles en la publicación del código de Meta en Hugging Face, y la licencia del código es más restrictiva que las licencias de código abierto típicas. Entonces, aunque Llama 3.1 es una especie de código abierto, no lo es del todo. Sin embargo, el gran volumen de detalles sobre su proceso de entrenamiento es un cambio refrescante, especialmente cuando gigantes como OpenAI y Google son cada vez más reservados sobre sus modelos de código cerrado.



Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐




Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪












