opción
Hogar
Noticias
3 formas en que Meta's Llama 3.1 es un avance para la Generación AI

3 formas en que Meta's Llama 3.1 es un avance para la Generación AI

15 de abril de 2025
107

3 formas en que Meta's Llama 3.1 es un avance para la Generación AI

El martes, Meta levantó el telón sobre la última incorporación a su familia de modelos de lenguaje grandes (LLMs) Llama, presentando Llama 3.1. La compañía presume con orgullo que Llama 3.1 es el primer modelo de código abierto "frontera", un término generalmente reservado para los modelos de IA más avanzados que existen.

Llama 3.1 viene en varios tamaños, pero es el colosal "405B" el que realmente llama la atención. Con un asombroso 405 mil millones de "pesos" neuronales, o parámetros, supera a otros modelos de código abierto destacados como Nemotron 4 de Nvidia, Gemma 2 de Google y Mixtral. Lo que es aún más intrigante son las tres decisiones clave que el equipo de Meta tomó al crear este gigante.

Estas decisiones son nada menos que una clase magistral de ingeniería de redes neuronales, formando la columna vertebral de cómo se construyó y entrenó Llama 3.1 405B. También se basan en las ganancias de eficiencia que Meta demostró con Llama 2, que mostró formas prometedoras de reducir el presupuesto general de cómputo para el aprendizaje profundo.

En primer lugar, Llama 3.1 405B abandona el enfoque de "mezcla de expertos", que Google usa para su Gemini 1.5 de código cerrado y Mistral para Mixtral. Este método implica crear diferentes combinaciones de pesos neuronales, algunos de los cuales pueden desactivarse para agilizar las predicciones. En cambio, los investigadores de Meta se mantuvieron con la arquitectura de modelo transformador de solo decodificador, probada y verdadera, un pilar desde que Google la presentó en 2017. Afirman que esta elección conduce a un proceso de entrenamiento más estable.

En segundo lugar, para mejorar el rendimiento de este modelo basado en transformadores sencillo, el equipo de Meta ideó un enfoque de entrenamiento de múltiples etapas ingenioso. Todos sabemos que equilibrar la cantidad de datos de entrenamiento y el cómputo puede impactar significativamente en la calidad de la predicción. Pero las "leyes de escalado" tradicionales, que predicen el rendimiento del modelo según el tamaño y los datos, no necesariamente reflejan qué tan bien manejará un modelo tareas "posteriores" como pruebas de razonamiento.

Entonces, Meta desarrolló su propia ley de escalado. Incrementaron tanto los datos de entrenamiento como el cómputo, probando diferentes combinaciones en múltiples iteraciones para ver qué tan bien se desempeñaba el modelo resultante en esas tareas posteriores cruciales. Este proceso meticuloso les ayudó a identificar el punto óptimo, lo que llevó a la elección de 405 mil millones de parámetros para su modelo insignia. El entrenamiento final fue impulsado por 16,000 chips GPU H100 de Nvidia en el servidor AI Grand Teton de Meta, con un sistema complejo para ejecutar datos y pesos en paralelo.

La tercera innovación radica en la fase posterior al entrenamiento. Después de cada ronda de entrenamiento, Llama 3.1 pasa por un proceso riguroso guiado por retroalimentación humana, similar a lo que hacen OpenAI y otros para refinar las salidas de sus modelos. Esto implica un "ajuste fino supervisado", donde el modelo aprende a distinguir entre salidas deseables e indeseables basándose en las preferencias humanas.

Meta luego añade un giro con la "optimización directa de preferencias" (DPO), una versión más eficiente del aprendizaje por refuerzo a partir de retroalimentación humana, desarrollada por académicos de IA de la Universidad de Stanford este año. También entrenan a Llama 3.1 para usar "herramientas", como motores de búsqueda externos, mostrándole ejemplos de prompts resueltos con llamadas a API, potenciando sus capacidades de uso de herramientas en "cero disparos".

Para combatir las "alucinaciones", el equipo selecciona datos de entrenamiento específicos y crea pares de preguntas y respuestas originales, ajustando el modelo para responder solo lo que sabe y rechazar lo que no está seguro.

A lo largo del desarrollo, los investigadores de Meta enfatizaron la simplicidad, afirmando que datos de alta calidad, escala y enfoques directos entregaron consistentemente los mejores resultados. A pesar de explorar arquitecturas y recetas de entrenamiento más complejas, encontraron que la complejidad añadida no justificaba los beneficios.

La escala de Llama 3.1 405B es un hito para los modelos de código abierto, típicamente superados por sus contrapartes comerciales de código cerrado. El CEO de Meta, Mark Zuckerberg, destacó las ventajas económicas, señalando que los desarrolladores pueden ejecutar inferencias en Llama 3.1 405B a la mitad del costo de usar modelos como GPT-4o.

Zuckerberg también defendió la IA de código abierto como una progresión natural del software, comparándola con la evolución de Unix de propietario a un ecosistema más avanzado, seguro y amplio gracias al desarrollo de código abierto.

Sin embargo, como señala Steven Vaughan-Nichols de ZDNET, faltan algunos detalles en la publicación del código de Meta en Hugging Face, y la licencia del código es más restrictiva que las licencias de código abierto típicas. Entonces, aunque Llama 3.1 es una especie de código abierto, no lo es del todo. Sin embargo, el gran volumen de detalles sobre su proceso de entrenamiento es un cambio refrescante, especialmente cuando gigantes como OpenAI y Google son cada vez más reservados sobre sus modelos de código cerrado.

Artículo relacionado
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
SoftBank Adquiere Fábrica de Sharp por $676M para Centro de Datos de IA en Japón SoftBank Adquiere Fábrica de Sharp por $676M para Centro de Datos de IA en Japón SoftBank avanza en su objetivo de establecer un gran centro de IA en Japón, tanto de forma independiente como a través de asociaciones como OpenAI. El gigante tecnológico confirmó el viernes que inver
Mirada en Profundidad al Beneficio Diario de $5,284 del Trader AI Stephen NQ 8U Mirada en Profundidad al Beneficio Diario de $5,284 del Trader AI Stephen NQ 8U En el ámbito acelerado del trading algorítmico, comprender las métricas de rendimiento impulsa el éxito duradero. Esta reseña desglosa el registro diario para el auto trader AI Stephen NQ 8U, destacan
comentario (26)
0/200
ThomasBaker
ThomasBaker 31 de julio de 2025 03:41:20 GMT+02:00

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 22 de abril de 2025 17:18:49 GMT+02:00

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 22 de abril de 2025 10:13:48 GMT+02:00

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 22 de abril de 2025 09:26:53 GMT+02:00

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 20 de abril de 2025 23:42:32 GMT+02:00

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

WilliamAllen
WilliamAllen 20 de abril de 2025 03:52:01 GMT+02:00

Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀

Volver arriba
OR