3 Ways Llama 3.1 da Meta é um adiantamento para a Gen AI

Na terça-feira, a Meta revelou a mais recente adição à sua família de modelos de linguagem de grande escala (LLMs), introduzindo o Llama 3.1. A empresa orgulhosamente apresenta o Llama 3.1 como o primeiro modelo de código aberto "de fronteira", um termo geralmente reservado para os modelos de IA mais avançados disponíveis.
O Llama 3.1 vem em vários tamanhos, mas é o gigantesco "405B" que realmente chama a atenção. Com impressionantes 405 bilhões de "pesos" neurais, ou parâmetros, ele supera outros modelos de código aberto notáveis como o Nemotron 4 da Nvidia, o Gemma 2 do Google e o Mixtral. Ainda mais intrigante são as três decisões-chave que a equipe da Meta tomou ao criar esse gigante.
Essas decisões são nada menos que uma aula magistral de engenharia de redes neurais, formando a espinha dorsal de como o Llama 3.1 405B foi construído e treinado. Elas também se baseiam nos ganhos de eficiência que a Meta demonstrou com o Llama 2, que mostrou maneiras promissoras de reduzir o orçamento geral de computação para aprendizado profundo.
Primeiramente, o Llama 3.1 405B abandona a abordagem de "mistura de especialistas", que o Google usa para seu Gemini 1.5 de código fechado e o Mistral usa para o Mixtral. Esse método envolve criar diferentes combinações de pesos neurais, algumas das quais podem ser desativadas para simplificar previsões. Em vez disso, os pesquisadores da Meta optaram pela arquitetura de modelo transformador apenas decodificador, um padrão desde que o Google a introduziu em 2017. Eles afirmam que essa escolha leva a um processo de treinamento mais estável.
Em segundo lugar, para aumentar o desempenho desse modelo baseado em transformador direto, a equipe da Meta desenvolveu uma abordagem de treinamento em várias etapas inteligente. Todos sabemos que equilibrar a quantidade de dados de treinamento e computação pode impactar significativamente a qualidade das previsões. Mas as "leis de escala" tradicionais, que preveem o desempenho do modelo com base no tamanho e nos dados, não refletem necessariamente o quão bem um modelo lidará com tarefas "downstream" como testes de raciocínio.
Assim, a Meta desenvolveu sua própria lei de escala. Eles aumentaram tanto os dados de treinamento quanto a computação, testando diferentes combinações em várias iterações para ver quão bem o modelo resultante performava nessas tarefas downstream cruciais. Esse processo meticuloso os ajudou a identificar o ponto ideal, levando à escolha de 405 bilhões de parâmetros para seu modelo principal. O treinamento final foi impulsionado por 16.000 chips GPU H100 da Nvidia no servidor de IA Grand Teton da Meta, com um sistema complexo para executar dados e pesos em paralelo.
A terceira inovação está na fase de pós-treinamento. Após cada rodada de treinamento, o Llama 3.1 passa por um processo rigoroso guiado por feedback humano, semelhante ao que a OpenAI e outros fazem para refinar as saídas de seus modelos. Isso envolve "ajuste fino supervisionado", onde o modelo aprende a distinguir entre saídas desejáveis e indesejáveis com base nas preferências humanas.
A Meta então adiciona uma reviravolta com a "otimização de preferência direta" (DPO), uma versão mais eficiente de aprendizado por reforço com feedback humano, desenvolvida por acadêmicos de IA da Universidade de Stanford este ano. Eles também treinam o Llama 3.1 para usar "ferramentas", como motores de busca externos, mostrando exemplos de prompts resolvidos com chamadas de API, aumentando suas capacidades de uso de ferramentas "zero-shot".
Para combater "alucinações", a equipe seleciona dados de treinamento específicos e cria pares de perguntas e respostas originais, ajustando o modelo para responder apenas o que sabe e recusar o que não tem certeza.
Ao longo do desenvolvimento, os pesquisadores da Meta enfatizaram a simplicidade, afirmando que dados de alta qualidade, escala e abordagens diretas entregaram consistentemente os melhores resultados. Apesar de explorarem arquiteturas e receitas de treinamento mais complexas, eles descobriram que a complexidade adicional não justificava os benefícios.
A escala do Llama 3.1 405B é um marco para modelos de código aberto, geralmente ofuscados por seus equivalentes comerciais de código fechado. O CEO da Meta, Mark Zuckerberg, destacou as vantagens econômicas, observando que os desenvolvedores podem executar inferências no Llama 3.1 405B pela metade do custo de usar modelos como o GPT-4o.
Zuckerberg também defendeu a IA de código aberto como uma progressão natural do software, comparando-a à evolução do Unix de proprietário para um ecossistema mais avançado, seguro e amplo graças ao desenvolvimento de código aberto.
No entanto, como Steven Vaughan-Nichols da ZDNET aponta, faltam alguns detalhes na postagem de código da Meta no Hugging Face, e a licença do código é mais restritiva do que as licenças típicas de código aberto. Portanto, embora o Llama 3.1 seja meio que de código aberto, não está totalmente lá. Ainda assim, o volume de detalhes sobre seu processo de treinamento é uma mudança refrescante, especialmente quando gigantes como OpenAI e Google estão cada vez mais reticentes sobre seus modelos de código fechado.
Artigo relacionado
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas
A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
SoftBank Adquire Fábrica da Sharp por $676M para Centro de Dados de IA no Japão
A SoftBank está avançando em seu objetivo de estabelecer um grande centro de IA no Japão, tanto de forma independente quanto por meio de parcerias como a OpenAI. A gigante da tecnologia confirmou na s
Análise Detalhada do Lucro Diário de $5.284 do NQ 8U Stephen AI Trader
No mundo acelerado da negociação algorítmica, compreender as métricas de desempenho impulsiona o sucesso duradouro. Esta análise detalha o registro diário do negociador automático NQ 8U Stephen AI, de
Comentários (26)
0/200
ThomasBaker
31 de Julho de 2025 à20 02:41:20 WEST
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
22 de Abril de 2025 à49 16:18:49 WEST
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
22 de Abril de 2025 à48 09:13:48 WEST
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
22 de Abril de 2025 à53 08:26:53 WEST
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
20 de Abril de 2025 à32 22:42:32 WEST
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
WilliamAllen
20 de Abril de 2025 à1 02:52:01 WEST
Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀
0
Na terça-feira, a Meta revelou a mais recente adição à sua família de modelos de linguagem de grande escala (LLMs), introduzindo o Llama 3.1. A empresa orgulhosamente apresenta o Llama 3.1 como o primeiro modelo de código aberto "de fronteira", um termo geralmente reservado para os modelos de IA mais avançados disponíveis.
O Llama 3.1 vem em vários tamanhos, mas é o gigantesco "405B" que realmente chama a atenção. Com impressionantes 405 bilhões de "pesos" neurais, ou parâmetros, ele supera outros modelos de código aberto notáveis como o Nemotron 4 da Nvidia, o Gemma 2 do Google e o Mixtral. Ainda mais intrigante são as três decisões-chave que a equipe da Meta tomou ao criar esse gigante.
Essas decisões são nada menos que uma aula magistral de engenharia de redes neurais, formando a espinha dorsal de como o Llama 3.1 405B foi construído e treinado. Elas também se baseiam nos ganhos de eficiência que a Meta demonstrou com o Llama 2, que mostrou maneiras promissoras de reduzir o orçamento geral de computação para aprendizado profundo.
Primeiramente, o Llama 3.1 405B abandona a abordagem de "mistura de especialistas", que o Google usa para seu Gemini 1.5 de código fechado e o Mistral usa para o Mixtral. Esse método envolve criar diferentes combinações de pesos neurais, algumas das quais podem ser desativadas para simplificar previsões. Em vez disso, os pesquisadores da Meta optaram pela arquitetura de modelo transformador apenas decodificador, um padrão desde que o Google a introduziu em 2017. Eles afirmam que essa escolha leva a um processo de treinamento mais estável.
Em segundo lugar, para aumentar o desempenho desse modelo baseado em transformador direto, a equipe da Meta desenvolveu uma abordagem de treinamento em várias etapas inteligente. Todos sabemos que equilibrar a quantidade de dados de treinamento e computação pode impactar significativamente a qualidade das previsões. Mas as "leis de escala" tradicionais, que preveem o desempenho do modelo com base no tamanho e nos dados, não refletem necessariamente o quão bem um modelo lidará com tarefas "downstream" como testes de raciocínio.
Assim, a Meta desenvolveu sua própria lei de escala. Eles aumentaram tanto os dados de treinamento quanto a computação, testando diferentes combinações em várias iterações para ver quão bem o modelo resultante performava nessas tarefas downstream cruciais. Esse processo meticuloso os ajudou a identificar o ponto ideal, levando à escolha de 405 bilhões de parâmetros para seu modelo principal. O treinamento final foi impulsionado por 16.000 chips GPU H100 da Nvidia no servidor de IA Grand Teton da Meta, com um sistema complexo para executar dados e pesos em paralelo.
A terceira inovação está na fase de pós-treinamento. Após cada rodada de treinamento, o Llama 3.1 passa por um processo rigoroso guiado por feedback humano, semelhante ao que a OpenAI e outros fazem para refinar as saídas de seus modelos. Isso envolve "ajuste fino supervisionado", onde o modelo aprende a distinguir entre saídas desejáveis e indesejáveis com base nas preferências humanas.
A Meta então adiciona uma reviravolta com a "otimização de preferência direta" (DPO), uma versão mais eficiente de aprendizado por reforço com feedback humano, desenvolvida por acadêmicos de IA da Universidade de Stanford este ano. Eles também treinam o Llama 3.1 para usar "ferramentas", como motores de busca externos, mostrando exemplos de prompts resolvidos com chamadas de API, aumentando suas capacidades de uso de ferramentas "zero-shot".
Para combater "alucinações", a equipe seleciona dados de treinamento específicos e cria pares de perguntas e respostas originais, ajustando o modelo para responder apenas o que sabe e recusar o que não tem certeza.
Ao longo do desenvolvimento, os pesquisadores da Meta enfatizaram a simplicidade, afirmando que dados de alta qualidade, escala e abordagens diretas entregaram consistentemente os melhores resultados. Apesar de explorarem arquiteturas e receitas de treinamento mais complexas, eles descobriram que a complexidade adicional não justificava os benefícios.
A escala do Llama 3.1 405B é um marco para modelos de código aberto, geralmente ofuscados por seus equivalentes comerciais de código fechado. O CEO da Meta, Mark Zuckerberg, destacou as vantagens econômicas, observando que os desenvolvedores podem executar inferências no Llama 3.1 405B pela metade do custo de usar modelos como o GPT-4o.
Zuckerberg também defendeu a IA de código aberto como uma progressão natural do software, comparando-a à evolução do Unix de proprietário para um ecossistema mais avançado, seguro e amplo graças ao desenvolvimento de código aberto.
No entanto, como Steven Vaughan-Nichols da ZDNET aponta, faltam alguns detalhes na postagem de código da Meta no Hugging Face, e a licença do código é mais restritiva do que as licenças típicas de código aberto. Portanto, embora o Llama 3.1 seja meio que de código aberto, não está totalmente lá. Ainda assim, o volume de detalhes sobre seu processo de treinamento é uma mudança refrescante, especialmente quando gigantes como OpenAI e Google estão cada vez mais reticentes sobre seus modelos de código fechado.


Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪




Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀












