3 Ways Llama 3.1 da Meta é um adiantamento para a Gen AI

Lar

Notícias

15 de Abril de 2025

MichaelAdams

107

3 Ways Llama 3.1 da Meta é um adiantamento para a Gen AI

Na terça-feira, a Meta revelou a mais recente adição à sua família de modelos de linguagem de grande escala (LLMs), introduzindo o Llama 3.1. A empresa orgulhosamente apresenta o Llama 3.1 como o primeiro modelo de código aberto "de fronteira", um termo geralmente reservado para os modelos de IA mais avançados disponíveis.

O Llama 3.1 vem em vários tamanhos, mas é o gigantesco "405B" que realmente chama a atenção. Com impressionantes 405 bilhões de "pesos" neurais, ou parâmetros, ele supera outros modelos de código aberto notáveis como o Nemotron 4 da Nvidia, o Gemma 2 do Google e o Mixtral. Ainda mais intrigante são as três decisões-chave que a equipe da Meta tomou ao criar esse gigante.

Essas decisões são nada menos que uma aula magistral de engenharia de redes neurais, formando a espinha dorsal de como o Llama 3.1 405B foi construído e treinado. Elas também se baseiam nos ganhos de eficiência que a Meta demonstrou com o Llama 2, que mostrou maneiras promissoras de reduzir o orçamento geral de computação para aprendizado profundo.

Primeiramente, o Llama 3.1 405B abandona a abordagem de "mistura de especialistas", que o Google usa para seu Gemini 1.5 de código fechado e o Mistral usa para o Mixtral. Esse método envolve criar diferentes combinações de pesos neurais, algumas das quais podem ser desativadas para simplificar previsões. Em vez disso, os pesquisadores da Meta optaram pela arquitetura de modelo transformador apenas decodificador, um padrão desde que o Google a introduziu em 2017. Eles afirmam que essa escolha leva a um processo de treinamento mais estável.

Em segundo lugar, para aumentar o desempenho desse modelo baseado em transformador direto, a equipe da Meta desenvolveu uma abordagem de treinamento em várias etapas inteligente. Todos sabemos que equilibrar a quantidade de dados de treinamento e computação pode impactar significativamente a qualidade das previsões. Mas as "leis de escala" tradicionais, que preveem o desempenho do modelo com base no tamanho e nos dados, não refletem necessariamente o quão bem um modelo lidará com tarefas "downstream" como testes de raciocínio.

Assim, a Meta desenvolveu sua própria lei de escala. Eles aumentaram tanto os dados de treinamento quanto a computação, testando diferentes combinações em várias iterações para ver quão bem o modelo resultante performava nessas tarefas downstream cruciais. Esse processo meticuloso os ajudou a identificar o ponto ideal, levando à escolha de 405 bilhões de parâmetros para seu modelo principal. O treinamento final foi impulsionado por 16.000 chips GPU H100 da Nvidia no servidor de IA Grand Teton da Meta, com um sistema complexo para executar dados e pesos em paralelo.

A terceira inovação está na fase de pós-treinamento. Após cada rodada de treinamento, o Llama 3.1 passa por um processo rigoroso guiado por feedback humano, semelhante ao que a OpenAI e outros fazem para refinar as saídas de seus modelos. Isso envolve "ajuste fino supervisionado", onde o modelo aprende a distinguir entre saídas desejáveis e indesejáveis com base nas preferências humanas.

A Meta então adiciona uma reviravolta com a "otimização de preferência direta" (DPO), uma versão mais eficiente de aprendizado por reforço com feedback humano, desenvolvida por acadêmicos de IA da Universidade de Stanford este ano. Eles também treinam o Llama 3.1 para usar "ferramentas", como motores de busca externos, mostrando exemplos de prompts resolvidos com chamadas de API, aumentando suas capacidades de uso de ferramentas "zero-shot".

Para combater "alucinações", a equipe seleciona dados de treinamento específicos e cria pares de perguntas e respostas originais, ajustando o modelo para responder apenas o que sabe e recusar o que não tem certeza.

Ao longo do desenvolvimento, os pesquisadores da Meta enfatizaram a simplicidade, afirmando que dados de alta qualidade, escala e abordagens diretas entregaram consistentemente os melhores resultados. Apesar de explorarem arquiteturas e receitas de treinamento mais complexas, eles descobriram que a complexidade adicional não justificava os benefícios.

A escala do Llama 3.1 405B é um marco para modelos de código aberto, geralmente ofuscados por seus equivalentes comerciais de código fechado. O CEO da Meta, Mark Zuckerberg, destacou as vantagens econômicas, observando que os desenvolvedores podem executar inferências no Llama 3.1 405B pela metade do custo de usar modelos como o GPT-4o.

Zuckerberg também defendeu a IA de código aberto como uma progressão natural do software, comparando-a à evolução do Unix de proprietário para um ecossistema mais avançado, seguro e amplo graças ao desenvolvimento de código aberto.

No entanto, como Steven Vaughan-Nichols da ZDNET aponta, faltam alguns detalhes na postagem de código da Meta no Hugging Face, e a licença do código é mais restritiva do que as licenças típicas de código aberto. Portanto, embora o Llama 3.1 seja meio que de código aberto, não está totalmente lá. Ainda assim, o volume de detalhes sobre seu processo de treinamento é uma mudança refrescante, especialmente quando gigantes como OpenAI e Google estão cada vez mais reticentes sobre seus modelos de código fechado.

Artigo relacionado

Anthropic resolve caso legal sobre pirataria de livros gerados por IA A Anthropic chegou a uma resolução em uma importante disputa de direitos autorais com autores norte-americanos, concordando com uma proposta de acordo de ação coletiva que evita um julgamento potencia

Meta compartilha receita com hosts de modelos de IA da Llama, revela registro Embora o CEO da Meta, Mark Zuckerberg, tenha enfatizado em julho de 2023 que a "venda de acesso" não é o modelo de negócios da empresa para os modelos de IA da Llama, os registros judiciais recém-divu

Desbloqueie 99% dos dados ocultos, agora otimizados para IA Há gerações, organizações de todos os setores entendem que suas informações acumuladas representam um ativo transformador, capaz de aprimorar as interações com os clientes e moldar estratégias de negó

Comentários (27)

0/200

Enviar

DavidRodriguez

30 de Agosto de 2025 à32 17:30:32 WEST

Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐

ThomasBaker

31 de Julho de 2025 à20 02:41:20 WEST

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas

22 de Abril de 2025 à49 16:18:49 WEST

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez

22 de Abril de 2025 à48 09:13:48 WEST

ラマ3.1は本当にすごい！オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください！🚀

AnthonyPerez

22 de Abril de 2025 à53 08:26:53 WEST

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson

20 de Abril de 2025 à32 22:42:32 WEST

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA AI Builder e Power Automate Revolucionam a Sumarização de Documentos Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude

Mais

Apresentou