O novo llama-3.1 Nemotron da NVIDIA supera o Deepseek R1 na metade do tamanho

Lar

Notícias

13 de Abril de 2025

LarryMartinez

101

# Nvidia # meta # nemotron # nlp

O novo llama-3.1 Nemotron da NVIDIA supera o Deepseek R1 na metade do tamanho

Enquanto a Meta enfrenta o escrutínio em torno de sua mais recente família de modelos Llama 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande escala (LLM) totalmente open-source, baseado no modelo anterior da Meta, Llama-3.1-405B-Instruct. Nomeado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo possui 253 bilhões de parâmetros e foi projetado para excelência em raciocínio avançado, seguimento de instruções e fluxos de trabalho de assistentes de IA. A Nvidia deu a primeira dica sobre este modelo durante sua Conferência Anual de Tecnologia de GPU (GTC) em março.

O lançamento destaca o compromisso contínuo da Nvidia em melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos de pós-treinamento. Anunciado em 7 de abril de 2025, o código, os pesos e os dados de pós-treinamento do modelo agora estão livremente acessíveis no Hugging Face. Ele foi projetado para alternar perfeitamente entre tarefas de raciocínio complexo e saídas mais simples com base em prompts do sistema, oferecendo flexibilidade aos desenvolvedores em suas aplicações.

Projetado para Inferência Eficiente

Com base nos esforços anteriores da Nvidia em otimizar LLMs para inferência, o Llama-3.1-Nemotron-Ultra-253B incorpora um processo de Busca de Arquitetura Neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores como camadas de atenção puladas, redes feedforward fundidas (FFNs) e taxas de compressão de FFN variáveis. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando-o implantável em um único nó de GPU 8x H100 sem comprometer a qualidade da saída.

A Nvidia afirma que este modelo oferece desempenho robusto enquanto é econômico para implantações em data centers. Ele é compatível com as microarquiteturas B100 e Hopper da Nvidia e foi testado nos modos de precisão BF16 e FP8.

Pós-Treinamento para Raciocínio e Alinhamento

O modelo passou por um regime abrangente de pós-treinamento. Isso incluiu ajuste fino supervisionado em vários domínios, como matemática, geração de código, chat e uso de ferramentas, seguido por aprendizado por reforço com Otimização de Política Relativa de Grupo (GRPO) para aprimorar suas capacidades de seguimento de instruções e raciocínio.

Um refinamento adicional veio através de uma fase de destilação de conhecimento com mais de 65 bilhões de tokens, e pré-treinamento contínuo em mais 88 bilhões de tokens. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com prompts e respostas de pós-treinamento extraídos de corpora públicos e métodos de geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.

Desempenho Aprimorado em Diversos Domínios e Benchmarks

Quando habilitado para raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, no benchmark MATH500, seu desempenho aumentou de 80,40% no modo padrão para 97,00% com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LiveCodeBench mais que dobraram, de 29,03% para 66,31%.

O modelo também se destacou em tarefas baseadas em ferramentas e em respostas a perguntas gerais (GPQA), alcançando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram conduzidos com um comprimento máximo de sequência de 32.000 tokens, e cada teste foi repetido até 16 vezes para maior precisão.

Comparado ao modelo MoE de última geração DeepSeek R1, que possui 671 bilhões de parâmetros, o modelo da Nvidia se mantém firme apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71,5), IFEval de seguimento de instruções (89,45 vs. 83,3) e tarefas de codificação LiveCodeBench (66,31 vs. 65,9). No entanto, o DeepSeek R1 leva uma ligeira vantagem em algumas avaliações matemáticas, particularmente AIME25 (79,8 vs. 72,50) e MATH500 (97,3 vs. 97,00).

Esses resultados indicam que o modelo denso da Nvidia pode igualar ou superar os modelos MoE em raciocínio e alinhamento geral de instruções, embora fique ligeiramente atrás em categorias intensivas em matemática.

Uso e Integração

O modelo integra-se perfeitamente à biblioteca Hugging Face Transformers (versão 4.48.3 recomendada) e suporta sequências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento de raciocínio usando prompts do sistema e escolher estratégias de decodificação com base nas necessidades da tarefa. Para tarefas de raciocínio, a Nvidia sugere usar amostragem de temperatura (0,6) com um valor top-p de 0,95, enquanto a decodificação gulosa é recomendada para saídas determinísticas.

O Llama-3.1-Nemotron-Ultra-253B suporta aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Ele é bem adequado para vários casos de uso de LLM, como desenvolvimento de chatbots, fluxos de trabalho de agentes de IA, geração aumentada por recuperação (RAG) e geração de código.

Licenciado para Uso Comercial

Lançado sob a Licença de Modelo Aberto da Nvidia e regido pelo Acordo de Licença da Comunidade Llama 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável de IA, instando as equipes a avaliarem o alinhamento, segurança e viés do modelo para seus casos de uso específicos.

Oleksii Kuchaiev, Diretor de Pós-Treinamento de Modelos de IA da Nvidia, compartilhou a empolgação sobre este lançamento aberto no X, destacando seu design denso de 253B com capacidades de raciocínio alternáveis e a inclusão de pesos e dados abertos.

Artigo relacionado

Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova

Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este

Aplicativo Meta AI Introduzirá Nível Premium e Anúncios O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime

Comentários (52)

0/200

Enviar

DouglasMartínez

18 de Agosto de 2025 à0 16:01:00 WEST

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀

StephenRoberts

1 de Agosto de 2025 à18 03:48:18 WEST

Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎

AnthonyRoberts

24 de Abril de 2025 à7 09:35:07 WEST

Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀

JohnRoberts

23 de Abril de 2025 à45 01:03:45 WEST

¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

BillyAdams

23 de Abril de 2025 à38 00:54:38 WEST

O novo Llama-3.1 Nemotron Ultra da Nvidia é uma fera! É incrível como supera o DeepSeek R1 com metade do tamanho. Tenho usado para meus projetos e os resultados são incríveis. Só desejo que fosse um pouco mais rápido, mas no geral, uma escolha sólida! 🚀

ChristopherTaylor

22 de Abril de 2025 à44 22:27:44 WEST

¡El nuevo Llama-3.1 Nemotron Ultra de Nvidia es una maravilla! Me sorprende cómo supera a DeepSeek R1 con la mitad del tamaño. Lo he usado para mis proyectos y los resultados son increíbles. Solo desearía que fuera un poco más rápido, pero en general, una opción sólida. ¡🚀

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia A IA de Cambium transforma a madeira desperdiçada em madeira serrada Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou