O novo llama-3.1 Nemotron da NVIDIA supera o Deepseek R1 na metade do tamanho

Enquanto a Meta enfrenta o escrutínio em torno de sua mais recente família de modelos Llama 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande escala (LLM) totalmente open-source, baseado no modelo anterior da Meta, Llama-3.1-405B-Instruct. Nomeado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo possui 253 bilhões de parâmetros e foi projetado para excelência em raciocínio avançado, seguimento de instruções e fluxos de trabalho de assistentes de IA. A Nvidia deu a primeira dica sobre este modelo durante sua Conferência Anual de Tecnologia de GPU (GTC) em março.
O lançamento destaca o compromisso contínuo da Nvidia em melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos de pós-treinamento. Anunciado em 7 de abril de 2025, o código, os pesos e os dados de pós-treinamento do modelo agora estão livremente acessíveis no Hugging Face. Ele foi projetado para alternar perfeitamente entre tarefas de raciocínio complexo e saídas mais simples com base em prompts do sistema, oferecendo flexibilidade aos desenvolvedores em suas aplicações.
Projetado para Inferência Eficiente
Com base nos esforços anteriores da Nvidia em otimizar LLMs para inferência, o Llama-3.1-Nemotron-Ultra-253B incorpora um processo de Busca de Arquitetura Neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores como camadas de atenção puladas, redes feedforward fundidas (FFNs) e taxas de compressão de FFN variáveis. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando-o implantável em um único nó de GPU 8x H100 sem comprometer a qualidade da saída.
A Nvidia afirma que este modelo oferece desempenho robusto enquanto é econômico para implantações em data centers. Ele é compatível com as microarquiteturas B100 e Hopper da Nvidia e foi testado nos modos de precisão BF16 e FP8.
Pós-Treinamento para Raciocínio e Alinhamento
O modelo passou por um regime abrangente de pós-treinamento. Isso incluiu ajuste fino supervisionado em vários domínios, como matemática, geração de código, chat e uso de ferramentas, seguido por aprendizado por reforço com Otimização de Política Relativa de Grupo (GRPO) para aprimorar suas capacidades de seguimento de instruções e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento com mais de 65 bilhões de tokens, e pré-treinamento contínuo em mais 88 bilhões de tokens. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com prompts e respostas de pós-treinamento extraídos de corpora públicos e métodos de geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho Aprimorado em Diversos Domínios e Benchmarks
Quando habilitado para raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, no benchmark MATH500, seu desempenho aumentou de 80,40% no modo padrão para 97,00% com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LiveCodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em respostas a perguntas gerais (GPQA), alcançando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram conduzidos com um comprimento máximo de sequência de 32.000 tokens, e cada teste foi repetido até 16 vezes para maior precisão.
Comparado ao modelo MoE de última geração DeepSeek R1, que possui 671 bilhões de parâmetros, o modelo da Nvidia se mantém firme apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71,5), IFEval de seguimento de instruções (89,45 vs. 83,3) e tarefas de codificação LiveCodeBench (66,31 vs. 65,9). No entanto, o DeepSeek R1 leva uma ligeira vantagem em algumas avaliações matemáticas, particularmente AIME25 (79,8 vs. 72,50) e MATH500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da Nvidia pode igualar ou superar os modelos MoE em raciocínio e alinhamento geral de instruções, embora fique ligeiramente atrás em categorias intensivas em matemática.
Uso e Integração
O modelo integra-se perfeitamente à biblioteca Hugging Face Transformers (versão 4.48.3 recomendada) e suporta sequências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento de raciocínio usando prompts do sistema e escolher estratégias de decodificação com base nas necessidades da tarefa. Para tarefas de raciocínio, a Nvidia sugere usar amostragem de temperatura (0,6) com um valor top-p de 0,95, enquanto a decodificação gulosa é recomendada para saídas determinísticas.
O Llama-3.1-Nemotron-Ultra-253B suporta aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Ele é bem adequado para vários casos de uso de LLM, como desenvolvimento de chatbots, fluxos de trabalho de agentes de IA, geração aumentada por recuperação (RAG) e geração de código.
Licenciado para Uso Comercial
Lançado sob a Licença de Modelo Aberto da Nvidia e regido pelo Acordo de Licença da Comunidade Llama 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável de IA, instando as equipes a avaliarem o alinhamento, segurança e viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, Diretor de Pós-Treinamento de Modelos de IA da Nvidia, compartilhou a empolgação sobre este lançamento aberto no X, destacando seu design denso de 253B com capacidades de raciocínio alternáveis e a inclusão de pesos e dados abertos.
Artigo relacionado
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
A Meta AI agora responde às mensagens dos compradores no Facebook Marketplace
O Facebook Marketplace lança novos recursos de IA da Meta, incluindo respostas automáticas às consultas dos compradores, anunciou a empresa nesta quinta-feira. A plataforma também utiliza IA para agil
Meta fecha acordo para a aquisição de milhões de CPUs de IA da Amazon
A Amazon fechou uma parceria significativa com a Meta, mais uma vez contando com seus próprios chips projetados sob medida. A Meta concordou em implantar milhões de chips AWS Graviton para atender às
Recomendações de tópicos especiais relacionados
Comentários (54)
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀

Enquanto a Meta enfrenta o escrutínio em torno de sua mais recente família de modelos Llama 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande escala (LLM) totalmente open-source, baseado no modelo anterior da Meta, Llama-3.1-405B-Instruct. Nomeado Llama-3.1-Nemotron-Ultra-253B-v1, este modelo possui 253 bilhões de parâmetros e foi projetado para excelência em raciocínio avançado, seguimento de instruções e fluxos de trabalho de assistentes de IA. A Nvidia deu a primeira dica sobre este modelo durante sua Conferência Anual de Tecnologia de GPU (GTC) em março.
O lançamento destaca o compromisso contínuo da Nvidia em melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos de pós-treinamento. Anunciado em 7 de abril de 2025, o código, os pesos e os dados de pós-treinamento do modelo agora estão livremente acessíveis no Hugging Face. Ele foi projetado para alternar perfeitamente entre tarefas de raciocínio complexo e saídas mais simples com base em prompts do sistema, oferecendo flexibilidade aos desenvolvedores em suas aplicações.
Projetado para Inferência Eficiente
Com base nos esforços anteriores da Nvidia em otimizar LLMs para inferência, o Llama-3.1-Nemotron-Ultra-253B incorpora um processo de Busca de Arquitetura Neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores como camadas de atenção puladas, redes feedforward fundidas (FFNs) e taxas de compressão de FFN variáveis. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando-o implantável em um único nó de GPU 8x H100 sem comprometer a qualidade da saída.
A Nvidia afirma que este modelo oferece desempenho robusto enquanto é econômico para implantações em data centers. Ele é compatível com as microarquiteturas B100 e Hopper da Nvidia e foi testado nos modos de precisão BF16 e FP8.
Pós-Treinamento para Raciocínio e Alinhamento
O modelo passou por um regime abrangente de pós-treinamento. Isso incluiu ajuste fino supervisionado em vários domínios, como matemática, geração de código, chat e uso de ferramentas, seguido por aprendizado por reforço com Otimização de Política Relativa de Grupo (GRPO) para aprimorar suas capacidades de seguimento de instruções e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento com mais de 65 bilhões de tokens, e pré-treinamento contínuo em mais 88 bilhões de tokens. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com prompts e respostas de pós-treinamento extraídos de corpora públicos e métodos de geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho Aprimorado em Diversos Domínios e Benchmarks
Quando habilitado para raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, no benchmark MATH500, seu desempenho aumentou de 80,40% no modo padrão para 97,00% com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LiveCodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em respostas a perguntas gerais (GPQA), alcançando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram conduzidos com um comprimento máximo de sequência de 32.000 tokens, e cada teste foi repetido até 16 vezes para maior precisão.
Comparado ao modelo MoE de última geração DeepSeek R1, que possui 671 bilhões de parâmetros, o modelo da Nvidia se mantém firme apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71,5), IFEval de seguimento de instruções (89,45 vs. 83,3) e tarefas de codificação LiveCodeBench (66,31 vs. 65,9). No entanto, o DeepSeek R1 leva uma ligeira vantagem em algumas avaliações matemáticas, particularmente AIME25 (79,8 vs. 72,50) e MATH500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da Nvidia pode igualar ou superar os modelos MoE em raciocínio e alinhamento geral de instruções, embora fique ligeiramente atrás em categorias intensivas em matemática.
Uso e Integração
O modelo integra-se perfeitamente à biblioteca Hugging Face Transformers (versão 4.48.3 recomendada) e suporta sequências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento de raciocínio usando prompts do sistema e escolher estratégias de decodificação com base nas necessidades da tarefa. Para tarefas de raciocínio, a Nvidia sugere usar amostragem de temperatura (0,6) com um valor top-p de 0,95, enquanto a decodificação gulosa é recomendada para saídas determinísticas.
O Llama-3.1-Nemotron-Ultra-253B suporta aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Ele é bem adequado para vários casos de uso de LLM, como desenvolvimento de chatbots, fluxos de trabalho de agentes de IA, geração aumentada por recuperação (RAG) e geração de código.
Licenciado para Uso Comercial
Lançado sob a Licença de Modelo Aberto da Nvidia e regido pelo Acordo de Licença da Comunidade Llama 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável de IA, instando as equipes a avaliarem o alinhamento, segurança e viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, Diretor de Pós-Treinamento de Modelos de IA da Nvidia, compartilhou a empolgação sobre este lançamento aberto no X, destacando seu design denso de 253B com capacidades de raciocínio alternáveis e a inclusão de pesos e dados abertos.
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
A Meta AI agora responde às mensagens dos compradores no Facebook Marketplace
O Facebook Marketplace lança novos recursos de IA da Meta, incluindo respostas automáticas às consultas dos compradores, anunciou a empresa nesta quinta-feira. A plataforma também utiliza IA para agil
Meta fecha acordo para a aquisição de milhões de CPUs de IA da Amazon
A Amazon fechou uma parceria significativa com a Meta, mais uma vez contando com seus próprios chips projetados sob medida. A Meta concordou em implantar milhões de chips AWS Graviton para atender às
Интересно, как Nvidia удалось упаковать все эти параметры в модель размером вдвое меньше. Выходит, вложения в архитектуру дают больше преимуществ, чем просто увеличение данных? Хотя, конечно, с учётом их вычислительных ресурсов не стоит удивляться. Что особенно ценно, так это тот факт, что модель открыта. На этом фоне заявления Meta порой звучат слишком громко и с многочисленными оговорками 🤔 Это может изменить правила игры для независимых исследователей!
¿Nvidia saca otro modelo open-source más potente que DeepSeek R1? 🤔 Me pregunto si esto realmente marcará una diferencia práctica para los desarrolladores o es solo otra carrera por los números en los benchmarks. ¡253 mil millones de parámetros parece excesivo!
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outperforms it? That's wild efficiency. Can't wait to see how devs play with this open-source gem! 🚀
Nvidia's new model sounds like a beast! Half the size of DeepSeek R1 but still outshines it? That's some serious tech flex. Can't wait to see how devs play with this open-source gem! 😎
Nvidia's new Llama-3.1 Nemotron Ultra is a beast! It's amazing how it outperforms DeepSeek R1 with half the size. I've been using it for my projects and the results are incredible. Just wish it was a bit faster, but overall, a solid choice! 🚀
¡El Llama-3.1 Nemotron Ultra de Nvidia es impresionante! Supera al DeepSeek R1 con la mitad del tamaño, lo cual es alucinante. Lo he estado usando en mis proyectos y es súper eficiente. Lo único es que puede ser un poco complicado de configurar. Aún así, una excelente opción para quien busque un LLM potente. 🚀





Lar






