O novo llama-3.1 Nemotron da NVIDIA supera o Deepseek R1 na metade do tamanho

Enquanto a meta lava com o escrutínio em torno de sua mais recente família de modelos LLAMA 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande e totalmente aberta (LLM) com base no modelo de llama-33,1-405b-instruct de Meta. Nomeado LLAMA-3.1-NEMOTRON-ULTRA-253B-V1, este modelo possui 253 bilhões de parâmetros e é projetado para se destacar em raciocínio avançado, seguidores de instruções e fluxos de trabalho assistentes de IA. A NVIDIA primeiro sugeriu este modelo durante sua Conferência Anual de Tecnologia da GPU (GTC) em março.
O lançamento ressalta o compromisso contínuo da Nvidia de melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos pós-treinamento. Anunciados em 7 de abril de 2025, o código, os pesos e os dados do pós-treinamento do modelo estão agora acessíveis para abraçar o rosto. Ele foi projetado para alternar perfeitamente entre tarefas complexas de raciocínio e saídas mais simples com base nos avisos do sistema, oferecendo aos desenvolvedores flexibilidade em seus aplicativos.
Projetado para inferência eficiente
Com base nos esforços anteriores da Nvidia na otimização de LLMs para inferência, o LLAMA-3.1-NEMOTRON-ULTRA-253B incorpora um processo de pesquisa de arquitetura neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores, como camadas de atenção ignoradas, redes de feedforward fundidas (FFNs) e taxas variáveis de compressão da FFN. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando -o implantável em um único nó GPU 8x H100 sem comprometer a qualidade da saída.
A NVIDIA afirma que esse modelo oferece desempenho robusto, sendo econômico para implantações de data center. É compatível com as microarquiteturas B100 e Hopper da NVIDIA e foi testado nos modos de precisão BF16 e FP8.
Pós-treinamento para raciocínio e alinhamento
O modelo foi submetido a um regime abrangente pós-treinamento. Isso incluiu o ajuste fino supervisionado em vários domínios, como matemática, geração de código, bate-papo e uso de ferramentas, seguido de aprendizado de reforço com o Otimização de Políticas Relativas do Grupo (GRPO) para aprimorar seus recursos de seguimento e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento em mais de 65 bilhões de tokens e pré -treinamento contínuo em 88 bilhões de tokens adicionais. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com instruções e respostas pós-treinamento extraídas dos métodos públicos de corpora e geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho aprimorado em vários domínios e benchmarks
Quando ativado para o raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, na referência Math500, seu desempenho aumentou de 80,40% no modo padrão para 97,00%, com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LivecodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em resposta geral à resposta de perguntas (GPQA), pontuando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram realizados com um comprimento máximo de sequência de 32.000 tokens e cada teste foi repetido até 16 vezes para precisão.
Comparado ao modelo MOE de última geração, Deepseek R1, que possui 671 bilhões de parâmetros, o modelo da NVIDIA se mantém próprio apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71.5), seguintes instruções do IFEVAL (89,45 vs. 83.3) e tarefas de codificação de LivecodeBench (66,31 vs. 65.9). No entanto, o Deepseek R1 se apaga ligeiramente em certas avaliações matemáticas, particularmente o AIME25 (79,8 vs. 72,50) e Math500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da NVIDIA pode corresponder ou exceder os modelos MOE no raciocínio e no alinhamento geral das instruções, embora fique ligeiramente em categorias intensivas em matemática.
Uso e integração
O modelo se integra perfeitamente à Biblioteca de Transformers de Face Hugging (versão 4.48.3 recomendada) e suporta seqüências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento do raciocínio usando os avisos do sistema e escolher estratégias de decodificar com base nas necessidades de tarefas. Para tarefas de raciocínio, a NVIDIA sugere o uso de amostragem de temperatura (0,6) com um valor Top-P de 0,95, enquanto a decodificação gananciosa é recomendada para saídas determinísticas.
LLAMA-3.1-NEMOTRON-ULTRA-253B Apoia aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. É adequado para vários casos de uso de LLM, como desenvolvimento de chatbot, fluxos de trabalho do agente de IA, geração de recuperação upmentada por recuperação (RAG) e geração de código.
Licenciado para uso comercial
Lançado sob a licença do NVIDIA Open Model e governado pelo Contrato de Licença Comunitário LLAMA 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável da IA, pedindo às equipes que avaliem o alinhamento, a segurança e o viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, diretor de modelo de IA da NVIDIA, compartilhou a emoção sobre esse lançamento aberto em X, destacando seu denso design de 253b com recursos de raciocínio alternáveis e a inclusão de pesos e dados abertos.
Artigo relacionado
От MIPS до эксафлопсов за несколько десятилетий: Вычислительная мощность стремительно растет, и это преобразит ИИ
На недавней конференции Nvidia GTC технологический гигант представил прорывное достижение: первую систему серверов в одном стоечном шкафу, способную достичь одного эксафлопса. Это ошеломляющие один ми
Внутри скачка ИИ Google: Gemini 2.5 думает глубже, говорит умнее и кодирует быстрее
Google приближается к своей цели создания универсального ассистента на основе ИИНа мероприятии Google I/O этого года компания представила значительные обновления серии Gemini 2.5,
Компания Deep Cogito представила первые модели открытого исходного кода и уже лидирует в рейтингах
Deep Cogito выходит с революционными моделями ИИВ прорывном шаге компания Deep Cogito, передовая стартап по исследованию ИИ, расположенная в Сан-Франциско, официально представила с
Comentários (50)
0/200
KeithNelson
14 de Abril de 2025 à0 00:00:00 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
14 de Abril de 2025 à0 00:00:00 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
14 de Abril de 2025 à0 00:00:00 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
14 de Abril de 2025 à0 00:00:00 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
14 de Abril de 2025 à0 00:00:00 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
14 de Abril de 2025 à0 00:00:00 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0
Enquanto a meta lava com o escrutínio em torno de sua mais recente família de modelos LLAMA 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande e totalmente aberta (LLM) com base no modelo de llama-33,1-405b-instruct de Meta. Nomeado LLAMA-3.1-NEMOTRON-ULTRA-253B-V1, este modelo possui 253 bilhões de parâmetros e é projetado para se destacar em raciocínio avançado, seguidores de instruções e fluxos de trabalho assistentes de IA. A NVIDIA primeiro sugeriu este modelo durante sua Conferência Anual de Tecnologia da GPU (GTC) em março.
O lançamento ressalta o compromisso contínuo da Nvidia de melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos pós-treinamento. Anunciados em 7 de abril de 2025, o código, os pesos e os dados do pós-treinamento do modelo estão agora acessíveis para abraçar o rosto. Ele foi projetado para alternar perfeitamente entre tarefas complexas de raciocínio e saídas mais simples com base nos avisos do sistema, oferecendo aos desenvolvedores flexibilidade em seus aplicativos.
Projetado para inferência eficiente
Com base nos esforços anteriores da Nvidia na otimização de LLMs para inferência, o LLAMA-3.1-NEMOTRON-ULTRA-253B incorpora um processo de pesquisa de arquitetura neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores, como camadas de atenção ignoradas, redes de feedforward fundidas (FFNs) e taxas variáveis de compressão da FFN. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando -o implantável em um único nó GPU 8x H100 sem comprometer a qualidade da saída.
A NVIDIA afirma que esse modelo oferece desempenho robusto, sendo econômico para implantações de data center. É compatível com as microarquiteturas B100 e Hopper da NVIDIA e foi testado nos modos de precisão BF16 e FP8.
Pós-treinamento para raciocínio e alinhamento
O modelo foi submetido a um regime abrangente pós-treinamento. Isso incluiu o ajuste fino supervisionado em vários domínios, como matemática, geração de código, bate-papo e uso de ferramentas, seguido de aprendizado de reforço com o Otimização de Políticas Relativas do Grupo (GRPO) para aprimorar seus recursos de seguimento e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento em mais de 65 bilhões de tokens e pré -treinamento contínuo em 88 bilhões de tokens adicionais. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com instruções e respostas pós-treinamento extraídas dos métodos públicos de corpora e geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho aprimorado em vários domínios e benchmarks
Quando ativado para o raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, na referência Math500, seu desempenho aumentou de 80,40% no modo padrão para 97,00%, com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LivecodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em resposta geral à resposta de perguntas (GPQA), pontuando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram realizados com um comprimento máximo de sequência de 32.000 tokens e cada teste foi repetido até 16 vezes para precisão.
Comparado ao modelo MOE de última geração, Deepseek R1, que possui 671 bilhões de parâmetros, o modelo da NVIDIA se mantém próprio apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71.5), seguintes instruções do IFEVAL (89,45 vs. 83.3) e tarefas de codificação de LivecodeBench (66,31 vs. 65.9). No entanto, o Deepseek R1 se apaga ligeiramente em certas avaliações matemáticas, particularmente o AIME25 (79,8 vs. 72,50) e Math500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da NVIDIA pode corresponder ou exceder os modelos MOE no raciocínio e no alinhamento geral das instruções, embora fique ligeiramente em categorias intensivas em matemática.
Uso e integração
O modelo se integra perfeitamente à Biblioteca de Transformers de Face Hugging (versão 4.48.3 recomendada) e suporta seqüências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento do raciocínio usando os avisos do sistema e escolher estratégias de decodificar com base nas necessidades de tarefas. Para tarefas de raciocínio, a NVIDIA sugere o uso de amostragem de temperatura (0,6) com um valor Top-P de 0,95, enquanto a decodificação gananciosa é recomendada para saídas determinísticas.
LLAMA-3.1-NEMOTRON-ULTRA-253B Apoia aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. É adequado para vários casos de uso de LLM, como desenvolvimento de chatbot, fluxos de trabalho do agente de IA, geração de recuperação upmentada por recuperação (RAG) e geração de código.
Licenciado para uso comercial
Lançado sob a licença do NVIDIA Open Model e governado pelo Contrato de Licença Comunitário LLAMA 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável da IA, pedindo às equipes que avaliem o alinhamento, a segurança e o viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, diretor de modelo de IA da NVIDIA, compartilhou a emoção sobre esse lançamento aberto em X, destacando seu denso design de 253b com recursos de raciocínio alternáveis e a inclusão de pesos e dados abertos.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












