O novo llama-3.1 Nemotron da NVIDIA supera o Deepseek R1 na metade do tamanho
13 de Abril de 2025
LarryMartinez
34

Enquanto a meta lava com o escrutínio em torno de sua mais recente família de modelos LLAMA 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande e totalmente aberta (LLM) com base no modelo de llama-33,1-405b-instruct de Meta. Nomeado LLAMA-3.1-NEMOTRON-ULTRA-253B-V1, este modelo possui 253 bilhões de parâmetros e é projetado para se destacar em raciocínio avançado, seguidores de instruções e fluxos de trabalho assistentes de IA. A NVIDIA primeiro sugeriu este modelo durante sua Conferência Anual de Tecnologia da GPU (GTC) em março.
O lançamento ressalta o compromisso contínuo da Nvidia de melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos pós-treinamento. Anunciados em 7 de abril de 2025, o código, os pesos e os dados do pós-treinamento do modelo estão agora acessíveis para abraçar o rosto. Ele foi projetado para alternar perfeitamente entre tarefas complexas de raciocínio e saídas mais simples com base nos avisos do sistema, oferecendo aos desenvolvedores flexibilidade em seus aplicativos.
Projetado para inferência eficiente
Com base nos esforços anteriores da Nvidia na otimização de LLMs para inferência, o LLAMA-3.1-NEMOTRON-ULTRA-253B incorpora um processo de pesquisa de arquitetura neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores, como camadas de atenção ignoradas, redes de feedforward fundidas (FFNs) e taxas variáveis de compressão da FFN. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando -o implantável em um único nó GPU 8x H100 sem comprometer a qualidade da saída.
A NVIDIA afirma que esse modelo oferece desempenho robusto, sendo econômico para implantações de data center. É compatível com as microarquiteturas B100 e Hopper da NVIDIA e foi testado nos modos de precisão BF16 e FP8.
Pós-treinamento para raciocínio e alinhamento
O modelo foi submetido a um regime abrangente pós-treinamento. Isso incluiu o ajuste fino supervisionado em vários domínios, como matemática, geração de código, bate-papo e uso de ferramentas, seguido de aprendizado de reforço com o Otimização de Políticas Relativas do Grupo (GRPO) para aprimorar seus recursos de seguimento e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento em mais de 65 bilhões de tokens e pré -treinamento contínuo em 88 bilhões de tokens adicionais. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com instruções e respostas pós-treinamento extraídas dos métodos públicos de corpora e geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho aprimorado em vários domínios e benchmarks
Quando ativado para o raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, na referência Math500, seu desempenho aumentou de 80,40% no modo padrão para 97,00%, com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LivecodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em resposta geral à resposta de perguntas (GPQA), pontuando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram realizados com um comprimento máximo de sequência de 32.000 tokens e cada teste foi repetido até 16 vezes para precisão.
Comparado ao modelo MOE de última geração, Deepseek R1, que possui 671 bilhões de parâmetros, o modelo da NVIDIA se mantém próprio apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71.5), seguintes instruções do IFEVAL (89,45 vs. 83.3) e tarefas de codificação de LivecodeBench (66,31 vs. 65.9). No entanto, o Deepseek R1 se apaga ligeiramente em certas avaliações matemáticas, particularmente o AIME25 (79,8 vs. 72,50) e Math500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da NVIDIA pode corresponder ou exceder os modelos MOE no raciocínio e no alinhamento geral das instruções, embora fique ligeiramente em categorias intensivas em matemática.
Uso e integração
O modelo se integra perfeitamente à Biblioteca de Transformers de Face Hugging (versão 4.48.3 recomendada) e suporta seqüências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento do raciocínio usando os avisos do sistema e escolher estratégias de decodificar com base nas necessidades de tarefas. Para tarefas de raciocínio, a NVIDIA sugere o uso de amostragem de temperatura (0,6) com um valor Top-P de 0,95, enquanto a decodificação gananciosa é recomendada para saídas determinísticas.
LLAMA-3.1-NEMOTRON-ULTRA-253B Apoia aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. É adequado para vários casos de uso de LLM, como desenvolvimento de chatbot, fluxos de trabalho do agente de IA, geração de recuperação upmentada por recuperação (RAG) e geração de código.
Licenciado para uso comercial
Lançado sob a licença do NVIDIA Open Model e governado pelo Contrato de Licença Comunitário LLAMA 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável da IA, pedindo às equipes que avaliem o alinhamento, a segurança e o viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, diretor de modelo de IA da NVIDIA, compartilhou a emoção sobre esse lançamento aberto em X, destacando seu denso design de 253b com recursos de raciocínio alternáveis e a inclusão de pesos e dados abertos.
Artigo relacionado
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen
人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
蓋亞(Gaia
智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是那是完美的分數
Coreweave創始人兌現了4.88億美元,潛在的40億美元IPO
CoreWeave的IPO備案顯示出令人驚訝的細節,而High Stakes Coreweave的S-1文檔預計了其預期的首次公開募股(IPO),充滿了有趣的啟示。在NVIDIA的支持下,該公司在32個數據中心運營專門的AI雲服務,擁有超過250,000
Comentários (50)
0/200
KeithNelson
13 de Abril de 2025 à42 19:54:42 GMT
Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!
0
RalphMitchell
13 de Abril de 2025 à42 19:54:42 GMT
Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!
0
GeorgeWilson
13 de Abril de 2025 à42 19:54:42 GMT
Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!
0
GeorgeNelson
13 de Abril de 2025 à42 19:54:42 GMT
O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!
0
GeorgeMiller
13 de Abril de 2025 à42 19:54:42 GMT
El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!
0
BrianLewis
13 de Abril de 2025 à8 17:40:08 GMT
Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!
0






Enquanto a meta lava com o escrutínio em torno de sua mais recente família de modelos LLAMA 4, a Nvidia lançou silenciosamente um novo modelo de linguagem de grande e totalmente aberta (LLM) com base no modelo de llama-33,1-405b-instruct de Meta. Nomeado LLAMA-3.1-NEMOTRON-ULTRA-253B-V1, este modelo possui 253 bilhões de parâmetros e é projetado para se destacar em raciocínio avançado, seguidores de instruções e fluxos de trabalho assistentes de IA. A NVIDIA primeiro sugeriu este modelo durante sua Conferência Anual de Tecnologia da GPU (GTC) em março.
O lançamento ressalta o compromisso contínuo da Nvidia de melhorar o desempenho por meio de inovação arquitetônica e processos meticulosos pós-treinamento. Anunciados em 7 de abril de 2025, o código, os pesos e os dados do pós-treinamento do modelo estão agora acessíveis para abraçar o rosto. Ele foi projetado para alternar perfeitamente entre tarefas complexas de raciocínio e saídas mais simples com base nos avisos do sistema, oferecendo aos desenvolvedores flexibilidade em seus aplicativos.
Projetado para inferência eficiente
Com base nos esforços anteriores da Nvidia na otimização de LLMs para inferência, o LLAMA-3.1-NEMOTRON-ULTRA-253B incorpora um processo de pesquisa de arquitetura neural (NAS) para refinar sua arquitetura. Isso inclui recursos inovadores, como camadas de atenção ignoradas, redes de feedforward fundidas (FFNs) e taxas variáveis de compressão da FFN. Essas modificações reduzem o uso de memória e os requisitos computacionais do modelo, tornando -o implantável em um único nó GPU 8x H100 sem comprometer a qualidade da saída.
A NVIDIA afirma que esse modelo oferece desempenho robusto, sendo econômico para implantações de data center. É compatível com as microarquiteturas B100 e Hopper da NVIDIA e foi testado nos modos de precisão BF16 e FP8.
Pós-treinamento para raciocínio e alinhamento
O modelo foi submetido a um regime abrangente pós-treinamento. Isso incluiu o ajuste fino supervisionado em vários domínios, como matemática, geração de código, bate-papo e uso de ferramentas, seguido de aprendizado de reforço com o Otimização de Políticas Relativas do Grupo (GRPO) para aprimorar seus recursos de seguimento e raciocínio.
Um refinamento adicional veio através de uma fase de destilação de conhecimento em mais de 65 bilhões de tokens e pré -treinamento contínuo em 88 bilhões de tokens adicionais. As fontes de dados de treinamento incluíram FineWeb, Buzz-V1.2 e Dolma, com instruções e respostas pós-treinamento extraídas dos métodos públicos de corpora e geração sintética. Essa abordagem ajudou o modelo a diferenciar entre seus modos de raciocínio.
Desempenho aprimorado em vários domínios e benchmarks
Quando ativado para o raciocínio, o modelo mostrou melhorias significativas em vários benchmarks. Por exemplo, na referência Math500, seu desempenho aumentou de 80,40% no modo padrão para 97,00%, com o raciocínio ativado. Da mesma forma, as pontuações do AIME25 saltaram de 16,67% para 72,50%, e os resultados do LivecodeBench mais que dobraram, de 29,03% para 66,31%.
O modelo também se destacou em tarefas baseadas em ferramentas e em resposta geral à resposta de perguntas (GPQA), pontuando 76,01% no modo de raciocínio em comparação com 56,60% sem. Esses benchmarks foram realizados com um comprimento máximo de sequência de 32.000 tokens e cada teste foi repetido até 16 vezes para precisão.
Comparado ao modelo MOE de última geração, Deepseek R1, que possui 671 bilhões de parâmetros, o modelo da NVIDIA se mantém próprio apesar de ter menos parâmetros. Ele supera o DeepSeek R1 em tarefas como GPQA (76,01 vs. 71.5), seguintes instruções do IFEVAL (89,45 vs. 83.3) e tarefas de codificação de LivecodeBench (66,31 vs. 65.9). No entanto, o Deepseek R1 se apaga ligeiramente em certas avaliações matemáticas, particularmente o AIME25 (79,8 vs. 72,50) e Math500 (97,3 vs. 97,00).
Esses resultados indicam que o modelo denso da NVIDIA pode corresponder ou exceder os modelos MOE no raciocínio e no alinhamento geral das instruções, embora fique ligeiramente em categorias intensivas em matemática.
Uso e integração
O modelo se integra perfeitamente à Biblioteca de Transformers de Face Hugging (versão 4.48.3 recomendada) e suporta seqüências de até 128.000 tokens. Os desenvolvedores podem alternar o comportamento do raciocínio usando os avisos do sistema e escolher estratégias de decodificar com base nas necessidades de tarefas. Para tarefas de raciocínio, a NVIDIA sugere o uso de amostragem de temperatura (0,6) com um valor Top-P de 0,95, enquanto a decodificação gananciosa é recomendada para saídas determinísticas.
LLAMA-3.1-NEMOTRON-ULTRA-253B Apoia aplicações multilíngues, incluindo inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. É adequado para vários casos de uso de LLM, como desenvolvimento de chatbot, fluxos de trabalho do agente de IA, geração de recuperação upmentada por recuperação (RAG) e geração de código.
Licenciado para uso comercial
Lançado sob a licença do NVIDIA Open Model e governado pelo Contrato de Licença Comunitário LLAMA 3.1, o modelo está pronto para aplicações comerciais. A Nvidia enfatiza a importância do desenvolvimento responsável da IA, pedindo às equipes que avaliem o alinhamento, a segurança e o viés do modelo para seus casos de uso específicos.
Oleksii Kuchaiev, diretor de modelo de IA da NVIDIA, compartilhou a emoção sobre esse lançamento aberto em X, destacando seu denso design de 253b com recursos de raciocínio alternáveis e a inclusão de pesos e dados abertos.




Nvidia's new model is impressive, outperforming others at half the size. It's great for those who need efficiency without sacrificing performance. The only downside is the setup can be a bit tricky. Overall, a solid choice for AI enthusiasts!




Nvidiaの新しいモデルは、半分のサイズで他のモデルを上回るのが印象的です。効率を求める人には最適ですが、セットアップが少し難しいのが唯一の欠点です。全体的に、AI愛好者にとっては良い選択ですね!




Nvidia의 새로운 모델은 반 크기에서도 다른 모델을 능가하는 것이 인상적입니다. 효율성을 희생하지 않고 성능을 원하는 사람들에게 좋습니다. 유일한 단점은 설정이 조금 까다롭다는 점입니다. 전반적으로 AI 애호가들에게 좋은 선택입니다!




O novo modelo da Nvidia é impressionante, superando outros com metade do tamanho. É ótimo para quem precisa de eficiência sem sacrificar o desempenho. A única desvantagem é que a configuração pode ser um pouco complicada. No geral, uma boa escolha para entusiastas de IA!




El nuevo modelo de Nvidia es impresionante, superando a otros con la mitad del tamaño. Es genial para aquellos que necesitan eficiencia sin sacrificar el rendimiento. La única desventaja es que la configuración puede ser un poco complicada. En general, una sólida opción para entusiastas de la IA!




Nvidia's Llama-3.1 Nemotron Ultra is impressive! It outperforms DeepSeek R1 and is half the size, which is crazy. I've been using it for my projects and it's been a game-changer. The only downside is the setup can be a bit tricky, but once you get it running, it's smooth sailing!












