Lar
Nvidia revela modelo de IA de código aberto Nemotron-Nano-9B-v2 com raciocínio alternável
Os modelos de linguagem pequenos estão causando impacto. Após o lançamento do modelo de visão do tamanho de um smartwatch da Liquid AI, uma spin-off do MIT, e da oferta pronta para smartphones do Google, a Nvidia agora entra em cena com seu próprio concorrente simplificado: o Nemotron-Nano-9B-V2. Esse novo modelo lidera sua classe em benchmarks importantes e apresenta um recurso exclusivo que permite aos usuários ativar ou desativar o “raciocínio” da IA — essencialmente um processo de autoverificação antes de fornecer uma resposta final.
Embora 9 bilhões de parâmetros excedam a escala dos micromodelos com milhões de parâmetros sobre os quais relatamos recentemente, a Nvidia destaca isso como uma otimização significativa em relação aos seus 12 bilhões de parâmetros originais. O tamanho revisado foi projetado especificamente para rodar em uma única GPU Nvidia A10 amplamente disponível.
Como Oleksii Kuchiaev, diretor de pós-treinamento de modelos de IA da Nvidia, explicou em resposta a uma pergunta no X: “Reduzimos o modelo de 12 bilhões para 9 bilhões para se encaixar perfeitamente na A10, uma GPU de implantação popular. É também uma arquitetura híbrida, o que permite lidar com tamanhos de lote maiores e atingir velocidades até seis vezes mais rápidas do que os modelos transformadores tradicionais de tamanho semelhante.”
Para se ter uma perspectiva, muitos modelos de linguagem grandes líderes operam na faixa de mais de 70 bilhões de parâmetros. Os parâmetros são as configurações internas que definem o comportamento de um modelo, onde contagens mais altas normalmente indicam maior capacidade, mas também exigem significativamente mais poder computacional.
O modelo suporta vários idiomas, incluindo inglês, alemão, espanhol, francês, italiano e japonês. Recursos estendidos também abrangem coreano, português, russo e chinês. É adequado para tarefas que vão desde seguir instruções até gerar código.
O Nemotron-Nano-9B-V2 e seus conjuntos de dados de pré-treinamento estão disponíveis atualmente no Hugging Face e no catálogo de modelos da Nvidia.
Uma fusão das arquiteturas Transformer e Mamba
O modelo é baseado no Nemotron-H, uma família de modelos híbridos Mamba-Transformer que servem de base para as mais recentes ofertas de IA da Nvidia.
Embora os LLMs dominantes normalmente dependam exclusivamente da arquitetura Transformer e seus mecanismos de atenção, eles podem se tornar proibitivamente caros em termos de memória e computação à medida que o comprimento das sequências de entrada aumenta.
Os modelos Nemotron-H e outros que utilizam a arquitetura Mamba — pioneira dos pesquisadores da Carnegie Mellon University e Princeton — incorporam modelos de espaço de estado seletivo (SSMs). Esses SSMs gerenciam com eficiência sequências extremamente longas, mantendo um estado interno.
Essas camadas são dimensionadas linearmente com o comprimento da sequência, permitindo que processem contextos muito mais longos do que a autoatenção padrão, sem a mesma sobrecarga computacional.
Um design híbrido Mamba-Transformer reduz os custos ao substituir a maioria das camadas de atenção por camadas de espaço de estado de tempo linear. Isso pode render um rendimento até 2 a 3 vezes maior em tarefas de contexto longo, mantendo uma precisão comparável.
A Nvidia não está sozinha nessa abordagem; outros laboratórios de pesquisa em IA, como o AI2, também lançaram modelos baseados na arquitetura Mamba.
Ative ou desative o raciocínio com comandos simples
O Nemotron-Nano-9B-v2 foi projetado como um modelo unificado, somente de texto, capaz de interação conversacional e raciocínio complexo, treinado inteiramente do zero.
Por padrão, o sistema gera um rastreamento detalhado do raciocínio antes de produzir sua resposta final. Os usuários podem controlar esse comportamento usando tokens de comando simples, como /think ou /no_think.
O modelo também introduz o gerenciamento de “orçamento de raciocínio” em tempo de execução. Isso permite que os desenvolvedores definam um limite máximo para o número de tokens que o modelo pode usar para raciocínio interno antes de ter que entregar uma resposta.
Esse mecanismo tem como objetivo equilibrar a precisão com a latência da resposta, o que é crucial para aplicativos como chatbots de suporte ao cliente ou agentes autônomos.
Benchmarks mostram forte desempenho
Os resultados da avaliação demonstram precisão competitiva em relação a outros modelos abertos de pequena escala líderes. Quando testado com raciocínio habilitado usando o pacote NeMo-Skills, o Nemotron-Nano-9B-v2 alcançou pontuações de 72,1% no AIME25, 97,8% no MATH500, 64,0% no GPQA e 71,1% no LiveCodeBench.
As pontuações nos benchmarks de seguimento de instruções e contexto longo também são fortes: 90,3% no IFEval e 78,9% no teste RULER 128K, com ganhos mensuráveis adicionais no BFCL v3 e no benchmark HLE.

Em várias avaliações, o Nano-9B-v2 mostra consistentemente uma precisão maior do que um ponto de comparação comum, o modelo Qwen3-8B.

A Nvidia apresenta esses resultados com curvas de precisão versus orçamento que ilustram como o desempenho melhora à medida que a permissão de tokens para raciocínio aumenta. A empresa observa que o controle cuidadoso do orçamento permite que os desenvolvedores otimizem a qualidade e a velocidade em ambientes de produção.
Treinado em conjuntos de dados sintéticos
Tanto o modelo Nano quanto a família Nemotron-H mais ampla são treinados em uma mistura de dados da web cuidadosamente selecionados, fontes proprietárias e dados de treinamento sintéticos.
O corpus de treinamento inclui textos gerais, códigos, matemática, literatura científica, documentos jurídicos e financeiros, bem como conjuntos de dados de perguntas e respostas com foco no alinhamento.
A Nvidia confirma o uso de traços de raciocínio sintéticos gerados por outros modelos grandes para melhorar o desempenho em tarefas de benchmark complexas.
Licenciamento e uso comercial
O modelo Nano-9B-v2 é lançado sob o Contrato de Licença de Modelo Aberto da Nvidia, que foi atualizado pela última vez em junho de 2025.
Esta licença foi concebida para ser permissiva e favorável às empresas. A Nvidia afirma explicitamente que os modelos são comercialmente utilizáveis imediatamente e que os desenvolvedores são livres para criar e distribuir trabalhos derivados.
Fundamentalmente, a Nvidia não reivindica a propriedade de quaisquer resultados gerados pelo modelo, deixando todos os direitos e responsabilidades com o desenvolvedor ou organização que o utiliza.
Para desenvolvedores empresariais, isso significa que o modelo pode ser implantado em produção imediatamente, sem a necessidade de negociar uma licença comercial separada ou pagar taxas com base no volume de uso, receita ou número de usuários. Ao contrário de algumas licenças abertas em camadas de outros fornecedores, não há cláusulas que exijam o pagamento de uma licença quando uma empresa atinge um determinado tamanho.
Dito isso, o contrato inclui várias condições importantes que as empresas devem seguir:
- Barreiras de proteção: os usuários não podem contornar ou desativar os mecanismos de segurança integrados (conhecidos como “barreiras de proteção”) sem implementar substitutos adequados e equivalentes para sua implantação específica.
- Redistribuição: qualquer redistribuição do modelo ou de seus derivados deve incluir o texto completo da Licença de Modelo Aberto da Nvidia e a atribuição adequada (“Licenciado pela Nvidia Corporation sob a Licença de Modelo Aberto da Nvidia”).
- Conformidade: os usuários devem cumprir todas as regulamentações e restrições comerciais aplicáveis, como as leis de controle de exportação dos EUA.
- Termos de IA confiável: o uso deve estar alinhado com as diretrizes de IA confiável da Nvidia, que abrangem princípios para implantação responsável e considerações éticas.
- Cláusula de litígio: a licença é automaticamente rescindida se um usuário iniciar um litígio de direitos autorais ou patentes contra outra parte, alegando violação relacionada ao modelo.
Essas condições se concentram em garantir a conformidade legal e o uso responsável, em vez de restringir a escala comercial. As empresas não precisam solicitar permissão adicional ou pagar royalties à Nvidia para criar produtos, monetizar serviços ou ampliar sua base de usuários. Em vez disso, elas devem garantir que suas práticas de implantação respeitem a segurança, forneçam a atribuição adequada e cumpram todas as obrigações de conformidade.
Posicionamento no mercado
Com o Nemotron-Nano-9B-v2, a Nvidia tem como alvo desenvolvedores que precisam equilibrar a capacidade de raciocínio com a eficiência de implantação em menor escala.
Os recursos de controle de orçamento de tempo de execução e alternância de raciocínio foram projetados para dar aos criadores de sistemas maior flexibilidade no gerenciamento do equilíbrio entre precisão e velocidade de resposta.
Sua disponibilidade no Hugging Face e no catálogo de modelos da Nvidia sinaliza uma intenção de ampla acessibilidade, incentivando a experimentação e a integração.
O lançamento do Nemotron-Nano-9B-v2 pela Nvidia ressalta o foco contínuo da empresa em eficiência e raciocínio controlável em modelos de linguagem.
Ao combinar arquiteturas híbridas com técnicas avançadas de compressão e treinamento, a Nvidia visa fornecer aos desenvolvedores ferramentas que mantêm alta precisão e, ao mesmo tempo, reduzem os custos operacionais e a latência.
Artigo relacionado
A variante OpenClaw da Nvidia pode resolver seu maior desafio: a segurança
O CEO da Nvidia, Jensen Huang, acredita que toda empresa precisa de uma estratégia OpenClaw — e a Nvidia está pronta para fornecê-la.Durante sua palestra na GTC na segunda-feira, Huang anunciou que a
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
A Nvidia GTC apresenta o NemoClaw, o robô Olaf e uma aposta de US$ 1 trilhão
Carregando o player…O CEO Jensen Huang subiu ao palco na conferência GTC da Nvidia nesta semana, vestindo sua jaqueta de couro característica, para proferir uma palestra de duas horas e meia, projetan
Recomendações de tópicos especiais relacionados
Comentários (1)
Os modelos de linguagem pequenos estão causando impacto. Após o lançamento do modelo de visão do tamanho de um smartwatch da Liquid AI, uma spin-off do MIT, e da oferta pronta para smartphones do Google, a Nvidia agora entra em cena com seu próprio concorrente simplificado: o Nemotron-Nano-9B-V2. Esse novo modelo lidera sua classe em benchmarks importantes e apresenta um recurso exclusivo que permite aos usuários ativar ou desativar o “raciocínio” da IA — essencialmente um processo de autoverificação antes de fornecer uma resposta final.
Embora 9 bilhões de parâmetros excedam a escala dos micromodelos com milhões de parâmetros sobre os quais relatamos recentemente, a Nvidia destaca isso como uma otimização significativa em relação aos seus 12 bilhões de parâmetros originais. O tamanho revisado foi projetado especificamente para rodar em uma única GPU Nvidia A10 amplamente disponível.
Como Oleksii Kuchiaev, diretor de pós-treinamento de modelos de IA da Nvidia, explicou em resposta a uma pergunta no X: “Reduzimos o modelo de 12 bilhões para 9 bilhões para se encaixar perfeitamente na A10, uma GPU de implantação popular. É também uma arquitetura híbrida, o que permite lidar com tamanhos de lote maiores e atingir velocidades até seis vezes mais rápidas do que os modelos transformadores tradicionais de tamanho semelhante.”
Para se ter uma perspectiva, muitos modelos de linguagem grandes líderes operam na faixa de mais de 70 bilhões de parâmetros. Os parâmetros são as configurações internas que definem o comportamento de um modelo, onde contagens mais altas normalmente indicam maior capacidade, mas também exigem significativamente mais poder computacional.
O modelo suporta vários idiomas, incluindo inglês, alemão, espanhol, francês, italiano e japonês. Recursos estendidos também abrangem coreano, português, russo e chinês. É adequado para tarefas que vão desde seguir instruções até gerar código.
O Nemotron-Nano-9B-V2 e seus conjuntos de dados de pré-treinamento estão disponíveis atualmente no Hugging Face e no catálogo de modelos da Nvidia.
Uma fusão das arquiteturas Transformer e Mamba
O modelo é baseado no Nemotron-H, uma família de modelos híbridos Mamba-Transformer que servem de base para as mais recentes ofertas de IA da Nvidia.
Embora os LLMs dominantes normalmente dependam exclusivamente da arquitetura Transformer e seus mecanismos de atenção, eles podem se tornar proibitivamente caros em termos de memória e computação à medida que o comprimento das sequências de entrada aumenta.
Os modelos Nemotron-H e outros que utilizam a arquitetura Mamba — pioneira dos pesquisadores da Carnegie Mellon University e Princeton — incorporam modelos de espaço de estado seletivo (SSMs). Esses SSMs gerenciam com eficiência sequências extremamente longas, mantendo um estado interno.
Essas camadas são dimensionadas linearmente com o comprimento da sequência, permitindo que processem contextos muito mais longos do que a autoatenção padrão, sem a mesma sobrecarga computacional.
Um design híbrido Mamba-Transformer reduz os custos ao substituir a maioria das camadas de atenção por camadas de espaço de estado de tempo linear. Isso pode render um rendimento até 2 a 3 vezes maior em tarefas de contexto longo, mantendo uma precisão comparável.
A Nvidia não está sozinha nessa abordagem; outros laboratórios de pesquisa em IA, como o AI2, também lançaram modelos baseados na arquitetura Mamba.
Ative ou desative o raciocínio com comandos simples
O Nemotron-Nano-9B-v2 foi projetado como um modelo unificado, somente de texto, capaz de interação conversacional e raciocínio complexo, treinado inteiramente do zero.
Por padrão, o sistema gera um rastreamento detalhado do raciocínio antes de produzir sua resposta final. Os usuários podem controlar esse comportamento usando tokens de comando simples, como /think ou /no_think.
O modelo também introduz o gerenciamento de “orçamento de raciocínio” em tempo de execução. Isso permite que os desenvolvedores definam um limite máximo para o número de tokens que o modelo pode usar para raciocínio interno antes de ter que entregar uma resposta.
Esse mecanismo tem como objetivo equilibrar a precisão com a latência da resposta, o que é crucial para aplicativos como chatbots de suporte ao cliente ou agentes autônomos.
Benchmarks mostram forte desempenho
Os resultados da avaliação demonstram precisão competitiva em relação a outros modelos abertos de pequena escala líderes. Quando testado com raciocínio habilitado usando o pacote NeMo-Skills, o Nemotron-Nano-9B-v2 alcançou pontuações de 72,1% no AIME25, 97,8% no MATH500, 64,0% no GPQA e 71,1% no LiveCodeBench.
As pontuações nos benchmarks de seguimento de instruções e contexto longo também são fortes: 90,3% no IFEval e 78,9% no teste RULER 128K, com ganhos mensuráveis adicionais no BFCL v3 e no benchmark HLE.

Em várias avaliações, o Nano-9B-v2 mostra consistentemente uma precisão maior do que um ponto de comparação comum, o modelo Qwen3-8B.

A Nvidia apresenta esses resultados com curvas de precisão versus orçamento que ilustram como o desempenho melhora à medida que a permissão de tokens para raciocínio aumenta. A empresa observa que o controle cuidadoso do orçamento permite que os desenvolvedores otimizem a qualidade e a velocidade em ambientes de produção.
Treinado em conjuntos de dados sintéticos
Tanto o modelo Nano quanto a família Nemotron-H mais ampla são treinados em uma mistura de dados da web cuidadosamente selecionados, fontes proprietárias e dados de treinamento sintéticos.
O corpus de treinamento inclui textos gerais, códigos, matemática, literatura científica, documentos jurídicos e financeiros, bem como conjuntos de dados de perguntas e respostas com foco no alinhamento.
A Nvidia confirma o uso de traços de raciocínio sintéticos gerados por outros modelos grandes para melhorar o desempenho em tarefas de benchmark complexas.
Licenciamento e uso comercial
O modelo Nano-9B-v2 é lançado sob o Contrato de Licença de Modelo Aberto da Nvidia, que foi atualizado pela última vez em junho de 2025.
Esta licença foi concebida para ser permissiva e favorável às empresas. A Nvidia afirma explicitamente que os modelos são comercialmente utilizáveis imediatamente e que os desenvolvedores são livres para criar e distribuir trabalhos derivados.
Fundamentalmente, a Nvidia não reivindica a propriedade de quaisquer resultados gerados pelo modelo, deixando todos os direitos e responsabilidades com o desenvolvedor ou organização que o utiliza.
Para desenvolvedores empresariais, isso significa que o modelo pode ser implantado em produção imediatamente, sem a necessidade de negociar uma licença comercial separada ou pagar taxas com base no volume de uso, receita ou número de usuários. Ao contrário de algumas licenças abertas em camadas de outros fornecedores, não há cláusulas que exijam o pagamento de uma licença quando uma empresa atinge um determinado tamanho.
Dito isso, o contrato inclui várias condições importantes que as empresas devem seguir:
- Barreiras de proteção: os usuários não podem contornar ou desativar os mecanismos de segurança integrados (conhecidos como “barreiras de proteção”) sem implementar substitutos adequados e equivalentes para sua implantação específica.
- Redistribuição: qualquer redistribuição do modelo ou de seus derivados deve incluir o texto completo da Licença de Modelo Aberto da Nvidia e a atribuição adequada (“Licenciado pela Nvidia Corporation sob a Licença de Modelo Aberto da Nvidia”).
- Conformidade: os usuários devem cumprir todas as regulamentações e restrições comerciais aplicáveis, como as leis de controle de exportação dos EUA.
- Termos de IA confiável: o uso deve estar alinhado com as diretrizes de IA confiável da Nvidia, que abrangem princípios para implantação responsável e considerações éticas.
- Cláusula de litígio: a licença é automaticamente rescindida se um usuário iniciar um litígio de direitos autorais ou patentes contra outra parte, alegando violação relacionada ao modelo.
Essas condições se concentram em garantir a conformidade legal e o uso responsável, em vez de restringir a escala comercial. As empresas não precisam solicitar permissão adicional ou pagar royalties à Nvidia para criar produtos, monetizar serviços ou ampliar sua base de usuários. Em vez disso, elas devem garantir que suas práticas de implantação respeitem a segurança, forneçam a atribuição adequada e cumpram todas as obrigações de conformidade.
Posicionamento no mercado
Com o Nemotron-Nano-9B-v2, a Nvidia tem como alvo desenvolvedores que precisam equilibrar a capacidade de raciocínio com a eficiência de implantação em menor escala.
Os recursos de controle de orçamento de tempo de execução e alternância de raciocínio foram projetados para dar aos criadores de sistemas maior flexibilidade no gerenciamento do equilíbrio entre precisão e velocidade de resposta.
Sua disponibilidade no Hugging Face e no catálogo de modelos da Nvidia sinaliza uma intenção de ampla acessibilidade, incentivando a experimentação e a integração.
O lançamento do Nemotron-Nano-9B-v2 pela Nvidia ressalta o foco contínuo da empresa em eficiência e raciocínio controlável em modelos de linguagem.
Ao combinar arquiteturas híbridas com técnicas avançadas de compressão e treinamento, a Nvidia visa fornecer aos desenvolvedores ferramentas que mantêm alta precisão e, ao mesmo tempo, reduzem os custos operacionais e a latência.
A variante OpenClaw da Nvidia pode resolver seu maior desafio: a segurança
O CEO da Nvidia, Jensen Huang, acredita que toda empresa precisa de uma estratégia OpenClaw — e a Nvidia está pronta para fornecê-la.Durante sua palestra na GTC na segunda-feira, Huang anunciou que a
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
A Nvidia GTC apresenta o NemoClaw, o robô Olaf e uma aposta de US$ 1 trilhão
Carregando o player…O CEO Jensen Huang subiu ao palco na conferência GTC da Nvidia nesta semana, vestindo sua jaqueta de couro característica, para proferir uma palestra de duas horas e meia, projetan











