Lar
A NVIDIA torna o Polar Framework de código aberto para a evolução de agentes de IA sem barreiras por meio do aprendizado por reforço
Em 28 de maio, a equipe de pesquisa da NVIDIA tornou o Polar, uma estrutura de treinamento de aprendizagem por reforço, de código aberto. Sua principal inovação reside na integração perfeita de agentes de código convencionais já existentes — como Codex, Claude Code e Qwen Code — ao treinamento de aprendizagem por reforço GRPO (Otimização Generalizada de Políticas Relativas), sem exigir nenhuma alteração no código original.

I. Desafios do setor: a barreira para o aprendizado por reforço de agentes
À medida que os agentes de código evoluem de tarefas simples de uma única etapa para processos complexos e de longa duração — como modificações de código em nível de repositório ou interações com o sistema operacional —, os desenvolvedores dependem cada vez mais de estruturas de execução maduras (Harness). No entanto, integrar essas estruturas complexas à infraestrutura tradicional de aprendizado por reforço apresenta desafios significativos:
Alto custo de integração: os métodos tradicionais exigem a reescrita da lógica do código em interfaces de ambiente padrão, como env.init() e env.step(), um processo extremamente tedioso.
Perda de informações: durante a refatoração, detalhes críticos — como chamadas de ferramentas, contexto de diálogo de múltiplas rodadas ou lógica de colaboração entre subagentes — são frequentemente perdidos, impedindo que o modelo receba sinais de treinamento de alta qualidade.

II. Solução principal: usar o “limite” como ponto de entrada do treinamento
O Polar elimina a necessidade de reescrever a estrutura de execução. Em vez disso, ele trata o limite da API do modelo como o ponto de entrada do treinamento.
Processamento de caixa preta: O Polar coloca um proxy transparente (Gateway) entre a estrutura de execução de código e o servidor de inferência do modelo. Independentemente de o agente usar APIs da Anthropic, OpenAI ou Google, o Polar intercepta e encaminha as solicitações de forma integrada.
Reconstrução de rastreamento: durante o encaminhamento, o Polar registra dados-chave em tempo real — como prompts, tokens amostrados e probabilidades de log — e os reconstrói nos dados de “rastreamento” necessários ao treinador de aprendizado por reforço.
Arquitetura assíncrona eficiente: O sistema emprega um servidor de rollout para agendamento e persistência, enquanto os nós de gateway gerenciam o ciclo de vida e a reciclagem de recursos. Ao aproveitar um buffer pré-aquecido (buffer READY) e o processamento paralelo de tarefas, ele elimina efetivamente tarefas de cauda longa que poderiam bloquear o treinamento da GPU.
III. Salto de desempenho: transformando agentes de código
Dados experimentais mostram que o Polar, quando combinado com o treinamento GRPO, produz ganhos significativos de desempenho:
Teste de benchmark verificado pelo SWE-Bench: Usando o mesmo modelo base Qwen3.5-4B, o desempenho varia entre diferentes estruturas de código:
Estrutura Codex: a pontuação pass@1 salta de 3,8% para 26,4% — um aumento de 594,74%.
Estrutura de código Claude: de 29,8% para 34,6%.
Estrutura Pi: de 34,2% para 40,4%.
Eficiência extrema: Após a introdução da estratégia prefix_merging, o tempo de treinamento em tempo real é reduzido em cerca de 5,39 vezes em comparação com o modo tradicional por solicitação, e a utilização da GPU aumenta de 20,4% para 87,7%.
Comentário do setor
A abertura do código-fonte do Polar da NVIDIA basicamente constrói uma “rodovia” para que agentes de IA entrem no treinamento de aprendizado por reforço. Isso não apenas permite que pesquisadores treinem com eficiência usando enormes frameworks de código-fonte aberto, mas também reduz a barreira da computação em GPU por meio da otimização em nível de sistema.
Com a crescente popularidade do Polar, os desenvolvedores não precisam mais se preocupar com “como adaptar modelos às estruturas de treinamento”. No futuro, a evolução dos agentes de codificação de IA se tornará mais padronizada e eficiente. Isso marca uma mudança no treinamento de agentes de IA, passando do ajuste manual em laboratório para uma produção de engenharia sistemática em grande escala.
URL do artigo: https://arxiv.org/pdf/2605.24220
Artigo relacionado
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu
A OpenAI altera secretamente seus estatutos para dificultar a demissão de Altman
Após o incidente semelhante a um golpe ocorrido em 2023, a OpenAI reforçou ainda mais as proteções ao CEO Sam Altman por meio da atualização de seu estatuto social. Documentos judiciais divulgados rec
Recomendações de tópicos especiais relacionados
Comentários (0)
Em 28 de maio, a equipe de pesquisa da NVIDIA tornou o Polar, uma estrutura de treinamento de aprendizagem por reforço, de código aberto. Sua principal inovação reside na integração perfeita de agentes de código convencionais já existentes — como Codex, Claude Code e Qwen Code — ao treinamento de aprendizagem por reforço GRPO (Otimização Generalizada de Políticas Relativas), sem exigir nenhuma alteração no código original.

I. Desafios do setor: a barreira para o aprendizado por reforço de agentes
À medida que os agentes de código evoluem de tarefas simples de uma única etapa para processos complexos e de longa duração — como modificações de código em nível de repositório ou interações com o sistema operacional —, os desenvolvedores dependem cada vez mais de estruturas de execução maduras (Harness). No entanto, integrar essas estruturas complexas à infraestrutura tradicional de aprendizado por reforço apresenta desafios significativos:
Alto custo de integração: os métodos tradicionais exigem a reescrita da lógica do código em interfaces de ambiente padrão, como env.init() e env.step(), um processo extremamente tedioso.
Perda de informações: durante a refatoração, detalhes críticos — como chamadas de ferramentas, contexto de diálogo de múltiplas rodadas ou lógica de colaboração entre subagentes — são frequentemente perdidos, impedindo que o modelo receba sinais de treinamento de alta qualidade.

II. Solução principal: usar o “limite” como ponto de entrada do treinamento
O Polar elimina a necessidade de reescrever a estrutura de execução. Em vez disso, ele trata o limite da API do modelo como o ponto de entrada do treinamento.
Processamento de caixa preta: O Polar coloca um proxy transparente (Gateway) entre a estrutura de execução de código e o servidor de inferência do modelo. Independentemente de o agente usar APIs da Anthropic, OpenAI ou Google, o Polar intercepta e encaminha as solicitações de forma integrada.
Reconstrução de rastreamento: durante o encaminhamento, o Polar registra dados-chave em tempo real — como prompts, tokens amostrados e probabilidades de log — e os reconstrói nos dados de “rastreamento” necessários ao treinador de aprendizado por reforço.
Arquitetura assíncrona eficiente: O sistema emprega um servidor de rollout para agendamento e persistência, enquanto os nós de gateway gerenciam o ciclo de vida e a reciclagem de recursos. Ao aproveitar um buffer pré-aquecido (buffer READY) e o processamento paralelo de tarefas, ele elimina efetivamente tarefas de cauda longa que poderiam bloquear o treinamento da GPU.
III. Salto de desempenho: transformando agentes de código
Dados experimentais mostram que o Polar, quando combinado com o treinamento GRPO, produz ganhos significativos de desempenho:
Teste de benchmark verificado pelo SWE-Bench: Usando o mesmo modelo base Qwen3.5-4B, o desempenho varia entre diferentes estruturas de código:
Estrutura Codex: a pontuação pass@1 salta de 3,8% para 26,4% — um aumento de 594,74%.
Estrutura de código Claude: de 29,8% para 34,6%.
Estrutura Pi: de 34,2% para 40,4%.
Eficiência extrema: Após a introdução da estratégia prefix_merging, o tempo de treinamento em tempo real é reduzido em cerca de 5,39 vezes em comparação com o modo tradicional por solicitação, e a utilização da GPU aumenta de 20,4% para 87,7%.
Comentário do setor
A abertura do código-fonte do Polar da NVIDIA basicamente constrói uma “rodovia” para que agentes de IA entrem no treinamento de aprendizado por reforço. Isso não apenas permite que pesquisadores treinem com eficiência usando enormes frameworks de código-fonte aberto, mas também reduz a barreira da computação em GPU por meio da otimização em nível de sistema.
Com a crescente popularidade do Polar, os desenvolvedores não precisam mais se preocupar com “como adaptar modelos às estruturas de treinamento”. No futuro, a evolução dos agentes de codificação de IA se tornará mais padronizada e eficiente. Isso marca uma mudança no treinamento de agentes de IA, passando do ajuste manual em laboratório para uma produção de engenharia sistemática em grande escala.
URL do artigo: https://arxiv.org/pdf/2605.24220
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu
A OpenAI altera secretamente seus estatutos para dificultar a demissão de Altman
Após o incidente semelhante a um golpe ocorrido em 2023, a OpenAI reforçou ainda mais as proteções ao CEO Sam Altman por meio da atualização de seu estatuto social. Documentos judiciais divulgados rec











