Hogar
NVIDIA abre el código fuente del marco Polar para la evolución de agentes de IA sin barreras mediante el aprendizaje por refuerzo
El 28 de mayo, el equipo de investigación de NVIDIA publicó en código abierto Polar, un marco de entrenamiento de aprendizaje por refuerzo. Su principal innovación radica en la integración perfecta de los principales agentes de código existentes —como Codex, Claude Code y Qwen Code— en el entrenamiento de aprendizaje por refuerzo GRPO (Optimización Generalizada de Políticas Relativas), sin necesidad de realizar ningún cambio en el código original.

I. Problemas del sector: la barrera para el aprendizaje por refuerzo de los agentes
A medida que los agentes de código evolucionan de tareas sencillas de un solo paso a procesos complejos y de larga duración —como modificaciones de código a nivel de almacén o interacciones con el sistema operativo—, los desarrolladores recurren cada vez más a marcos de ejecución maduros (Harness). Sin embargo, la integración de estos marcos complejos en la infraestructura tradicional de aprendizaje por refuerzo plantea importantes retos:
Alto coste de integración: Los métodos tradicionales requieren reescribir la lógica del código en interfaces de entorno estándar como env.init() y env.step(), un proceso extremadamente tedioso.
Pérdida de información: Durante la refactorización, a menudo se pierden detalles críticos —como llamadas a herramientas, el contexto de diálogos de varios turnos o la lógica de colaboración entre subagentes—, lo que impide que el modelo reciba señales de entrenamiento de alta calidad.

II. Solución principal: utilizar el «límite» como punto de entrada del entrenamiento
Polar elimina la necesidad de reescribir el marco de ejecución. En su lugar, trata el límite de la API del modelo como punto de entrada del entrenamiento.
Procesamiento de caja negra: Polar coloca un proxy transparente (Gateway) entre el marco de ejecución del código y el servidor de inferencia del modelo. Independientemente de si el agente utiliza API de Anthropic, OpenAI o Google, Polar intercepta y reenvía las solicitudes de forma fluida.
Reconstrucción de trazas: durante el reenvío, Polar registra datos clave en tiempo real —como indicaciones, tokens muestreados y probabilidades de registro— y los reconstruye en los datos de «traza» que necesita el entrenador de aprendizaje por refuerzo.
Arquitectura asíncrona eficiente: El sistema emplea un servidor de despliegue (Rollout Server) para la programación y la persistencia, mientras que los nodos de puerta de enlace (Gateway Nodes) gestionan el ciclo de vida y el reciclaje de recursos. Al aprovechar un búfer precalentado (búfer READY) y el procesamiento paralelo de tareas, elimina de forma efectiva las tareas de cola larga que podrían bloquear el entrenamiento de la GPU.
III. Salto de rendimiento: transformación de los agentes de código
Los datos experimentales muestran que Polar, cuando se combina con el entrenamiento GRPO, produce mejoras significativas en el rendimiento:
Prueba de referencia verificada por SWE-Bench: utilizando el mismo modelo base Qwen3.5-4B, el rendimiento varía entre los diferentes marcos de código:
Marco Codex: la puntuación pass@1 pasa del 3,8 % al 26,4 %, lo que supone un aumento del 594,74 %.
Marco de trabajo Claude Code: del 29,8 % al 34,6 %.
Marco Pi: del 34,2 % al 40,4 %.
Eficiencia extrema: tras introducir la estrategia prefix_merging, el tiempo de entrenamiento en tiempo real se reduce aproximadamente 5,39 veces en comparación con el modo tradicional por solicitud, y la utilización de la GPU aumenta del 20,4 % al 87,7 %.
Comentario del sector
La apertura del código fuente de Polar de NVIDIA construye, en esencia, una «autopista» para que los agentes de IA accedan al entrenamiento de aprendizaje por refuerzo. No solo permite a los investigadores entrenar de forma eficiente utilizando marcos de código abierto a gran escala, sino que también reduce la barrera de la computación en GPU mediante la optimización a nivel de sistema.
Con la creciente popularidad de Polar, los desarrolladores ya no tienen que preocuparse por «cómo adaptar los modelos a los marcos de entrenamiento». En el futuro, la evolución de los agentes de codificación de IA será más estandarizada y eficiente. Esto marca un cambio en el entrenamiento de agentes de IA, pasando del ajuste manual en laboratorio a una producción de ingeniería sistemática a gran escala.
URL del artículo: https://arxiv.org/pdf/2605.24220
Artículo relacionado
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
El 28 de mayo, el equipo de investigación de NVIDIA publicó en código abierto Polar, un marco de entrenamiento de aprendizaje por refuerzo. Su principal innovación radica en la integración perfecta de los principales agentes de código existentes —como Codex, Claude Code y Qwen Code— en el entrenamiento de aprendizaje por refuerzo GRPO (Optimización Generalizada de Políticas Relativas), sin necesidad de realizar ningún cambio en el código original.

I. Problemas del sector: la barrera para el aprendizaje por refuerzo de los agentes
A medida que los agentes de código evolucionan de tareas sencillas de un solo paso a procesos complejos y de larga duración —como modificaciones de código a nivel de almacén o interacciones con el sistema operativo—, los desarrolladores recurren cada vez más a marcos de ejecución maduros (Harness). Sin embargo, la integración de estos marcos complejos en la infraestructura tradicional de aprendizaje por refuerzo plantea importantes retos:
Alto coste de integración: Los métodos tradicionales requieren reescribir la lógica del código en interfaces de entorno estándar como env.init() y env.step(), un proceso extremadamente tedioso.
Pérdida de información: Durante la refactorización, a menudo se pierden detalles críticos —como llamadas a herramientas, el contexto de diálogos de varios turnos o la lógica de colaboración entre subagentes—, lo que impide que el modelo reciba señales de entrenamiento de alta calidad.

II. Solución principal: utilizar el «límite» como punto de entrada del entrenamiento
Polar elimina la necesidad de reescribir el marco de ejecución. En su lugar, trata el límite de la API del modelo como punto de entrada del entrenamiento.
Procesamiento de caja negra: Polar coloca un proxy transparente (Gateway) entre el marco de ejecución del código y el servidor de inferencia del modelo. Independientemente de si el agente utiliza API de Anthropic, OpenAI o Google, Polar intercepta y reenvía las solicitudes de forma fluida.
Reconstrucción de trazas: durante el reenvío, Polar registra datos clave en tiempo real —como indicaciones, tokens muestreados y probabilidades de registro— y los reconstruye en los datos de «traza» que necesita el entrenador de aprendizaje por refuerzo.
Arquitectura asíncrona eficiente: El sistema emplea un servidor de despliegue (Rollout Server) para la programación y la persistencia, mientras que los nodos de puerta de enlace (Gateway Nodes) gestionan el ciclo de vida y el reciclaje de recursos. Al aprovechar un búfer precalentado (búfer READY) y el procesamiento paralelo de tareas, elimina de forma efectiva las tareas de cola larga que podrían bloquear el entrenamiento de la GPU.
III. Salto de rendimiento: transformación de los agentes de código
Los datos experimentales muestran que Polar, cuando se combina con el entrenamiento GRPO, produce mejoras significativas en el rendimiento:
Prueba de referencia verificada por SWE-Bench: utilizando el mismo modelo base Qwen3.5-4B, el rendimiento varía entre los diferentes marcos de código:
Marco Codex: la puntuación pass@1 pasa del 3,8 % al 26,4 %, lo que supone un aumento del 594,74 %.
Marco de trabajo Claude Code: del 29,8 % al 34,6 %.
Marco Pi: del 34,2 % al 40,4 %.
Eficiencia extrema: tras introducir la estrategia prefix_merging, el tiempo de entrenamiento en tiempo real se reduce aproximadamente 5,39 veces en comparación con el modo tradicional por solicitud, y la utilización de la GPU aumenta del 20,4 % al 87,7 %.
Comentario del sector
La apertura del código fuente de Polar de NVIDIA construye, en esencia, una «autopista» para que los agentes de IA accedan al entrenamiento de aprendizaje por refuerzo. No solo permite a los investigadores entrenar de forma eficiente utilizando marcos de código abierto a gran escala, sino que también reduce la barrera de la computación en GPU mediante la optimización a nivel de sistema.
Con la creciente popularidad de Polar, los desarrolladores ya no tienen que preocuparse por «cómo adaptar los modelos a los marcos de entrenamiento». En el futuro, la evolución de los agentes de codificación de IA será más estandarizada y eficiente. Esto marca un cambio en el entrenamiento de agentes de IA, pasando del ajuste manual en laboratorio a una producción de ingeniería sistemática a gran escala.
URL del artículo: https://arxiv.org/pdf/2605.24220
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu











