Maison
NVIDIA open source le framework Polar pour l'évolution sans barrières des agents d'IA par apprentissage par renforcement
Le 28 mai, l'équipe de recherche de NVIDIA a mis en open source Polar, un cadre d'entraînement à l'apprentissage par renforcement. Son innovation principale réside dans l'intégration transparente d'agents de code courants existants — tels que Codex, Claude Code et Qwen Code — dans l'entraînement à l'apprentissage par renforcement GRPO (Generalized Relative Policy Optimization), sans nécessiter aucune modification du code d'origine.

I. Les difficultés du secteur : l'obstacle à l'apprentissage par renforcement des agents
À mesure que les agents de code évoluent de simples tâches en une seule étape vers des processus complexes et de longue durée — tels que les modifications de code au niveau de l'entrepôt ou les interactions avec le système d'exploitation —, les développeurs s'appuient de plus en plus sur des frameworks d'exécution matures (Harness). Cependant, l'intégration de ces frameworks complexes dans l'infrastructure traditionnelle d'apprentissage par renforcement présente des défis importants :
Coût d'intégration élevé : les méthodes traditionnelles nécessitent de réécrire la logique du code dans des interfaces d'environnement standard telles que env.init() et env.step(), un processus extrêmement fastidieux.
Perte d'informations : lors de la refactorisation, des détails critiques — tels que les appels d'outils, le contexte des dialogues à plusieurs tours ou la logique de collaboration entre sous-agents — sont souvent perdus, empêchant le modèle de recevoir des signaux d'entraînement de haute qualité.

II. Solution principale : utiliser la « frontière » comme point d'entrée de l'entraînement
Polar élimine la nécessité de réécrire le cadre d'exécution. Au lieu de cela, il traite la limite de l'API du modèle comme point d'entrée de l'entraînement.
Traitement en boîte noire : Polar place un proxy transparent (Gateway) entre le cadre d'exécution du code et le serveur d'inférence du modèle. Que l'agent utilise les API d'Anthropic, d'OpenAI ou de Google, Polar intercepte et transmet les requêtes de manière transparente.
Reconstruction de traces : lors du transfert, Polar enregistre en temps réel des données clés — telles que les invites, les tokens échantillonnés et les probabilités de journalisation — et les reconstitue en données de « trace » nécessaires au formateur d'apprentissage par renforcement.
Architecture asynchrone efficace : le système utilise un serveur de déploiement (Rollout Server) pour la planification et la persistance, tandis que les nœuds de passerelle (Gateway Nodes) gèrent le cycle de vie et le recyclage des ressources. En tirant parti d’un tampon préchauffé (tampon READY) et du traitement parallèle des tâches, il élimine efficacement les tâches à longue traîne susceptibles de bloquer l’entraînement du GPU.
III. Bond de performance : transformation des agents de code
Les données expérimentales montrent que Polar, lorsqu'il est combiné à l'entraînement GRPO, permet des gains de performances significatifs :
Test de benchmark vérifié par SWE-Bench : en utilisant le même modèle de base Qwen3.5-4B, les performances varient selon les différents frameworks de code :
Cadre Codex : le score pass@1 passe de 3,8 % à 26,4 %, soit une hausse de 594,74 %.
Cadre Claude Code : de 29,8 % à 34,6 %.
Framework Pi : de 34,2 % à 40,4 %.
Efficacité extrême : après l'introduction de la stratégie prefix_merging, la durée d'entraînement en temps réel est réduite d'environ 5,39 fois par rapport au mode traditionnel par requête, et l'utilisation du GPU passe de 20,4 % à 87,7 %.
Commentaire du secteur
L'ouverture du code source de Polar de NVIDIA revient essentiellement à construire une « autoroute » permettant aux agents IA d'accéder à l'apprentissage par renforcement. Cela permet non seulement aux chercheurs de s'entraîner efficacement à l'aide de frameworks open source massifs, mais abaisse également la barrière du calcul GPU grâce à une optimisation au niveau du système.
Avec la popularité croissante de Polar, les développeurs n’ont plus à se soucier de « comment adapter les modèles aux frameworks d’entraînement ». À l’avenir, l’évolution des agents de codage IA deviendra plus standardisée et plus efficace. Cela marque un tournant dans l’entraînement des agents IA, qui passe d’un réglage manuel en laboratoire à une production technique systématique à grande échelle.
URL de l'article : https://arxiv.org/pdf/2605.24220
Article connexe
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc
Recommandations de sujets spéciaux liés
commentaires (0)
Le 28 mai, l'équipe de recherche de NVIDIA a mis en open source Polar, un cadre d'entraînement à l'apprentissage par renforcement. Son innovation principale réside dans l'intégration transparente d'agents de code courants existants — tels que Codex, Claude Code et Qwen Code — dans l'entraînement à l'apprentissage par renforcement GRPO (Generalized Relative Policy Optimization), sans nécessiter aucune modification du code d'origine.

I. Les difficultés du secteur : l'obstacle à l'apprentissage par renforcement des agents
À mesure que les agents de code évoluent de simples tâches en une seule étape vers des processus complexes et de longue durée — tels que les modifications de code au niveau de l'entrepôt ou les interactions avec le système d'exploitation —, les développeurs s'appuient de plus en plus sur des frameworks d'exécution matures (Harness). Cependant, l'intégration de ces frameworks complexes dans l'infrastructure traditionnelle d'apprentissage par renforcement présente des défis importants :
Coût d'intégration élevé : les méthodes traditionnelles nécessitent de réécrire la logique du code dans des interfaces d'environnement standard telles que env.init() et env.step(), un processus extrêmement fastidieux.
Perte d'informations : lors de la refactorisation, des détails critiques — tels que les appels d'outils, le contexte des dialogues à plusieurs tours ou la logique de collaboration entre sous-agents — sont souvent perdus, empêchant le modèle de recevoir des signaux d'entraînement de haute qualité.

II. Solution principale : utiliser la « frontière » comme point d'entrée de l'entraînement
Polar élimine la nécessité de réécrire le cadre d'exécution. Au lieu de cela, il traite la limite de l'API du modèle comme point d'entrée de l'entraînement.
Traitement en boîte noire : Polar place un proxy transparent (Gateway) entre le cadre d'exécution du code et le serveur d'inférence du modèle. Que l'agent utilise les API d'Anthropic, d'OpenAI ou de Google, Polar intercepte et transmet les requêtes de manière transparente.
Reconstruction de traces : lors du transfert, Polar enregistre en temps réel des données clés — telles que les invites, les tokens échantillonnés et les probabilités de journalisation — et les reconstitue en données de « trace » nécessaires au formateur d'apprentissage par renforcement.
Architecture asynchrone efficace : le système utilise un serveur de déploiement (Rollout Server) pour la planification et la persistance, tandis que les nœuds de passerelle (Gateway Nodes) gèrent le cycle de vie et le recyclage des ressources. En tirant parti d’un tampon préchauffé (tampon READY) et du traitement parallèle des tâches, il élimine efficacement les tâches à longue traîne susceptibles de bloquer l’entraînement du GPU.
III. Bond de performance : transformation des agents de code
Les données expérimentales montrent que Polar, lorsqu'il est combiné à l'entraînement GRPO, permet des gains de performances significatifs :
Test de benchmark vérifié par SWE-Bench : en utilisant le même modèle de base Qwen3.5-4B, les performances varient selon les différents frameworks de code :
Cadre Codex : le score pass@1 passe de 3,8 % à 26,4 %, soit une hausse de 594,74 %.
Cadre Claude Code : de 29,8 % à 34,6 %.
Framework Pi : de 34,2 % à 40,4 %.
Efficacité extrême : après l'introduction de la stratégie prefix_merging, la durée d'entraînement en temps réel est réduite d'environ 5,39 fois par rapport au mode traditionnel par requête, et l'utilisation du GPU passe de 20,4 % à 87,7 %.
Commentaire du secteur
L'ouverture du code source de Polar de NVIDIA revient essentiellement à construire une « autoroute » permettant aux agents IA d'accéder à l'apprentissage par renforcement. Cela permet non seulement aux chercheurs de s'entraîner efficacement à l'aide de frameworks open source massifs, mais abaisse également la barrière du calcul GPU grâce à une optimisation au niveau du système.
Avec la popularité croissante de Polar, les développeurs n’ont plus à se soucier de « comment adapter les modèles aux frameworks d’entraînement ». À l’avenir, l’évolution des agents de codage IA deviendra plus standardisée et plus efficace. Cela marque un tournant dans l’entraînement des agents IA, qui passe d’un réglage manuel en laboratoire à une production technique systématique à grande échelle.
URL de l'article : https://arxiv.org/pdf/2605.24220
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc











