Maison
L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents IA : un regard approfondi sur les attentes et réalités de 2025
2025 a été annoncée par de nombreux experts comme l'année où les agents IA—systèmes IA spécialisés alimentés par des modèles de langage avancés et multimodaux de sociétés comme OpenAI, Anthropic, Google et DeepSeek—prendraient enfin le devant de la scène. Cependant, selon un récent sondage de VentureBeat sur le réseau social X, la plupart des agents IA sont encore en phase expérimentale, coincés dans une sorte de limbes corporatifs.
Mais il y a une lueur d'espoir à l'horizon. Un effort collaboratif de chercheurs de l'Université Northwestern, Microsoft, Stanford et l'Université de Washington, incluant Zihan Wang, ancien chercheur chez DeepSeek désormais doctorant en informatique à Northwestern, a introduit RAGEN. Ce nouveau système vise à entraîner et évaluer les agents IA pour les rendre plus fiables et adaptables à une utilisation en entreprise dans le monde réel.
RAGEN : une nouvelle approche pour l'entraînement des agents IA
Contrairement aux tâches statiques comme la résolution de problèmes mathématiques ou la génération de code, RAGEN se concentre sur des interactions dynamiques à plusieurs tours où les agents doivent s'adapter, se souvenir et raisonner dans l'incertitude. Le système repose sur un cadre d'apprentissage par renforcement (RL) personnalisé appelé StarPO (Optimisation de la politique État-Pensée-Actions-Récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que sur la mémorisation par cœur. StarPO examine les séquences complètes de prise de décision, et pas seulement les réponses en une seule étape.
StarPO fonctionne en deux phases : une phase de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une phase de mise à jour où le modèle est optimisé à l'aide de récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes traditionnelles d'optimisation de politique.
Les chercheurs ont testé ce cadre en utilisant des versions affinées des modèles Qwen d'Alibaba, spécifiquement Qwen 1.5 et Qwen 2.5, choisis pour leurs poids ouverts et leurs fortes capacités à suivre les instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes à travers des tâches symboliques.
Le piège de l'écho : un défi dans l'apprentissage par renforcement
Zihan Wang a mis en lumière un problème critique dans l'entraînement RL dans un fil largement partagé sur X : *Pourquoi votre entraînement RL s'effondre-t-il toujours ?* L'équipe a identifié que, bien que les agents LLM produisent initialement des réponses bien raisonnées, les systèmes RL récompensent souvent les raccourcis, conduisant à des comportements répétitifs qui dégradent les performances—un phénomène qu'ils ont surnommé le "Piège de l'Écho".
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies obtiennent des récompenses élevées tôt, encourageant leur surutilisation et étouffant l'exploration. Les symptômes sont clairs : chute de la variance des récompenses, pics de gradient et disparition des traces de raisonnement.
Environnements de test de RAGEN
Pour étudier ces comportements dans un cadre contrôlé, RAGEN évalue les agents à travers trois environnements symboliques :
- Bandit : Une tâche stochastique à un seul tour qui teste le raisonnement symbolique risque-récompense.
- Sokoban : Un puzzle déterministe à plusieurs tours impliquant des décisions irréversibles.
- Frozen Lake : Une tâche stochastique à plusieurs tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les a priori du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant l'entraînement. Par exemple, dans l'environnement Bandit, les agents doivent raisonner symboliquement sur les bras Dragon et Phénix représentant différentes distributions de récompenses, les interprétant comme "force" et "espoir" pour prédire les résultats.
Stabilisation de l'apprentissage par renforcement avec StarPO-S
Pour contrer l'effondrement de l'entraînement, les chercheurs ont introduit StarPO-S, une version stabilisée du cadre original. StarPO-S inclut trois interventions clés :
- Filtrage des déploiements basé sur l'incertitude : Priorisation des déploiements où l'agent montre une incertitude sur les résultats.
- Suppression de la pénalité KL : Permettre au modèle de s'écarter plus librement de sa politique initiale et d'explorer de nouveaux comportements.
- Clipping PPO asymétrique : Amplifier davantage les trajectoires à haute récompense que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou éliminer l'effondrement de l'entraînement et améliorent les performances dans les trois tâches. Comme l'a dit Wang, "StarPO-S… fonctionne pour les 3 tâches. Soulage l'effondrement. Meilleure récompense."
Qu'est-ce qui fait un bon modèle d'agent IA ?
Le succès de l'entraînement RL dépend non seulement de l'architecture mais aussi de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui impactent significativement l'entraînement :
- Diversité des tâches : Exposer le modèle à une large gamme de scénarios initiaux améliore la généralisation.
- Granularité des interactions : Permettre plusieurs actions par tour favorise une planification plus significative.
- Fraîcheur des déploiements : Maintenir les données d'entraînement alignées avec la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus d'entraînement plus stable et efficace. Un site de démonstration interactif sur Github visualise les déploiements des agents sous forme de tours de dialogue complets, incluant non seulement les actions mais aussi le processus de pensée étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent pourrait d'abord "penser" à isoler une variable avant de soumettre une réponse comme "x = 5". Ces pensées intermédiaires sont visibles et traçables, ajoutant de la transparence à la manière dont les agents prennent des décisions.
Quand le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples à un seul tour comme Bandit, il a tendance à se dégrader pendant l'entraînement à plusieurs tours. Malgré l'utilisation de prompts structurés et de jetons, les traces de raisonnement rétrécissent souvent ou disparaissent à moins d'être directement récompensées. Cela met en évidence une limitation dans la conception habituelle des récompenses : se concentrer sur l'achèvement des tâches peut négliger la qualité du processus sous-jacent. L'équipe a expérimenté avec des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une modélisation plus raffinée des récompenses est probablement nécessaire.
Outils ouverts et orientations futures
RAGEN, avec ses cadres StarPO et StarPO-S, est désormais disponible en tant que projet open-source à https://github.com/RAGEN-AI/RAGEN. Cependant, au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt GitHub, ce qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents IA qui non seulement accomplissent des tâches mais pensent, planifient et évoluent. Alors que l'IA progresse vers une plus grande autonomie, des projets comme RAGEN aident à éclairer ce qu'il faut pour entraîner des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption en entreprise dans le monde réel
Bien que l'article sur RAGEN offre une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes dans des contextes d'entreprise. Par exemple, dans quelle mesure l'approche de RAGEN est-elle transférable au-delà des tâches stylisées et symboliques ? Les entreprises devraient-elles concevoir des environnements et des fonctions de récompense entièrement nouveaux pour utiliser ce système dans des flux de travail comme le traitement des factures ou le support client ?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations en grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant à la possibilité pour les entreprises de concevoir leurs propres exercices d'entraînement pour les agents IA en utilisant RAGEN, notant que le lien GitHub fournit une introduction simple pour ajouter de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations apportées par StarPO-S, l'article reconnaît que l'entraînement s'effondre encore sur des horizons plus longs. Cela soulève la question : existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en évolution continue ?
Au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt ou la documentation GitHub de RAGEN, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, RAGEN se distingue non seulement comme une contribution technique mais aussi comme une étape conceptuelle vers des agents IA plus autonomes et capables de raisonnement. Reste à voir s'il deviendra une partie de la pile d'IA en entreprise, mais ses idées sur les dynamiques d'apprentissage des agents redéfinissent déjà la frontière de l'entraînement des LLM.
Article connexe
DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe
Le laboratoire chinois d'IA DeepSeek a publié deux versions préliminaires de son tout dernier grand modèle linguistique, DeepSeek V4, une mise à jour très attendue du modèle V3.2 de l'année dernière e
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
L'IA révèle les intentions cachées dans les contenus d'actualité
Les modèles de type ChatGPT sont désormais entraînés à mettre au jour le point de vue sous-jacent d'un article d'actualité, même lorsque celui-ci est dissimulé derrière des citations, un cadrage ou un
Recommandations de sujets spéciaux liés
commentaires (10)
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

L'année des agents IA : un regard approfondi sur les attentes et réalités de 2025
2025 a été annoncée par de nombreux experts comme l'année où les agents IA—systèmes IA spécialisés alimentés par des modèles de langage avancés et multimodaux de sociétés comme OpenAI, Anthropic, Google et DeepSeek—prendraient enfin le devant de la scène. Cependant, selon un récent sondage de VentureBeat sur le réseau social X, la plupart des agents IA sont encore en phase expérimentale, coincés dans une sorte de limbes corporatifs.
Mais il y a une lueur d'espoir à l'horizon. Un effort collaboratif de chercheurs de l'Université Northwestern, Microsoft, Stanford et l'Université de Washington, incluant Zihan Wang, ancien chercheur chez DeepSeek désormais doctorant en informatique à Northwestern, a introduit RAGEN. Ce nouveau système vise à entraîner et évaluer les agents IA pour les rendre plus fiables et adaptables à une utilisation en entreprise dans le monde réel.
RAGEN : une nouvelle approche pour l'entraînement des agents IA
Contrairement aux tâches statiques comme la résolution de problèmes mathématiques ou la génération de code, RAGEN se concentre sur des interactions dynamiques à plusieurs tours où les agents doivent s'adapter, se souvenir et raisonner dans l'incertitude. Le système repose sur un cadre d'apprentissage par renforcement (RL) personnalisé appelé StarPO (Optimisation de la politique État-Pensée-Actions-Récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que sur la mémorisation par cœur. StarPO examine les séquences complètes de prise de décision, et pas seulement les réponses en une seule étape.
StarPO fonctionne en deux phases : une phase de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une phase de mise à jour où le modèle est optimisé à l'aide de récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes traditionnelles d'optimisation de politique.
Les chercheurs ont testé ce cadre en utilisant des versions affinées des modèles Qwen d'Alibaba, spécifiquement Qwen 1.5 et Qwen 2.5, choisis pour leurs poids ouverts et leurs fortes capacités à suivre les instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes à travers des tâches symboliques.
Le piège de l'écho : un défi dans l'apprentissage par renforcement
Zihan Wang a mis en lumière un problème critique dans l'entraînement RL dans un fil largement partagé sur X : *Pourquoi votre entraînement RL s'effondre-t-il toujours ?* L'équipe a identifié que, bien que les agents LLM produisent initialement des réponses bien raisonnées, les systèmes RL récompensent souvent les raccourcis, conduisant à des comportements répétitifs qui dégradent les performances—un phénomène qu'ils ont surnommé le "Piège de l'Écho".
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies obtiennent des récompenses élevées tôt, encourageant leur surutilisation et étouffant l'exploration. Les symptômes sont clairs : chute de la variance des récompenses, pics de gradient et disparition des traces de raisonnement.
Environnements de test de RAGEN
Pour étudier ces comportements dans un cadre contrôlé, RAGEN évalue les agents à travers trois environnements symboliques :
- Bandit : Une tâche stochastique à un seul tour qui teste le raisonnement symbolique risque-récompense.
- Sokoban : Un puzzle déterministe à plusieurs tours impliquant des décisions irréversibles.
- Frozen Lake : Une tâche stochastique à plusieurs tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les a priori du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant l'entraînement. Par exemple, dans l'environnement Bandit, les agents doivent raisonner symboliquement sur les bras Dragon et Phénix représentant différentes distributions de récompenses, les interprétant comme "force" et "espoir" pour prédire les résultats.
Stabilisation de l'apprentissage par renforcement avec StarPO-S
Pour contrer l'effondrement de l'entraînement, les chercheurs ont introduit StarPO-S, une version stabilisée du cadre original. StarPO-S inclut trois interventions clés :
- Filtrage des déploiements basé sur l'incertitude : Priorisation des déploiements où l'agent montre une incertitude sur les résultats.
- Suppression de la pénalité KL : Permettre au modèle de s'écarter plus librement de sa politique initiale et d'explorer de nouveaux comportements.
- Clipping PPO asymétrique : Amplifier davantage les trajectoires à haute récompense que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou éliminer l'effondrement de l'entraînement et améliorent les performances dans les trois tâches. Comme l'a dit Wang, "StarPO-S… fonctionne pour les 3 tâches. Soulage l'effondrement. Meilleure récompense."
Qu'est-ce qui fait un bon modèle d'agent IA ?
Le succès de l'entraînement RL dépend non seulement de l'architecture mais aussi de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui impactent significativement l'entraînement :
- Diversité des tâches : Exposer le modèle à une large gamme de scénarios initiaux améliore la généralisation.
- Granularité des interactions : Permettre plusieurs actions par tour favorise une planification plus significative.
- Fraîcheur des déploiements : Maintenir les données d'entraînement alignées avec la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus d'entraînement plus stable et efficace. Un site de démonstration interactif sur Github visualise les déploiements des agents sous forme de tours de dialogue complets, incluant non seulement les actions mais aussi le processus de pensée étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent pourrait d'abord "penser" à isoler une variable avant de soumettre une réponse comme "x = 5". Ces pensées intermédiaires sont visibles et traçables, ajoutant de la transparence à la manière dont les agents prennent des décisions.
Quand le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples à un seul tour comme Bandit, il a tendance à se dégrader pendant l'entraînement à plusieurs tours. Malgré l'utilisation de prompts structurés et de jetons, les traces de raisonnement rétrécissent souvent ou disparaissent à moins d'être directement récompensées. Cela met en évidence une limitation dans la conception habituelle des récompenses : se concentrer sur l'achèvement des tâches peut négliger la qualité du processus sous-jacent. L'équipe a expérimenté avec des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une modélisation plus raffinée des récompenses est probablement nécessaire.
Outils ouverts et orientations futures
RAGEN, avec ses cadres StarPO et StarPO-S, est désormais disponible en tant que projet open-source à https://github.com/RAGEN-AI/RAGEN. Cependant, au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt GitHub, ce qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents IA qui non seulement accomplissent des tâches mais pensent, planifient et évoluent. Alors que l'IA progresse vers une plus grande autonomie, des projets comme RAGEN aident à éclairer ce qu'il faut pour entraîner des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption en entreprise dans le monde réel
Bien que l'article sur RAGEN offre une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes dans des contextes d'entreprise. Par exemple, dans quelle mesure l'approche de RAGEN est-elle transférable au-delà des tâches stylisées et symboliques ? Les entreprises devraient-elles concevoir des environnements et des fonctions de récompense entièrement nouveaux pour utiliser ce système dans des flux de travail comme le traitement des factures ou le support client ?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations en grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant à la possibilité pour les entreprises de concevoir leurs propres exercices d'entraînement pour les agents IA en utilisant RAGEN, notant que le lien GitHub fournit une introduction simple pour ajouter de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations apportées par StarPO-S, l'article reconnaît que l'entraînement s'effondre encore sur des horizons plus longs. Cela soulève la question : existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en évolution continue ?
Au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt ou la documentation GitHub de RAGEN, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, RAGEN se distingue non seulement comme une contribution technique mais aussi comme une étape conceptuelle vers des agents IA plus autonomes et capables de raisonnement. Reste à voir s'il deviendra une partie de la pile d'IA en entreprise, mais ses idées sur les dynamiques d'apprentissage des agents redéfinissent déjà la frontière de l'entraînement des LLM.
DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe
Le laboratoire chinois d'IA DeepSeek a publié deux versions préliminaires de son tout dernier grand modèle linguistique, DeepSeek V4, une mise à jour très attendue du modèle V3.2 de l'année dernière e
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
L'IA révèle les intentions cachées dans les contenus d'actualité
Les modèles de type ChatGPT sont désormais entraînés à mettre au jour le point de vue sous-jacent d'un article d'actualité, même lorsque celui-ci est dissimulé derrière des citations, un cadrage ou un
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔











