option
Maison
Nouvelles
L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

4 mai 2025
203

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents IA : un regard approfondi sur les attentes et réalités de 2025

2025 a été annoncée par de nombreux experts comme l'année où les agents IA—systèmes IA spécialisés alimentés par des modèles de langage avancés et multimodaux de sociétés comme OpenAI, Anthropic, Google et DeepSeek—prendraient enfin le devant de la scène. Cependant, selon un récent sondage de VentureBeat sur le réseau social X, la plupart des agents IA sont encore en phase expérimentale, coincés dans une sorte de limbes corporatifs.

Mais il y a une lueur d'espoir à l'horizon. Un effort collaboratif de chercheurs de l'Université Northwestern, Microsoft, Stanford et l'Université de Washington, incluant Zihan Wang, ancien chercheur chez DeepSeek désormais doctorant en informatique à Northwestern, a introduit RAGEN. Ce nouveau système vise à entraîner et évaluer les agents IA pour les rendre plus fiables et adaptables à une utilisation en entreprise dans le monde réel.

RAGEN : une nouvelle approche pour l'entraînement des agents IA

Contrairement aux tâches statiques comme la résolution de problèmes mathématiques ou la génération de code, RAGEN se concentre sur des interactions dynamiques à plusieurs tours où les agents doivent s'adapter, se souvenir et raisonner dans l'incertitude. Le système repose sur un cadre d'apprentissage par renforcement (RL) personnalisé appelé StarPO (Optimisation de la politique État-Pensée-Actions-Récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que sur la mémorisation par cœur. StarPO examine les séquences complètes de prise de décision, et pas seulement les réponses en une seule étape.

StarPO fonctionne en deux phases : une phase de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une phase de mise à jour où le modèle est optimisé à l'aide de récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes traditionnelles d'optimisation de politique.

Les chercheurs ont testé ce cadre en utilisant des versions affinées des modèles Qwen d'Alibaba, spécifiquement Qwen 1.5 et Qwen 2.5, choisis pour leurs poids ouverts et leurs fortes capacités à suivre les instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes à travers des tâches symboliques.

Le piège de l'écho : un défi dans l'apprentissage par renforcement

Zihan Wang a mis en lumière un problème critique dans l'entraînement RL dans un fil largement partagé sur X : *Pourquoi votre entraînement RL s'effondre-t-il toujours ?* L'équipe a identifié que, bien que les agents LLM produisent initialement des réponses bien raisonnées, les systèmes RL récompensent souvent les raccourcis, conduisant à des comportements répétitifs qui dégradent les performances—un phénomène qu'ils ont surnommé le "Piège de l'Écho".

Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies obtiennent des récompenses élevées tôt, encourageant leur surutilisation et étouffant l'exploration. Les symptômes sont clairs : chute de la variance des récompenses, pics de gradient et disparition des traces de raisonnement.

Environnements de test de RAGEN

Pour étudier ces comportements dans un cadre contrôlé, RAGEN évalue les agents à travers trois environnements symboliques :

  • Bandit : Une tâche stochastique à un seul tour qui teste le raisonnement symbolique risque-récompense.
  • Sokoban : Un puzzle déterministe à plusieurs tours impliquant des décisions irréversibles.
  • Frozen Lake : Une tâche stochastique à plusieurs tours nécessitant une planification adaptative.

Chaque environnement est conçu pour minimiser les a priori du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant l'entraînement. Par exemple, dans l'environnement Bandit, les agents doivent raisonner symboliquement sur les bras Dragon et Phénix représentant différentes distributions de récompenses, les interprétant comme "force" et "espoir" pour prédire les résultats.

Stabilisation de l'apprentissage par renforcement avec StarPO-S

Pour contrer l'effondrement de l'entraînement, les chercheurs ont introduit StarPO-S, une version stabilisée du cadre original. StarPO-S inclut trois interventions clés :

  1. Filtrage des déploiements basé sur l'incertitude : Priorisation des déploiements où l'agent montre une incertitude sur les résultats.
  2. Suppression de la pénalité KL : Permettre au modèle de s'écarter plus librement de sa politique initiale et d'explorer de nouveaux comportements.
  3. Clipping PPO asymétrique : Amplifier davantage les trajectoires à haute récompense que celles à faible récompense pour stimuler l'apprentissage.

Ces changements aident à retarder ou éliminer l'effondrement de l'entraînement et améliorent les performances dans les trois tâches. Comme l'a dit Wang, "StarPO-S… fonctionne pour les 3 tâches. Soulage l'effondrement. Meilleure récompense."

Qu'est-ce qui fait un bon modèle d'agent IA ?

Le succès de l'entraînement RL dépend non seulement de l'architecture mais aussi de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui impactent significativement l'entraînement :

  • Diversité des tâches : Exposer le modèle à une large gamme de scénarios initiaux améliore la généralisation.
  • Granularité des interactions : Permettre plusieurs actions par tour favorise une planification plus significative.
  • Fraîcheur des déploiements : Maintenir les données d'entraînement alignées avec la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.

Ces facteurs contribuent à un processus d'entraînement plus stable et efficace. Un site de démonstration interactif sur Github visualise les déploiements des agents sous forme de tours de dialogue complets, incluant non seulement les actions mais aussi le processus de pensée étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent pourrait d'abord "penser" à isoler une variable avant de soumettre une réponse comme "x = 5". Ces pensées intermédiaires sont visibles et traçables, ajoutant de la transparence à la manière dont les agents prennent des décisions.

Quand le raisonnement s'épuise

Bien que le raisonnement explicite améliore les performances dans des tâches simples à un seul tour comme Bandit, il a tendance à se dégrader pendant l'entraînement à plusieurs tours. Malgré l'utilisation de prompts structurés et de jetons, les traces de raisonnement rétrécissent souvent ou disparaissent à moins d'être directement récompensées. Cela met en évidence une limitation dans la conception habituelle des récompenses : se concentrer sur l'achèvement des tâches peut négliger la qualité du processus sous-jacent. L'équipe a expérimenté avec des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une modélisation plus raffinée des récompenses est probablement nécessaire.

Outils ouverts et orientations futures

RAGEN, avec ses cadres StarPO et StarPO-S, est désormais disponible en tant que projet open-source à https://github.com/RAGEN-AI/RAGEN. Cependant, au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt GitHub, ce qui peut limiter son utilisation ou sa redistribution par d'autres.

Le système fournit une base précieuse pour ceux qui souhaitent développer des agents IA qui non seulement accomplissent des tâches mais pensent, planifient et évoluent. Alors que l'IA progresse vers une plus grande autonomie, des projets comme RAGEN aident à éclairer ce qu'il faut pour entraîner des modèles qui apprennent des conséquences de leurs propres actions.

Questions en suspens pour l'adoption en entreprise dans le monde réel

Bien que l'article sur RAGEN offre une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes dans des contextes d'entreprise. Par exemple, dans quelle mesure l'approche de RAGEN est-elle transférable au-delà des tâches stylisées et symboliques ? Les entreprises devraient-elles concevoir des environnements et des fonctions de récompense entièrement nouveaux pour utiliser ce système dans des flux de travail comme le traitement des factures ou le support client ?

Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations en grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant à la possibilité pour les entreprises de concevoir leurs propres exercices d'entraînement pour les agents IA en utilisant RAGEN, notant que le lien GitHub fournit une introduction simple pour ajouter de nouveaux environnements.

Un autre domaine critique est l'évolutivité. Même avec les améliorations apportées par StarPO-S, l'article reconnaît que l'entraînement s'effondre encore sur des horizons plus longs. Cela soulève la question : existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en évolution continue ?

Au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt ou la documentation GitHub de RAGEN, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, RAGEN se distingue non seulement comme une contribution technique mais aussi comme une étape conceptuelle vers des agents IA plus autonomes et capables de raisonnement. Reste à voir s'il deviendra une partie de la pile d'IA en entreprise, mais ses idées sur les dynamiques d'apprentissage des agents redéfinissent déjà la frontière de l'entraînement des LLM.

Article connexe
DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe Le laboratoire chinois d'IA DeepSeek a publié deux versions préliminaires de son tout dernier grand modèle linguistique, DeepSeek V4, une mise à jour très attendue du modèle V3.2 de l'année dernière e
Multiverse Computing lance un modèle d'IA générative compressé gratuit Multiverse Computing lance un modèle d'IA générative compressé gratuit Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
L'IA révèle les intentions cachées dans les contenus d'actualité L'IA révèle les intentions cachées dans les contenus d'actualité Les modèles de type ChatGPT sont désormais entraînés à mettre au jour le point de vue sous-jacent d'un article d'actualité, même lorsque celui-ci est dissimulé derrière des citations, un cadrage ou un
Recommandations de sujets spéciaux liés
Entreprise Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats
Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils
xix.ai
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
Éducation et apprentissage Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique
Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils
xix.ai
chatbot Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel
Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils
xix.ai
code Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic
Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic

Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.

10 outils
xix.ai
commentaires (10)
0/500
CharlesYoung
CharlesYoung 8 avril 2026 20:00:57 UTC+02:00

Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.

JosephMartínez
JosephMartínez 4 avril 2026 18:00:41 UTC+02:00

這方法聽起來滿有趣的,但訓練出真正可靠的AI代理還是有段距離吧?RAGEN這個方向不錯,但實務上遇到意外狀況時,它們真的能妥善應對嗎?先觀望一下實際應用案例再說...🤔

GregoryRodriguez
GregoryRodriguez 12 octobre 2025 04:30:38 UTC+02:00

RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?

ScottEvans
ScottEvans 13 août 2025 13:00:59 UTC+02:00

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 23 juillet 2025 06:59:29 UTC+02:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 6 mai 2025 09:48:04 UTC+02:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

OR