L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents de l'IA: un examen plus approfondi des attentes et des réalités de 2025
2025 a été annoncé par de nombreux experts comme l'année où les agents de l'IA - systèmes d'IA spécialisés alimentés par des modèles avancés de grande langue et multimodaux de sociétés comme Openai, Anthropic, Google et Deepseek - prendraient enfin le devant de la scène. Cependant, selon un récent sondage VentureBeat sur le réseau social X, la plupart des agents de l'IA languissent toujours par étapes expérimentales, prises dans une sorte de limbes d'entreprise.
Mais il y a une lueur d'espoir à l'horizon. Un effort de collaboration de chercheurs de la Northwestern University, Microsoft, Stanford, et de l'Université de Washington, dont Zihan Wang, un ancien chercheur en profondeur qui poursuit maintenant un doctorat en informatique à Northwestern, a présenté Ragen. Ce nouveau système vise à former et à évaluer les agents d'IA pour les rendre plus fiables et adaptables à une utilisation en entreprise réelle.
Ragen: une nouvelle approche de la formation des agents d'IA
Contrairement aux tâches statiques telles que la résolution de mathématiques ou la génération de code, Ragen se concentre sur les interactions dynamiques, multi-tours où les agents doivent s'adapter, se souvenir et raisonner au milieu de l'incertitude. Le système est construit sur un cadre d'apprentissage de renforcement personnalisé (RL) appelé Starpo (optimisation des politiques d'action-récompense d'État-récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que la mémorisation par cœur. Starpo examine des séquences de prise de décision entières, pas seulement des réponses en une seule étape.
Starpo fonctionne en deux phases: une étape de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une étape de mise à jour où le modèle est optimisé en utilisant des récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes d'optimisation des politiques traditionnelles.
Les chercheurs ont testé ce cadre à l'aide de versions affinées des modèles QWEN d'Alibaba, en particulier QWEN 1.5 et QWEN 2.5, choisis pour leurs poids ouverts et leurs fortes capacités de suivi des instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes entre les tâches symboliques.
Le piège Echo: un défi dans l'apprentissage du renforcement
Zihan Wang a mis en évidence un problème critique dans la formation RL dans un fil X largement partagé: * Pourquoi votre formation RL s'effondre toujours?
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies gagnent très tôt des récompenses, encourageant la surutilisation et l'étouffement de l'exploration. Les symptômes sont clairs: les falaises de variance de récompense, les pointes de gradient et la disparition de traces de raisonnement.
Environnements de test de Ragen
Pour étudier ces comportements dans un cadre contrôlé, Ragen évalue les agents dans trois environnements symboliques:
- Bandit: une tâche stochastique en un seul tour qui teste le raisonnement à récompense du risque symbolique.
- Sokoban: un puzzle déterministe multi-tournant impliquant des décisions irréversibles.
- Lac gelé: une tâche stochastique et multi-tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les priors du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant la formation. Par exemple, dans l'environnement bandit, les agents doivent raisonner symboliquement sur les armes Dragon et Phoenix représentant différentes distributions de récompense, les interprétant comme une «force» et «l'espoir» pour prédire les résultats.
Stabiliser l'apprentissage du renforcement avec Starpo-S
Pour lutter contre l'effondrement de la formation, les chercheurs ont introduit Starpo-S, une version stabilisée du cadre original. Starpo-S comprend trois interventions clés:
- Filtrage de déploiement basé sur l'incertitude: prioriser les déploiement où l'agent montre l'incertitude des résultats.
- Suppression de la pénalité KL: permettant au modèle de s'écarter davantage de sa politique d'origine et d'explorer de nouveaux comportements.
- Coupage ASymétrique PPO: amplification des trajectoires à haute récompense plus que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou à éliminer l'effondrement de la formation et à améliorer les performances entre les trois tâches. Comme l'a dit Wang, "Starpo-S… fonctionne sur les 3 tâches. Soulage l'effondrement. Une meilleure récompense."
Qu'est-ce qui fait un bon modèle d'IA agentique?
Le succès de la formation RL dépend non seulement de l'architecture mais également de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui ont un impact significatif sur la formation:
- Diversité des tâches: exposer le modèle à un large éventail de scénarios initiaux améliore la généralisation.
- Granularité d'interaction: permettre de multiples actions par tour permet une planification plus significative.
- Déploiement de la fraîcheur: garder les données de formation alignées sur la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus de formation plus stable et plus efficace. Un site de démonstration interactif sur GitHub visualise les déploiements d'agent à mesure que le dialogue complet tourne, y compris non seulement les actions, mais le processus de réflexion étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent peut d'abord «penser» à isoler une variable avant de soumettre une réponse comme «x = 5». Ces pensées intermédiaires sont visibles et traçables, ajoutant la transparence à la façon dont les agents prennent des décisions.
Lorsque le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples et à tour de feu comme Bandit, il a tendance à se décomposer pendant la formation multi-tour. Malgré l'utilisation d'invites et de jetons structurés, les traces de raisonnement rétrécissent ou disparaissent souvent à moins d'être directement récompensées. Cela met en évidence une limitation de la façon dont les récompenses sont généralement conçues: se concentrer sur l'achèvement des tâches peut négliger la qualité du processus derrière. L'équipe a expérimenté des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une mise en forme plus raffinée de récompense est probablement nécessaire.
Outils ouverts et orientations futures
Ragen, ainsi que ses frameworks Starpo et Starpo-S, sont maintenant disponibles en tant que projet open-source à https://github.com/ragen-ai/ragen . Cependant, au moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel GitHub, qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents d'IA qui non seulement effectuent des tâches, mais aussi pensent, planifèrent et évoluent. Alors que l'IA se dirige vers une plus grande autonomie, des projets comme Ragen aident à éclairer ce qu'il faut pour former des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption des entreprises du monde réel
Bien que le papier Ragen propose une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes en entreprise. Par exemple, à quel point l'approche de Ragen est-elle transférable au-delà des tâches stylisées et symboliques? Les entreprises devraient-elles concevoir des environnements entièrement nouveaux et des fonctions de récompense pour utiliser ce système dans des workflows comme le traitement des factures ou le support client?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations de grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant aux entreprises concevant leurs propres exercices de formation pour les agents de l'IA en utilisant Ragen, notant que le lien GitHub fournit une introduction simple à l'ajout de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations fournies par Starpo-S, le document reconnaît que la formation s'effondre toujours sur des horizons plus longs. Cela soulève la question: existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en constante évolution?
Au moment de la rédaction du moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel ou la documentation Ragen Github, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, Ragen se démarque non seulement comme une contribution technique, mais comme une étape conceptuelle vers des agents d'IA plus autonomes et capables de raisonnement. Il reste à voir s'il fait partie de la pile d'IA d'entreprise, mais ses informations sur la dynamique d'apprentissage des agents aident déjà à redéfinir la frontière de la formation LLM.
Article connexe
Google dévoile les modèles AI Gemini 2.5 prêts pour la production pour rivaliser avec OpenAI sur le marché des entreprises
Google a intensifié sa stratégie AI lundi, lançant ses modèles avancés Gemini 2.5 pour une utilisation en entreprise et introduisant une variante économique pour concurrencer sur le prix et la perform
Alibaba Dévoile Wan2.1-VACE : Solution Vidéo IA Open-Source
Alibaba a présenté Wan2.1-VACE, un modèle d'IA open-source prêt à transformer les processus de création et d'édition vidéo.VACE est un composant clé de la famille de modèles vidéo IA Wan2.1 d’Alibaba,
Expérience de vente au détail propulsée par l'IA échoue spectaculairement chez Anthropic
Imaginez confier un petit magasin à une intelligence artificielle, lui déléguant tout, des prix aux interactions avec les clients. Que pourrait-il arriver de mal ?Une récente étude d'Anthropic, publié
commentaires (6)
0/200
JimmyRamirez
23 juillet 2025 06:59:29 UTC+02:00
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6 mai 2025 09:48:04 UTC+02:00
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 mai 2025 00:45:54 UTC+02:00
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5 mai 2025 05:45:04 UTC+02:00
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
4 mai 2025 22:00:48 UTC+02:00
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
MateoAdams
4 mai 2025 17:14:20 UTC+02:00
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
L'année des agents de l'IA: un examen plus approfondi des attentes et des réalités de 2025
2025 a été annoncé par de nombreux experts comme l'année où les agents de l'IA - systèmes d'IA spécialisés alimentés par des modèles avancés de grande langue et multimodaux de sociétés comme Openai, Anthropic, Google et Deepseek - prendraient enfin le devant de la scène. Cependant, selon un récent sondage VentureBeat sur le réseau social X, la plupart des agents de l'IA languissent toujours par étapes expérimentales, prises dans une sorte de limbes d'entreprise.
Mais il y a une lueur d'espoir à l'horizon. Un effort de collaboration de chercheurs de la Northwestern University, Microsoft, Stanford, et de l'Université de Washington, dont Zihan Wang, un ancien chercheur en profondeur qui poursuit maintenant un doctorat en informatique à Northwestern, a présenté Ragen. Ce nouveau système vise à former et à évaluer les agents d'IA pour les rendre plus fiables et adaptables à une utilisation en entreprise réelle.
Ragen: une nouvelle approche de la formation des agents d'IA
Contrairement aux tâches statiques telles que la résolution de mathématiques ou la génération de code, Ragen se concentre sur les interactions dynamiques, multi-tours où les agents doivent s'adapter, se souvenir et raisonner au milieu de l'incertitude. Le système est construit sur un cadre d'apprentissage de renforcement personnalisé (RL) appelé Starpo (optimisation des politiques d'action-récompense d'État-récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que la mémorisation par cœur. Starpo examine des séquences de prise de décision entières, pas seulement des réponses en une seule étape.
Starpo fonctionne en deux phases: une étape de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une étape de mise à jour où le modèle est optimisé en utilisant des récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes d'optimisation des politiques traditionnelles.
Les chercheurs ont testé ce cadre à l'aide de versions affinées des modèles QWEN d'Alibaba, en particulier QWEN 1.5 et QWEN 2.5, choisis pour leurs poids ouverts et leurs fortes capacités de suivi des instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes entre les tâches symboliques.
Le piège Echo: un défi dans l'apprentissage du renforcement
Zihan Wang a mis en évidence un problème critique dans la formation RL dans un fil X largement partagé: * Pourquoi votre formation RL s'effondre toujours?
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies gagnent très tôt des récompenses, encourageant la surutilisation et l'étouffement de l'exploration. Les symptômes sont clairs: les falaises de variance de récompense, les pointes de gradient et la disparition de traces de raisonnement.
Environnements de test de Ragen
Pour étudier ces comportements dans un cadre contrôlé, Ragen évalue les agents dans trois environnements symboliques:
- Bandit: une tâche stochastique en un seul tour qui teste le raisonnement à récompense du risque symbolique.
- Sokoban: un puzzle déterministe multi-tournant impliquant des décisions irréversibles.
- Lac gelé: une tâche stochastique et multi-tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les priors du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant la formation. Par exemple, dans l'environnement bandit, les agents doivent raisonner symboliquement sur les armes Dragon et Phoenix représentant différentes distributions de récompense, les interprétant comme une «force» et «l'espoir» pour prédire les résultats.
Stabiliser l'apprentissage du renforcement avec Starpo-S
Pour lutter contre l'effondrement de la formation, les chercheurs ont introduit Starpo-S, une version stabilisée du cadre original. Starpo-S comprend trois interventions clés:
- Filtrage de déploiement basé sur l'incertitude: prioriser les déploiement où l'agent montre l'incertitude des résultats.
- Suppression de la pénalité KL: permettant au modèle de s'écarter davantage de sa politique d'origine et d'explorer de nouveaux comportements.
- Coupage ASymétrique PPO: amplification des trajectoires à haute récompense plus que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou à éliminer l'effondrement de la formation et à améliorer les performances entre les trois tâches. Comme l'a dit Wang, "Starpo-S… fonctionne sur les 3 tâches. Soulage l'effondrement. Une meilleure récompense."
Qu'est-ce qui fait un bon modèle d'IA agentique?
Le succès de la formation RL dépend non seulement de l'architecture mais également de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui ont un impact significatif sur la formation:
- Diversité des tâches: exposer le modèle à un large éventail de scénarios initiaux améliore la généralisation.
- Granularité d'interaction: permettre de multiples actions par tour permet une planification plus significative.
- Déploiement de la fraîcheur: garder les données de formation alignées sur la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus de formation plus stable et plus efficace. Un site de démonstration interactif sur GitHub visualise les déploiements d'agent à mesure que le dialogue complet tourne, y compris non seulement les actions, mais le processus de réflexion étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent peut d'abord «penser» à isoler une variable avant de soumettre une réponse comme «x = 5». Ces pensées intermédiaires sont visibles et traçables, ajoutant la transparence à la façon dont les agents prennent des décisions.
Lorsque le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples et à tour de feu comme Bandit, il a tendance à se décomposer pendant la formation multi-tour. Malgré l'utilisation d'invites et de jetons structurés, les traces de raisonnement rétrécissent ou disparaissent souvent à moins d'être directement récompensées. Cela met en évidence une limitation de la façon dont les récompenses sont généralement conçues: se concentrer sur l'achèvement des tâches peut négliger la qualité du processus derrière. L'équipe a expérimenté des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une mise en forme plus raffinée de récompense est probablement nécessaire.
Outils ouverts et orientations futures
Ragen, ainsi que ses frameworks Starpo et Starpo-S, sont maintenant disponibles en tant que projet open-source à https://github.com/ragen-ai/ragen . Cependant, au moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel GitHub, qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents d'IA qui non seulement effectuent des tâches, mais aussi pensent, planifèrent et évoluent. Alors que l'IA se dirige vers une plus grande autonomie, des projets comme Ragen aident à éclairer ce qu'il faut pour former des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption des entreprises du monde réel
Bien que le papier Ragen propose une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes en entreprise. Par exemple, à quel point l'approche de Ragen est-elle transférable au-delà des tâches stylisées et symboliques? Les entreprises devraient-elles concevoir des environnements entièrement nouveaux et des fonctions de récompense pour utiliser ce système dans des workflows comme le traitement des factures ou le support client?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations de grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant aux entreprises concevant leurs propres exercices de formation pour les agents de l'IA en utilisant Ragen, notant que le lien GitHub fournit une introduction simple à l'ajout de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations fournies par Starpo-S, le document reconnaît que la formation s'effondre toujours sur des horizons plus longs. Cela soulève la question: existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en constante évolution?
Au moment de la rédaction du moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel ou la documentation Ragen Github, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, Ragen se démarque non seulement comme une contribution technique, mais comme une étape conceptuelle vers des agents d'IA plus autonomes et capables de raisonnement. Il reste à voir s'il fait partie de la pile d'IA d'entreprise, mais ses informations sur la dynamique d'apprentissage des agents aident déjà à redéfinir la frontière de la formation LLM.




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀












