L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents de l'IA: un examen plus approfondi des attentes et des réalités de 2025
2025 a été annoncé par de nombreux experts comme l'année où les agents de l'IA - systèmes d'IA spécialisés alimentés par des modèles avancés de grande langue et multimodaux de sociétés comme Openai, Anthropic, Google et Deepseek - prendraient enfin le devant de la scène. Cependant, selon un récent sondage VentureBeat sur le réseau social X, la plupart des agents de l'IA languissent toujours par étapes expérimentales, prises dans une sorte de limbes d'entreprise.
Mais il y a une lueur d'espoir à l'horizon. Un effort de collaboration de chercheurs de la Northwestern University, Microsoft, Stanford, et de l'Université de Washington, dont Zihan Wang, un ancien chercheur en profondeur qui poursuit maintenant un doctorat en informatique à Northwestern, a présenté Ragen. Ce nouveau système vise à former et à évaluer les agents d'IA pour les rendre plus fiables et adaptables à une utilisation en entreprise réelle.
Ragen: une nouvelle approche de la formation des agents d'IA
Contrairement aux tâches statiques telles que la résolution de mathématiques ou la génération de code, Ragen se concentre sur les interactions dynamiques, multi-tours où les agents doivent s'adapter, se souvenir et raisonner au milieu de l'incertitude. Le système est construit sur un cadre d'apprentissage de renforcement personnalisé (RL) appelé Starpo (optimisation des politiques d'action-récompense d'État-récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que la mémorisation par cœur. Starpo examine des séquences de prise de décision entières, pas seulement des réponses en une seule étape.
Starpo fonctionne en deux phases: une étape de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une étape de mise à jour où le modèle est optimisé en utilisant des récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes d'optimisation des politiques traditionnelles.
Les chercheurs ont testé ce cadre à l'aide de versions affinées des modèles QWEN d'Alibaba, en particulier QWEN 1.5 et QWEN 2.5, choisis pour leurs poids ouverts et leurs fortes capacités de suivi des instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes entre les tâches symboliques.
Le piège Echo: un défi dans l'apprentissage du renforcement
Zihan Wang a mis en évidence un problème critique dans la formation RL dans un fil X largement partagé: * Pourquoi votre formation RL s'effondre toujours?
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies gagnent très tôt des récompenses, encourageant la surutilisation et l'étouffement de l'exploration. Les symptômes sont clairs: les falaises de variance de récompense, les pointes de gradient et la disparition de traces de raisonnement.
Environnements de test de Ragen
Pour étudier ces comportements dans un cadre contrôlé, Ragen évalue les agents dans trois environnements symboliques:
- Bandit: une tâche stochastique en un seul tour qui teste le raisonnement à récompense du risque symbolique.
- Sokoban: un puzzle déterministe multi-tournant impliquant des décisions irréversibles.
- Lac gelé: une tâche stochastique et multi-tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les priors du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant la formation. Par exemple, dans l'environnement bandit, les agents doivent raisonner symboliquement sur les armes Dragon et Phoenix représentant différentes distributions de récompense, les interprétant comme une «force» et «l'espoir» pour prédire les résultats.
Stabiliser l'apprentissage du renforcement avec Starpo-S
Pour lutter contre l'effondrement de la formation, les chercheurs ont introduit Starpo-S, une version stabilisée du cadre original. Starpo-S comprend trois interventions clés:
- Filtrage de déploiement basé sur l'incertitude: prioriser les déploiement où l'agent montre l'incertitude des résultats.
- Suppression de la pénalité KL: permettant au modèle de s'écarter davantage de sa politique d'origine et d'explorer de nouveaux comportements.
- Coupage ASymétrique PPO: amplification des trajectoires à haute récompense plus que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou à éliminer l'effondrement de la formation et à améliorer les performances entre les trois tâches. Comme l'a dit Wang, "Starpo-S… fonctionne sur les 3 tâches. Soulage l'effondrement. Une meilleure récompense."
Qu'est-ce qui fait un bon modèle d'IA agentique?
Le succès de la formation RL dépend non seulement de l'architecture mais également de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui ont un impact significatif sur la formation:
- Diversité des tâches: exposer le modèle à un large éventail de scénarios initiaux améliore la généralisation.
- Granularité d'interaction: permettre de multiples actions par tour permet une planification plus significative.
- Déploiement de la fraîcheur: garder les données de formation alignées sur la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus de formation plus stable et plus efficace. Un site de démonstration interactif sur GitHub visualise les déploiements d'agent à mesure que le dialogue complet tourne, y compris non seulement les actions, mais le processus de réflexion étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent peut d'abord «penser» à isoler une variable avant de soumettre une réponse comme «x = 5». Ces pensées intermédiaires sont visibles et traçables, ajoutant la transparence à la façon dont les agents prennent des décisions.
Lorsque le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples et à tour de feu comme Bandit, il a tendance à se décomposer pendant la formation multi-tour. Malgré l'utilisation d'invites et de jetons structurés, les traces de raisonnement rétrécissent ou disparaissent souvent à moins d'être directement récompensées. Cela met en évidence une limitation de la façon dont les récompenses sont généralement conçues: se concentrer sur l'achèvement des tâches peut négliger la qualité du processus derrière. L'équipe a expérimenté des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une mise en forme plus raffinée de récompense est probablement nécessaire.
Outils ouverts et orientations futures
Ragen, ainsi que ses frameworks Starpo et Starpo-S, sont maintenant disponibles en tant que projet open-source à https://github.com/ragen-ai/ragen . Cependant, au moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel GitHub, qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents d'IA qui non seulement effectuent des tâches, mais aussi pensent, planifèrent et évoluent. Alors que l'IA se dirige vers une plus grande autonomie, des projets comme Ragen aident à éclairer ce qu'il faut pour former des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption des entreprises du monde réel
Bien que le papier Ragen propose une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes en entreprise. Par exemple, à quel point l'approche de Ragen est-elle transférable au-delà des tâches stylisées et symboliques? Les entreprises devraient-elles concevoir des environnements entièrement nouveaux et des fonctions de récompense pour utiliser ce système dans des workflows comme le traitement des factures ou le support client?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations de grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant aux entreprises concevant leurs propres exercices de formation pour les agents de l'IA en utilisant Ragen, notant que le lien GitHub fournit une introduction simple à l'ajout de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations fournies par Starpo-S, le document reconnaît que la formation s'effondre toujours sur des horizons plus longs. Cela soulève la question: existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en constante évolution?
Au moment de la rédaction du moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel ou la documentation Ragen Github, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, Ragen se démarque non seulement comme une contribution technique, mais comme une étape conceptuelle vers des agents d'IA plus autonomes et capables de raisonnement. Il reste à voir s'il fait partie de la pile d'IA d'entreprise, mais ses informations sur la dynamique d'apprentissage des agents aident déjà à redéfinir la frontière de la formation LLM.
Article connexe
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
commentaires (5)
0/200
RalphWalker
6 mai 2025 00:00:00 UTC
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 mai 2025 00:00:00 UTC
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
4 mai 2025 00:00:00 UTC
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
5 mai 2025 00:00:00 UTC
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
5 mai 2025 00:00:00 UTC
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
L'année des agents de l'IA: un examen plus approfondi des attentes et des réalités de 2025
2025 a été annoncé par de nombreux experts comme l'année où les agents de l'IA - systèmes d'IA spécialisés alimentés par des modèles avancés de grande langue et multimodaux de sociétés comme Openai, Anthropic, Google et Deepseek - prendraient enfin le devant de la scène. Cependant, selon un récent sondage VentureBeat sur le réseau social X, la plupart des agents de l'IA languissent toujours par étapes expérimentales, prises dans une sorte de limbes d'entreprise.
Mais il y a une lueur d'espoir à l'horizon. Un effort de collaboration de chercheurs de la Northwestern University, Microsoft, Stanford, et de l'Université de Washington, dont Zihan Wang, un ancien chercheur en profondeur qui poursuit maintenant un doctorat en informatique à Northwestern, a présenté Ragen. Ce nouveau système vise à former et à évaluer les agents d'IA pour les rendre plus fiables et adaptables à une utilisation en entreprise réelle.
Ragen: une nouvelle approche de la formation des agents d'IA
Contrairement aux tâches statiques telles que la résolution de mathématiques ou la génération de code, Ragen se concentre sur les interactions dynamiques, multi-tours où les agents doivent s'adapter, se souvenir et raisonner au milieu de l'incertitude. Le système est construit sur un cadre d'apprentissage de renforcement personnalisé (RL) appelé Starpo (optimisation des politiques d'action-récompense d'État-récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que la mémorisation par cœur. Starpo examine des séquences de prise de décision entières, pas seulement des réponses en une seule étape.
Starpo fonctionne en deux phases: une étape de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une étape de mise à jour où le modèle est optimisé en utilisant des récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes d'optimisation des politiques traditionnelles.
Les chercheurs ont testé ce cadre à l'aide de versions affinées des modèles QWEN d'Alibaba, en particulier QWEN 1.5 et QWEN 2.5, choisis pour leurs poids ouverts et leurs fortes capacités de suivi des instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes entre les tâches symboliques.
Le piège Echo: un défi dans l'apprentissage du renforcement
Zihan Wang a mis en évidence un problème critique dans la formation RL dans un fil X largement partagé: * Pourquoi votre formation RL s'effondre toujours?
Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies gagnent très tôt des récompenses, encourageant la surutilisation et l'étouffement de l'exploration. Les symptômes sont clairs: les falaises de variance de récompense, les pointes de gradient et la disparition de traces de raisonnement.
Environnements de test de Ragen
Pour étudier ces comportements dans un cadre contrôlé, Ragen évalue les agents dans trois environnements symboliques:
- Bandit: une tâche stochastique en un seul tour qui teste le raisonnement à récompense du risque symbolique.
- Sokoban: un puzzle déterministe multi-tournant impliquant des décisions irréversibles.
- Lac gelé: une tâche stochastique et multi-tours nécessitant une planification adaptative.
Chaque environnement est conçu pour minimiser les priors du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant la formation. Par exemple, dans l'environnement bandit, les agents doivent raisonner symboliquement sur les armes Dragon et Phoenix représentant différentes distributions de récompense, les interprétant comme une «force» et «l'espoir» pour prédire les résultats.
Stabiliser l'apprentissage du renforcement avec Starpo-S
Pour lutter contre l'effondrement de la formation, les chercheurs ont introduit Starpo-S, une version stabilisée du cadre original. Starpo-S comprend trois interventions clés:
- Filtrage de déploiement basé sur l'incertitude: prioriser les déploiement où l'agent montre l'incertitude des résultats.
- Suppression de la pénalité KL: permettant au modèle de s'écarter davantage de sa politique d'origine et d'explorer de nouveaux comportements.
- Coupage ASymétrique PPO: amplification des trajectoires à haute récompense plus que celles à faible récompense pour stimuler l'apprentissage.
Ces changements aident à retarder ou à éliminer l'effondrement de la formation et à améliorer les performances entre les trois tâches. Comme l'a dit Wang, "Starpo-S… fonctionne sur les 3 tâches. Soulage l'effondrement. Une meilleure récompense."
Qu'est-ce qui fait un bon modèle d'IA agentique?
Le succès de la formation RL dépend non seulement de l'architecture mais également de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui ont un impact significatif sur la formation:
- Diversité des tâches: exposer le modèle à un large éventail de scénarios initiaux améliore la généralisation.
- Granularité d'interaction: permettre de multiples actions par tour permet une planification plus significative.
- Déploiement de la fraîcheur: garder les données de formation alignées sur la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.
Ces facteurs contribuent à un processus de formation plus stable et plus efficace. Un site de démonstration interactif sur GitHub visualise les déploiements d'agent à mesure que le dialogue complet tourne, y compris non seulement les actions, mais le processus de réflexion étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent peut d'abord «penser» à isoler une variable avant de soumettre une réponse comme «x = 5». Ces pensées intermédiaires sont visibles et traçables, ajoutant la transparence à la façon dont les agents prennent des décisions.
Lorsque le raisonnement s'épuise
Bien que le raisonnement explicite améliore les performances dans des tâches simples et à tour de feu comme Bandit, il a tendance à se décomposer pendant la formation multi-tour. Malgré l'utilisation d'invites et de jetons structurés, les traces de raisonnement rétrécissent ou disparaissent souvent à moins d'être directement récompensées. Cela met en évidence une limitation de la façon dont les récompenses sont généralement conçues: se concentrer sur l'achèvement des tâches peut négliger la qualité du processus derrière. L'équipe a expérimenté des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une mise en forme plus raffinée de récompense est probablement nécessaire.
Outils ouverts et orientations futures
Ragen, ainsi que ses frameworks Starpo et Starpo-S, sont maintenant disponibles en tant que projet open-source à https://github.com/ragen-ai/ragen . Cependant, au moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel GitHub, qui peut limiter son utilisation ou sa redistribution par d'autres.
Le système fournit une base précieuse pour ceux qui souhaitent développer des agents d'IA qui non seulement effectuent des tâches, mais aussi pensent, planifèrent et évoluent. Alors que l'IA se dirige vers une plus grande autonomie, des projets comme Ragen aident à éclairer ce qu'il faut pour former des modèles qui apprennent des conséquences de leurs propres actions.
Questions en suspens pour l'adoption des entreprises du monde réel
Bien que le papier Ragen propose une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes en entreprise. Par exemple, à quel point l'approche de Ragen est-elle transférable au-delà des tâches stylisées et symboliques? Les entreprises devraient-elles concevoir des environnements entièrement nouveaux et des fonctions de récompense pour utiliser ce système dans des workflows comme le traitement des factures ou le support client?
Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations de grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant aux entreprises concevant leurs propres exercices de formation pour les agents de l'IA en utilisant Ragen, notant que le lien GitHub fournit une introduction simple à l'ajout de nouveaux environnements.
Un autre domaine critique est l'évolutivité. Même avec les améliorations fournies par Starpo-S, le document reconnaît que la formation s'effondre toujours sur des horizons plus longs. Cela soulève la question: existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en constante évolution?
Au moment de la rédaction du moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel ou la documentation Ragen Github, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, Ragen se démarque non seulement comme une contribution technique, mais comme une étape conceptuelle vers des agents d'IA plus autonomes et capables de raisonnement. Il reste à voir s'il fait partie de la pile d'IA d'entreprise, mais ses informations sur la dynamique d'apprentissage des agents aident déjà à redéfinir la frontière de la formation LLM.




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












