Maison Nouvelles L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

4 mai 2025
DavidMartínez
0

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents de l'IA: un examen plus approfondi des attentes et des réalités de 2025

2025 a été annoncé par de nombreux experts comme l'année où les agents de l'IA - systèmes d'IA spécialisés alimentés par des modèles avancés de grande langue et multimodaux de sociétés comme Openai, Anthropic, Google et Deepseek - prendraient enfin le devant de la scène. Cependant, selon un récent sondage VentureBeat sur le réseau social X, la plupart des agents de l'IA languissent toujours par étapes expérimentales, prises dans une sorte de limbes d'entreprise.

Mais il y a une lueur d'espoir à l'horizon. Un effort de collaboration de chercheurs de la Northwestern University, Microsoft, Stanford, et de l'Université de Washington, dont Zihan Wang, un ancien chercheur en profondeur qui poursuit maintenant un doctorat en informatique à Northwestern, a présenté Ragen. Ce nouveau système vise à former et à évaluer les agents d'IA pour les rendre plus fiables et adaptables à une utilisation en entreprise réelle.

Ragen: une nouvelle approche de la formation des agents d'IA

Contrairement aux tâches statiques telles que la résolution de mathématiques ou la génération de code, Ragen se concentre sur les interactions dynamiques, multi-tours où les agents doivent s'adapter, se souvenir et raisonner au milieu de l'incertitude. Le système est construit sur un cadre d'apprentissage de renforcement personnalisé (RL) appelé Starpo (optimisation des politiques d'action-récompense d'État-récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que la mémorisation par cœur. Starpo examine des séquences de prise de décision entières, pas seulement des réponses en une seule étape.

Starpo fonctionne en deux phases: une étape de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une étape de mise à jour où le modèle est optimisé en utilisant des récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes d'optimisation des politiques traditionnelles.

Les chercheurs ont testé ce cadre à l'aide de versions affinées des modèles QWEN d'Alibaba, en particulier QWEN 1.5 et QWEN 2.5, choisis pour leurs poids ouverts et leurs fortes capacités de suivi des instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes entre les tâches symboliques.

Le piège Echo: un défi dans l'apprentissage du renforcement

Zihan Wang a mis en évidence un problème critique dans la formation RL dans un fil X largement partagé: * Pourquoi votre formation RL s'effondre toujours?

Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies gagnent très tôt des récompenses, encourageant la surutilisation et l'étouffement de l'exploration. Les symptômes sont clairs: les falaises de variance de récompense, les pointes de gradient et la disparition de traces de raisonnement.

Environnements de test de Ragen

Pour étudier ces comportements dans un cadre contrôlé, Ragen évalue les agents dans trois environnements symboliques:

  • Bandit: une tâche stochastique en un seul tour qui teste le raisonnement à récompense du risque symbolique.
  • Sokoban: un puzzle déterministe multi-tournant impliquant des décisions irréversibles.
  • Lac gelé: une tâche stochastique et multi-tours nécessitant une planification adaptative.

Chaque environnement est conçu pour minimiser les priors du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant la formation. Par exemple, dans l'environnement bandit, les agents doivent raisonner symboliquement sur les armes Dragon et Phoenix représentant différentes distributions de récompense, les interprétant comme une «force» et «l'espoir» pour prédire les résultats.

Stabiliser l'apprentissage du renforcement avec Starpo-S

Pour lutter contre l'effondrement de la formation, les chercheurs ont introduit Starpo-S, une version stabilisée du cadre original. Starpo-S comprend trois interventions clés:

  1. Filtrage de déploiement basé sur l'incertitude: prioriser les déploiement où l'agent montre l'incertitude des résultats.
  2. Suppression de la pénalité KL: permettant au modèle de s'écarter davantage de sa politique d'origine et d'explorer de nouveaux comportements.
  3. Coupage ASymétrique PPO: amplification des trajectoires à haute récompense plus que celles à faible récompense pour stimuler l'apprentissage.

Ces changements aident à retarder ou à éliminer l'effondrement de la formation et à améliorer les performances entre les trois tâches. Comme l'a dit Wang, "Starpo-S… fonctionne sur les 3 tâches. Soulage l'effondrement. Une meilleure récompense."

Qu'est-ce qui fait un bon modèle d'IA agentique?

Le succès de la formation RL dépend non seulement de l'architecture mais également de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui ont un impact significatif sur la formation:

  • Diversité des tâches: exposer le modèle à un large éventail de scénarios initiaux améliore la généralisation.
  • Granularité d'interaction: permettre de multiples actions par tour permet une planification plus significative.
  • Déploiement de la fraîcheur: garder les données de formation alignées sur la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.

Ces facteurs contribuent à un processus de formation plus stable et plus efficace. Un site de démonstration interactif sur GitHub visualise les déploiements d'agent à mesure que le dialogue complet tourne, y compris non seulement les actions, mais le processus de réflexion étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent peut d'abord «penser» à isoler une variable avant de soumettre une réponse comme «x = 5». Ces pensées intermédiaires sont visibles et traçables, ajoutant la transparence à la façon dont les agents prennent des décisions.

Lorsque le raisonnement s'épuise

Bien que le raisonnement explicite améliore les performances dans des tâches simples et à tour de feu comme Bandit, il a tendance à se décomposer pendant la formation multi-tour. Malgré l'utilisation d'invites et de jetons structurés, les traces de raisonnement rétrécissent ou disparaissent souvent à moins d'être directement récompensées. Cela met en évidence une limitation de la façon dont les récompenses sont généralement conçues: se concentrer sur l'achèvement des tâches peut négliger la qualité du processus derrière. L'équipe a expérimenté des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une mise en forme plus raffinée de récompense est probablement nécessaire.

Outils ouverts et orientations futures

Ragen, ainsi que ses frameworks Starpo et Starpo-S, sont maintenant disponibles en tant que projet open-source à https://github.com/ragen-ai/ragen . Cependant, au moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel GitHub, qui peut limiter son utilisation ou sa redistribution par d'autres.

Le système fournit une base précieuse pour ceux qui souhaitent développer des agents d'IA qui non seulement effectuent des tâches, mais aussi pensent, planifèrent et évoluent. Alors que l'IA se dirige vers une plus grande autonomie, des projets comme Ragen aident à éclairer ce qu'il faut pour former des modèles qui apprennent des conséquences de leurs propres actions.

Questions en suspens pour l'adoption des entreprises du monde réel

Bien que le papier Ragen propose une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes en entreprise. Par exemple, à quel point l'approche de Ragen est-elle transférable au-delà des tâches stylisées et symboliques? Les entreprises devraient-elles concevoir des environnements entièrement nouveaux et des fonctions de récompense pour utiliser ce système dans des workflows comme le traitement des factures ou le support client?

Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations de grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant aux entreprises concevant leurs propres exercices de formation pour les agents de l'IA en utilisant Ragen, notant que le lien GitHub fournit une introduction simple à l'ajout de nouveaux environnements.

Un autre domaine critique est l'évolutivité. Même avec les améliorations fournies par Starpo-S, le document reconnaît que la formation s'effondre toujours sur des horizons plus longs. Cela soulève la question: existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en constante évolution?

Au moment de la rédaction du moment de la rédaction, aucune licence explicite n'est répertoriée dans le référentiel ou la documentation Ragen Github, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, Ragen se démarque non seulement comme une contribution technique, mais comme une étape conceptuelle vers des agents d'IA plus autonomes et capables de raisonnement. Il reste à voir s'il fait partie de la pile d'IA d'entreprise, mais ses informations sur la dynamique d'apprentissage des agents aident déjà à redéfinir la frontière de la formation LLM.

Article connexe
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Commentaires (0)
0/200
Back to Top
OR