option
Maison
Nouvelles
L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

4 mai 2025
109

L'ancien Deepseeker et les collaborateurs publient une nouvelle méthode pour la formation d'agents d'IA fiables: Ragen

L'année des agents IA : un regard approfondi sur les attentes et réalités de 2025

2025 a été annoncée par de nombreux experts comme l'année où les agents IA—systèmes IA spécialisés alimentés par des modèles de langage avancés et multimodaux de sociétés comme OpenAI, Anthropic, Google et DeepSeek—prendraient enfin le devant de la scène. Cependant, selon un récent sondage de VentureBeat sur le réseau social X, la plupart des agents IA sont encore en phase expérimentale, coincés dans une sorte de limbes corporatifs.

Mais il y a une lueur d'espoir à l'horizon. Un effort collaboratif de chercheurs de l'Université Northwestern, Microsoft, Stanford et l'Université de Washington, incluant Zihan Wang, ancien chercheur chez DeepSeek désormais doctorant en informatique à Northwestern, a introduit RAGEN. Ce nouveau système vise à entraîner et évaluer les agents IA pour les rendre plus fiables et adaptables à une utilisation en entreprise dans le monde réel.

RAGEN : une nouvelle approche pour l'entraînement des agents IA

Contrairement aux tâches statiques comme la résolution de problèmes mathématiques ou la génération de code, RAGEN se concentre sur des interactions dynamiques à plusieurs tours où les agents doivent s'adapter, se souvenir et raisonner dans l'incertitude. Le système repose sur un cadre d'apprentissage par renforcement (RL) personnalisé appelé StarPO (Optimisation de la politique État-Pensée-Actions-Récompense), qui met l'accent sur l'apprentissage par l'expérience plutôt que sur la mémorisation par cœur. StarPO examine les séquences complètes de prise de décision, et pas seulement les réponses en une seule étape.

StarPO fonctionne en deux phases : une phase de déploiement où le LLM génère des séquences d'interaction complètes guidées par le raisonnement, et une phase de mise à jour où le modèle est optimisé à l'aide de récompenses cumulatives normalisées. Cette approche offre une boucle d'apprentissage plus stable et interprétable par rapport aux méthodes traditionnelles d'optimisation de politique.

Les chercheurs ont testé ce cadre en utilisant des versions affinées des modèles Qwen d'Alibaba, spécifiquement Qwen 1.5 et Qwen 2.5, choisis pour leurs poids ouverts et leurs fortes capacités à suivre les instructions. Ce choix a facilité la reproductibilité et les comparaisons de référence cohérentes à travers des tâches symboliques.

Le piège de l'écho : un défi dans l'apprentissage par renforcement

Zihan Wang a mis en lumière un problème critique dans l'entraînement RL dans un fil largement partagé sur X : *Pourquoi votre entraînement RL s'effondre-t-il toujours ?* L'équipe a identifié que, bien que les agents LLM produisent initialement des réponses bien raisonnées, les systèmes RL récompensent souvent les raccourcis, conduisant à des comportements répétitifs qui dégradent les performances—un phénomène qu'ils ont surnommé le "Piège de l'Écho".

Cette régression est alimentée par des boucles de rétroaction où certaines phrases ou stratégies obtiennent des récompenses élevées tôt, encourageant leur surutilisation et étouffant l'exploration. Les symptômes sont clairs : chute de la variance des récompenses, pics de gradient et disparition des traces de raisonnement.

Environnements de test de RAGEN

Pour étudier ces comportements dans un cadre contrôlé, RAGEN évalue les agents à travers trois environnements symboliques :

  • Bandit : Une tâche stochastique à un seul tour qui teste le raisonnement symbolique risque-récompense.
  • Sokoban : Un puzzle déterministe à plusieurs tours impliquant des décisions irréversibles.
  • Frozen Lake : Une tâche stochastique à plusieurs tours nécessitant une planification adaptative.

Chaque environnement est conçu pour minimiser les a priori du monde réel et se concentrer uniquement sur les stratégies de prise de décision développées pendant l'entraînement. Par exemple, dans l'environnement Bandit, les agents doivent raisonner symboliquement sur les bras Dragon et Phénix représentant différentes distributions de récompenses, les interprétant comme "force" et "espoir" pour prédire les résultats.

Stabilisation de l'apprentissage par renforcement avec StarPO-S

Pour contrer l'effondrement de l'entraînement, les chercheurs ont introduit StarPO-S, une version stabilisée du cadre original. StarPO-S inclut trois interventions clés :

  1. Filtrage des déploiements basé sur l'incertitude : Priorisation des déploiements où l'agent montre une incertitude sur les résultats.
  2. Suppression de la pénalité KL : Permettre au modèle de s'écarter plus librement de sa politique initiale et d'explorer de nouveaux comportements.
  3. Clipping PPO asymétrique : Amplifier davantage les trajectoires à haute récompense que celles à faible récompense pour stimuler l'apprentissage.

Ces changements aident à retarder ou éliminer l'effondrement de l'entraînement et améliorent les performances dans les trois tâches. Comme l'a dit Wang, "StarPO-S… fonctionne pour les 3 tâches. Soulage l'effondrement. Meilleure récompense."

Qu'est-ce qui fait un bon modèle d'agent IA ?

Le succès de l'entraînement RL dépend non seulement de l'architecture mais aussi de la qualité des données générées par les agents. L'équipe a identifié trois dimensions cruciales qui impactent significativement l'entraînement :

  • Diversité des tâches : Exposer le modèle à une large gamme de scénarios initiaux améliore la généralisation.
  • Granularité des interactions : Permettre plusieurs actions par tour favorise une planification plus significative.
  • Fraîcheur des déploiements : Maintenir les données d'entraînement alignées avec la politique actuelle du modèle évite les signaux d'apprentissage obsolètes.

Ces facteurs contribuent à un processus d'entraînement plus stable et efficace. Un site de démonstration interactif sur Github visualise les déploiements des agents sous forme de tours de dialogue complets, incluant non seulement les actions mais aussi le processus de pensée étape par étape qui les précède. Par exemple, pour résoudre un problème mathématique, un agent pourrait d'abord "penser" à isoler une variable avant de soumettre une réponse comme "x = 5". Ces pensées intermédiaires sont visibles et traçables, ajoutant de la transparence à la manière dont les agents prennent des décisions.

Quand le raisonnement s'épuise

Bien que le raisonnement explicite améliore les performances dans des tâches simples à un seul tour comme Bandit, il a tendance à se dégrader pendant l'entraînement à plusieurs tours. Malgré l'utilisation de prompts structurés et de jetons, les traces de raisonnement rétrécissent souvent ou disparaissent à moins d'être directement récompensées. Cela met en évidence une limitation dans la conception habituelle des récompenses : se concentrer sur l'achèvement des tâches peut négliger la qualité du processus sous-jacent. L'équipe a expérimenté avec des pénalités basées sur le format pour encourager un raisonnement mieux structuré, mais reconnaît qu'une modélisation plus raffinée des récompenses est probablement nécessaire.

Outils ouverts et orientations futures

RAGEN, avec ses cadres StarPO et StarPO-S, est désormais disponible en tant que projet open-source à https://github.com/RAGEN-AI/RAGEN. Cependant, au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt GitHub, ce qui peut limiter son utilisation ou sa redistribution par d'autres.

Le système fournit une base précieuse pour ceux qui souhaitent développer des agents IA qui non seulement accomplissent des tâches mais pensent, planifient et évoluent. Alors que l'IA progresse vers une plus grande autonomie, des projets comme RAGEN aident à éclairer ce qu'il faut pour entraîner des modèles qui apprennent des conséquences de leurs propres actions.

Questions en suspens pour l'adoption en entreprise dans le monde réel

Bien que l'article sur RAGEN offre une feuille de route technique détaillée, plusieurs questions pratiques demeurent pour ceux qui cherchent à appliquer ces méthodes dans des contextes d'entreprise. Par exemple, dans quelle mesure l'approche de RAGEN est-elle transférable au-delà des tâches stylisées et symboliques ? Les entreprises devraient-elles concevoir des environnements et des fonctions de récompense entièrement nouveaux pour utiliser ce système dans des flux de travail comme le traitement des factures ou le support client ?

Wang, dans un message direct à VentureBeat sur X, a suggéré que l'amélioration de la diversité des tâches pourrait aider, car les tâches de jeu actuelles n'ont que des représentations en grille similaires mais manquent d'informations sémantiques. Il a également exprimé son optimisme quant à la possibilité pour les entreprises de concevoir leurs propres exercices d'entraînement pour les agents IA en utilisant RAGEN, notant que le lien GitHub fournit une introduction simple pour ajouter de nouveaux environnements.

Un autre domaine critique est l'évolutivité. Même avec les améliorations apportées par StarPO-S, l'article reconnaît que l'entraînement s'effondre encore sur des horizons plus longs. Cela soulève la question : existe-t-il un chemin théorique ou pratique pour maintenir le raisonnement sur des séquences de tâches ouvertes ou en évolution continue ?

Au moment de la rédaction, aucune licence explicite n'est mentionnée dans le dépôt ou la documentation GitHub de RAGEN, laissant des questions ouvertes sur les droits d'utilisation. Néanmoins, RAGEN se distingue non seulement comme une contribution technique mais aussi comme une étape conceptuelle vers des agents IA plus autonomes et capables de raisonnement. Reste à voir s'il deviendra une partie de la pile d'IA en entreprise, mais ses idées sur les dynamiques d'apprentissage des agents redéfinissent déjà la frontière de l'entraînement des LLM.

Article connexe
Les plus grands laboratoires d'IA avertissent que l'humanité est en train de perdre le contrôle de la compréhension des systèmes d'IA Les plus grands laboratoires d'IA avertissent que l'humanité est en train de perdre le contrôle de la compréhension des systèmes d'IA Dans une démonstration d'unité sans précédent, des chercheurs d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont mis de côté leurs divergences pour lancer un avertissement collectif sur le dével
Mise à jour de l'IA d'Anthropic : Claude effectue désormais des recherches instantanées dans tout l'espace de travail de Google Mise à jour de l'IA d'Anthropic : Claude effectue désormais des recherches instantanées dans tout l'espace de travail de Google La mise à jour majeure apportée aujourd'hui par Anthropic transforme Claude d'un assistant IA en ce que l'entreprise appelle un "véritable collaborateur virtuel", en introduisant des capacités de rech
L'IA L'IA "ZeroSearch" d'Alibaba réduit les coûts de formation de 88 % grâce à l'apprentissage autonome ZeroSearch d'Alibaba : Un changement de donne pour l'efficacité de l'apprentissage de l'IALes chercheurs du groupe Alibaba ont mis au point une méthode innovante qui pourrait révolutionner la manière
commentaires (7)
0/200
ScottEvans
ScottEvans 13 août 2025 13:00:59 UTC+02:00

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 23 juillet 2025 06:59:29 UTC+02:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 6 mai 2025 09:48:04 UTC+02:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams
NicholasAdams 6 mai 2025 00:45:54 UTC+02:00

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀

EricLewis
EricLewis 5 mai 2025 05:45:04 UTC+02:00

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

GeorgeTaylor
GeorgeTaylor 4 mai 2025 22:00:48 UTC+02:00

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

Retour en haut
OR