Le GEPA de Google améliore les performances du LLM en contournant les besoins coûteux en matière d'apprentissage par renforcement.

Maison

Nouvelles

27 décembre 2025

CharlesYoung

Des chercheurs de l'université de Berkeley, de l'université de Stanford et de Databricks ont présenté une nouvelle méthode d'optimisation de l'IA appelée GEPA, qui apporte des améliorations remarquables par rapport aux techniques traditionnelles d'apprentissage par renforcement pour l'adaptation de grands modèles de langage à des tâches spécialisées.

GEPA s'écarte de l'approche conventionnelle de l'apprentissage par des milliers de tentatives d'essai et d'erreur basées sur de simples scores numériques. Au lieu de cela, il utilise les capacités linguistiques internes d'un LLM pour analyser ses performances, identifier les erreurs et affiner progressivement ses instructions. En plus d'atteindre une plus grande précision que les méthodes établies, GEPA est beaucoup plus efficace, fournissant des résultats supérieurs avec jusqu'à 35 fois moins d'essais.

Pour les entreprises qui développent des agents d'IA et des flux de travail complexes, cette avancée est synonyme de développement plus rapide, de coûts informatiques nettement inférieurs et d'applications plus puissantes et plus fiables.

Le coût élevé de l'optimisation des systèmes d'IA modernes

Les applications d'IA d'entreprise modernes reposent rarement sur un seul appel à un LLM. Il s'agit généralement de "systèmes d'IA composés", des flux de travail sophistiqués qui combinent plusieurs modules LLM, des outils externes tels que des bases de données ou des interpréteurs de code, et une logique personnalisée pour exécuter des tâches complexes, telles que la recherche en plusieurs étapes et l'analyse de données.

Une stratégie d'optimisation courante pour ces systèmes est l'apprentissage par renforcement, illustrée par des techniques telles que l'optimisation de la politique relative du groupe utilisée dans les modèles de raisonnement avancés. Ces méthodes traitent le système d'IA comme une boîte noire, évaluant une tâche à l'aide d'une mesure de réussite de base. Ce retour d'information limité est ensuite utilisé pour ajuster progressivement les paramètres du modèle en vue d'améliorer les performances.

La principale limite du RL est son inefficacité. Pour apprendre efficacement à partir de notes numériques minimales, le RL nécessite souvent des dizaines, voire des centaines de milliers d'essais. Pour toute application d'entreprise du monde réel impliquant des appels d'outils coûteux ou des modèles propriétaires, ce processus est d'une lenteur et d'un coût prohibitifs.

Comme l'explique Lakshya A Agrawal, coauteur et doctorant à l'université de Berkeley, cette complexité constitue un obstacle majeur pour de nombreuses organisations. "Pour de nombreuses équipes, la RL n'est pas pratique en raison de son coût et de sa complexité - leur approche par défaut a été en grande partie l'ingénierie manuelle rapide", a noté Agrawal. GEPA est conçu pour les équipes qui travaillent avec des modèles très performants qui ne peuvent souvent pas être réglés avec précision, ce qui leur permet d'améliorer les performances sans avoir à gérer du matériel spécialisé.

L'équipe de recherche a formulé le défi de la manière suivante : "Comment pouvons-nous extraire le signal d'apprentissage maximal de chaque essai coûteux pour permettre une adaptation efficace des systèmes d'IA complexes et modulaires dans le cadre de contraintes de données ou de budget serrées ?

Un optimiseur qui apprend par le langage

Cadre GEPA Source : arXiv

GEPA relève ce défi en remplaçant les signaux de récompense épars par un retour d'information détaillé en langage naturel. Il capitalise sur le fait que l'exécution complète d'un système d'IA - ses étapes de raisonnement, ses appels d'outils et ses messages d'erreur - peut être représentée sous la forme d'un texte qu'un LLM peut traiter. Cette méthodologie repose sur trois principes fondamentaux.

Le premier est l'"évolution génétique des messages-guides" : GEPA traite un ensemble de messages-guides comme un pool génétique et les modifie de manière itérative pour générer de nouvelles versions potentiellement améliorées. Ce processus de mutation est guidé par le deuxième principe : "réflexion avec retour d'information en langage naturel". Après plusieurs essais, GEPA présente à un LLM l'historique complet de l'exécution et les résultats. Le LLM analyse ensuite ces informations pour diagnostiquer les problèmes et rédiger une invite plus précise et améliorée. Par exemple, au lieu de recevoir un score faible pour la génération de code, il peut examiner une erreur de compilateur et déterminer que l'invite doit spécifier une version particulière de la bibliothèque.

Le troisième principe est la "sélection basée sur Pareto", qui favorise une exploration intelligente. Au lieu de se concentrer uniquement sur l'invite ayant le score le plus élevé, ce qui risque d'aboutir à une solution sous-optimale, le GEPA maintient une collection variée d'invites spécialisées. Il identifie les messages qui excellent dans les différents cas de test, en compilant une liste de candidats de premier plan. En échantillonnant à partir de cette variété de stratégies réussies, GEPA explore un espace de solutions plus large et a plus de chances de découvrir un message-guide qui donne de bons résultats avec diverses entrées.

Le fait de se concentrer sur un seul candidat de premier plan peut piéger les modèles dans des minima locaux, alors que la sélection de Pareto explore davantage d'options pour trouver des solutions optimales Source : arXiv

Le succès de l'ensemble de ce processus dépend de ce que les chercheurs appellent "l'ingénierie du retour d'information". Agrawal souligne que la clé consiste à capturer les riches détails textuels que les systèmes produisent déjà, mais qu'ils ignorent souvent. "Les pipelines conventionnels condensent généralement ces informations en une seule récompense numérique, cachant les raisons qui sous-tendent des résultats spécifiques", explique-t-il. "L'approche fondamentale de GEPA consiste à structurer le retour d'information de manière à révéler non seulement les résultats finaux, mais aussi les étapes intermédiaires et les erreurs en texte clair, c'est-à-dire les mêmes éléments qu'un expert humain utiliserait pour analyser le comportement du système.

Par exemple, dans le cas d'un système de recherche de documents, il s'agirait d'indiquer quels documents ont été correctement retrouvés et lesquels ont été manqués, au lieu de se contenter de communiquer un score de précision final.

GEPA en pratique

L'équipe de recherche a évalué la GEPA dans le cadre de quatre tâches distinctes, allant de la réponse à des questions multi-sauts à des requêtes préservant la vie privée. Ils ont testé à la fois des modèles open-source et propriétaires, comparant GEPA à GRPO basé sur RL et à l'optimiseur avancé de requêtes MIPROv2.

Dans toutes les évaluations, GEPA a nettement surpassé GRPO, obtenant jusqu'à 19 % d'amélioration du score tout en utilisant jusqu'à 35 fois moins d'essais. Agrawal a illustré cette efficacité à l'aide d'un exemple précis : "Nous avons optimisé un système de réponse aux questions avec GEPA en 3 heures environ, contre 24 heures pour GRPO, soit une réduction de huit fois le temps de développement, associée à un gain de performance de 20 %", a-t-il déclaré. "L'optimisation basée sur RL pour le même scénario de test a coûté environ 300 dollars en calcul GPU, alors que GEPA a obtenu de meilleurs résultats pour moins de 20 dollars, soit une réduction des coûts de 15 fois dans nos expériences.

GEPA surpasse les autres méthodes de référence sur les principales mesures de performance Source : arXiv

Au-delà des mesures brutes, les chercheurs ont observé que les systèmes optimisés par GEPA sont plus fiables lorsqu'ils traitent des données nouvelles et inédites, comme l'indique un "écart de généralisation" plus faible. Agrawal suggère que cette robustesse améliorée provient du fait que GEPA apprend à partir d'un retour d'information plus riche. "La réduction de l'écart de généralisation de GEPA est probablement due à l'utilisation d'un retour d'information détaillé en langage naturel sur chaque résultat, expliquant ce qui a réussi, ce qui a échoué et pourquoi, au lieu de s'appuyer sur un score numérique unique. "Cela encourage le système à développer des instructions et des stratégies basées sur une compréhension globale de la réussite, plutôt que de simplement mémoriser des schémas à partir des données de formation." Pour les entreprises, cette fiabilité accrue se traduit par des applications d'IA plus robustes et plus adaptables dans les scénarios de contact avec la clientèle.

L'un des principaux avantages pratiques est que les instructions finales de GEPA sont jusqu'à 9,2 fois plus courtes que les invites générées par des optimiseurs tels que MIPROv2, qui comprennent souvent de nombreux exemples. Des invites plus courtes réduisent la latence et les coûts des modèles basés sur l'API, ce qui rend l'application finale à la fois plus rapide et plus économique à exécuter en production.

L'article explore également les applications prometteuses de la GEPA en tant que stratégie de recherche "inférentielle", transformant l'IA d'un générateur de réponses en une seule étape en un résolveur de problèmes itératif. Agrawal décrit une intégration potentielle dans le pipeline de développement d'une entreprise, où GEPA pourrait automatiquement créer et affiner plusieurs versions optimisées d'un système, tester leurs performances et soumettre la meilleure variante à l'examen des ingénieurs. "Cela transforme l'optimisation en un processus continu et automatisé, produisant rapidement des solutions qui atteignent ou dépassent souvent la qualité des réglages manuels effectués par des experts", a ajouté M. Agrawal. Lors de tests sur la génération de code CUDA, cette méthode a permis d'élever les performances à un niveau expert pour 20 % des tâches, contre 0 % pour une seule tentative avec un modèle tel que GPT-4o.

Les auteurs considèrent le GEPA comme une étape fondamentale vers un nouveau paradigme dans le développement de l'IA. Toutefois, au-delà de la promotion d'une IA plus proche de l'humain, son impact le plus immédiat pourrait être la démocratisation de la création de systèmes à haute performance.

"Nous pensons que le GEPA favorisera un changement positif dans la construction de systèmes d'IA, en rendant l'optimisation accessible aux utilisateurs finaux qui possèdent une expertise approfondie du domaine pour cette tâche, mais qui n'ont pas le temps ou l'envie de maîtriser des techniques RL complexes", a conclu M. Agrawal. "Les parties prenantes qui possèdent des connaissances précises et spécifiques à la tâche s'en trouvent renforcées.

Article connexe

China Telecom investit dans Mianbi Intelligence et porte son capital à 713 000 yuans pour développer des modèles de langage de grande envergure (LLM) et une infrastructure de données L'«équipe nationale» et la figure de proue de l'université Tsinghua dans le domaine des grands modèles renforcent leur alliance stratégique. Le 1er mars 2026, selon les dernières données d'enregistrem

Le groupe Taotian accélère sa restructuration axée sur l'IA et offre des quotas de jetons gratuits à ses stagiaires Le groupe TaoTian a récemment lancé le « Plan de productivité IA », conçu pour accélérer l'intégration de la technologie IA dans les opérations de commerce électronique et les processus de R&D grâce à

Glean vise les infrastructures d'IA d'entreprise dans une course à l'acquisition de parts de marché La course à la domination du marché de l'IA d'entreprise s'accélère. Microsoft intègre Copilot à Office, Google intègre Gemini à Workspace, tandis qu'OpenAI et Anthropic commercialisent leurs produits

Recommandations de sujets spéciaux liés

en écrivant

Les meilleurs assistants IA pour les genres xianxia et wuxia : rédigez des récits épiques de progression spirituelle et des chorégraphies d'arts martiaux

Découvrez les meilleurs assistants IA de 2026 pour créer des récits épiques de xianxia et de wuxia. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants pour maîtriser la progression dans la voie de la cultivation et la chorégraphie des arts martiaux. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez à écrire dès aujourd'hui !

10 outils

xix.ai

code

Outils de codage pour applications mobiles AI : générer du code Flutter et React Native multiplateforme à partir de commandes.

Découvrez les 20 meilleurs outils de codage pour applications mobiles basées sur l'IA en 2026, conçus pour Flutter et React Native. Notre liste, soigneusement sélectionnée et hautement réputée, met en avant des solutions puissantes qui permettent de générer du code multiplateforme à partir de simples instructions. Comparez les options gratuites et payantes grâce à des tests pratiques. Accélérez votre développement et créez de meilleures applications. Consultez le classement sur XIX.AI dès maintenant !

10 outils

xix.ai

code

Les meilleurs générateurs d'extensions Chrome basés sur l'IA : créez des extensions de navigateur personnalisées sans aucune connaissance en programmation

Découvrez les meilleurs générateurs d'extensions Chrome basés sur l'IA de 2026 sur XIX.AI. Notre sélection comprend les outils les mieux notés et incontournables qui vous permettent de créer des extensions de navigateur personnalisées sans aucune connaissance en programmation. Comparez les options gratuites et payantes, consultez des tests en conditions réelles et boostez votre productivité. Explorez les derniers classements et trouvez l'outil idéal dès aujourd'hui !

10 outils

xix.ai

Synthèse vocale

Meilleur système de synthèse vocale multilingue par intelligence artificielle : génération de discours authentiques avec accent natif dans plus de 50 langues

Découvrez les meilleurs outils de synthèse vocale multilingues basés sur l'IA en 2026, qui permettent d'obtenir des prononciations authentiques avec l'accent natif dans plus de 50 langues. Explorez nos classements sélectionnés, accompagnés de comparaisons entre les versions gratuites et payantes ainsi que de tests réalisés dans le monde réel. Trouvez l'outil vocal idéal sur XIX.AI et déclenchez dès aujourd'hui une communication mondiale sans limites.

10 outils

xix.ai

Assistante de réunion

Meilleurs outils d'automatisation des réunions par intelligence artificielle pour une collaboration plus intelligente et plus rapide

Découvrez les derniers outils d’automatisation de réunions basés sur l’intelligence artificielle, hautement recommandés en 2026, pour une collaboration plus intelligente et plus rapide. Notre sélection met en avant des solutions puissantes et révolutionnaires permettant d’automatiser la prise de notes, la rédaction de résumés et l’organisation des tâches à accomplir. Comparez les options gratuites et payantes grâce à des tests pratiques et aux classements mises à jour chaque semaine. Optimisez ainsi la productivité de votre équipe. Découvrez nos meilleurs choix dès maintenant sur XIX.AI.

10 outils

xix.ai

Rapide

Suggestions d'IA pour l'infrastructure en tant que code : déployez en toute sécurité les configurations Terraform et Docker

Découvrez les meilleures suggestions d'IA de 2026 pour l'Infrastructure-as-Code. La sélection soigneusement préparée par XIX.AI vous aide à déployer en toute sécurité des configurations Terraform et Docker, à automatiser les configurations cloud et à booster la productivité DevOps. Comparez les options gratuites et payantes grâce à des tests concrets. Explorez dès maintenant et exploitez tout le potentiel de l'IA.

10 outils

xix.ai