Maison
Des agents IA auto-apprenants pour transformer l'expérience Web : Guide de préparation

Dans un nouvel article, David Silver et Richard Sutton, éminents chercheurs en intelligence artificielle, proposent que l'intelligence artificielle entre dans une "ère de l'expérience" transformatrice. Ils suggèrent que les systèmes d'IA dépasseront de plus en plus la dépendance vis-à-vis des données fournies par l'homme et progresseront au contraire grâce à l'interaction directe avec le monde et à la collecte de données.
Bien qu'il s'agisse d'un document conceptuel et prospectif, les idées qu'il contient sont directement pertinentes pour les entreprises qui prévoient de développer et d'intégrer de futurs agents et systèmes d'IA.
Silver et Sutton sont tous deux des scientifiques respectés qui ont fait des prédictions précises sur la trajectoire de l'IA. Leur clairvoyance est évidente dans les systèmes d'IA les plus avancés d'aujourd'hui. Dans son essai influent de 2019 intitulé "The Bitter Lesson" (La leçon amère), M. Sutton, pionnier de l'apprentissage par renforcement, a affirmé que les percées les plus importantes à long terme dans le domaine de l'IA résultaient systématiquement de la mise à l'échelle de la recherche et de l'apprentissage à des fins générales avec des calculs massifs, et non pas principalement de l'intégration de connaissances humaines complexes.
David Silver, scientifique principal chez DeepMind, a joué un rôle de premier plan dans le développement d'AlphaGo, d'AlphaZero et d'AlphaStar, qui constituent des étapes majeures dans l'apprentissage par renforcement profond. Il a également cosigné un article datant de 2021 affirmant que l'apprentissage par renforcement combiné à un signal de récompense bien conçu pourrait à terme produire une IA très avancée.
Les grands modèles de langage (LLM) les plus sophistiqués d'aujourd'hui illustrent ces deux concepts. La vague de LLM puissants depuis le GPT-3 s'est largement appuyée sur la mise à l'échelle de la puissance de calcul et des données pour absorber d'immenses connaissances. Des modèles de raisonnement plus récents, tels que DeepSeek-R1, démontrent en outre que l'apprentissage par renforcement avec un signal de récompense simple est suffisant pour acquérir des capacités de raisonnement complexes.
Qu'est-ce que l'ère de l'expérience ?
L'"ère de l'expérience" s'appuie sur les concepts défendus par Sutton et Silver, désormais replacés dans le contexte des progrès récents de l'IA. Les auteurs notent que "le rythme des progrès réalisés uniquement grâce à l'apprentissage supervisé à partir de données humaines ralentit manifestement, ce qui indique la nécessité d'une nouvelle approche".
Cette nouvelle approche exige une nouvelle source de données, générée d'une manière qui s'améliore continuellement au fur et à mesure que les capacités de l'agent augmentent. "On peut y parvenir en permettant aux agents d'apprendre continuellement à partir de leur propre expérience, c'est-à-dire des données générées par l'interaction de l'agent avec son environnement", expliquent Sutton et Silver. Ils affirment qu'à terme, "l'expérience deviendra le principal moyen d'amélioration et finira par éclipser l'échelle des données humaines utilisées dans les systèmes d'aujourd'hui".
Selon les auteurs, les futurs systèmes d'IA "dépasseront les limites des systèmes d'IA centrés sur l'homme" non seulement en apprenant à partir de données expérientielles, mais aussi à travers quatre dimensions clés :
- Flux : Plutôt que de fonctionner par épisodes isolés, les agents d'IA "auront leur propre flux d'expérience qui progressera, comme les humains, sur une longue échelle de temps". Cela permet une planification à long terme et une adaptation progressive du comportement. Les premiers signes de cette évolution apparaissent dans les systèmes d'IA dotés de fenêtres contextuelles étendues et d'architectures de mémoire qui s'actualisent en permanence grâce à l'interaction de l'utilisateur.
- Actions et observations : Au-delà des actions et des observations privilégiées par l'homme, les agents de l'ère de l'expérience fonctionneront de manière autonome dans le monde réel. Nous le constatons dans les systèmes agentiques qui s'interfacent avec des applications et des ressources externes à l'aide d'outils tels que le contrôle informatique et le protocole de contexte de modèle (MCP).
- Récompenses : Alors que les systèmes actuels d'apprentissage par renforcement dépendent fortement de fonctions de récompense conçues par l'homme, les futurs agents d'IA devraient créer leurs propres fonctions de récompense dynamiques. Celles-ci évolueraient au fil du temps, en alignant les préférences de l'utilisateur sur le retour d'information réel provenant des actions et des observations de l'agent. Les premiers systèmes de récompense auto-conçus, comme DrEureka de Nvidia, donnent un aperçu de cet avenir.
- Planification et raisonnement : Les modèles de raisonnement actuels sont souvent conçus pour imiter la pensée humaine. Les auteurs proposent que "des mécanismes de pensée plus efficaces existent sûrement, utilisant des langages non humains qui peuvent, par exemple, utiliser des calculs symboliques, distribués, continus ou différentiables". Les agents d'IA devraient s'engager dans le monde, en utilisant les données observées pour tester, affiner et mettre à jour leur raisonnement tout en construisant un modèle interne du monde.
Le concept d'adaptation des agents d'IA par apprentissage par renforcement n'est pas nouveau, mais historiquement, ces agents étaient confinés à des environnements étroitement contrôlés tels que les jeux de société. Aujourd'hui, des agents capables de naviguer dans des environnements complexes, tels que des ordinateurs en fonctionnement, associés aux progrès de l'apprentissage par renforcement, sont prêts à surmonter ces contraintes, accélérant ainsi le passage à l'ère de l'expérience.
Qu'est-ce que cela signifie pour l'entreprise ?
L'article de Sutton et Silver contient une observation importante concernant les applications dans le monde réel : L'agent peut utiliser des actions et des observations "conviviales", telles que des interfaces utilisateur, qui facilitent naturellement la communication et la collaboration avec l'utilisateur. L'agent peut également entreprendre des actions 'adaptées à la machine' qui exécutent du code et appellent des API, ce qui lui permet d'agir de manière autonome au service de ses objectifs."
L'ère de l'expérience implique que les développeurs doivent concevoir des applications à la fois pour les utilisateurs humains et pour les agents d'intelligence artificielle. Les actions adaptées aux machines nécessitent des API sécurisées et accessibles, disponibles directement ou par l'intermédiaire d'interfaces telles que MCP. Cela implique également de créer des agents qui peuvent être découverts via des protocoles tels que Agent2Agent de Google. La conception d'API et d'interfaces agentiques permettant d'accéder à la fois aux actions et aux observations permettra aux agents de raisonner et d'apprendre progressivement à partir de leurs interactions avec votre logiciel.
Si la vision de Sutton et Silver se concrétise, des milliards d'agents opéreront finalement sur le web - et plus tard, dans le monde physique - pour accomplir des tâches. Leur comportement et leurs exigences seront fondamentalement différents de ceux des utilisateurs humains. L'établissement de méthodes d'interaction adaptées aux agents sera crucial pour exploiter efficacement les futurs systèmes d'IA et atténuer les risques potentiels.
"En s'appuyant sur les fondements de la RL et en adaptant ses principes fondamentaux aux défis de cette nouvelle ère, nous pouvons libérer tout le potentiel de l'apprentissage autonome et ouvrir la voie à une intelligence véritablement surhumaine", concluent M. Sutton et M. Silver.
DeepMind a refusé de fournir des commentaires supplémentaires pour cette histoire.
Article connexe
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Recommandations de sujets spéciaux liés
commentaires (0)

Dans un nouvel article, David Silver et Richard Sutton, éminents chercheurs en intelligence artificielle, proposent que l'intelligence artificielle entre dans une "ère de l'expérience" transformatrice. Ils suggèrent que les systèmes d'IA dépasseront de plus en plus la dépendance vis-à-vis des données fournies par l'homme et progresseront au contraire grâce à l'interaction directe avec le monde et à la collecte de données.
Bien qu'il s'agisse d'un document conceptuel et prospectif, les idées qu'il contient sont directement pertinentes pour les entreprises qui prévoient de développer et d'intégrer de futurs agents et systèmes d'IA.
Silver et Sutton sont tous deux des scientifiques respectés qui ont fait des prédictions précises sur la trajectoire de l'IA. Leur clairvoyance est évidente dans les systèmes d'IA les plus avancés d'aujourd'hui. Dans son essai influent de 2019 intitulé "The Bitter Lesson" (La leçon amère), M. Sutton, pionnier de l'apprentissage par renforcement, a affirmé que les percées les plus importantes à long terme dans le domaine de l'IA résultaient systématiquement de la mise à l'échelle de la recherche et de l'apprentissage à des fins générales avec des calculs massifs, et non pas principalement de l'intégration de connaissances humaines complexes.
David Silver, scientifique principal chez DeepMind, a joué un rôle de premier plan dans le développement d'AlphaGo, d'AlphaZero et d'AlphaStar, qui constituent des étapes majeures dans l'apprentissage par renforcement profond. Il a également cosigné un article datant de 2021 affirmant que l'apprentissage par renforcement combiné à un signal de récompense bien conçu pourrait à terme produire une IA très avancée.
Les grands modèles de langage (LLM) les plus sophistiqués d'aujourd'hui illustrent ces deux concepts. La vague de LLM puissants depuis le GPT-3 s'est largement appuyée sur la mise à l'échelle de la puissance de calcul et des données pour absorber d'immenses connaissances. Des modèles de raisonnement plus récents, tels que DeepSeek-R1, démontrent en outre que l'apprentissage par renforcement avec un signal de récompense simple est suffisant pour acquérir des capacités de raisonnement complexes.
Qu'est-ce que l'ère de l'expérience ?
L'"ère de l'expérience" s'appuie sur les concepts défendus par Sutton et Silver, désormais replacés dans le contexte des progrès récents de l'IA. Les auteurs notent que "le rythme des progrès réalisés uniquement grâce à l'apprentissage supervisé à partir de données humaines ralentit manifestement, ce qui indique la nécessité d'une nouvelle approche".
Cette nouvelle approche exige une nouvelle source de données, générée d'une manière qui s'améliore continuellement au fur et à mesure que les capacités de l'agent augmentent. "On peut y parvenir en permettant aux agents d'apprendre continuellement à partir de leur propre expérience, c'est-à-dire des données générées par l'interaction de l'agent avec son environnement", expliquent Sutton et Silver. Ils affirment qu'à terme, "l'expérience deviendra le principal moyen d'amélioration et finira par éclipser l'échelle des données humaines utilisées dans les systèmes d'aujourd'hui".
Selon les auteurs, les futurs systèmes d'IA "dépasseront les limites des systèmes d'IA centrés sur l'homme" non seulement en apprenant à partir de données expérientielles, mais aussi à travers quatre dimensions clés :
- Flux : Plutôt que de fonctionner par épisodes isolés, les agents d'IA "auront leur propre flux d'expérience qui progressera, comme les humains, sur une longue échelle de temps". Cela permet une planification à long terme et une adaptation progressive du comportement. Les premiers signes de cette évolution apparaissent dans les systèmes d'IA dotés de fenêtres contextuelles étendues et d'architectures de mémoire qui s'actualisent en permanence grâce à l'interaction de l'utilisateur.
- Actions et observations : Au-delà des actions et des observations privilégiées par l'homme, les agents de l'ère de l'expérience fonctionneront de manière autonome dans le monde réel. Nous le constatons dans les systèmes agentiques qui s'interfacent avec des applications et des ressources externes à l'aide d'outils tels que le contrôle informatique et le protocole de contexte de modèle (MCP).
- Récompenses : Alors que les systèmes actuels d'apprentissage par renforcement dépendent fortement de fonctions de récompense conçues par l'homme, les futurs agents d'IA devraient créer leurs propres fonctions de récompense dynamiques. Celles-ci évolueraient au fil du temps, en alignant les préférences de l'utilisateur sur le retour d'information réel provenant des actions et des observations de l'agent. Les premiers systèmes de récompense auto-conçus, comme DrEureka de Nvidia, donnent un aperçu de cet avenir.
- Planification et raisonnement : Les modèles de raisonnement actuels sont souvent conçus pour imiter la pensée humaine. Les auteurs proposent que "des mécanismes de pensée plus efficaces existent sûrement, utilisant des langages non humains qui peuvent, par exemple, utiliser des calculs symboliques, distribués, continus ou différentiables". Les agents d'IA devraient s'engager dans le monde, en utilisant les données observées pour tester, affiner et mettre à jour leur raisonnement tout en construisant un modèle interne du monde.
Le concept d'adaptation des agents d'IA par apprentissage par renforcement n'est pas nouveau, mais historiquement, ces agents étaient confinés à des environnements étroitement contrôlés tels que les jeux de société. Aujourd'hui, des agents capables de naviguer dans des environnements complexes, tels que des ordinateurs en fonctionnement, associés aux progrès de l'apprentissage par renforcement, sont prêts à surmonter ces contraintes, accélérant ainsi le passage à l'ère de l'expérience.
Qu'est-ce que cela signifie pour l'entreprise ?
L'article de Sutton et Silver contient une observation importante concernant les applications dans le monde réel : L'agent peut utiliser des actions et des observations "conviviales", telles que des interfaces utilisateur, qui facilitent naturellement la communication et la collaboration avec l'utilisateur. L'agent peut également entreprendre des actions 'adaptées à la machine' qui exécutent du code et appellent des API, ce qui lui permet d'agir de manière autonome au service de ses objectifs."
L'ère de l'expérience implique que les développeurs doivent concevoir des applications à la fois pour les utilisateurs humains et pour les agents d'intelligence artificielle. Les actions adaptées aux machines nécessitent des API sécurisées et accessibles, disponibles directement ou par l'intermédiaire d'interfaces telles que MCP. Cela implique également de créer des agents qui peuvent être découverts via des protocoles tels que Agent2Agent de Google. La conception d'API et d'interfaces agentiques permettant d'accéder à la fois aux actions et aux observations permettra aux agents de raisonner et d'apprendre progressivement à partir de leurs interactions avec votre logiciel.
Si la vision de Sutton et Silver se concrétise, des milliards d'agents opéreront finalement sur le web - et plus tard, dans le monde physique - pour accomplir des tâches. Leur comportement et leurs exigences seront fondamentalement différents de ceux des utilisateurs humains. L'établissement de méthodes d'interaction adaptées aux agents sera crucial pour exploiter efficacement les futurs systèmes d'IA et atténuer les risques potentiels.
"En s'appuyant sur les fondements de la RL et en adaptant ses principes fondamentaux aux défis de cette nouvelle ère, nous pouvons libérer tout le potentiel de l'apprentissage autonome et ouvrir la voie à une intelligence véritablement surhumaine", concluent M. Sutton et M. Silver.
DeepMind a refusé de fournir des commentaires supplémentaires pour cette histoire.
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se











