L'IA a grandi au-delà des connaissances humaines, dit l'unité DeepMind de Google
Faire progresser l'IA au-delà des tests traditionnels : l'essor de l'apprentissage expérientiel
Le domaine de l'intelligence artificielle (AI) est en effervescence avec des efforts pour pousser l'IA générative au-delà des limites des benchmarks traditionnels, comme le test de Turing, que de nombreux modèles ont déjà dépassé. L'accent est désormais mis sur le développement d'une IA qui n'est pas seulement conçue pour exceller dans ces tests, mais pour évoluer à travers un processus plus dynamique.
Les chercheurs de DeepMind de Google, y compris des légendes comme David Silver et Richard Sutton, soutiennent dans leur article Bienvenue dans l'ère de l'expérience que la clé pour débloquer de nouvelles capacités de l'IA ne réside pas dans les tests, mais dans la manière dont l'IA est entraînée. Ils suggèrent que les ensembles de données statiques actuellement utilisés sont trop limités pour favoriser des avancées significatives.
Leur solution ? L'IA doit interagir avec le monde de manière plus expérientielle, en apprenant des interactions et en fixant des objectifs basés sur les retours de l'environnement. « Des capacités nouvelles incroyables émergeront une fois que le plein potentiel de l'apprentissage expérientiel sera exploité », affirment-ils. Silver, connu pour son travail sur AlphaZero, qui a surpassé les humains aux échecs et au Go, et Sutton, pionnier de l'apprentissage par renforcement, proposent une nouvelle approche appelée « flux » pour transcender les limites des modèles de langage actuels (LLMs).

Google DeepMind De l'apprentissage par renforcement à l'IA générative : un changement et ses conséquences
Après les succès d'AlphaZero et d'AlphaGo, la communauté de l'IA a vu un virage vers les modèles d'IA générative comme ChatGPT, qui se sont largement éloignés de l'apprentissage par renforcement. Bien que cela ait permis à l'IA de gérer une plus large gamme d'entrées humaines spontanées, cela a également signifié la perte de l'aspect de découverte de soi que l'apprentissage par renforcement permettait.
Selon Silver et Sutton, les LLMs actuels dépendent fortement du jugement humain à l'étape des prompts, ce qui limite leur potentiel. « L'agent ne peut pas découvrir de meilleures stratégies sous-estimées par l'évaluateur humain », expliquent-ils. De plus, la nature courte et fragmentée des interactions par prompt ne permet pas à l'IA de se développer au-delà des simples échanges de questions et réponses.
Introduction des flux : un nouveau paradigme pour l'apprentissage de l'IA
L'« ère de l'expérience » proposée implique des agents IA opérant dans des « flux » d'interaction continue, un peu comme les humains apprennent tout au long de leur vie. Silver et Sutton imaginent des agents IA avec leurs propres flux d'expérience à long terme, leur permettant de poursuivre des objectifs au-delà des tâches immédiates.
Cette approche s'appuie sur l'apprentissage par renforcement, où les agents IA interagissent avec un modèle du monde, recevant des retours sous forme de récompenses. Ces récompenses aident l'IA à apprendre quelles actions sont précieuses dans différents contextes. Les chercheurs soulignent que le monde est riche en signaux qui peuvent servir de récompenses, des indicateurs économiques aux métriques de santé.
Construire des agents IA avec des objectifs à long terme
Pour lancer ce processus, les développeurs d'IA pourraient utiliser une simulation de « modèle du monde », permettant à l'IA de faire des prédictions, de les tester dans la réalité et de raffiner son modèle en fonction des résultats. À mesure que l'IA continue d'interagir avec le monde, sa compréhension évolue, s'adaptant aux nouvelles données et corrigeant les erreurs.
Les humains joueraient encore un rôle dans la définition d'objectifs généraux, comme améliorer la condition physique ou apprendre une nouvelle langue, avec la fonction de récompense de l'IA alignée sur ces objectifs. Ce cadre pourrait mener à des assistants IA qui suivent et conseillent sur la santé ou l'éducation sur de longues périodes, ou même poursuivent des objectifs scientifiques ambitieux comme découvrir de nouveaux matériaux ou réduire les émissions de carbone.
L'avenir de l'IA : au-delà du raisonnement vers l'apprentissage expérientiel
Les chercheurs estiment que les agents IA capables d'apprentissage expérientiel à long terme pourraient surpasser les modèles d'IA de « raisonnement » actuels comme Gemini et R1 de DeepSeek. Ils soutiennent que les modèles de raisonnement imitent souvent la pensée humaine, qui peut être limitée par des hypothèses dépassées. En revanche, les agents expérientiels pourraient débloquer des capacités sans précédent, menant à un avenir très différent de ce que nous avons vu.
Cependant, ce changement apporte également des risques, tels que le déplacement d'emplois et le défi de contrôler des agents IA capables d'opérer de manière autonome sur de longues périodes. D'un autre côté, une IA adaptable pourrait apprendre à atténuer les impacts négatifs sur les humains en ajustant son comportement en fonction des retours.
Silver et Sutton sont confiants que les données expérientielles dépasseront de loin l'ampleur et la qualité des données générées par les humains, pouvant potentiellement mener à une intelligence artificielle générale ou à une super-intelligence. Ce changement de paradigme, couplé aux avancées dans l'apprentissage par renforcement, pourrait débloquer de nouvelles capacités hors de portée humaine dans de nombreux domaines.
Silver a approfondi ces idées dans un récent podcast de DeepMind, mettant en lumière le potentiel et les défis de faire entrer l'IA dans l'ère de l'expérience.
Article connexe
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc
Recommandations de sujets spéciaux liés
commentaires (14)
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎
Faire progresser l'IA au-delà des tests traditionnels : l'essor de l'apprentissage expérientiel
Le domaine de l'intelligence artificielle (AI) est en effervescence avec des efforts pour pousser l'IA générative au-delà des limites des benchmarks traditionnels, comme le test de Turing, que de nombreux modèles ont déjà dépassé. L'accent est désormais mis sur le développement d'une IA qui n'est pas seulement conçue pour exceller dans ces tests, mais pour évoluer à travers un processus plus dynamique.
Les chercheurs de DeepMind de Google, y compris des légendes comme David Silver et Richard Sutton, soutiennent dans leur article Bienvenue dans l'ère de l'expérience que la clé pour débloquer de nouvelles capacités de l'IA ne réside pas dans les tests, mais dans la manière dont l'IA est entraînée. Ils suggèrent que les ensembles de données statiques actuellement utilisés sont trop limités pour favoriser des avancées significatives.
Leur solution ? L'IA doit interagir avec le monde de manière plus expérientielle, en apprenant des interactions et en fixant des objectifs basés sur les retours de l'environnement. « Des capacités nouvelles incroyables émergeront une fois que le plein potentiel de l'apprentissage expérientiel sera exploité », affirment-ils. Silver, connu pour son travail sur AlphaZero, qui a surpassé les humains aux échecs et au Go, et Sutton, pionnier de l'apprentissage par renforcement, proposent une nouvelle approche appelée « flux » pour transcender les limites des modèles de langage actuels (LLMs).
De l'apprentissage par renforcement à l'IA générative : un changement et ses conséquences
Après les succès d'AlphaZero et d'AlphaGo, la communauté de l'IA a vu un virage vers les modèles d'IA générative comme ChatGPT, qui se sont largement éloignés de l'apprentissage par renforcement. Bien que cela ait permis à l'IA de gérer une plus large gamme d'entrées humaines spontanées, cela a également signifié la perte de l'aspect de découverte de soi que l'apprentissage par renforcement permettait.
Selon Silver et Sutton, les LLMs actuels dépendent fortement du jugement humain à l'étape des prompts, ce qui limite leur potentiel. « L'agent ne peut pas découvrir de meilleures stratégies sous-estimées par l'évaluateur humain », expliquent-ils. De plus, la nature courte et fragmentée des interactions par prompt ne permet pas à l'IA de se développer au-delà des simples échanges de questions et réponses.
Introduction des flux : un nouveau paradigme pour l'apprentissage de l'IA
L'« ère de l'expérience » proposée implique des agents IA opérant dans des « flux » d'interaction continue, un peu comme les humains apprennent tout au long de leur vie. Silver et Sutton imaginent des agents IA avec leurs propres flux d'expérience à long terme, leur permettant de poursuivre des objectifs au-delà des tâches immédiates.
Cette approche s'appuie sur l'apprentissage par renforcement, où les agents IA interagissent avec un modèle du monde, recevant des retours sous forme de récompenses. Ces récompenses aident l'IA à apprendre quelles actions sont précieuses dans différents contextes. Les chercheurs soulignent que le monde est riche en signaux qui peuvent servir de récompenses, des indicateurs économiques aux métriques de santé.
Construire des agents IA avec des objectifs à long terme
Pour lancer ce processus, les développeurs d'IA pourraient utiliser une simulation de « modèle du monde », permettant à l'IA de faire des prédictions, de les tester dans la réalité et de raffiner son modèle en fonction des résultats. À mesure que l'IA continue d'interagir avec le monde, sa compréhension évolue, s'adaptant aux nouvelles données et corrigeant les erreurs.
Les humains joueraient encore un rôle dans la définition d'objectifs généraux, comme améliorer la condition physique ou apprendre une nouvelle langue, avec la fonction de récompense de l'IA alignée sur ces objectifs. Ce cadre pourrait mener à des assistants IA qui suivent et conseillent sur la santé ou l'éducation sur de longues périodes, ou même poursuivent des objectifs scientifiques ambitieux comme découvrir de nouveaux matériaux ou réduire les émissions de carbone.
L'avenir de l'IA : au-delà du raisonnement vers l'apprentissage expérientiel
Les chercheurs estiment que les agents IA capables d'apprentissage expérientiel à long terme pourraient surpasser les modèles d'IA de « raisonnement » actuels comme Gemini et R1 de DeepSeek. Ils soutiennent que les modèles de raisonnement imitent souvent la pensée humaine, qui peut être limitée par des hypothèses dépassées. En revanche, les agents expérientiels pourraient débloquer des capacités sans précédent, menant à un avenir très différent de ce que nous avons vu.
Cependant, ce changement apporte également des risques, tels que le déplacement d'emplois et le défi de contrôler des agents IA capables d'opérer de manière autonome sur de longues périodes. D'un autre côté, une IA adaptable pourrait apprendre à atténuer les impacts négatifs sur les humains en ajustant son comportement en fonction des retours.
Silver et Sutton sont confiants que les données expérientielles dépasseront de loin l'ampleur et la qualité des données générées par les humains, pouvant potentiellement mener à une intelligence artificielle générale ou à une super-intelligence. Ce changement de paradigme, couplé aux avancées dans l'apprentissage par renforcement, pourrait débloquer de nouvelles capacités hors de portée humaine dans de nombreux domaines.
Silver a approfondi ces idées dans un récent podcast de DeepMind, mettant en lumière le potentiel et les défis de faire entrer l'IA dans l'ère de l'expérience.
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
OpenAI modifie discrètement ses statuts pour compliquer le licenciement d'Altman
À la suite de l'incident de 2023, qui s'apparentait à un coup d'État, OpenAI a encore renforcé les protections dont bénéficie son PDG, Sam Altman, en mettant à jour ses statuts. Des doc
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎





Maison






