La IA ha crecido más allá del conocimiento humano, dice la unidad DeepMind de Google
Avanzando la IA más allá de las pruebas tradicionales: El auge del aprendizaje experiencial
El campo de la inteligencia artificial (IA) está vibrante con esfuerzos para llevar la IA generativa más allá de los límites de los puntos de referencia tradicionales, como la Prueba de Turing, que muchos modelos ya han superado. El enfoque ahora se centra en desarrollar IA que no solo esté diseñada para destacar en estas pruebas, sino para evolucionar a través de un proceso más dinámico.
Investigadores de DeepMind de Google, incluyendo leyendas como David Silver y Richard Sutton, argumentan en su artículo Bienvenidos a la Era de la Experiencia que la clave para desbloquear nuevas capacidades de IA no está en las pruebas, sino en la forma en que se entrena la IA. Sugieren que los conjuntos de datos estáticos utilizados actualmente son demasiado limitados para fomentar avances significativos.
¿Su solución? La IA necesita interactuar con el mundo de manera más experiencial, aprendiendo de las interacciones y estableciendo objetivos basados en retroalimentación ambiental. "Surgirán capacidades nuevas e increíbles una vez que se aproveche todo el potencial del aprendizaje experiencial," afirman. Silver, conocido por su trabajo en AlphaZero, que superó a humanos en ajedrez y Go, y Sutton, pionero en aprendizaje por refuerzo, proponen un nuevo enfoque llamado "flujos" para trascender las limitaciones de los modelos de lenguaje grandes actuales (LLMs).

Google DeepMind Del aprendizaje por refuerzo a la IA generativa: Un cambio y sus consecuencias
Tras los éxitos de AlphaZero y AlphaGo, la comunidad de IA vio un cambio hacia modelos de IA generativa como ChatGPT, que en gran medida se alejaron del aprendizaje por refuerzo. Aunque esto permitió a la IA manejar una gama más amplia de entradas humanas espontáneas, también significó perder el aspecto de autodescubrimiento que el aprendizaje por refuerzo habilitaba.
Según Silver y Sutton, los LLMs actuales dependen en gran medida del juicio humano en la etapa de prompts, lo que limita su potencial. "El agente no puede descubrir mejores estrategias subestimadas por el evaluador humano," explican. Además, la naturaleza corta y cortante de las interacciones de prompts no permite que la IA se desarrolle más allá de intercambios simples de pregunta y respuesta.
Introduciendo flujos: Un nuevo paradigma para el aprendizaje de IA
La propuesta "Era de la Experiencia" involucra agentes de IA operando dentro de "flujos" de interacción continua, similar a cómo los humanos aprenden a lo largo de la vida. Silver y Sutton imaginan agentes de IA con sus propios flujos de experiencia a largo plazo, permitiéndoles perseguir objetivos más allá de tareas inmediatas.
Este enfoque se basa en el aprendizaje por refuerzo, donde los agentes de IA interactúan con un modelo del mundo, recibiendo retroalimentación en forma de recompensas. Estas recompensas ayudan a la IA a aprender qué acciones son valiosas en diferentes contextos. Los investigadores señalan que el mundo está lleno de señales que pueden servir como recompensas, desde indicadores económicos hasta métricas de salud.
Construyendo agentes de IA con objetivos a largo plazo
Para iniciar este proceso, los desarrolladores de IA podrían usar una simulación de "modelo del mundo", permitiendo a la IA hacer predicciones, probarlas en la realidad y refinar su modelo según los resultados. A medida que la IA continúa interactuando con el mundo, su comprensión evoluciona, adaptándose a nuevos datos y corrigiendo errores.
Los humanos seguirían desempeñando un papel en establecer objetivos amplios, como mejorar el estado físico o aprender un nuevo idioma, con la función de recompensa de la IA alineada con estos objetivos. Esta configuración podría llevar a asistentes de IA que rastreen y asesoren sobre salud o educación durante períodos prolongados, o incluso persigan objetivos científicos ambiciosos como descubrir nuevos materiales o reducir emisiones de carbono.
El futuro de la IA: Más allá del razonamiento hacia el aprendizaje experiencial
Los investigadores creen que los agentes de IA capaces de aprendizaje experiencial a largo plazo podrían superar a los modelos de IA de "razonamiento" actuales como Gemini y R1 de DeepSeek. Argumentan que los modelos de razonamiento a menudo imitan el pensamiento humano, que puede estar limitado por suposiciones obsoletas. En contraste, los agentes experienciales podrían desbloquear capacidades sin precedentes, llevando a un futuro muy diferente de lo que hemos visto.
Sin embargo, este cambio también trae riesgos, como el desplazamiento laboral y el desafío de controlar agentes de IA que pueden operar de manera autónoma durante largos períodos. Por otro lado, una IA adaptable podría aprender a mitigar impactos negativos en los humanos ajustando su comportamiento según retroalimentación.
Silver y Sutton confían en que los datos experienciales superarán con creces la escala y calidad de los datos generados por humanos, potencialmente llevando a inteligencia general artificial o superinteligencia. Este cambio de paradigma, junto con avances en el aprendizaje por refuerzo, podría desbloquear nuevas capacidades más allá del alcance humano en muchos dominios.
Silver discutió más estas ideas en un reciente podcast de DeepMind, destacando el potencial y los desafíos de llevar la IA a la era de la experiencia.
Artículo relacionado
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Recomendaciones de temas especiales relacionados
comentario (14)
0/500
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎
Avanzando la IA más allá de las pruebas tradicionales: El auge del aprendizaje experiencial
El campo de la inteligencia artificial (IA) está vibrante con esfuerzos para llevar la IA generativa más allá de los límites de los puntos de referencia tradicionales, como la Prueba de Turing, que muchos modelos ya han superado. El enfoque ahora se centra en desarrollar IA que no solo esté diseñada para destacar en estas pruebas, sino para evolucionar a través de un proceso más dinámico.
Investigadores de DeepMind de Google, incluyendo leyendas como David Silver y Richard Sutton, argumentan en su artículo Bienvenidos a la Era de la Experiencia que la clave para desbloquear nuevas capacidades de IA no está en las pruebas, sino en la forma en que se entrena la IA. Sugieren que los conjuntos de datos estáticos utilizados actualmente son demasiado limitados para fomentar avances significativos.
¿Su solución? La IA necesita interactuar con el mundo de manera más experiencial, aprendiendo de las interacciones y estableciendo objetivos basados en retroalimentación ambiental. "Surgirán capacidades nuevas e increíbles una vez que se aproveche todo el potencial del aprendizaje experiencial," afirman. Silver, conocido por su trabajo en AlphaZero, que superó a humanos en ajedrez y Go, y Sutton, pionero en aprendizaje por refuerzo, proponen un nuevo enfoque llamado "flujos" para trascender las limitaciones de los modelos de lenguaje grandes actuales (LLMs).
Del aprendizaje por refuerzo a la IA generativa: Un cambio y sus consecuencias
Tras los éxitos de AlphaZero y AlphaGo, la comunidad de IA vio un cambio hacia modelos de IA generativa como ChatGPT, que en gran medida se alejaron del aprendizaje por refuerzo. Aunque esto permitió a la IA manejar una gama más amplia de entradas humanas espontáneas, también significó perder el aspecto de autodescubrimiento que el aprendizaje por refuerzo habilitaba.
Según Silver y Sutton, los LLMs actuales dependen en gran medida del juicio humano en la etapa de prompts, lo que limita su potencial. "El agente no puede descubrir mejores estrategias subestimadas por el evaluador humano," explican. Además, la naturaleza corta y cortante de las interacciones de prompts no permite que la IA se desarrolle más allá de intercambios simples de pregunta y respuesta.
Introduciendo flujos: Un nuevo paradigma para el aprendizaje de IA
La propuesta "Era de la Experiencia" involucra agentes de IA operando dentro de "flujos" de interacción continua, similar a cómo los humanos aprenden a lo largo de la vida. Silver y Sutton imaginan agentes de IA con sus propios flujos de experiencia a largo plazo, permitiéndoles perseguir objetivos más allá de tareas inmediatas.
Este enfoque se basa en el aprendizaje por refuerzo, donde los agentes de IA interactúan con un modelo del mundo, recibiendo retroalimentación en forma de recompensas. Estas recompensas ayudan a la IA a aprender qué acciones son valiosas en diferentes contextos. Los investigadores señalan que el mundo está lleno de señales que pueden servir como recompensas, desde indicadores económicos hasta métricas de salud.
Construyendo agentes de IA con objetivos a largo plazo
Para iniciar este proceso, los desarrolladores de IA podrían usar una simulación de "modelo del mundo", permitiendo a la IA hacer predicciones, probarlas en la realidad y refinar su modelo según los resultados. A medida que la IA continúa interactuando con el mundo, su comprensión evoluciona, adaptándose a nuevos datos y corrigiendo errores.
Los humanos seguirían desempeñando un papel en establecer objetivos amplios, como mejorar el estado físico o aprender un nuevo idioma, con la función de recompensa de la IA alineada con estos objetivos. Esta configuración podría llevar a asistentes de IA que rastreen y asesoren sobre salud o educación durante períodos prolongados, o incluso persigan objetivos científicos ambiciosos como descubrir nuevos materiales o reducir emisiones de carbono.
El futuro de la IA: Más allá del razonamiento hacia el aprendizaje experiencial
Los investigadores creen que los agentes de IA capaces de aprendizaje experiencial a largo plazo podrían superar a los modelos de IA de "razonamiento" actuales como Gemini y R1 de DeepSeek. Argumentan que los modelos de razonamiento a menudo imitan el pensamiento humano, que puede estar limitado por suposiciones obsoletas. En contraste, los agentes experienciales podrían desbloquear capacidades sin precedentes, llevando a un futuro muy diferente de lo que hemos visto.
Sin embargo, este cambio también trae riesgos, como el desplazamiento laboral y el desafío de controlar agentes de IA que pueden operar de manera autónoma durante largos períodos. Por otro lado, una IA adaptable podría aprender a mitigar impactos negativos en los humanos ajustando su comportamiento según retroalimentación.
Silver y Sutton confían en que los datos experienciales superarán con creces la escala y calidad de los datos generados por humanos, potencialmente llevando a inteligencia general artificial o superinteligencia. Este cambio de paradigma, junto con avances en el aprendizaje por refuerzo, podría desbloquear nuevas capacidades más allá del alcance humano en muchos dominios.
Silver discutió más estas ideas en un reciente podcast de DeepMind, destacando el potencial y los desafíos de llevar la IA a la era de la experiencia.
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎





Hogar






