Hogar
Agentes de IA de autoaprendizaje para transformar la experiencia web: Guía de preparación

En un nuevo artículo, David Silver y Richard Sutton, destacados investigadores de la IA, proponen que la inteligencia artificial está entrando en una transformadora "Era de la Experiencia". Sugieren que los sistemas de IA dejarán de depender cada vez más de los datos proporcionados por los humanos y avanzarán mediante la interacción directa con el mundo y la recopilación de datos de éste.
Aunque se trata de un artículo conceptual y prospectivo, sus ideas tienen una relevancia directa para las empresas que planean desarrollar e integrar futuros agentes y sistemas de IA.
Tanto Silver como Sutton son científicos respetados con un historial de predicciones acertadas sobre la trayectoria de la IA. Su previsión es evidente en los sistemas de IA más avanzados de la actualidad. En su influyente ensayo de 2019 "The Bitter Lesson" (La amarga lección), Sutton, pionero del aprendizaje por refuerzo, argumentó que los avances más significativos de la IA a largo plazo resultan sistemáticamente de escalar la búsqueda y el aprendizaje de propósito general con computación masiva, no principalmente de la incorporación de conocimientos humanos complejos.
David Silver, uno de los principales científicos de DeepMind, desempeñó un papel destacado en el desarrollo de AlphaGo, AlphaZero y AlphaStar, importantes hitos del aprendizaje profundo por refuerzo. También es coautor de un artículo de 2021 en el que afirma que el aprendizaje por refuerzo combinado con una señal de recompensa bien diseñada podría producir en última instancia una IA muy avanzada.
Los grandes modelos lingüísticos (LLM) más sofisticados de la actualidad ejemplifican estos dos conceptos. La oleada de potentes LLM desde GPT-3 se ha basado en gran medida en el escalado de la potencia computacional y los datos para absorber inmensos conocimientos. Los modelos de razonamiento más recientes, como DeepSeek-R1, demuestran además que el aprendizaje por refuerzo con una señal de recompensa directa es suficiente para adquirir capacidades de razonamiento complejas.
¿Qué es la Era de la Experiencia?
La "Era de la Experiencia" se basa en conceptos defendidos por Sutton y Silver, ahora contextualizados para los recientes avances de la IA. Los autores señalan que "el ritmo del progreso impulsado únicamente por el aprendizaje supervisado a partir de datos humanos se está ralentizando de forma demostrable, lo que indica la necesidad de un nuevo enfoque".
Este nuevo enfoque exige una fuente de datos fresca, generada de forma que mejore continuamente a medida que el agente se hace más capaz. "Esto puede lograrse permitiendo que los agentes aprendan continuamente de su propia experiencia, es decir, de los datos que genera el agente al interactuar con su entorno", explican Sutton y Silver. Sostienen que, con el tiempo, "la experiencia se convertirá en el medio dominante de mejora y acabará empequeñeciendo la escala de los datos humanos utilizados en los sistemas actuales".
Según los autores, los futuros sistemas de IA "superarán las limitaciones de los sistemas de IA centrados en el ser humano" no sólo aprendiendo de los datos de la experiencia, sino también a través de cuatro dimensiones clave:
- Flujos: En lugar de operar en episodios aislados, los agentes de IA "tendrán su propio flujo de experiencia que progresará, como los humanos, a lo largo de una larga escala temporal". Esto permite la planificación a largo plazo y la adaptación gradual del comportamiento. Los primeros indicios de esto aparecen en los sistemas de IA con amplias ventanas de contexto y arquitecturas de memoria que se actualizan continuamente mediante la interacción del usuario.
- Acciones y observaciones: Más allá de las acciones y observaciones privilegiadas por el ser humano, los agentes de la era de la experiencia operarán de forma autónoma en el mundo real. Lo vemos en los sistemas agénticos que interactúan con aplicaciones y recursos externos utilizando herramientas como el control por ordenador y el Protocolo de Contexto Modelo (MCP).
- Recompensas: Mientras que los actuales sistemas de aprendizaje por refuerzo dependen en gran medida de funciones de recompensa diseñadas por humanos, los futuros agentes de IA deberían crear sus propias funciones de recompensa dinámicas. Éstas evolucionarían con el tiempo, alineando las preferencias del usuario con la información del mundo real procedente de las acciones y observaciones del agente. Los primeros sistemas de recompensa autodiseñados, como el DrEureka de Nvidia, permiten vislumbrar este futuro.
- Planificación y razonamiento: Los modelos de razonamiento actuales suelen estar diseñados para imitar el pensamiento humano. Los autores proponen que "seguramente existen mecanismos de pensamiento más eficientes, que utilizan lenguajes no humanos que pueden, por ejemplo, utilizar cálculos simbólicos, distribuidos, continuos o diferenciables". Los agentes de IA deben interactuar con el mundo, utilizando los datos observados para probar, refinar y actualizar su razonamiento mientras construyen un modelo interno del mundo.
El concepto de agentes de IA que se adaptan mediante el aprendizaje por refuerzo no es nuevo, pero históricamente se limitaba a entornos muy controlados, como los juegos de mesa. Ahora, los agentes capaces de desenvolverse en entornos complejos -como ordenadores operativos-, junto con los avances en el aprendizaje por refuerzo, están preparados para superar estas limitaciones y acelerar el cambio a la era de la experiencia.
¿Qué significa esto para la empresa?
En el artículo de Sutton y Silver se hace una importante observación sobre las aplicaciones en el mundo real: "El agente puede utilizar acciones y observaciones 'human-friendly', como interfaces de usuario, que faciliten de forma natural la comunicación y la colaboración con el usuario. El agente también puede realizar acciones 'amigables con la máquina' que ejecuten código y llamen a APIs, permitiendo al agente actuar de forma autónoma al servicio de sus objetivos."
La era de la experiencia implica que los desarrolladores deben diseñar aplicaciones tanto para usuarios humanos como para agentes de IA. Las acciones adaptadas a las máquinas requieren API seguras y accesibles, disponibles directamente o a través de interfaces como MCP. También implica crear agentes que sean descubribles a través de protocolos como Agent2Agent de Google. Diseñar API e interfaces de agentes que den acceso tanto a las acciones como a las observaciones permitirá a los agentes razonar y aprender progresivamente de sus interacciones con el software.
Si la visión de Sutton y Silver se materializa, miles de millones de agentes acabarán operando en la web -y, más adelante, en el mundo físico- para realizar tareas. Su comportamiento y requisitos diferirán fundamentalmente de los de los usuarios humanos. Establecer métodos de interacción fáciles de utilizar por los agentes será crucial para aprovechar eficazmente los futuros sistemas de IA y mitigar los posibles riesgos.
"Partiendo de los fundamentos de la RL y adaptando sus principios básicos a los retos de esta nueva era, podemos liberar todo el potencial del aprendizaje autónomo y allanar el camino hacia una inteligencia verdaderamente sobrehumana", concluyen Sutton y Silver.
DeepMind declinó hacer comentarios adicionales para este artículo.
Artículo relacionado
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física
Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

En un nuevo artículo, David Silver y Richard Sutton, destacados investigadores de la IA, proponen que la inteligencia artificial está entrando en una transformadora "Era de la Experiencia". Sugieren que los sistemas de IA dejarán de depender cada vez más de los datos proporcionados por los humanos y avanzarán mediante la interacción directa con el mundo y la recopilación de datos de éste.
Aunque se trata de un artículo conceptual y prospectivo, sus ideas tienen una relevancia directa para las empresas que planean desarrollar e integrar futuros agentes y sistemas de IA.
Tanto Silver como Sutton son científicos respetados con un historial de predicciones acertadas sobre la trayectoria de la IA. Su previsión es evidente en los sistemas de IA más avanzados de la actualidad. En su influyente ensayo de 2019 "The Bitter Lesson" (La amarga lección), Sutton, pionero del aprendizaje por refuerzo, argumentó que los avances más significativos de la IA a largo plazo resultan sistemáticamente de escalar la búsqueda y el aprendizaje de propósito general con computación masiva, no principalmente de la incorporación de conocimientos humanos complejos.
David Silver, uno de los principales científicos de DeepMind, desempeñó un papel destacado en el desarrollo de AlphaGo, AlphaZero y AlphaStar, importantes hitos del aprendizaje profundo por refuerzo. También es coautor de un artículo de 2021 en el que afirma que el aprendizaje por refuerzo combinado con una señal de recompensa bien diseñada podría producir en última instancia una IA muy avanzada.
Los grandes modelos lingüísticos (LLM) más sofisticados de la actualidad ejemplifican estos dos conceptos. La oleada de potentes LLM desde GPT-3 se ha basado en gran medida en el escalado de la potencia computacional y los datos para absorber inmensos conocimientos. Los modelos de razonamiento más recientes, como DeepSeek-R1, demuestran además que el aprendizaje por refuerzo con una señal de recompensa directa es suficiente para adquirir capacidades de razonamiento complejas.
¿Qué es la Era de la Experiencia?
La "Era de la Experiencia" se basa en conceptos defendidos por Sutton y Silver, ahora contextualizados para los recientes avances de la IA. Los autores señalan que "el ritmo del progreso impulsado únicamente por el aprendizaje supervisado a partir de datos humanos se está ralentizando de forma demostrable, lo que indica la necesidad de un nuevo enfoque".
Este nuevo enfoque exige una fuente de datos fresca, generada de forma que mejore continuamente a medida que el agente se hace más capaz. "Esto puede lograrse permitiendo que los agentes aprendan continuamente de su propia experiencia, es decir, de los datos que genera el agente al interactuar con su entorno", explican Sutton y Silver. Sostienen que, con el tiempo, "la experiencia se convertirá en el medio dominante de mejora y acabará empequeñeciendo la escala de los datos humanos utilizados en los sistemas actuales".
Según los autores, los futuros sistemas de IA "superarán las limitaciones de los sistemas de IA centrados en el ser humano" no sólo aprendiendo de los datos de la experiencia, sino también a través de cuatro dimensiones clave:
- Flujos: En lugar de operar en episodios aislados, los agentes de IA "tendrán su propio flujo de experiencia que progresará, como los humanos, a lo largo de una larga escala temporal". Esto permite la planificación a largo plazo y la adaptación gradual del comportamiento. Los primeros indicios de esto aparecen en los sistemas de IA con amplias ventanas de contexto y arquitecturas de memoria que se actualizan continuamente mediante la interacción del usuario.
- Acciones y observaciones: Más allá de las acciones y observaciones privilegiadas por el ser humano, los agentes de la era de la experiencia operarán de forma autónoma en el mundo real. Lo vemos en los sistemas agénticos que interactúan con aplicaciones y recursos externos utilizando herramientas como el control por ordenador y el Protocolo de Contexto Modelo (MCP).
- Recompensas: Mientras que los actuales sistemas de aprendizaje por refuerzo dependen en gran medida de funciones de recompensa diseñadas por humanos, los futuros agentes de IA deberían crear sus propias funciones de recompensa dinámicas. Éstas evolucionarían con el tiempo, alineando las preferencias del usuario con la información del mundo real procedente de las acciones y observaciones del agente. Los primeros sistemas de recompensa autodiseñados, como el DrEureka de Nvidia, permiten vislumbrar este futuro.
- Planificación y razonamiento: Los modelos de razonamiento actuales suelen estar diseñados para imitar el pensamiento humano. Los autores proponen que "seguramente existen mecanismos de pensamiento más eficientes, que utilizan lenguajes no humanos que pueden, por ejemplo, utilizar cálculos simbólicos, distribuidos, continuos o diferenciables". Los agentes de IA deben interactuar con el mundo, utilizando los datos observados para probar, refinar y actualizar su razonamiento mientras construyen un modelo interno del mundo.
El concepto de agentes de IA que se adaptan mediante el aprendizaje por refuerzo no es nuevo, pero históricamente se limitaba a entornos muy controlados, como los juegos de mesa. Ahora, los agentes capaces de desenvolverse en entornos complejos -como ordenadores operativos-, junto con los avances en el aprendizaje por refuerzo, están preparados para superar estas limitaciones y acelerar el cambio a la era de la experiencia.
¿Qué significa esto para la empresa?
En el artículo de Sutton y Silver se hace una importante observación sobre las aplicaciones en el mundo real: "El agente puede utilizar acciones y observaciones 'human-friendly', como interfaces de usuario, que faciliten de forma natural la comunicación y la colaboración con el usuario. El agente también puede realizar acciones 'amigables con la máquina' que ejecuten código y llamen a APIs, permitiendo al agente actuar de forma autónoma al servicio de sus objetivos."
La era de la experiencia implica que los desarrolladores deben diseñar aplicaciones tanto para usuarios humanos como para agentes de IA. Las acciones adaptadas a las máquinas requieren API seguras y accesibles, disponibles directamente o a través de interfaces como MCP. También implica crear agentes que sean descubribles a través de protocolos como Agent2Agent de Google. Diseñar API e interfaces de agentes que den acceso tanto a las acciones como a las observaciones permitirá a los agentes razonar y aprender progresivamente de sus interacciones con el software.
Si la visión de Sutton y Silver se materializa, miles de millones de agentes acabarán operando en la web -y, más adelante, en el mundo físico- para realizar tareas. Su comportamiento y requisitos diferirán fundamentalmente de los de los usuarios humanos. Establecer métodos de interacción fáciles de utilizar por los agentes será crucial para aprovechar eficazmente los futuros sistemas de IA y mitigar los posibles riesgos.
"Partiendo de los fundamentos de la RL y adaptando sus principios básicos a los retos de esta nueva era, podemos liberar todo el potencial del aprendizaje autónomo y allanar el camino hacia una inteligencia verdaderamente sobrehumana", concluyen Sutton y Silver.
DeepMind declinó hacer comentarios adicionales para este artículo.
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere











