Agentes de IA de autoaprendizaje para transformar la experiencia web: Guía de preparación

Hogar

Noticias

19 de noviembre de 2025

CarlLopez

# ai # Data # deepmind # api # LLMs

Agentes de IA de autoaprendizaje para transformar la experiencia web: Guía de preparación

En un nuevo artículo, David Silver y Richard Sutton, destacados investigadores de la IA, proponen que la inteligencia artificial está entrando en una transformadora "Era de la Experiencia". Sugieren que los sistemas de IA dejarán de depender cada vez más de los datos proporcionados por los humanos y avanzarán mediante la interacción directa con el mundo y la recopilación de datos de éste.

Aunque se trata de un artículo conceptual y prospectivo, sus ideas tienen una relevancia directa para las empresas que planean desarrollar e integrar futuros agentes y sistemas de IA.

Tanto Silver como Sutton son científicos respetados con un historial de predicciones acertadas sobre la trayectoria de la IA. Su previsión es evidente en los sistemas de IA más avanzados de la actualidad. En su influyente ensayo de 2019 "The Bitter Lesson" (La amarga lección), Sutton, pionero del aprendizaje por refuerzo, argumentó que los avances más significativos de la IA a largo plazo resultan sistemáticamente de escalar la búsqueda y el aprendizaje de propósito general con computación masiva, no principalmente de la incorporación de conocimientos humanos complejos.

David Silver, uno de los principales científicos de DeepMind, desempeñó un papel destacado en el desarrollo de AlphaGo, AlphaZero y AlphaStar, importantes hitos del aprendizaje profundo por refuerzo. También es coautor de un artículo de 2021 en el que afirma que el aprendizaje por refuerzo combinado con una señal de recompensa bien diseñada podría producir en última instancia una IA muy avanzada.

Los grandes modelos lingüísticos (LLM) más sofisticados de la actualidad ejemplifican estos dos conceptos. La oleada de potentes LLM desde GPT-3 se ha basado en gran medida en el escalado de la potencia computacional y los datos para absorber inmensos conocimientos. Los modelos de razonamiento más recientes, como DeepSeek-R1, demuestran además que el aprendizaje por refuerzo con una señal de recompensa directa es suficiente para adquirir capacidades de razonamiento complejas.

¿Qué es la Era de la Experiencia?

La "Era de la Experiencia" se basa en conceptos defendidos por Sutton y Silver, ahora contextualizados para los recientes avances de la IA. Los autores señalan que "el ritmo del progreso impulsado únicamente por el aprendizaje supervisado a partir de datos humanos se está ralentizando de forma demostrable, lo que indica la necesidad de un nuevo enfoque".

Este nuevo enfoque exige una fuente de datos fresca, generada de forma que mejore continuamente a medida que el agente se hace más capaz. "Esto puede lograrse permitiendo que los agentes aprendan continuamente de su propia experiencia, es decir, de los datos que genera el agente al interactuar con su entorno", explican Sutton y Silver. Sostienen que, con el tiempo, "la experiencia se convertirá en el medio dominante de mejora y acabará empequeñeciendo la escala de los datos humanos utilizados en los sistemas actuales".

Según los autores, los futuros sistemas de IA "superarán las limitaciones de los sistemas de IA centrados en el ser humano" no sólo aprendiendo de los datos de la experiencia, sino también a través de cuatro dimensiones clave:

Flujos: En lugar de operar en episodios aislados, los agentes de IA "tendrán su propio flujo de experiencia que progresará, como los humanos, a lo largo de una larga escala temporal". Esto permite la planificación a largo plazo y la adaptación gradual del comportamiento. Los primeros indicios de esto aparecen en los sistemas de IA con amplias ventanas de contexto y arquitecturas de memoria que se actualizan continuamente mediante la interacción del usuario.
Acciones y observaciones: Más allá de las acciones y observaciones privilegiadas por el ser humano, los agentes de la era de la experiencia operarán de forma autónoma en el mundo real. Lo vemos en los sistemas agénticos que interactúan con aplicaciones y recursos externos utilizando herramientas como el control por ordenador y el Protocolo de Contexto Modelo (MCP).
Recompensas: Mientras que los actuales sistemas de aprendizaje por refuerzo dependen en gran medida de funciones de recompensa diseñadas por humanos, los futuros agentes de IA deberían crear sus propias funciones de recompensa dinámicas. Éstas evolucionarían con el tiempo, alineando las preferencias del usuario con la información del mundo real procedente de las acciones y observaciones del agente. Los primeros sistemas de recompensa autodiseñados, como el DrEureka de Nvidia, permiten vislumbrar este futuro.
Planificación y razonamiento: Los modelos de razonamiento actuales suelen estar diseñados para imitar el pensamiento humano. Los autores proponen que "seguramente existen mecanismos de pensamiento más eficientes, que utilizan lenguajes no humanos que pueden, por ejemplo, utilizar cálculos simbólicos, distribuidos, continuos o diferenciables". Los agentes de IA deben interactuar con el mundo, utilizando los datos observados para probar, refinar y actualizar su razonamiento mientras construyen un modelo interno del mundo.

El concepto de agentes de IA que se adaptan mediante el aprendizaje por refuerzo no es nuevo, pero históricamente se limitaba a entornos muy controlados, como los juegos de mesa. Ahora, los agentes capaces de desenvolverse en entornos complejos -como ordenadores operativos-, junto con los avances en el aprendizaje por refuerzo, están preparados para superar estas limitaciones y acelerar el cambio a la era de la experiencia.

¿Qué significa esto para la empresa?

En el artículo de Sutton y Silver se hace una importante observación sobre las aplicaciones en el mundo real: "El agente puede utilizar acciones y observaciones 'human-friendly', como interfaces de usuario, que faciliten de forma natural la comunicación y la colaboración con el usuario. El agente también puede realizar acciones 'amigables con la máquina' que ejecuten código y llamen a APIs, permitiendo al agente actuar de forma autónoma al servicio de sus objetivos."

La era de la experiencia implica que los desarrolladores deben diseñar aplicaciones tanto para usuarios humanos como para agentes de IA. Las acciones adaptadas a las máquinas requieren API seguras y accesibles, disponibles directamente o a través de interfaces como MCP. También implica crear agentes que sean descubribles a través de protocolos como Agent2Agent de Google. Diseñar API e interfaces de agentes que den acceso tanto a las acciones como a las observaciones permitirá a los agentes razonar y aprender progresivamente de sus interacciones con el software.

Si la visión de Sutton y Silver se materializa, miles de millones de agentes acabarán operando en la web -y, más adelante, en el mundo físico- para realizar tareas. Su comportamiento y requisitos diferirán fundamentalmente de los de los usuarios humanos. Establecer métodos de interacción fáciles de utilizar por los agentes será crucial para aprovechar eficazmente los futuros sistemas de IA y mitigar los posibles riesgos.

"Partiendo de los fundamentos de la RL y adaptando sus principios básicos a los retos de esta nueva era, podemos liberar todo el potencial del aprendizaje autónomo y allanar el camino hacia una inteligencia verdaderamente sobrehumana", concluyen Sutton y Silver.

DeepMind declinó hacer comentarios adicionales para este artículo.

Artículo relacionado

WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an

Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE

Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere

Recomendaciones de temas especiales relacionados

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai

código

Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas

xix.ai