

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen
4 de mayo de 2025
DavidMartínez
0

El año de los agentes de IA: una mirada más cercana a las expectativas y realidades de 2025
2025 fue anunciado por muchos expertos como el año en que los agentes de IA, sistemas de IA específicos impulsados por un lenguaje grande y modelos multimodales avanzados de compañías como OpenAi, Anthrope, Google y Deepseek, finalmente tomarían el centro del escenario. Sin embargo, según una encuesta reciente de VentureBeat en la red social X, la mayoría de los agentes de IA todavía languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.
Pero hay un rayo de esperanza en el horizonte. Un esfuerzo de colaboración de investigadores de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington, incluido Zihan Wang, un ex investigador de Deepseek que ahora persigue un doctorado en informática en Northwestern, ha presentado a Ragen. Este nuevo sistema tiene como objetivo entrenar y evaluar a los agentes de IA para que sean más confiables y adaptables para el uso empresarial del mundo real.
Ragen: Un nuevo enfoque para capacitar a los agentes de IA
A diferencia de las tareas estáticas, como la resolución de matemáticas o la generación de códigos, Ragen se centra en las interacciones dinámicas y de múltiples vueltas donde los agentes deben adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje de refuerzo personalizado (RL) llamado Starpo (optimización de políticas de recompensa de acciones estatales), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización de memoria. Starpo busca secuencias de toma de decisiones completas, no solo respuestas de un solo paso.
Starpo opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por razonamiento, y una etapa de actualización donde el modelo está optimizado utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un bucle de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.
Los investigadores probaron este marco utilizando versiones ajustadas de los modelos QWEN de Alibaba, específicamente QWEN 1.5 y QWEN 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y las comparaciones de referencia consistentes entre las tareas simbólicas.
La trampa de eco: un desafío en el aprendizaje de refuerzo
Zihan Wang destacó un problema crítico en la capacitación de RL en un hilo X ampliamente compartido: * ¿Por qué su entrenamiento RL siempre colapsa? * El equipo identificó que, si bien los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan los atajos de recompensa, lo que lleva a comportamientos repetitivos que degradan el rendimiento: un fenómeno que dúcen los "estampados de echa".
Esta regresión se ve impulsada por los bucles de retroalimentación donde ciertas frases o estrategias ganan altas recompensas desde el principio, alentando el uso excesivo y la exploración sofocante. Los síntomas son claros: acantilados de varianza de recompensa, picos de gradiente y trazas de razonamiento de desaparición.
Entornos de prueba de Ragen
Para estudiar estos comportamientos en un entorno controlado, Ragen evalúa a los agentes en tres entornos simbólicos:
- Bandit: una tarea estocástica única que prueba el razonamiento simbólico de riesgo-recompensa.
- Sokoban: un rompecabezas determinista de múltiples vueltas que involucra decisiones irreversibles.
- Lago Frozen: una tarea estocástica y múltiple que requiere una planificación adaptativa.
Cada entorno está diseñado para minimizar los antecedentes del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante la capacitación. Por ejemplo, en el entorno de bandidos, los agentes deben razonar simbólicamente sobre los brazos de Dragon y Phoenix que representan diferentes distribuciones de recompensas, interpretándolas como "fuerza" y "esperanza" para predecir los resultados.
Estabilización del aprendizaje de refuerzo con Starpo-S
Para combatir el colapso de la capacitación, los investigadores introdujeron Starpo-S, una versión estabilizada del marco original. Starpo-S incluye tres intervenciones clave:
- Filtrado de despliegue basado en la incertidumbre: priorizar los despliegos donde el agente muestra la incertidumbre del resultado.
- Eliminación de penalización de KL: permitir que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
- Recorte de PPO asimétrico: amplificando las trayectorias de alta recompensa más que las de baja recompensa para aumentar el aprendizaje.
Estos cambios ayudan a retrasar o eliminar el colapso de la capacitación y mejorar el rendimiento en las tres tareas. Como dijo Wang, "Starpo-S ... funciona en las 3 tareas. Alivia el colapso. Mejor recompensa".
¿Qué hace un buen modelo de IA de agente?
El éxito de la capacitación RL depende no solo de la arquitectura sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que afectan significativamente el entrenamiento:
- Diversidad de tareas: exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
- Granularidad de interacción: permitir múltiples acciones por turno permite una planificación más significativa.
- Frescura de despliegue: mantener los datos de capacitación alineados con la política de modelo actual evita señales de aprendizaje anticuadas.
Estos factores contribuyen a un proceso de capacitación más estable y efectivo. Un sitio de demostración interactivo en GitHub visualiza los despliegos de agentes como diálogos completos, incluidas no solo acciones sino el proceso de pensamiento paso a paso que los precede. Por ejemplo, al resolver un problema matemático, un agente podría "pensar" primero en aislar una variable antes de enviar una respuesta como 'x = 5'. Estos pensamientos intermedios son visibles y rastreables, agregando transparencia a cómo los agentes toman decisiones.
Cuando se agota el razonamiento
Si bien el razonamiento explícito mejora el rendimiento en tareas simples de un solo cambio, como Bandit, tiende a decaer durante el entrenamiento de múltiples vueltas. A pesar de usar indicaciones y fichas estructuradas, las huellas de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de la tarea puede descuidar la calidad del proceso detrás de él. El equipo experimentó con sanciones basadas en formatos para alentar el razonamiento mejor estructurado, pero reconoce que probablemente se necesite una configuración de recompensa más refinada.
Herramientas abiertas y direcciones futuras
Ragen, junto con sus marcos Starpo y Starpo-S, ahora está disponible como un proyecto de fuente abierta en https://github.com/ragen-ai/ragen . Sin embargo, al momento de escribir, no se enumera ninguna licencia explícita en el repositorio de GitHub, que puede limitar su uso o redistribución por parte de otros.
El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como Ragen ayudan a iluminar lo que se necesita para entrenar modelos que aprenden de las consecuencias de sus propias acciones.
Preguntas sobresalientes para la adopción empresarial del mundo real
Si bien el documento de Ragen ofrece una hoja de ruta técnica detallada, quedan varias preguntas prácticas para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿qué tan transferible es el enfoque de Ragen más allá de las tareas simbólicas estilizadas? ¿Deberían las empresas diseñar entornos completamente nuevos y recompensar funciones para usar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?
Wang, en un mensaje directo para VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas que diseñan sus propios ejercicios de capacitación para agentes de IA que usan Ragen, señalando que el enlace GitHub proporciona una introducción simple para agregar nuevos entornos.
Otra área crítica es la escalabilidad. Incluso con las mejoras proporcionadas por Starpo-S, el documento reconoce que el entrenamiento finalmente se derrumba en horizontes más largos. Esto plantea la pregunta: ¿existe una ruta teórica o práctica para mantener el razonamiento sobre las secuencias de tareas abiertas o en evolución continua?
Al momento de escribir, no se enumera ninguna licencia explícita en el repositorio o documentación de Ragen Github, dejando preguntas abiertas sobre los derechos de uso. No obstante, Ragen se destaca no solo como una contribución técnica sino también como un paso conceptual hacia agentes de IA más autónomos y capaces de razonamiento. Queda por ver si se convierte en parte de la pila Enterprise AI, pero sus ideas sobre la dinámica de aprendizaje del agente ya están ayudando a redefinir la frontera de la capacitación de LLM.
Artículo relacionado
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Comentario (0)
0/200






El año de los agentes de IA: una mirada más cercana a las expectativas y realidades de 2025
2025 fue anunciado por muchos expertos como el año en que los agentes de IA, sistemas de IA específicos impulsados por un lenguaje grande y modelos multimodales avanzados de compañías como OpenAi, Anthrope, Google y Deepseek, finalmente tomarían el centro del escenario. Sin embargo, según una encuesta reciente de VentureBeat en la red social X, la mayoría de los agentes de IA todavía languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.
Pero hay un rayo de esperanza en el horizonte. Un esfuerzo de colaboración de investigadores de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington, incluido Zihan Wang, un ex investigador de Deepseek que ahora persigue un doctorado en informática en Northwestern, ha presentado a Ragen. Este nuevo sistema tiene como objetivo entrenar y evaluar a los agentes de IA para que sean más confiables y adaptables para el uso empresarial del mundo real.
Ragen: Un nuevo enfoque para capacitar a los agentes de IA
A diferencia de las tareas estáticas, como la resolución de matemáticas o la generación de códigos, Ragen se centra en las interacciones dinámicas y de múltiples vueltas donde los agentes deben adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje de refuerzo personalizado (RL) llamado Starpo (optimización de políticas de recompensa de acciones estatales), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización de memoria. Starpo busca secuencias de toma de decisiones completas, no solo respuestas de un solo paso.
Starpo opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por razonamiento, y una etapa de actualización donde el modelo está optimizado utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un bucle de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.
Los investigadores probaron este marco utilizando versiones ajustadas de los modelos QWEN de Alibaba, específicamente QWEN 1.5 y QWEN 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y las comparaciones de referencia consistentes entre las tareas simbólicas.
La trampa de eco: un desafío en el aprendizaje de refuerzo
Zihan Wang destacó un problema crítico en la capacitación de RL en un hilo X ampliamente compartido: * ¿Por qué su entrenamiento RL siempre colapsa? * El equipo identificó que, si bien los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan los atajos de recompensa, lo que lleva a comportamientos repetitivos que degradan el rendimiento: un fenómeno que dúcen los "estampados de echa".
Esta regresión se ve impulsada por los bucles de retroalimentación donde ciertas frases o estrategias ganan altas recompensas desde el principio, alentando el uso excesivo y la exploración sofocante. Los síntomas son claros: acantilados de varianza de recompensa, picos de gradiente y trazas de razonamiento de desaparición.
Entornos de prueba de Ragen
Para estudiar estos comportamientos en un entorno controlado, Ragen evalúa a los agentes en tres entornos simbólicos:
- Bandit: una tarea estocástica única que prueba el razonamiento simbólico de riesgo-recompensa.
- Sokoban: un rompecabezas determinista de múltiples vueltas que involucra decisiones irreversibles.
- Lago Frozen: una tarea estocástica y múltiple que requiere una planificación adaptativa.
Cada entorno está diseñado para minimizar los antecedentes del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante la capacitación. Por ejemplo, en el entorno de bandidos, los agentes deben razonar simbólicamente sobre los brazos de Dragon y Phoenix que representan diferentes distribuciones de recompensas, interpretándolas como "fuerza" y "esperanza" para predecir los resultados.
Estabilización del aprendizaje de refuerzo con Starpo-S
Para combatir el colapso de la capacitación, los investigadores introdujeron Starpo-S, una versión estabilizada del marco original. Starpo-S incluye tres intervenciones clave:
- Filtrado de despliegue basado en la incertidumbre: priorizar los despliegos donde el agente muestra la incertidumbre del resultado.
- Eliminación de penalización de KL: permitir que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
- Recorte de PPO asimétrico: amplificando las trayectorias de alta recompensa más que las de baja recompensa para aumentar el aprendizaje.
Estos cambios ayudan a retrasar o eliminar el colapso de la capacitación y mejorar el rendimiento en las tres tareas. Como dijo Wang, "Starpo-S ... funciona en las 3 tareas. Alivia el colapso. Mejor recompensa".
¿Qué hace un buen modelo de IA de agente?
El éxito de la capacitación RL depende no solo de la arquitectura sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que afectan significativamente el entrenamiento:
- Diversidad de tareas: exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
- Granularidad de interacción: permitir múltiples acciones por turno permite una planificación más significativa.
- Frescura de despliegue: mantener los datos de capacitación alineados con la política de modelo actual evita señales de aprendizaje anticuadas.
Estos factores contribuyen a un proceso de capacitación más estable y efectivo. Un sitio de demostración interactivo en GitHub visualiza los despliegos de agentes como diálogos completos, incluidas no solo acciones sino el proceso de pensamiento paso a paso que los precede. Por ejemplo, al resolver un problema matemático, un agente podría "pensar" primero en aislar una variable antes de enviar una respuesta como 'x = 5'. Estos pensamientos intermedios son visibles y rastreables, agregando transparencia a cómo los agentes toman decisiones.
Cuando se agota el razonamiento
Si bien el razonamiento explícito mejora el rendimiento en tareas simples de un solo cambio, como Bandit, tiende a decaer durante el entrenamiento de múltiples vueltas. A pesar de usar indicaciones y fichas estructuradas, las huellas de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de la tarea puede descuidar la calidad del proceso detrás de él. El equipo experimentó con sanciones basadas en formatos para alentar el razonamiento mejor estructurado, pero reconoce que probablemente se necesite una configuración de recompensa más refinada.
Herramientas abiertas y direcciones futuras
Ragen, junto con sus marcos Starpo y Starpo-S, ahora está disponible como un proyecto de fuente abierta en https://github.com/ragen-ai/ragen . Sin embargo, al momento de escribir, no se enumera ninguna licencia explícita en el repositorio de GitHub, que puede limitar su uso o redistribución por parte de otros.
El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como Ragen ayudan a iluminar lo que se necesita para entrenar modelos que aprenden de las consecuencias de sus propias acciones.
Preguntas sobresalientes para la adopción empresarial del mundo real
Si bien el documento de Ragen ofrece una hoja de ruta técnica detallada, quedan varias preguntas prácticas para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿qué tan transferible es el enfoque de Ragen más allá de las tareas simbólicas estilizadas? ¿Deberían las empresas diseñar entornos completamente nuevos y recompensar funciones para usar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?
Wang, en un mensaje directo para VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas que diseñan sus propios ejercicios de capacitación para agentes de IA que usan Ragen, señalando que el enlace GitHub proporciona una introducción simple para agregar nuevos entornos.
Otra área crítica es la escalabilidad. Incluso con las mejoras proporcionadas por Starpo-S, el documento reconoce que el entrenamiento finalmente se derrumba en horizontes más largos. Esto plantea la pregunta: ¿existe una ruta teórica o práctica para mantener el razonamiento sobre las secuencias de tareas abiertas o en evolución continua?
Al momento de escribir, no se enumera ninguna licencia explícita en el repositorio o documentación de Ragen Github, dejando preguntas abiertas sobre los derechos de uso. No obstante, Ragen se destaca no solo como una contribución técnica sino también como un paso conceptual hacia agentes de IA más autónomos y capaces de razonamiento. Queda por ver si se convierte en parte de la pila Enterprise AI, pero sus ideas sobre la dinámica de aprendizaje del agente ya están ayudando a redefinir la frontera de la capacitación de LLM.











