El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El año de los agentes de IA: Una mirada más cercana a las expectativas y realidades de 2025
2025 fue anunciado por muchos expertos como el año en que los agentes de IA—sistemas de IA especializados impulsados por modelos de lenguaje y multimodales avanzados de empresas como OpenAI, Anthropic, Google y DeepSeek—tomarían finalmente el centro del escenario. Sin embargo, según una reciente encuesta de VentureBeat en la red social X, la mayoría de los agentes de IA aún languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.
Pero hay un destello de esperanza en el horizonte. Un esfuerzo colaborativo de investigadores de la Universidad de Northwestern, Microsoft, Stanford y la Universidad de Washington, incluyendo a Zihan Wang, un exinvestigador de DeepSeek que ahora cursa un doctorado en ciencias de la computación en Northwestern, ha presentado RAGEN. Este nuevo sistema busca entrenar y evaluar agentes de IA para hacerlos más confiables y adaptables para uso empresarial en el mundo real.
RAGEN: Un nuevo enfoque para entrenar agentes de IA
A diferencia de tareas estáticas como resolver matemáticas o generar código, RAGEN se centra en interacciones dinámicas de múltiples turnos donde los agentes necesitan adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje por refuerzo (RL) personalizado llamado StarPO (Optimización de Políticas de Estado-Pensamiento-Acciones-Recompensa), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización mecánica. StarPO analiza secuencias completas de toma de decisiones, no solo respuestas de un solo paso.
StarPO opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por el razonamiento, y una etapa de actualización donde el modelo se optimiza utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un ciclo de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.
Los investigadores probaron este marco utilizando versiones ajustadas de los modelos Qwen de Alibaba, específicamente Qwen 1.5 y Qwen 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y comparaciones consistentes de referencia en tareas simbólicas.
La trampa del eco: Un desafío en el aprendizaje por refuerzo
Zihan Wang destacó un problema crítico en el entrenamiento de RL en un hilo ampliamente compartido en X: *¿Por qué tu entrenamiento de RL siempre colapsa?* El equipo identificó que, aunque los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan atajos, lo que lleva a comportamientos repetitivos que degradan el rendimiento—un fenómeno que denominaron la "Trampa del Eco".
Esta regresión es alimentada por bucles de retroalimentación donde ciertas frases o estrategias obtienen altas recompensas al principio, fomentando su sobreuso y frenando la exploración. Los síntomas son claros: caídas en la varianza de las recompensas, picos en los gradientes y rastros de razonamiento que desaparecen.
Entornos de prueba de RAGEN
Para estudiar estos comportamientos en un entorno controlado, RAGEN evalúa agentes en tres entornos simbólicos:
- Bandit: Una tarea estocástica de un solo turno que prueba el razonamiento simbólico de riesgo-recompensa.
- Sokoban: Un rompecabezas determinista de múltiples turnos que involucra decisiones irreversibles.
- Frozen Lake: Una tarea estocástica de múltiples turnos que requiere planificación adaptativa.
Cada entorno está diseñado para minimizar prejuicios del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante el entrenamiento. Por ejemplo, en el entorno Bandit, los agentes deben razonar simbólicamente sobre los brazos Dragón y Fénix que representan diferentes distribuciones de recompensas, interpretándolos como "fuerza" y "esperanza" para predecir resultados.
Estabilizando el aprendizaje por refuerzo con StarPO-S
Para combatir el colapso del entrenamiento, los investigadores presentaron StarPO-S, una versión estabilizada del marco original. StarPO-S incluye tres intervenciones clave:
- Filtrado de despliegue basado en incertidumbre: Priorizando despliegues donde el agente muestra incertidumbre en los resultados.
- Eliminación de la penalización KL: Permitiendo que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
- Recorte asimétrico de PPO: Ampliando más las trayectorias de alta recompensa que las de baja recompensa para impulsar el aprendizaje.
Estos cambios ayudan a retrasar o eliminar el colapso del entrenamiento y mejoran el rendimiento en las tres tareas. Como dijo Wang, "StarPO-S… funciona en las 3 tareas. Alivia el colapso. Mejor recompensa."
¿Qué hace un buen modelo de IA agentivo?
El éxito del entrenamiento de RL depende no solo de la arquitectura, sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que impactan significativamente el entrenamiento:
- Diversidad de tareas: Exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
- Granularidad de interacción: Permitir múltiples acciones por turno permite una planificación más significativa.
- Frescura de los despliegues: Mantener los datos de entrenamiento alineados con la política actual del modelo evita señales de aprendizaje obsoletas.
Estos factores contribuyen a un proceso de entrenamiento más estable y efectivo. Un sitio de demostración interactivo en Github visualiza los despliegues de agentes como turnos de diálogo completos, incluyendo no solo acciones, sino también el proceso de pensamiento paso a paso que las precede. Por ejemplo, al resolver un problema matemático, un agente podría primero "pensar" en aislar una variable antes de enviar una respuesta como "x = 5". Estos pensamientos intermedios son visibles y rastreables, añadiendo transparencia a cómo los agentes toman decisiones.
Cuando el razonamiento se agota
Aunque el razonamiento explícito mejora el rendimiento en tareas simples de un solo turno como Bandit, tiende a decaer durante el entrenamiento de múltiples turnos. A pesar de usar prompts estructurados y tokens, los rastros de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de tareas puede descuidar la calidad del proceso detrás de ellas. El equipo experimentó con penalizaciones basadas en formato para fomentar un razonamiento mejor estructurado, pero reconoce que probablemente se necesita un modelado de recompensas más refinado.
Herramientas abiertas y direcciones futuras
RAGEN, junto con sus marcos StarPO y StarPO-S, está ahora disponible como un proyecto de código abierto en https://github.com/RAGEN-AI/RAGEN. Sin embargo, al momento de escribir, no se lista ninguna licencia explícita en el repositorio de GitHub, lo que puede limitar su uso o redistribución por parte de otros.
El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas, sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como RAGEN ayudan a iluminar lo que se necesita para entrenar modelos que aprendan de las consecuencias de sus propias acciones.
Preguntas pendientes para la adopción empresarial en el mundo real
Aunque el artículo de RAGEN ofrece una hoja de ruta técnica detallada, varias preguntas prácticas persisten para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿cuán transferible es el enfoque de RAGEN más allá de tareas simbólicas estilizadas? ¿Necesitarían las empresas diseñar entornos y funciones de recompensa completamente nuevos para usar este sistema en flujos de trabajo como el procesamiento de facturas o el soporte al cliente?
Wang, en un mensaje directo a VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas diseñando sus propios ejercicios de entrenamiento para agentes de IA usando RAGEN, señalando que el enlace de GitHub proporciona una introducción simple para agregar nuevos entornos.
Otro aspecto crítico es la escalabilidad. Incluso con las mejoras proporcionadas por StarPO-S, el artículo reconoce que el entrenamiento aún colapsa eventualmente en horizontes más largos. Esto plantea la pregunta: ¿existe un camino teórico o práctico para sostener el razonamiento en secuencias de tareas abiertas o en constante evolución?
Al momento de escribir, no se lista ninguna licencia explícita en el repositorio o documentación de RAGEN en GitHub, dejando preguntas abiertas sobre los derechos de uso. No obstante, RAGEN destaca no solo como una contribución técnica, sino como un paso conceptual hacia agentes de IA más autónomos y capaces de razonar. Si se convertirá en parte de la pila de IA empresarial aún está por verse, pero sus ideas sobre la dinámica de aprendizaje de agentes ya están ayudando a redefinir la frontera del entrenamiento de LLM.
Artículo relacionado
Los principales laboratorios de IA advierten de que la humanidad está perdiendo el control sobre la comprensión de los sistemas de IA
En una muestra de unidad sin precedentes, investigadores de OpenAI, Google DeepMind, Anthropic y Meta han dejado de lado sus diferencias competitivas para lanzar una advertencia colectiva sobre el des
Actualización de la IA de Anthropic: Claude ahora busca en todo el espacio de trabajo de Google al instante
La importante actualización de hoy de Anthropic transforma a Claude de un asistente de IA en lo que la empresa denomina un "verdadero colaborador virtual", introduciendo innovadoras capacidades de inv
La IA "ZeroSearch" de Alibaba reduce los costes de formación en un 88% gracias al aprendizaje autónomo
ZeroSearch de Alibaba: Un cambio en la eficiencia del entrenamiento de IALos investigadores del Grupo Alibaba han sido pioneros en un método innovador que podría revolucionar la forma en que los siste
comentario (7)
0/200
ScottEvans
13 de agosto de 2025 13:00:59 GMT+02:00
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
23 de julio de 2025 06:59:29 GMT+02:00
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6 de mayo de 2025 09:48:04 GMT+02:00
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 de mayo de 2025 00:45:54 GMT+02:00
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5 de mayo de 2025 05:45:04 GMT+02:00
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
4 de mayo de 2025 22:00:48 GMT+02:00
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
El año de los agentes de IA: Una mirada más cercana a las expectativas y realidades de 2025
2025 fue anunciado por muchos expertos como el año en que los agentes de IA—sistemas de IA especializados impulsados por modelos de lenguaje y multimodales avanzados de empresas como OpenAI, Anthropic, Google y DeepSeek—tomarían finalmente el centro del escenario. Sin embargo, según una reciente encuesta de VentureBeat en la red social X, la mayoría de los agentes de IA aún languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.
Pero hay un destello de esperanza en el horizonte. Un esfuerzo colaborativo de investigadores de la Universidad de Northwestern, Microsoft, Stanford y la Universidad de Washington, incluyendo a Zihan Wang, un exinvestigador de DeepSeek que ahora cursa un doctorado en ciencias de la computación en Northwestern, ha presentado RAGEN. Este nuevo sistema busca entrenar y evaluar agentes de IA para hacerlos más confiables y adaptables para uso empresarial en el mundo real.
RAGEN: Un nuevo enfoque para entrenar agentes de IA
A diferencia de tareas estáticas como resolver matemáticas o generar código, RAGEN se centra en interacciones dinámicas de múltiples turnos donde los agentes necesitan adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje por refuerzo (RL) personalizado llamado StarPO (Optimización de Políticas de Estado-Pensamiento-Acciones-Recompensa), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización mecánica. StarPO analiza secuencias completas de toma de decisiones, no solo respuestas de un solo paso.
StarPO opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por el razonamiento, y una etapa de actualización donde el modelo se optimiza utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un ciclo de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.
Los investigadores probaron este marco utilizando versiones ajustadas de los modelos Qwen de Alibaba, específicamente Qwen 1.5 y Qwen 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y comparaciones consistentes de referencia en tareas simbólicas.
La trampa del eco: Un desafío en el aprendizaje por refuerzo
Zihan Wang destacó un problema crítico en el entrenamiento de RL en un hilo ampliamente compartido en X: *¿Por qué tu entrenamiento de RL siempre colapsa?* El equipo identificó que, aunque los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan atajos, lo que lleva a comportamientos repetitivos que degradan el rendimiento—un fenómeno que denominaron la "Trampa del Eco".
Esta regresión es alimentada por bucles de retroalimentación donde ciertas frases o estrategias obtienen altas recompensas al principio, fomentando su sobreuso y frenando la exploración. Los síntomas son claros: caídas en la varianza de las recompensas, picos en los gradientes y rastros de razonamiento que desaparecen.
Entornos de prueba de RAGEN
Para estudiar estos comportamientos en un entorno controlado, RAGEN evalúa agentes en tres entornos simbólicos:
- Bandit: Una tarea estocástica de un solo turno que prueba el razonamiento simbólico de riesgo-recompensa.
- Sokoban: Un rompecabezas determinista de múltiples turnos que involucra decisiones irreversibles.
- Frozen Lake: Una tarea estocástica de múltiples turnos que requiere planificación adaptativa.
Cada entorno está diseñado para minimizar prejuicios del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante el entrenamiento. Por ejemplo, en el entorno Bandit, los agentes deben razonar simbólicamente sobre los brazos Dragón y Fénix que representan diferentes distribuciones de recompensas, interpretándolos como "fuerza" y "esperanza" para predecir resultados.
Estabilizando el aprendizaje por refuerzo con StarPO-S
Para combatir el colapso del entrenamiento, los investigadores presentaron StarPO-S, una versión estabilizada del marco original. StarPO-S incluye tres intervenciones clave:
- Filtrado de despliegue basado en incertidumbre: Priorizando despliegues donde el agente muestra incertidumbre en los resultados.
- Eliminación de la penalización KL: Permitiendo que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
- Recorte asimétrico de PPO: Ampliando más las trayectorias de alta recompensa que las de baja recompensa para impulsar el aprendizaje.
Estos cambios ayudan a retrasar o eliminar el colapso del entrenamiento y mejoran el rendimiento en las tres tareas. Como dijo Wang, "StarPO-S… funciona en las 3 tareas. Alivia el colapso. Mejor recompensa."
¿Qué hace un buen modelo de IA agentivo?
El éxito del entrenamiento de RL depende no solo de la arquitectura, sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que impactan significativamente el entrenamiento:
- Diversidad de tareas: Exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
- Granularidad de interacción: Permitir múltiples acciones por turno permite una planificación más significativa.
- Frescura de los despliegues: Mantener los datos de entrenamiento alineados con la política actual del modelo evita señales de aprendizaje obsoletas.
Estos factores contribuyen a un proceso de entrenamiento más estable y efectivo. Un sitio de demostración interactivo en Github visualiza los despliegues de agentes como turnos de diálogo completos, incluyendo no solo acciones, sino también el proceso de pensamiento paso a paso que las precede. Por ejemplo, al resolver un problema matemático, un agente podría primero "pensar" en aislar una variable antes de enviar una respuesta como "x = 5". Estos pensamientos intermedios son visibles y rastreables, añadiendo transparencia a cómo los agentes toman decisiones.
Cuando el razonamiento se agota
Aunque el razonamiento explícito mejora el rendimiento en tareas simples de un solo turno como Bandit, tiende a decaer durante el entrenamiento de múltiples turnos. A pesar de usar prompts estructurados y tokens, los rastros de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de tareas puede descuidar la calidad del proceso detrás de ellas. El equipo experimentó con penalizaciones basadas en formato para fomentar un razonamiento mejor estructurado, pero reconoce que probablemente se necesita un modelado de recompensas más refinado.
Herramientas abiertas y direcciones futuras
RAGEN, junto con sus marcos StarPO y StarPO-S, está ahora disponible como un proyecto de código abierto en https://github.com/RAGEN-AI/RAGEN. Sin embargo, al momento de escribir, no se lista ninguna licencia explícita en el repositorio de GitHub, lo que puede limitar su uso o redistribución por parte de otros.
El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas, sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como RAGEN ayudan a iluminar lo que se necesita para entrenar modelos que aprendan de las consecuencias de sus propias acciones.
Preguntas pendientes para la adopción empresarial en el mundo real
Aunque el artículo de RAGEN ofrece una hoja de ruta técnica detallada, varias preguntas prácticas persisten para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿cuán transferible es el enfoque de RAGEN más allá de tareas simbólicas estilizadas? ¿Necesitarían las empresas diseñar entornos y funciones de recompensa completamente nuevos para usar este sistema en flujos de trabajo como el procesamiento de facturas o el soporte al cliente?
Wang, en un mensaje directo a VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas diseñando sus propios ejercicios de entrenamiento para agentes de IA usando RAGEN, señalando que el enlace de GitHub proporciona una introducción simple para agregar nuevos entornos.
Otro aspecto crítico es la escalabilidad. Incluso con las mejoras proporcionadas por StarPO-S, el artículo reconoce que el entrenamiento aún colapsa eventualmente en horizontes más largos. Esto plantea la pregunta: ¿existe un camino teórico o práctico para sostener el razonamiento en secuencias de tareas abiertas o en constante evolución?
Al momento de escribir, no se lista ninguna licencia explícita en el repositorio o documentación de RAGEN en GitHub, dejando preguntas abiertas sobre los derechos de uso. No obstante, RAGEN destaca no solo como una contribución técnica, sino como un paso conceptual hacia agentes de IA más autónomos y capaces de razonar. Si se convertirá en parte de la pila de IA empresarial aún está por verse, pero sus ideas sobre la dinámica de aprendizaje de agentes ya están ayudando a redefinir la frontera del entrenamiento de LLM.




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












