opción
Hogar
Noticias
El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

4 de mayo de 2025
203

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El año de los agentes de IA: Una mirada más cercana a las expectativas y realidades de 2025

2025 fue anunciado por muchos expertos como el año en que los agentes de IA—sistemas de IA especializados impulsados por modelos de lenguaje y multimodales avanzados de empresas como OpenAI, Anthropic, Google y DeepSeek—tomarían finalmente el centro del escenario. Sin embargo, según una reciente encuesta de VentureBeat en la red social X, la mayoría de los agentes de IA aún languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.

Pero hay un destello de esperanza en el horizonte. Un esfuerzo colaborativo de investigadores de la Universidad de Northwestern, Microsoft, Stanford y la Universidad de Washington, incluyendo a Zihan Wang, un exinvestigador de DeepSeek que ahora cursa un doctorado en ciencias de la computación en Northwestern, ha presentado RAGEN. Este nuevo sistema busca entrenar y evaluar agentes de IA para hacerlos más confiables y adaptables para uso empresarial en el mundo real.

RAGEN: Un nuevo enfoque para entrenar agentes de IA

A diferencia de tareas estáticas como resolver matemáticas o generar código, RAGEN se centra en interacciones dinámicas de múltiples turnos donde los agentes necesitan adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje por refuerzo (RL) personalizado llamado StarPO (Optimización de Políticas de Estado-Pensamiento-Acciones-Recompensa), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización mecánica. StarPO analiza secuencias completas de toma de decisiones, no solo respuestas de un solo paso.

StarPO opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por el razonamiento, y una etapa de actualización donde el modelo se optimiza utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un ciclo de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.

Los investigadores probaron este marco utilizando versiones ajustadas de los modelos Qwen de Alibaba, específicamente Qwen 1.5 y Qwen 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y comparaciones consistentes de referencia en tareas simbólicas.

La trampa del eco: Un desafío en el aprendizaje por refuerzo

Zihan Wang destacó un problema crítico en el entrenamiento de RL en un hilo ampliamente compartido en X: *¿Por qué tu entrenamiento de RL siempre colapsa?* El equipo identificó que, aunque los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan atajos, lo que lleva a comportamientos repetitivos que degradan el rendimiento—un fenómeno que denominaron la "Trampa del Eco".

Esta regresión es alimentada por bucles de retroalimentación donde ciertas frases o estrategias obtienen altas recompensas al principio, fomentando su sobreuso y frenando la exploración. Los síntomas son claros: caídas en la varianza de las recompensas, picos en los gradientes y rastros de razonamiento que desaparecen.

Entornos de prueba de RAGEN

Para estudiar estos comportamientos en un entorno controlado, RAGEN evalúa agentes en tres entornos simbólicos:

  • Bandit: Una tarea estocástica de un solo turno que prueba el razonamiento simbólico de riesgo-recompensa.
  • Sokoban: Un rompecabezas determinista de múltiples turnos que involucra decisiones irreversibles.
  • Frozen Lake: Una tarea estocástica de múltiples turnos que requiere planificación adaptativa.

Cada entorno está diseñado para minimizar prejuicios del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante el entrenamiento. Por ejemplo, en el entorno Bandit, los agentes deben razonar simbólicamente sobre los brazos Dragón y Fénix que representan diferentes distribuciones de recompensas, interpretándolos como "fuerza" y "esperanza" para predecir resultados.

Estabilizando el aprendizaje por refuerzo con StarPO-S

Para combatir el colapso del entrenamiento, los investigadores presentaron StarPO-S, una versión estabilizada del marco original. StarPO-S incluye tres intervenciones clave:

  1. Filtrado de despliegue basado en incertidumbre: Priorizando despliegues donde el agente muestra incertidumbre en los resultados.
  2. Eliminación de la penalización KL: Permitiendo que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
  3. Recorte asimétrico de PPO: Ampliando más las trayectorias de alta recompensa que las de baja recompensa para impulsar el aprendizaje.

Estos cambios ayudan a retrasar o eliminar el colapso del entrenamiento y mejoran el rendimiento en las tres tareas. Como dijo Wang, "StarPO-S… funciona en las 3 tareas. Alivia el colapso. Mejor recompensa."

¿Qué hace un buen modelo de IA agentivo?

El éxito del entrenamiento de RL depende no solo de la arquitectura, sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que impactan significativamente el entrenamiento:

  • Diversidad de tareas: Exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
  • Granularidad de interacción: Permitir múltiples acciones por turno permite una planificación más significativa.
  • Frescura de los despliegues: Mantener los datos de entrenamiento alineados con la política actual del modelo evita señales de aprendizaje obsoletas.

Estos factores contribuyen a un proceso de entrenamiento más estable y efectivo. Un sitio de demostración interactivo en Github visualiza los despliegues de agentes como turnos de diálogo completos, incluyendo no solo acciones, sino también el proceso de pensamiento paso a paso que las precede. Por ejemplo, al resolver un problema matemático, un agente podría primero "pensar" en aislar una variable antes de enviar una respuesta como "x = 5". Estos pensamientos intermedios son visibles y rastreables, añadiendo transparencia a cómo los agentes toman decisiones.

Cuando el razonamiento se agota

Aunque el razonamiento explícito mejora el rendimiento en tareas simples de un solo turno como Bandit, tiende a decaer durante el entrenamiento de múltiples turnos. A pesar de usar prompts estructurados y tokens, los rastros de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de tareas puede descuidar la calidad del proceso detrás de ellas. El equipo experimentó con penalizaciones basadas en formato para fomentar un razonamiento mejor estructurado, pero reconoce que probablemente se necesita un modelado de recompensas más refinado.

Herramientas abiertas y direcciones futuras

RAGEN, junto con sus marcos StarPO y StarPO-S, está ahora disponible como un proyecto de código abierto en https://github.com/RAGEN-AI/RAGEN. Sin embargo, al momento de escribir, no se lista ninguna licencia explícita en el repositorio de GitHub, lo que puede limitar su uso o redistribución por parte de otros.

El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas, sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como RAGEN ayudan a iluminar lo que se necesita para entrenar modelos que aprendan de las consecuencias de sus propias acciones.

Preguntas pendientes para la adopción empresarial en el mundo real

Aunque el artículo de RAGEN ofrece una hoja de ruta técnica detallada, varias preguntas prácticas persisten para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿cuán transferible es el enfoque de RAGEN más allá de tareas simbólicas estilizadas? ¿Necesitarían las empresas diseñar entornos y funciones de recompensa completamente nuevos para usar este sistema en flujos de trabajo como el procesamiento de facturas o el soporte al cliente?

Wang, en un mensaje directo a VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas diseñando sus propios ejercicios de entrenamiento para agentes de IA usando RAGEN, señalando que el enlace de GitHub proporciona una introducción simple para agregar nuevos entornos.

Otro aspecto crítico es la escalabilidad. Incluso con las mejoras proporcionadas por StarPO-S, el artículo reconoce que el entrenamiento aún colapsa eventualmente en horizontes más largos. Esto plantea la pregunta: ¿existe un camino teórico o práctico para sostener el razonamiento en secuencias de tareas abiertas o en constante evolución?

Al momento de escribir, no se lista ninguna licencia explícita en el repositorio o documentación de RAGEN en GitHub, dejando preguntas abiertas sobre los derechos de uso. No obstante, RAGEN destaca no solo como una contribución técnica, sino como un paso conceptual hacia agentes de IA más autónomos y capaces de razonar. Si se convertirá en parte de la pila de IA empresarial aún está por verse, pero sus ideas sobre la dinámica de aprendizaje de agentes ya están ayudando a redefinir la frontera del entrenamiento de LLM.

Artículo relacionado
DeepSeek presenta un modelo de IA que rivaliza con los sistemas de vanguardia DeepSeek presenta un modelo de IA que rivaliza con los sistemas de vanguardia El laboratorio chino de IA DeepSeek ha lanzado dos versiones preliminares de su último modelo de lenguaje a gran escala, DeepSeek V4, una actualización muy esperada del modelo V3.2 del año pasado y de
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
La IA revela agendas ocultas en los contenidos informativos La IA revela agendas ocultas en los contenidos informativos Los modelos del tipo ChatGPT se están entrenando ahora para descubrir la perspectiva subyacente de un artículo periodístico, incluso cuando ese punto de vista se oculta tras citas, encuadres o una apa
Recomendaciones de temas especiales relacionados
Negocio Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa
Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas
xix.ai
Negocio Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos
Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas
xix.ai
Productividad Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental
Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas
xix.ai
chatbot Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes
Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas
xix.ai
Educación y aprendizaje Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.
Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas
xix.ai
chatbot Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real
Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas
xix.ai
comentario (10)
0/500
CharlesYoung
CharlesYoung 8 de abril de 2026 20:00:57 GMT+02:00

Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.

JosephMartínez
JosephMartínez 4 de abril de 2026 18:00:41 GMT+02:00

這方法聽起來滿有趣的,但訓練出真正可靠的AI代理還是有段距離吧?RAGEN這個方向不錯,但實務上遇到意外狀況時,它們真的能妥善應對嗎?先觀望一下實際應用案例再說...🤔

GregoryRodriguez
GregoryRodriguez 12 de octubre de 2025 04:30:38 GMT+02:00

RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?

ScottEvans
ScottEvans 13 de agosto de 2025 13:00:59 GMT+02:00

RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!

JimmyRamirez
JimmyRamirez 23 de julio de 2025 06:59:29 GMT+02:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker
RalphWalker 6 de mayo de 2025 09:48:04 GMT+02:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

OR