El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

Hogar

Noticias

4 de mayo de 2025

DavidMartínez

# alibaba # DeepSeek # qwen # GitHub # LLMs # nlp # qwen-2-5 # ragen # starpo

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El año de los agentes de IA: una mirada más cercana a las expectativas y realidades de 2025

2025 fue anunciado por muchos expertos como el año en que los agentes de IA, sistemas de IA específicos impulsados por un lenguaje grande y modelos multimodales avanzados de compañías como OpenAi, Anthrope, Google y Deepseek, finalmente tomarían el centro del escenario. Sin embargo, según una encuesta reciente de VentureBeat en la red social X, la mayoría de los agentes de IA todavía languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.

Pero hay un rayo de esperanza en el horizonte. Un esfuerzo de colaboración de investigadores de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington, incluido Zihan Wang, un ex investigador de Deepseek que ahora persigue un doctorado en informática en Northwestern, ha presentado a Ragen. Este nuevo sistema tiene como objetivo entrenar y evaluar a los agentes de IA para que sean más confiables y adaptables para el uso empresarial del mundo real.

Ragen: Un nuevo enfoque para capacitar a los agentes de IA

A diferencia de las tareas estáticas, como la resolución de matemáticas o la generación de códigos, Ragen se centra en las interacciones dinámicas y de múltiples vueltas donde los agentes deben adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje de refuerzo personalizado (RL) llamado Starpo (optimización de políticas de recompensa de acciones estatales), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización de memoria. Starpo busca secuencias de toma de decisiones completas, no solo respuestas de un solo paso.

Starpo opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por razonamiento, y una etapa de actualización donde el modelo está optimizado utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un bucle de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.

Los investigadores probaron este marco utilizando versiones ajustadas de los modelos QWEN de Alibaba, específicamente QWEN 1.5 y QWEN 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y las comparaciones de referencia consistentes entre las tareas simbólicas.

La trampa de eco: un desafío en el aprendizaje de refuerzo

Zihan Wang destacó un problema crítico en la capacitación de RL en un hilo X ampliamente compartido: * ¿Por qué su entrenamiento RL siempre colapsa? * El equipo identificó que, si bien los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan los atajos de recompensa, lo que lleva a comportamientos repetitivos que degradan el rendimiento: un fenómeno que dúcen los "estampados de echa".

Esta regresión se ve impulsada por los bucles de retroalimentación donde ciertas frases o estrategias ganan altas recompensas desde el principio, alentando el uso excesivo y la exploración sofocante. Los síntomas son claros: acantilados de varianza de recompensa, picos de gradiente y trazas de razonamiento de desaparición.

Entornos de prueba de Ragen

Para estudiar estos comportamientos en un entorno controlado, Ragen evalúa a los agentes en tres entornos simbólicos:

Bandit: una tarea estocástica única que prueba el razonamiento simbólico de riesgo-recompensa.
Sokoban: un rompecabezas determinista de múltiples vueltas que involucra decisiones irreversibles.
Lago Frozen: una tarea estocástica y múltiple que requiere una planificación adaptativa.

Cada entorno está diseñado para minimizar los antecedentes del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante la capacitación. Por ejemplo, en el entorno de bandidos, los agentes deben razonar simbólicamente sobre los brazos de Dragon y Phoenix que representan diferentes distribuciones de recompensas, interpretándolas como "fuerza" y "esperanza" para predecir los resultados.

Estabilización del aprendizaje de refuerzo con Starpo-S

Para combatir el colapso de la capacitación, los investigadores introdujeron Starpo-S, una versión estabilizada del marco original. Starpo-S incluye tres intervenciones clave:

Filtrado de despliegue basado en la incertidumbre: priorizar los despliegos donde el agente muestra la incertidumbre del resultado.
Eliminación de penalización de KL: permitir que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
Recorte de PPO asimétrico: amplificando las trayectorias de alta recompensa más que las de baja recompensa para aumentar el aprendizaje.

Estos cambios ayudan a retrasar o eliminar el colapso de la capacitación y mejorar el rendimiento en las tres tareas. Como dijo Wang, "Starpo-S ... funciona en las 3 tareas. Alivia el colapso. Mejor recompensa".

¿Qué hace un buen modelo de IA de agente?

El éxito de la capacitación RL depende no solo de la arquitectura sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que afectan significativamente el entrenamiento:

Diversidad de tareas: exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
Granularidad de interacción: permitir múltiples acciones por turno permite una planificación más significativa.
Frescura de despliegue: mantener los datos de capacitación alineados con la política de modelo actual evita señales de aprendizaje anticuadas.

Estos factores contribuyen a un proceso de capacitación más estable y efectivo. Un sitio de demostración interactivo en GitHub visualiza los despliegos de agentes como diálogos completos, incluidas no solo acciones sino el proceso de pensamiento paso a paso que los precede. Por ejemplo, al resolver un problema matemático, un agente podría "pensar" primero en aislar una variable antes de enviar una respuesta como 'x = 5'. Estos pensamientos intermedios son visibles y rastreables, agregando transparencia a cómo los agentes toman decisiones.

Cuando se agota el razonamiento

Si bien el razonamiento explícito mejora el rendimiento en tareas simples de un solo cambio, como Bandit, tiende a decaer durante el entrenamiento de múltiples vueltas. A pesar de usar indicaciones y fichas estructuradas, las huellas de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de la tarea puede descuidar la calidad del proceso detrás de él. El equipo experimentó con sanciones basadas en formatos para alentar el razonamiento mejor estructurado, pero reconoce que probablemente se necesite una configuración de recompensa más refinada.

Herramientas abiertas y direcciones futuras

Ragen, junto con sus marcos Starpo y Starpo-S, ahora está disponible como un proyecto de fuente abierta en https://github.com/ragen-ai/ragen . Sin embargo, al momento de escribir, no se enumera ninguna licencia explícita en el repositorio de GitHub, que puede limitar su uso o redistribución por parte de otros.

El sistema proporciona una base valiosa para aquellos interesados en desarrollar agentes de IA que no solo completen tareas sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como Ragen ayudan a iluminar lo que se necesita para entrenar modelos que aprenden de las consecuencias de sus propias acciones.

Preguntas sobresalientes para la adopción empresarial del mundo real

Si bien el documento de Ragen ofrece una hoja de ruta técnica detallada, quedan varias preguntas prácticas para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿qué tan transferible es el enfoque de Ragen más allá de las tareas simbólicas estilizadas? ¿Deberían las empresas diseñar entornos completamente nuevos y recompensar funciones para usar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?

Wang, en un mensaje directo para VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas que diseñan sus propios ejercicios de capacitación para agentes de IA que usan Ragen, señalando que el enlace GitHub proporciona una introducción simple para agregar nuevos entornos.

Otra área crítica es la escalabilidad. Incluso con las mejoras proporcionadas por Starpo-S, el documento reconoce que el entrenamiento finalmente se derrumba en horizontes más largos. Esto plantea la pregunta: ¿existe una ruta teórica o práctica para mantener el razonamiento sobre las secuencias de tareas abiertas o en evolución continua?

Al momento de escribir, no se enumera ninguna licencia explícita en el repositorio o documentación de Ragen Github, dejando preguntas abiertas sobre los derechos de uso. No obstante, Ragen se destaca no solo como una contribución técnica sino también como un paso conceptual hacia agentes de IA más autónomos y capaces de razonamiento. Queda por ver si se convierte en parte de la pila Enterprise AI, pero sus ideas sobre la dinámica de aprendizaje del agente ya están ayudando a redefinir la frontera de la capacitación de LLM.

Artículo relacionado

Google Presenta Modelos de IA Gemini 2.5 Listos para Producción para Competir con OpenAI en el Mercado Empresarial Google intensificó su estrategia de IA el lunes, lanzando sus avanzados modelos Gemini 2.5 para uso empresarial e introduciendo una variante rentable para competir en precio y rendimiento.La empresa p

Alibaba presenta Wan2.1-VACE: solución de video de IA de código abierto Alibaba ha presentado Wan2.1-VACE, un modelo de IA de código abierto diseñado para transformar los procesos de creación y edición de videos.VACE es un componente clave de la familia de modelos de IA d

Experimento de Retail Potenciado por IA Falla Espectacularmente en Anthropic Imagina entregar una pequeña tienda a una inteligencia artificial, confiándole todo, desde los precios hasta las interacciones con los clientes. ¿Qué podría salir mal?Un reciente estudio de Anthropic,

comentario (6)

0/200

Entregar

JimmyRamirez

23 de julio de 2025 06:59:29 GMT+02:00

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker

6 de mayo de 2025 09:48:04 GMT+02:00

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams

6 de mayo de 2025 00:45:54 GMT+02:00

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね！🚀

EricLewis

5 de mayo de 2025 05:45:04 GMT+02:00

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

GeorgeTaylor

4 de mayo de 2025 22:00:48 GMT+02:00

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

MateoAdams

4 de mayo de 2025 17:14:20 GMT+02:00

RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Operai mejora el asistente de voz de IA para mejores chats Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Doblaje AI: Guía Definitiva para la Creación de Voz Realista AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador Clonación de Voz IA: La guía definitiva para dominar la conversión de voz Experimente el crucigrama de E/S con IA: un giro moderno en el clásico juego de palabras El CEO de NVIDIA aclara los conceptos erróneos sobre el impacto del mercado de Deepseek

Más

Presentado