opción
Hogar
Noticias
El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

4 de mayo de 2025
53

El ex Deepseeker y los colaboradores lanzan un nuevo método para capacitar a los agentes de IA confiables: Ragen

El año de los agentes de IA: una mirada más cercana a las expectativas y realidades de 2025

2025 fue anunciado por muchos expertos como el año en que los agentes de IA, sistemas de IA específicos impulsados ​​por un lenguaje grande y modelos multimodales avanzados de compañías como OpenAi, Anthrope, Google y Deepseek, finalmente tomarían el centro del escenario. Sin embargo, según una encuesta reciente de VentureBeat en la red social X, la mayoría de los agentes de IA todavía languidecen en etapas experimentales, atrapados en una especie de limbo corporativo.

Pero hay un rayo de esperanza en el horizonte. Un esfuerzo de colaboración de investigadores de la Universidad Northwestern, Microsoft, Stanford y la Universidad de Washington, incluido Zihan Wang, un ex investigador de Deepseek que ahora persigue un doctorado en informática en Northwestern, ha presentado a Ragen. Este nuevo sistema tiene como objetivo entrenar y evaluar a los agentes de IA para que sean más confiables y adaptables para el uso empresarial del mundo real.

Ragen: Un nuevo enfoque para capacitar a los agentes de IA

A diferencia de las tareas estáticas, como la resolución de matemáticas o la generación de códigos, Ragen se centra en las interacciones dinámicas y de múltiples vueltas donde los agentes deben adaptarse, recordar y razonar en medio de la incertidumbre. El sistema se basa en un marco de aprendizaje de refuerzo personalizado (RL) llamado Starpo (optimización de políticas de recompensa de acciones estatales), que enfatiza el aprendizaje a través de la experiencia en lugar de la memorización de memoria. Starpo busca secuencias de toma de decisiones completas, no solo respuestas de un solo paso.

Starpo opera en dos fases: una etapa de despliegue donde el LLM genera secuencias de interacción completas guiadas por razonamiento, y una etapa de actualización donde el modelo está optimizado utilizando recompensas acumulativas normalizadas. Este enfoque ofrece un bucle de aprendizaje más estable e interpretable en comparación con los métodos tradicionales de optimización de políticas.

Los investigadores probaron este marco utilizando versiones ajustadas de los modelos QWEN de Alibaba, específicamente QWEN 1.5 y QWEN 2.5, elegidos por sus pesos abiertos y fuertes capacidades de seguimiento de instrucciones. Esta elección facilitó la reproducibilidad y las comparaciones de referencia consistentes entre las tareas simbólicas.

La trampa de eco: un desafío en el aprendizaje de refuerzo

Zihan Wang destacó un problema crítico en la capacitación de RL en un hilo X ampliamente compartido: * ¿Por qué su entrenamiento RL siempre colapsa? * El equipo identificó que, si bien los agentes de LLM inicialmente producen respuestas bien razonadas, los sistemas de RL a menudo recompensan los atajos de recompensa, lo que lleva a comportamientos repetitivos que degradan el rendimiento: un fenómeno que dúcen los "estampados de echa".

Esta regresión se ve impulsada por los bucles de retroalimentación donde ciertas frases o estrategias ganan altas recompensas desde el principio, alentando el uso excesivo y la exploración sofocante. Los síntomas son claros: acantilados de varianza de recompensa, picos de gradiente y trazas de razonamiento de desaparición.

Entornos de prueba de Ragen

Para estudiar estos comportamientos en un entorno controlado, Ragen evalúa a los agentes en tres entornos simbólicos:

  • Bandit: una tarea estocástica única que prueba el razonamiento simbólico de riesgo-recompensa.
  • Sokoban: un rompecabezas determinista de múltiples vueltas que involucra decisiones irreversibles.
  • Lago Frozen: una tarea estocástica y múltiple que requiere una planificación adaptativa.

Cada entorno está diseñado para minimizar los antecedentes del mundo real y centrarse únicamente en las estrategias de toma de decisiones desarrolladas durante la capacitación. Por ejemplo, en el entorno de bandidos, los agentes deben razonar simbólicamente sobre los brazos de Dragon y Phoenix que representan diferentes distribuciones de recompensas, interpretándolas como "fuerza" y "esperanza" para predecir los resultados.

Estabilización del aprendizaje de refuerzo con Starpo-S

Para combatir el colapso de la capacitación, los investigadores introdujeron Starpo-S, una versión estabilizada del marco original. Starpo-S incluye tres intervenciones clave:

  1. Filtrado de despliegue basado en la incertidumbre: priorizar los despliegos donde el agente muestra la incertidumbre del resultado.
  2. Eliminación de penalización de KL: permitir que el modelo se desvíe más libremente de su política original y explore nuevos comportamientos.
  3. Recorte de PPO asimétrico: amplificando las trayectorias de alta recompensa más que las de baja recompensa para aumentar el aprendizaje.

Estos cambios ayudan a retrasar o eliminar el colapso de la capacitación y mejorar el rendimiento en las tres tareas. Como dijo Wang, "Starpo-S ... funciona en las 3 tareas. Alivia el colapso. Mejor recompensa".

¿Qué hace un buen modelo de IA de agente?

El éxito de la capacitación RL depende no solo de la arquitectura sino también de la calidad de los datos generados por los agentes. El equipo identificó tres dimensiones cruciales que afectan significativamente el entrenamiento:

  • Diversidad de tareas: exponer el modelo a una amplia gama de escenarios iniciales mejora la generalización.
  • Granularidad de interacción: permitir múltiples acciones por turno permite una planificación más significativa.
  • Frescura de despliegue: mantener los datos de capacitación alineados con la política de modelo actual evita señales de aprendizaje anticuadas.

Estos factores contribuyen a un proceso de capacitación más estable y efectivo. Un sitio de demostración interactivo en GitHub visualiza los despliegos de agentes como diálogos completos, incluidas no solo acciones sino el proceso de pensamiento paso a paso que los precede. Por ejemplo, al resolver un problema matemático, un agente podría "pensar" primero en aislar una variable antes de enviar una respuesta como 'x = 5'. Estos pensamientos intermedios son visibles y rastreables, agregando transparencia a cómo los agentes toman decisiones.

Cuando se agota el razonamiento

Si bien el razonamiento explícito mejora el rendimiento en tareas simples de un solo cambio, como Bandit, tiende a decaer durante el entrenamiento de múltiples vueltas. A pesar de usar indicaciones y fichas estructuradas, las huellas de razonamiento a menudo se reducen o desaparecen a menos que se recompensen directamente. Esto resalta una limitación en cómo se diseñan típicamente las recompensas: centrarse en la finalización de la tarea puede descuidar la calidad del proceso detrás de él. El equipo experimentó con sanciones basadas en formatos para alentar el razonamiento mejor estructurado, pero reconoce que probablemente se necesite una configuración de recompensa más refinada.

Herramientas abiertas y direcciones futuras

Ragen, junto con sus marcos Starpo y Starpo-S, ahora está disponible como un proyecto de fuente abierta en https://github.com/ragen-ai/ragen . Sin embargo, al momento de escribir, no se enumera ninguna licencia explícita en el repositorio de GitHub, que puede limitar su uso o redistribución por parte de otros.

El sistema proporciona una base valiosa para aquellos interesados ​​en desarrollar agentes de IA que no solo completen tareas sino que también piensen, planifiquen y evolucionen. A medida que la IA avanza hacia una mayor autonomía, proyectos como Ragen ayudan a iluminar lo que se necesita para entrenar modelos que aprenden de las consecuencias de sus propias acciones.

Preguntas sobresalientes para la adopción empresarial del mundo real

Si bien el documento de Ragen ofrece una hoja de ruta técnica detallada, quedan varias preguntas prácticas para aquellos que buscan aplicar estos métodos en entornos empresariales. Por ejemplo, ¿qué tan transferible es el enfoque de Ragen más allá de las tareas simbólicas estilizadas? ¿Deberían las empresas diseñar entornos completamente nuevos y recompensar funciones para usar este sistema en flujos de trabajo como el procesamiento de facturas o la atención al cliente?

Wang, en un mensaje directo para VentureBeat en X, sugirió que mejorar la diversidad de tareas podría ayudar, ya que las tareas de juego actuales solo tienen representaciones de cuadrícula similares pero carecen de información semántica. También expresó optimismo sobre las empresas que diseñan sus propios ejercicios de capacitación para agentes de IA que usan Ragen, señalando que el enlace GitHub proporciona una introducción simple para agregar nuevos entornos.

Otra área crítica es la escalabilidad. Incluso con las mejoras proporcionadas por Starpo-S, el documento reconoce que el entrenamiento finalmente se derrumba en horizontes más largos. Esto plantea la pregunta: ¿existe una ruta teórica o práctica para mantener el razonamiento sobre las secuencias de tareas abiertas o en evolución continua?

Al momento de escribir, no se enumera ninguna licencia explícita en el repositorio o documentación de Ragen Github, dejando preguntas abiertas sobre los derechos de uso. No obstante, Ragen se destaca no solo como una contribución técnica sino también como un paso conceptual hacia agentes de IA más autónomos y capaces de razonamiento. Queda por ver si se convierte en parte de la pila Enterprise AI, pero sus ideas sobre la dinámica de aprendizaje del agente ya están ayudando a redefinir la frontera de la capacitación de LLM.

Artículo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
comentario (5)
0/200
RalphWalker
RalphWalker 6 de mayo de 2025 00:00:00 GMT

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams
NicholasAdams 6 de mayo de 2025 00:00:00 GMT

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀

MateoAdams
MateoAdams 4 de mayo de 2025 00:00:00 GMT

RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀

GeorgeTaylor
GeorgeTaylor 5 de mayo de 2025 00:00:00 GMT

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

EricLewis
EricLewis 5 de mayo de 2025 00:00:00 GMT

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

Volver arriba
OR