Ex -Deepseeker e Collaborators lançam um novo método para treinar agentes de IA confiáveis: Ragen

O ano dos agentes da IA: uma olhada mais de perto nas expectativas e realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes da IA - sistemas especializados em IA, alimentados por grandes idiomas avançados e modelos multimodais de empresas como Openai, Anthropic, Google e Deepseek - finalmente chegaria ao centro do palco. No entanto, de acordo com uma recente pesquisa de VentureBeat na rede social X, a maioria dos agentes de IA ainda está definhando em estágios experimentais, capturados em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e Universidade de Washington, incluindo Zihan Wang, um ex -pesquisador da Deepseek que agora faz um doutorado em ciência da computação no Northwestern, introduziu Ragen. Este novo sistema tem como objetivo treinar e avaliar os agentes de IA para torná-los mais confiáveis e adaptáveis para uso corporativo do mundo real.
Ragen: Uma nova abordagem para treinar agentes de IA
Ao contrário de tarefas estáticas, como resolução de matemática ou geração de código, Ragen se concentra em interações dinâmicas e múltiplas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre uma estrutura de aprendizado de reforço personalizado (RL), chamado Starpo (otimização de políticas de recompensa-de-pensamento do estado), que enfatiza o aprendizado por meio da experiência, em vez de memorização rotineira. O Starpo analisa sequências inteiras de tomada de decisão, não apenas respostas de uma etapa.
O Starpo opera em duas fases: um estágio de lançamento em que o LLM gera sequências completas de interação guiadas pelo raciocínio e um estágio de atualização em que o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um loop de aprendizado mais estável e interpretável em comparação com os métodos tradicionais de otimização de políticas.
Os pesquisadores testaram essa estrutura usando versões de ajuste fino dos modelos QWEN do Alibaba, especificamente QWEN 1.5 e QWEN 2.5, escolhidos por seus pesos abertos e fortes recursos de seguidores de instruções. Essa escolha facilitou a reprodutibilidade e as comparações de linha de base consistentes em tarefas simbólicas.
A armadilha do eco: um desafio no aprendizado de reforço
Zihan Wang destacou uma questão crítica no treinamento de RL em um tópico x amplamente compartilhado: * Por que seu treinamento de RL sempre entra em colapso? * A equipe identificou que, enquanto os agentes da LLM inicialmente produzem respostas bem fundamentadas, os sistemas de RL geralmente recompensam os atalhos, levando a comportamentos repetitivos que degradam o desempenho-um fenômeno que duravam.
Essa regressão é alimentada por loops de feedback, onde certas frases ou estratégias ganham altas recompensas desde o início, incentivando o uso excessivo e sufocando a exploração. Os sintomas são claros: penhascos de variação de recompensa, picos de gradiente e traços de raciocínio que desaparecem.
Ambientes de teste de Ragen
Para estudar esses comportamentos em um ambiente controlado, Ragen avalia os agentes em três ambientes simbólicos:
- Bandit: uma tarefa estocástica e de volta única que testa o raciocínio simbólico de recompensa de risco.
- Sokoban: Um quebra-cabeça determinístico e multifuncional envolvendo decisões irreversíveis.
- Lago Frozen: uma tarefa estocástica e de várias turnos que requer planejamento adaptativo.
Cada ambiente foi projetado para minimizar os anteriores do mundo real e se concentrar apenas nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente de bandidos, os agentes devem raciocinar simbolicamente sobre os braços de dragão e phoenix, representando diferentes distribuições de recompensas, interpretando -as como "força" e "esperança" para prever resultados.
Estabilizar o aprendizado de reforço com Starpo-S
Para combater o colapso do treinamento, os pesquisadores introduziram o Starpo-S, uma versão estabilizada da estrutura original. Starpo-s inclui três intervenções principais:
- Filtragem de lançamento baseada em incerteza: priorizando os lançamentos onde o agente mostra a incerteza dos resultados.
- Remoção de penalidade de KL: permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Rio PPO assimétrico: amplificando as trajetórias de alta recompensa mais do que as de baixa recompensa para aumentar o aprendizado.
Essas mudanças ajudam a atrasar ou eliminar o colapso do treinamento e a melhorar o desempenho nas três tarefas. Como Wang disse: "Starpo-s… funciona em todas as três tarefas. Atenda colapso. Melhor recompensa".
O que faz um bom modelo de IA Agentic?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que afetam significativamente o treinamento:
- Diversidade de tarefas: expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: permitir várias ações por turno permite um planejamento mais significativo.
- Freshness Dreshness: manter os dados de treinamento alinhados com a política de modelo atual evita sinais de aprendizagem desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativo no GitHub visualiza os lançamentos de agentes como o diálogo completo, incluindo não apenas ações, mas o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema de matemática, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, acrescentando transparência a como os agentes tomam decisões.
Quando o raciocínio acaba
Embora o raciocínio explícito aprimore o desempenho em tarefas simples e de volta única, como o Bandit, ele tende a deteriorar-se durante o treinamento com várias turnos. Apesar de usar instruções e tokens estruturados, traços de raciocínio geralmente encolhem ou desaparecem, a menos que diretamente recompensados. Isso destaca uma limitação sobre como as recompensas são normalmente projetadas: o foco na conclusão da tarefa pode negligenciar a qualidade do processo por trás dele. A equipe experimentou penalidades baseadas em formato para incentivar o raciocínio mais bem estruturado, mas reconhece que é necessária uma mais refinada modelagem de recompensa.
Ferramentas abertas e direções futuras
A Ragen, juntamente com suas estruturas Starpo e Starpo-S, agora está disponível como um projeto de código aberto em https://github.com/ragen-ai/ragen . No entanto, no momento da redação deste artigo, nenhuma licença explícita está listada no repositório do GitHub, que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para os interessados em desenvolver agentes de IA que não apenas completam tarefas, mas também pensam, planejam e evoluam. À medida que a IA se move em direção a uma maior autonomia, projetos como Ragen ajudam a iluminar o que é preciso para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas excelentes para adoção corporativa do mundo real
Enquanto o Ragen Paper oferece um roteiro técnico detalhado, várias questões práticas permanecem para quem procura aplicar esses métodos em ambientes corporativos. Por exemplo, quão transferível é a abordagem de Ragen além das tarefas estilizadas e simbólicas? As empresas precisariam projetar ambientes totalmente novos e recompensar funções para usar esse sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta para o VentureBeat em X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, pois as tarefas atuais de jogos têm apenas representações de grade semelhantes, mas não têm informações semânticas. Ele também expressou otimismo sobre as empresas projetando seus próprios exercícios de treinamento para agentes de IA usando Ragen, observando que o link do Github fornece uma introdução simples à adição de novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com os aprimoramentos fornecidos pelo Starpo-S, o artigo reconhece que o treinamento ainda acaba em colapso em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio sobre sequências de tarefas em aberto ou em constante evolução?
No momento da redação. No entanto, Ragen se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e com capacidade para raciocínio. Ainda não se sabe se ela se torna parte da pilha de IA corporativa, mas suas idéias sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento do LLM.
Artigo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Comentários (5)
0/200
RalphWalker
6 de Maio de 2025 à0 00:00:00 GMT
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6 de Maio de 2025 à0 00:00:00 GMT
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
4 de Maio de 2025 à0 00:00:00 GMT
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
5 de Maio de 2025 à0 00:00:00 GMT
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
5 de Maio de 2025 à0 00:00:00 GMT
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
O ano dos agentes da IA: uma olhada mais de perto nas expectativas e realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes da IA - sistemas especializados em IA, alimentados por grandes idiomas avançados e modelos multimodais de empresas como Openai, Anthropic, Google e Deepseek - finalmente chegaria ao centro do palco. No entanto, de acordo com uma recente pesquisa de VentureBeat na rede social X, a maioria dos agentes de IA ainda está definhando em estágios experimentais, capturados em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e Universidade de Washington, incluindo Zihan Wang, um ex -pesquisador da Deepseek que agora faz um doutorado em ciência da computação no Northwestern, introduziu Ragen. Este novo sistema tem como objetivo treinar e avaliar os agentes de IA para torná-los mais confiáveis e adaptáveis para uso corporativo do mundo real.
Ragen: Uma nova abordagem para treinar agentes de IA
Ao contrário de tarefas estáticas, como resolução de matemática ou geração de código, Ragen se concentra em interações dinâmicas e múltiplas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre uma estrutura de aprendizado de reforço personalizado (RL), chamado Starpo (otimização de políticas de recompensa-de-pensamento do estado), que enfatiza o aprendizado por meio da experiência, em vez de memorização rotineira. O Starpo analisa sequências inteiras de tomada de decisão, não apenas respostas de uma etapa.
O Starpo opera em duas fases: um estágio de lançamento em que o LLM gera sequências completas de interação guiadas pelo raciocínio e um estágio de atualização em que o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um loop de aprendizado mais estável e interpretável em comparação com os métodos tradicionais de otimização de políticas.
Os pesquisadores testaram essa estrutura usando versões de ajuste fino dos modelos QWEN do Alibaba, especificamente QWEN 1.5 e QWEN 2.5, escolhidos por seus pesos abertos e fortes recursos de seguidores de instruções. Essa escolha facilitou a reprodutibilidade e as comparações de linha de base consistentes em tarefas simbólicas.
A armadilha do eco: um desafio no aprendizado de reforço
Zihan Wang destacou uma questão crítica no treinamento de RL em um tópico x amplamente compartilhado: * Por que seu treinamento de RL sempre entra em colapso? * A equipe identificou que, enquanto os agentes da LLM inicialmente produzem respostas bem fundamentadas, os sistemas de RL geralmente recompensam os atalhos, levando a comportamentos repetitivos que degradam o desempenho-um fenômeno que duravam.
Essa regressão é alimentada por loops de feedback, onde certas frases ou estratégias ganham altas recompensas desde o início, incentivando o uso excessivo e sufocando a exploração. Os sintomas são claros: penhascos de variação de recompensa, picos de gradiente e traços de raciocínio que desaparecem.
Ambientes de teste de Ragen
Para estudar esses comportamentos em um ambiente controlado, Ragen avalia os agentes em três ambientes simbólicos:
- Bandit: uma tarefa estocástica e de volta única que testa o raciocínio simbólico de recompensa de risco.
- Sokoban: Um quebra-cabeça determinístico e multifuncional envolvendo decisões irreversíveis.
- Lago Frozen: uma tarefa estocástica e de várias turnos que requer planejamento adaptativo.
Cada ambiente foi projetado para minimizar os anteriores do mundo real e se concentrar apenas nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente de bandidos, os agentes devem raciocinar simbolicamente sobre os braços de dragão e phoenix, representando diferentes distribuições de recompensas, interpretando -as como "força" e "esperança" para prever resultados.
Estabilizar o aprendizado de reforço com Starpo-S
Para combater o colapso do treinamento, os pesquisadores introduziram o Starpo-S, uma versão estabilizada da estrutura original. Starpo-s inclui três intervenções principais:
- Filtragem de lançamento baseada em incerteza: priorizando os lançamentos onde o agente mostra a incerteza dos resultados.
- Remoção de penalidade de KL: permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Rio PPO assimétrico: amplificando as trajetórias de alta recompensa mais do que as de baixa recompensa para aumentar o aprendizado.
Essas mudanças ajudam a atrasar ou eliminar o colapso do treinamento e a melhorar o desempenho nas três tarefas. Como Wang disse: "Starpo-s… funciona em todas as três tarefas. Atenda colapso. Melhor recompensa".
O que faz um bom modelo de IA Agentic?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que afetam significativamente o treinamento:
- Diversidade de tarefas: expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: permitir várias ações por turno permite um planejamento mais significativo.
- Freshness Dreshness: manter os dados de treinamento alinhados com a política de modelo atual evita sinais de aprendizagem desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativo no GitHub visualiza os lançamentos de agentes como o diálogo completo, incluindo não apenas ações, mas o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema de matemática, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, acrescentando transparência a como os agentes tomam decisões.
Quando o raciocínio acaba
Embora o raciocínio explícito aprimore o desempenho em tarefas simples e de volta única, como o Bandit, ele tende a deteriorar-se durante o treinamento com várias turnos. Apesar de usar instruções e tokens estruturados, traços de raciocínio geralmente encolhem ou desaparecem, a menos que diretamente recompensados. Isso destaca uma limitação sobre como as recompensas são normalmente projetadas: o foco na conclusão da tarefa pode negligenciar a qualidade do processo por trás dele. A equipe experimentou penalidades baseadas em formato para incentivar o raciocínio mais bem estruturado, mas reconhece que é necessária uma mais refinada modelagem de recompensa.
Ferramentas abertas e direções futuras
A Ragen, juntamente com suas estruturas Starpo e Starpo-S, agora está disponível como um projeto de código aberto em https://github.com/ragen-ai/ragen . No entanto, no momento da redação deste artigo, nenhuma licença explícita está listada no repositório do GitHub, que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para os interessados em desenvolver agentes de IA que não apenas completam tarefas, mas também pensam, planejam e evoluam. À medida que a IA se move em direção a uma maior autonomia, projetos como Ragen ajudam a iluminar o que é preciso para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas excelentes para adoção corporativa do mundo real
Enquanto o Ragen Paper oferece um roteiro técnico detalhado, várias questões práticas permanecem para quem procura aplicar esses métodos em ambientes corporativos. Por exemplo, quão transferível é a abordagem de Ragen além das tarefas estilizadas e simbólicas? As empresas precisariam projetar ambientes totalmente novos e recompensar funções para usar esse sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta para o VentureBeat em X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, pois as tarefas atuais de jogos têm apenas representações de grade semelhantes, mas não têm informações semânticas. Ele também expressou otimismo sobre as empresas projetando seus próprios exercícios de treinamento para agentes de IA usando Ragen, observando que o link do Github fornece uma introdução simples à adição de novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com os aprimoramentos fornecidos pelo Starpo-S, o artigo reconhece que o treinamento ainda acaba em colapso em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio sobre sequências de tarefas em aberto ou em constante evolução?
No momento da redação. No entanto, Ragen se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e com capacidade para raciocínio. Ainda não se sabe se ela se torna parte da pilha de IA corporativa, mas suas idéias sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento do LLM.




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












