Ex -Deepseeker e Collaborators lançam um novo método para treinar agentes de IA confiáveis: Ragen

O Ano dos Agentes de IA: Um Olhar Mais Atento sobre as Expectativas e Realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes de IA — sistemas de IA especializados alimentados por modelos de linguagem avançados e multimodais de empresas como OpenAI, Anthropic, Google e DeepSeek — finalmente ocupariam o centro do palco. No entanto, de acordo com uma recente enquete da VentureBeat na rede social X, a maioria dos agentes de IA ainda está em estágios experimentais, presos em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e da University of Washington, incluindo Zihan Wang, ex-pesquisador da DeepSeek e agora doutorando em ciência da computação na Northwestern, apresentou o RAGEN. Este novo sistema visa treinar e avaliar agentes de IA para torná-los mais confiáveis e adaptáveis para uso empresarial no mundo real.
RAGEN: Uma Nova Abordagem para Treinamento de Agentes de IA
Ao contrário de tarefas estáticas, como resolução de problemas matemáticos ou geração de código, o RAGEN foca em interações dinâmicas de múltiplas rodadas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre um framework personalizado de aprendizado por reforço (RL) chamado StarPO (Otimização de Política de Estado-Pensamento-Ações-Recompensa), que enfatiza o aprendizado por experiência, em vez de memorização mecânica. O StarPO analisa sequências completas de tomada de decisão, não apenas respostas de etapa única.
O StarPO opera em duas fases: uma etapa de rollout, onde o LLM gera sequências completas de interação guiadas por raciocínio, e uma etapa de atualização, onde o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um ciclo de aprendizado mais estável e interpretável em comparação com métodos tradicionais de otimização de políticas.
Os pesquisadores testaram esse framework usando versões ajustadas dos modelos Qwen da Alibaba, especificamente Qwen 1.5 e Qwen 2.5, escolhidos por seus pesos abertos e fortes capacidades de seguir instruções. Essa escolha facilitou a reprodutibilidade e comparações consistentes de linha de base em tarefas simbólicas.
A Armadilha do Eco: Um Desafio no Aprendizado por Reforço
Zihan Wang destacou um problema crítico no treinamento de RL em uma thread amplamente compartilhada no X: *Por que seu treinamento de RL sempre colapsa?* A equipe identificou que, embora os agentes de LLM inicialmente produzam respostas bem fundamentadas, os sistemas de RL frequentemente recompensam atalhos, levando a comportamentos repetitivos que degradam o desempenho — um fenômeno que eles chamaram de "Armadilha do Eco".
Essa regressão é alimentada por loops de feedback onde certas frases ou estratégias recebem altas recompensas no início, incentivando o uso excessivo e sufocando a exploração Kimberly. Os sintomas são claros: quedas na variância de recompensa, picos de gradiente e rastros de raciocínio que desaparecem.
Ambientes de Teste do RAGEN
Para estudar esses comportamentos em um ambiente controlado, o RAGEN avalia agentes em três ambientes simbólicos:
- Bandit: Uma tarefa estocástica de turno único que testa o raciocínio simbólico de risco-recompensa.
- Sokoban: Um quebra-cabeça determinístico de múltiplos turnos envolvendo decisões irreversíveis.
- Frozen Lake: Uma tarefa estocástica de múltiplos turnos que exige planejamento adaptativo.
Cada ambiente é projetado para minimizar vieses do mundo real e focar exclusivamente nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente Bandit, os agentes devem raciocinar simbolicamente sobre os braços Dragon e Phoenix, que representam diferentes distribuições de recompensa, interpretando-os como "força" e "esperança" para prever resultados.
Estabilizando o Aprendizado por Reforço com StarPO-S
Para combater o colapso do treinamento, os pesquisadores apresentaram o StarPO-S, uma versão estabilizada do framework original. O StarPO-S inclui três intervenções principais:
- Filtragem de rollout baseada em incerteza: Priorizando rollouts onde o agente demonstra incerteza nos resultados.
- Remoção da penalidade KL: Permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Clipping assimétrico de PPO: Amplificando trajetórias de alta recompensa mais do que as de baixa recompensa para impulsionar o aprendizado.
Essas mudanças ajudam a retardar ou eliminar o colapso do treinamento e melhorar o desempenho em todas as três tarefas. Como Wang disse, "StarPO-S… funciona em todas as 3 tarefas. Alivia o colapso. Melhor recompensa."
O que Faz um Bom Modelo de IA Agêntica?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que impactam significativamente o treinamento:
- Diversidade de tarefas: Expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: Permitir múltiplas ações por turno possibilita um planejamento mais significativo.
- Frescor do rollout: Manter os dados de treinamento alinhados com a política atual do modelo evita sinais de aprendizado desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativa no Github visualiza os rollouts de agentes como turnos completos de diálogo, incluindo não apenas ações, mas também o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema matemático, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, adicionando transparência a como os agentes tomam decisões.
Quando o Raciocínio Acaba
Embora o raciocínio explícito melhore o desempenho em tarefas simples de turno único, como Bandit, ele tende a decair durante o treinamento de múltiplos turnos. Apesar do uso de prompts estruturados e tokens, os rastros de raciocínio frequentemente diminuem ou desaparecem, a menos que sejam diretamente recompensados. Isso destaca uma limitação em como as recompensas são normalmente projetadas: focar na conclusão da tarefa pode negligenciar a qualidade do processo por trás dela. A equipe experimentou penalidades baseadas em formato para encorajar um raciocínio melhor estruturado, mas reconhece que um modelamento de recompensa mais refinado provavelmente é necessário.
Ferramentas Abertas e Direções Futuras
O RAGEN, junto com seus frameworks StarPO e StarPO-S, agora está disponível como um projeto de código aberto em https://github.com/RAGEN-AI/RAGEN. No entanto, no momento da redação, nenhuma licença explícita está listada no repositório do GitHub, o que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para aqueles interessados em desenvolver agentes de IA que não apenas completem tarefas, mas também pensem, planejem e evoluam. À medida que a IA avança para maior autonomia, projetos como o RAGEN ajudam a iluminar o que é necessário para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas Pendentes para Adoção Empresarial no Mundo Real
Embora o artigo do RAGEN ofereça um roteiro técnico detalhado, várias questões práticas permanecem para aqueles que desejam aplicar esses métodos em ambientes empresariais. Por exemplo, quão transferível é a abordagem do RAGEN além de tarefas simbólicas estilizadas? As empresas precisariam projetar ambientes e funções de recompensa completamente novos para usar este sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta à VentureBeat no X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, já que as tarefas de jogos atuais possuem apenas representações de grade semelhantes, mas carecem de informações semânticas. Ele também expressou otimismo sobre as empresas projetarem seus próprios exercícios de treinamento para agentes de IA usando o RAGEN, observando que o link do GitHub fornece uma introdução simples para adicionar novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com as melhorias fornecidas pelo StarPO-S, o artigo reconhece que o treinamento ainda eventualmente colapsa em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio em sequências de tarefas abertas ou em constante evolução?
No momento da redação, nenhuma licença explícita está listada no repositório ou documentação do RAGEN, deixando questões em aberto sobre direitos de uso. Ainda assim, o RAGEN se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e capazes de raciocínio. Se ele se tornará parte da pilha de IA empresarial ainda está por ser visto, mas suas percepções sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento de LLM.
Artigo relacionado
Os principais laboratórios de IA alertam que a humanidade está perdendo o controle sobre a compreensão dos sistemas de IA
Em uma demonstração de união sem precedentes, pesquisadores da OpenAI, Google DeepMind, Anthropic e Meta deixaram de lado as diferenças competitivas para emitir um alerta coletivo sobre o desenvolvime
Atualização de IA do Anthropic: Claude agora pesquisa todo o espaço de trabalho do Google instantaneamente
A grande atualização de hoje da Anthropic transforma o Claude de um assistente de IA no que a empresa chama de "verdadeiro colaborador virtual", introduzindo recursos inovadores de pesquisa autônoma e
A IA 'ZeroSearch' da Alibaba reduz os custos de treinamento em 88% por meio da aprendizagem autônoma
ZeroSearch da Alibaba: Um divisor de águas para a eficiência do treinamento em IAOs pesquisadores do Alibaba Group foram pioneiros em um método inovador que pode revolucionar a forma como os sistemas
Comentários (7)
0/200
ScottEvans
13 de Agosto de 2025 à59 12:00:59 WEST
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
23 de Julho de 2025 à29 05:59:29 WEST
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6 de Maio de 2025 à4 08:48:04 WEST
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
5 de Maio de 2025 à54 23:45:54 WEST
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5 de Maio de 2025 à4 04:45:04 WEST
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
4 de Maio de 2025 à48 21:00:48 WEST
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
O Ano dos Agentes de IA: Um Olhar Mais Atento sobre as Expectativas e Realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes de IA — sistemas de IA especializados alimentados por modelos de linguagem avançados e multimodais de empresas como OpenAI, Anthropic, Google e DeepSeek — finalmente ocupariam o centro do palco. No entanto, de acordo com uma recente enquete da VentureBeat na rede social X, a maioria dos agentes de IA ainda está em estágios experimentais, presos em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e da University of Washington, incluindo Zihan Wang, ex-pesquisador da DeepSeek e agora doutorando em ciência da computação na Northwestern, apresentou o RAGEN. Este novo sistema visa treinar e avaliar agentes de IA para torná-los mais confiáveis e adaptáveis para uso empresarial no mundo real.
RAGEN: Uma Nova Abordagem para Treinamento de Agentes de IA
Ao contrário de tarefas estáticas, como resolução de problemas matemáticos ou geração de código, o RAGEN foca em interações dinâmicas de múltiplas rodadas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre um framework personalizado de aprendizado por reforço (RL) chamado StarPO (Otimização de Política de Estado-Pensamento-Ações-Recompensa), que enfatiza o aprendizado por experiência, em vez de memorização mecânica. O StarPO analisa sequências completas de tomada de decisão, não apenas respostas de etapa única.
O StarPO opera em duas fases: uma etapa de rollout, onde o LLM gera sequências completas de interação guiadas por raciocínio, e uma etapa de atualização, onde o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um ciclo de aprendizado mais estável e interpretável em comparação com métodos tradicionais de otimização de políticas.
Os pesquisadores testaram esse framework usando versões ajustadas dos modelos Qwen da Alibaba, especificamente Qwen 1.5 e Qwen 2.5, escolhidos por seus pesos abertos e fortes capacidades de seguir instruções. Essa escolha facilitou a reprodutibilidade e comparações consistentes de linha de base em tarefas simbólicas.
A Armadilha do Eco: Um Desafio no Aprendizado por Reforço
Zihan Wang destacou um problema crítico no treinamento de RL em uma thread amplamente compartilhada no X: *Por que seu treinamento de RL sempre colapsa?* A equipe identificou que, embora os agentes de LLM inicialmente produzam respostas bem fundamentadas, os sistemas de RL frequentemente recompensam atalhos, levando a comportamentos repetitivos que degradam o desempenho — um fenômeno que eles chamaram de "Armadilha do Eco".
Essa regressão é alimentada por loops de feedback onde certas frases ou estratégias recebem altas recompensas no início, incentivando o uso excessivo e sufocando a exploração Kimberly. Os sintomas são claros: quedas na variância de recompensa, picos de gradiente e rastros de raciocínio que desaparecem.
Ambientes de Teste do RAGEN
Para estudar esses comportamentos em um ambiente controlado, o RAGEN avalia agentes em três ambientes simbólicos:
- Bandit: Uma tarefa estocástica de turno único que testa o raciocínio simbólico de risco-recompensa.
- Sokoban: Um quebra-cabeça determinístico de múltiplos turnos envolvendo decisões irreversíveis.
- Frozen Lake: Uma tarefa estocástica de múltiplos turnos que exige planejamento adaptativo.
Cada ambiente é projetado para minimizar vieses do mundo real e focar exclusivamente nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente Bandit, os agentes devem raciocinar simbolicamente sobre os braços Dragon e Phoenix, que representam diferentes distribuições de recompensa, interpretando-os como "força" e "esperança" para prever resultados.
Estabilizando o Aprendizado por Reforço com StarPO-S
Para combater o colapso do treinamento, os pesquisadores apresentaram o StarPO-S, uma versão estabilizada do framework original. O StarPO-S inclui três intervenções principais:
- Filtragem de rollout baseada em incerteza: Priorizando rollouts onde o agente demonstra incerteza nos resultados.
- Remoção da penalidade KL: Permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Clipping assimétrico de PPO: Amplificando trajetórias de alta recompensa mais do que as de baixa recompensa para impulsionar o aprendizado.
Essas mudanças ajudam a retardar ou eliminar o colapso do treinamento e melhorar o desempenho em todas as três tarefas. Como Wang disse, "StarPO-S… funciona em todas as 3 tarefas. Alivia o colapso. Melhor recompensa."
O que Faz um Bom Modelo de IA Agêntica?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que impactam significativamente o treinamento:
- Diversidade de tarefas: Expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: Permitir múltiplas ações por turno possibilita um planejamento mais significativo.
- Frescor do rollout: Manter os dados de treinamento alinhados com a política atual do modelo evita sinais de aprendizado desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativa no Github visualiza os rollouts de agentes como turnos completos de diálogo, incluindo não apenas ações, mas também o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema matemático, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, adicionando transparência a como os agentes tomam decisões.
Quando o Raciocínio Acaba
Embora o raciocínio explícito melhore o desempenho em tarefas simples de turno único, como Bandit, ele tende a decair durante o treinamento de múltiplos turnos. Apesar do uso de prompts estruturados e tokens, os rastros de raciocínio frequentemente diminuem ou desaparecem, a menos que sejam diretamente recompensados. Isso destaca uma limitação em como as recompensas são normalmente projetadas: focar na conclusão da tarefa pode negligenciar a qualidade do processo por trás dela. A equipe experimentou penalidades baseadas em formato para encorajar um raciocínio melhor estruturado, mas reconhece que um modelamento de recompensa mais refinado provavelmente é necessário.
Ferramentas Abertas e Direções Futuras
O RAGEN, junto com seus frameworks StarPO e StarPO-S, agora está disponível como um projeto de código aberto em https://github.com/RAGEN-AI/RAGEN. No entanto, no momento da redação, nenhuma licença explícita está listada no repositório do GitHub, o que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para aqueles interessados em desenvolver agentes de IA que não apenas completem tarefas, mas também pensem, planejem e evoluam. À medida que a IA avança para maior autonomia, projetos como o RAGEN ajudam a iluminar o que é necessário para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas Pendentes para Adoção Empresarial no Mundo Real
Embora o artigo do RAGEN ofereça um roteiro técnico detalhado, várias questões práticas permanecem para aqueles que desejam aplicar esses métodos em ambientes empresariais. Por exemplo, quão transferível é a abordagem do RAGEN além de tarefas simbólicas estilizadas? As empresas precisariam projetar ambientes e funções de recompensa completamente novos para usar este sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta à VentureBeat no X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, já que as tarefas de jogos atuais possuem apenas representações de grade semelhantes, mas carecem de informações semânticas. Ele também expressou otimismo sobre as empresas projetarem seus próprios exercícios de treinamento para agentes de IA usando o RAGEN, observando que o link do GitHub fornece uma introdução simples para adicionar novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com as melhorias fornecidas pelo StarPO-S, o artigo reconhece que o treinamento ainda eventualmente colapsa em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio em sequências de tarefas abertas ou em constante evolução?
No momento da redação, nenhuma licença explícita está listada no repositório ou documentação do RAGEN, deixando questões em aberto sobre direitos de uso. Ainda assim, o RAGEN se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e capazes de raciocínio. Se ele se tornará parte da pilha de IA empresarial ainda está por ser visto, mas suas percepções sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento de LLM.




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












