Lar
Ex -Deepseeker e Collaborators lançam um novo método para treinar agentes de IA confiáveis: Ragen

O Ano dos Agentes de IA: Um Olhar Mais Atento sobre as Expectativas e Realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes de IA — sistemas de IA especializados alimentados por modelos de linguagem avançados e multimodais de empresas como OpenAI, Anthropic, Google e DeepSeek — finalmente ocupariam o centro do palco. No entanto, de acordo com uma recente enquete da VentureBeat na rede social X, a maioria dos agentes de IA ainda está em estágios experimentais, presos em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e da University of Washington, incluindo Zihan Wang, ex-pesquisador da DeepSeek e agora doutorando em ciência da computação na Northwestern, apresentou o RAGEN. Este novo sistema visa treinar e avaliar agentes de IA para torná-los mais confiáveis e adaptáveis para uso empresarial no mundo real.
RAGEN: Uma Nova Abordagem para Treinamento de Agentes de IA
Ao contrário de tarefas estáticas, como resolução de problemas matemáticos ou geração de código, o RAGEN foca em interações dinâmicas de múltiplas rodadas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre um framework personalizado de aprendizado por reforço (RL) chamado StarPO (Otimização de Política de Estado-Pensamento-Ações-Recompensa), que enfatiza o aprendizado por experiência, em vez de memorização mecânica. O StarPO analisa sequências completas de tomada de decisão, não apenas respostas de etapa única.
O StarPO opera em duas fases: uma etapa de rollout, onde o LLM gera sequências completas de interação guiadas por raciocínio, e uma etapa de atualização, onde o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um ciclo de aprendizado mais estável e interpretável em comparação com métodos tradicionais de otimização de políticas.
Os pesquisadores testaram esse framework usando versões ajustadas dos modelos Qwen da Alibaba, especificamente Qwen 1.5 e Qwen 2.5, escolhidos por seus pesos abertos e fortes capacidades de seguir instruções. Essa escolha facilitou a reprodutibilidade e comparações consistentes de linha de base em tarefas simbólicas.
A Armadilha do Eco: Um Desafio no Aprendizado por Reforço
Zihan Wang destacou um problema crítico no treinamento de RL em uma thread amplamente compartilhada no X: *Por que seu treinamento de RL sempre colapsa?* A equipe identificou que, embora os agentes de LLM inicialmente produzam respostas bem fundamentadas, os sistemas de RL frequentemente recompensam atalhos, levando a comportamentos repetitivos que degradam o desempenho — um fenômeno que eles chamaram de "Armadilha do Eco".
Essa regressão é alimentada por loops de feedback onde certas frases ou estratégias recebem altas recompensas no início, incentivando o uso excessivo e sufocando a exploração Kimberly. Os sintomas são claros: quedas na variância de recompensa, picos de gradiente e rastros de raciocínio que desaparecem.
Ambientes de Teste do RAGEN
Para estudar esses comportamentos em um ambiente controlado, o RAGEN avalia agentes em três ambientes simbólicos:
- Bandit: Uma tarefa estocástica de turno único que testa o raciocínio simbólico de risco-recompensa.
- Sokoban: Um quebra-cabeça determinístico de múltiplos turnos envolvendo decisões irreversíveis.
- Frozen Lake: Uma tarefa estocástica de múltiplos turnos que exige planejamento adaptativo.
Cada ambiente é projetado para minimizar vieses do mundo real e focar exclusivamente nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente Bandit, os agentes devem raciocinar simbolicamente sobre os braços Dragon e Phoenix, que representam diferentes distribuições de recompensa, interpretando-os como "força" e "esperança" para prever resultados.
Estabilizando o Aprendizado por Reforço com StarPO-S
Para combater o colapso do treinamento, os pesquisadores apresentaram o StarPO-S, uma versão estabilizada do framework original. O StarPO-S inclui três intervenções principais:
- Filtragem de rollout baseada em incerteza: Priorizando rollouts onde o agente demonstra incerteza nos resultados.
- Remoção da penalidade KL: Permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Clipping assimétrico de PPO: Amplificando trajetórias de alta recompensa mais do que as de baixa recompensa para impulsionar o aprendizado.
Essas mudanças ajudam a retardar ou eliminar o colapso do treinamento e melhorar o desempenho em todas as três tarefas. Como Wang disse, "StarPO-S… funciona em todas as 3 tarefas. Alivia o colapso. Melhor recompensa."
O que Faz um Bom Modelo de IA Agêntica?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que impactam significativamente o treinamento:
- Diversidade de tarefas: Expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: Permitir múltiplas ações por turno possibilita um planejamento mais significativo.
- Frescor do rollout: Manter os dados de treinamento alinhados com a política atual do modelo evita sinais de aprendizado desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativa no Github visualiza os rollouts de agentes como turnos completos de diálogo, incluindo não apenas ações, mas também o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema matemático, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, adicionando transparência a como os agentes tomam decisões.
Quando o Raciocínio Acaba
Embora o raciocínio explícito melhore o desempenho em tarefas simples de turno único, como Bandit, ele tende a decair durante o treinamento de múltiplos turnos. Apesar do uso de prompts estruturados e tokens, os rastros de raciocínio frequentemente diminuem ou desaparecem, a menos que sejam diretamente recompensados. Isso destaca uma limitação em como as recompensas são normalmente projetadas: focar na conclusão da tarefa pode negligenciar a qualidade do processo por trás dela. A equipe experimentou penalidades baseadas em formato para encorajar um raciocínio melhor estruturado, mas reconhece que um modelamento de recompensa mais refinado provavelmente é necessário.
Ferramentas Abertas e Direções Futuras
O RAGEN, junto com seus frameworks StarPO e StarPO-S, agora está disponível como um projeto de código aberto em https://github.com/RAGEN-AI/RAGEN. No entanto, no momento da redação, nenhuma licença explícita está listada no repositório do GitHub, o que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para aqueles interessados em desenvolver agentes de IA que não apenas completem tarefas, mas também pensem, planejem e evoluam. À medida que a IA avança para maior autonomia, projetos como o RAGEN ajudam a iluminar o que é necessário para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas Pendentes para Adoção Empresarial no Mundo Real
Embora o artigo do RAGEN ofereça um roteiro técnico detalhado, várias questões práticas permanecem para aqueles que desejam aplicar esses métodos em ambientes empresariais. Por exemplo, quão transferível é a abordagem do RAGEN além de tarefas simbólicas estilizadas? As empresas precisariam projetar ambientes e funções de recompensa completamente novos para usar este sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta à VentureBeat no X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, já que as tarefas de jogos atuais possuem apenas representações de grade semelhantes, mas carecem de informações semânticas. Ele também expressou otimismo sobre as empresas projetarem seus próprios exercícios de treinamento para agentes de IA usando o RAGEN, observando que o link do GitHub fornece uma introdução simples para adicionar novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com as melhorias fornecidas pelo StarPO-S, o artigo reconhece que o treinamento ainda eventualmente colapsa em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio em sequências de tarefas abertas ou em constante evolução?
No momento da redação, nenhuma licença explícita está listada no repositório ou documentação do RAGEN, deixando questões em aberto sobre direitos de uso. Ainda assim, o RAGEN se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e capazes de raciocínio. Se ele se tornará parte da pilha de IA empresarial ainda está por ser visto, mas suas percepções sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento de LLM.
Artigo relacionado
A DeepSeek apresenta um modelo de IA que rivaliza com os sistemas de ponta
O laboratório chinês de IA DeepSeek lançou duas versões preliminares de seu mais recente modelo de linguagem de grande escala, o DeepSeek V4, uma atualização muito aguardada do modelo V3.2 do ano pass
Multiverse Computing lança modelo gratuito de IA generativa compactada
Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr
A IA revela agendas ocultas no conteúdo noticioso
Modelos do tipo ChatGPT estão agora sendo treinados para revelar a perspectiva subjacente de uma notícia — mesmo quando esse ponto de vista está oculto por citações, enquadramento ou uma aparência de
Recomendações de tópicos especiais relacionados
Comentários (10)
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

O Ano dos Agentes de IA: Um Olhar Mais Atento sobre as Expectativas e Realidades de 2025
2025 foi anunciado por muitos especialistas como o ano em que os agentes de IA — sistemas de IA especializados alimentados por modelos de linguagem avançados e multimodais de empresas como OpenAI, Anthropic, Google e DeepSeek — finalmente ocupariam o centro do palco. No entanto, de acordo com uma recente enquete da VentureBeat na rede social X, a maioria dos agentes de IA ainda está em estágios experimentais, presos em uma espécie de limbo corporativo.
Mas há um vislumbre de esperança no horizonte. Um esforço colaborativo de pesquisadores da Northwestern University, Microsoft, Stanford e da University of Washington, incluindo Zihan Wang, ex-pesquisador da DeepSeek e agora doutorando em ciência da computação na Northwestern, apresentou o RAGEN. Este novo sistema visa treinar e avaliar agentes de IA para torná-los mais confiáveis e adaptáveis para uso empresarial no mundo real.
RAGEN: Uma Nova Abordagem para Treinamento de Agentes de IA
Ao contrário de tarefas estáticas, como resolução de problemas matemáticos ou geração de código, o RAGEN foca em interações dinâmicas de múltiplas rodadas, onde os agentes precisam se adaptar, lembrar e raciocinar em meio à incerteza. O sistema é construído sobre um framework personalizado de aprendizado por reforço (RL) chamado StarPO (Otimização de Política de Estado-Pensamento-Ações-Recompensa), que enfatiza o aprendizado por experiência, em vez de memorização mecânica. O StarPO analisa sequências completas de tomada de decisão, não apenas respostas de etapa única.
O StarPO opera em duas fases: uma etapa de rollout, onde o LLM gera sequências completas de interação guiadas por raciocínio, e uma etapa de atualização, onde o modelo é otimizado usando recompensas cumulativas normalizadas. Essa abordagem oferece um ciclo de aprendizado mais estável e interpretável em comparação com métodos tradicionais de otimização de políticas.
Os pesquisadores testaram esse framework usando versões ajustadas dos modelos Qwen da Alibaba, especificamente Qwen 1.5 e Qwen 2.5, escolhidos por seus pesos abertos e fortes capacidades de seguir instruções. Essa escolha facilitou a reprodutibilidade e comparações consistentes de linha de base em tarefas simbólicas.
A Armadilha do Eco: Um Desafio no Aprendizado por Reforço
Zihan Wang destacou um problema crítico no treinamento de RL em uma thread amplamente compartilhada no X: *Por que seu treinamento de RL sempre colapsa?* A equipe identificou que, embora os agentes de LLM inicialmente produzam respostas bem fundamentadas, os sistemas de RL frequentemente recompensam atalhos, levando a comportamentos repetitivos que degradam o desempenho — um fenômeno que eles chamaram de "Armadilha do Eco".
Essa regressão é alimentada por loops de feedback onde certas frases ou estratégias recebem altas recompensas no início, incentivando o uso excessivo e sufocando a exploração Kimberly. Os sintomas são claros: quedas na variância de recompensa, picos de gradiente e rastros de raciocínio que desaparecem.
Ambientes de Teste do RAGEN
Para estudar esses comportamentos em um ambiente controlado, o RAGEN avalia agentes em três ambientes simbólicos:
- Bandit: Uma tarefa estocástica de turno único que testa o raciocínio simbólico de risco-recompensa.
- Sokoban: Um quebra-cabeça determinístico de múltiplos turnos envolvendo decisões irreversíveis.
- Frozen Lake: Uma tarefa estocástica de múltiplos turnos que exige planejamento adaptativo.
Cada ambiente é projetado para minimizar vieses do mundo real e focar exclusivamente nas estratégias de tomada de decisão desenvolvidas durante o treinamento. Por exemplo, no ambiente Bandit, os agentes devem raciocinar simbolicamente sobre os braços Dragon e Phoenix, que representam diferentes distribuições de recompensa, interpretando-os como "força" e "esperança" para prever resultados.
Estabilizando o Aprendizado por Reforço com StarPO-S
Para combater o colapso do treinamento, os pesquisadores apresentaram o StarPO-S, uma versão estabilizada do framework original. O StarPO-S inclui três intervenções principais:
- Filtragem de rollout baseada em incerteza: Priorizando rollouts onde o agente demonstra incerteza nos resultados.
- Remoção da penalidade KL: Permitindo que o modelo se desvie mais livremente de sua política original e explore novos comportamentos.
- Clipping assimétrico de PPO: Amplificando trajetórias de alta recompensa mais do que as de baixa recompensa para impulsionar o aprendizado.
Essas mudanças ajudam a retardar ou eliminar o colapso do treinamento e melhorar o desempenho em todas as três tarefas. Como Wang disse, "StarPO-S… funciona em todas as 3 tarefas. Alivia o colapso. Melhor recompensa."
O que Faz um Bom Modelo de IA Agêntica?
O sucesso do treinamento de RL depende não apenas da arquitetura, mas também da qualidade dos dados gerados pelos agentes. A equipe identificou três dimensões cruciais que impactam significativamente o treinamento:
- Diversidade de tarefas: Expor o modelo a uma ampla gama de cenários iniciais melhora a generalização.
- Granularidade de interação: Permitir múltiplas ações por turno possibilita um planejamento mais significativo.
- Frescor do rollout: Manter os dados de treinamento alinhados com a política atual do modelo evita sinais de aprendizado desatualizados.
Esses fatores contribuem para um processo de treinamento mais estável e eficaz. Um site de demonstração interativa no Github visualiza os rollouts de agentes como turnos completos de diálogo, incluindo não apenas ações, mas também o processo de pensamento passo a passo que os precede. Por exemplo, ao resolver um problema matemático, um agente pode primeiro 'pensar' em isolar uma variável antes de enviar uma resposta como 'x = 5'. Esses pensamentos intermediários são visíveis e rastreáveis, adicionando transparência a como os agentes tomam decisões.
Quando o Raciocínio Acaba
Embora o raciocínio explícito melhore o desempenho em tarefas simples de turno único, como Bandit, ele tende a decair durante o treinamento de múltiplos turnos. Apesar do uso de prompts estruturados e tokens, os rastros de raciocínio frequentemente diminuem ou desaparecem, a menos que sejam diretamente recompensados. Isso destaca uma limitação em como as recompensas são normalmente projetadas: focar na conclusão da tarefa pode negligenciar a qualidade do processo por trás dela. A equipe experimentou penalidades baseadas em formato para encorajar um raciocínio melhor estruturado, mas reconhece que um modelamento de recompensa mais refinado provavelmente é necessário.
Ferramentas Abertas e Direções Futuras
O RAGEN, junto com seus frameworks StarPO e StarPO-S, agora está disponível como um projeto de código aberto em https://github.com/RAGEN-AI/RAGEN. No entanto, no momento da redação, nenhuma licença explícita está listada no repositório do GitHub, o que pode limitar seu uso ou redistribuição por outros.
O sistema fornece uma base valiosa para aqueles interessados em desenvolver agentes de IA que não apenas completem tarefas, mas também pensem, planejem e evoluam. À medida que a IA avança para maior autonomia, projetos como o RAGEN ajudam a iluminar o que é necessário para treinar modelos que aprendem com as consequências de suas próprias ações.
Perguntas Pendentes para Adoção Empresarial no Mundo Real
Embora o artigo do RAGEN ofereça um roteiro técnico detalhado, várias questões práticas permanecem para aqueles que desejam aplicar esses métodos em ambientes empresariais. Por exemplo, quão transferível é a abordagem do RAGEN além de tarefas simbólicas estilizadas? As empresas precisariam projetar ambientes e funções de recompensa completamente novos para usar este sistema em fluxos de trabalho como processamento de faturas ou suporte ao cliente?
Wang, em uma mensagem direta à VentureBeat no X, sugeriu que melhorar a diversidade de tarefas poderia ajudar, já que as tarefas de jogos atuais possuem apenas representações de grade semelhantes, mas carecem de informações semânticas. Ele também expressou otimismo sobre as empresas projetarem seus próprios exercícios de treinamento para agentes de IA usando o RAGEN, observando que o link do GitHub fornece uma introdução simples para adicionar novos ambientes.
Outra área crítica é a escalabilidade. Mesmo com as melhorias fornecidas pelo StarPO-S, o artigo reconhece que o treinamento ainda eventualmente colapsa em horizontes mais longos. Isso levanta a questão: existe um caminho teórico ou prático para sustentar o raciocínio em sequências de tarefas abertas ou em constante evolução?
No momento da redação, nenhuma licença explícita está listada no repositório ou documentação do RAGEN, deixando questões em aberto sobre direitos de uso. Ainda assim, o RAGEN se destaca não apenas como uma contribuição técnica, mas como um passo conceitual em direção a agentes de IA mais autônomos e capazes de raciocínio. Se ele se tornará parte da pilha de IA empresarial ainda está por ser visto, mas suas percepções sobre a dinâmica de aprendizado de agentes já estão ajudando a redefinir a fronteira do treinamento de LLM.
A DeepSeek apresenta um modelo de IA que rivaliza com os sistemas de ponta
O laboratório chinês de IA DeepSeek lançou duas versões preliminares de seu mais recente modelo de linguagem de grande escala, o DeepSeek V4, uma atualização muito aguardada do modelo V3.2 do ano pass
Multiverse Computing lança modelo gratuito de IA generativa compactada
Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr
A IA revela agendas ocultas no conteúdo noticioso
Modelos do tipo ChatGPT estão agora sendo treinados para revelar a perspectiva subjacente de uma notícia — mesmo quando esse ponto de vista está oculto por citações, enquadramento ou uma aparência de
Estaba viendo las noticias sobre el lanzamiento de RAGEN y me preguntaba: ¿están los agentes de IA realmente listos para el uso general? Los anuncios son prometedores, pero en la práctica, seguro que surgen fallos en casos de borde. Sobre todo con la ética y el control. ¿Alguien ha probado realmente estas herramientas? Da un poco de respeto, la verdad 😅.
RAGEN sounds promising, but I'm skeptical about the 'reliable' claim 🤔. Every time a new training method drops, it's hailed as revolutionary... until the limitations surface. Remember when we thought RLHF was the ultimate solution?
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔











