전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen

AI 에이전트의 해: 2025년의 기대와 현실에 대한 심층 분석
2025년은 OpenAI, Anthropic, Google, DeepSeek과 같은 회사에서 개발한 고급 대형 언어 및 멀티모달 모델로 구동되는 전문 AI 에이전트가 마침내 주목받을 해로 많은 전문가들이 예고했다. 그러나 최근 X 소셜 네트워크에서 VentureBeat가 실시한 설문조사에 따르면, 대부분의 AI 에이전트는 여전히 실험 단계에 머물러 있으며, 일종의 기업적 림보 상태에 갇혀 있다.
하지만 희망의 빛이 지평선에 보인다. 노스웨스턴 대학교, 마이크로소프트, 스탠퍼드 대학교, 워싱턴 대학교의 연구자들로 구성된 협력 팀, 그리고 이전에 DeepSeek 연구원이었으며 현재 노스웨스턴에서 컴퓨터 과학 박사 과정을 밟고 있는 Zihan Wang이 포함된 팀은 RAGEN을 소개했다. 이 새로운 시스템은 AI 에이전트를 훈련시키고 평가하여 실세계 기업 사용에 보다 신뢰할 수 있고 적응력 있게 만들고자 한다.
RAGEN: AI 에이전트 훈련의 새로운 접근법
수학 문제 풀이나 코드 생성과 같은 정적인 작업과 달리, RAGEN은 에이전트가 불확실성 속에서 적응하고, 기억하고, 추론해야 하는 동적이고 다중 턴 상호작용에 초점을 맞춘다. 이 시스템은 StarPO (State-Thinking-Actions-Reward Policy Optimization)라는 맞춤형 강화 학습(RL) 프레임워크를 기반으로 하며, 암기 학습이 아닌 경험을 통한 학습을 강조한다. StarPO는 단일 단계 응답이 아닌 전체 의사결정 시퀀스를 살펴본다.
StarPO는 두 단계로 작동한다: LLM이 추론에 의해 안내된 완전한 상호작용 시퀀스를 생성하는 롤아웃 단계와, 정규화된 누적 보상을 사용하여 모델을 최적화하는 업데이트 단계다. 이 접근법은 전통적인 정책 최적화 방법에 비해 더 안정적이고 해석 가능한 학습 루프를 제공한다.
연구자들은 알리바바의 Qwen 모델, 구체적으로 Qwen 1.5와 Qwen 2.5의 미세 조정된 버전을 사용하여 이 프레임워크를 테스트했다. 이 모델들은 오픈 웨이트와 강력한 지시 따르기 능력으로 선택되었으며, 이는 재현성과 상징적 작업에 걸친 일관된 기준 비교를 용이하게 했다.
에코 트랩: 강화 학습의 도전 과제
Zihan Wang은 널리 공유된 X 스레드에서 RL 훈련의 중요한 문제를 강조했다: *왜 RL 훈련은 항상 붕괴되는가?* 팀은 LLM 에이전트가 처음에는 잘 추론된 응답을 생성하지만, RL 시스템이 종종 단축된 방법을 보상하여 성능을 저하시키는 반복적인 행동으로 이어지는 현상을 발견했다. 이를 그들은 "에코 트랩"이라고 명명했다.
이러한 퇴행은 특정 문구나 전략이 초기에 높은 보상을 받아 과도하게 사용되며 탐색을 억제하는 피드백 루프에 의해 촉진된다. 증상은 명확하다: 보상 분산의 급격한 하락, 그래디언트 스파이크, 그리고 추론 흔적의 소실이다.
RAGEN의 테스트 환경
이러한 행동을 통제된 환경에서 연구하기 위해, RAGEN은 세 가지 상징적 환경에서 에이전트를 평가한다:
- Bandit: 상징적 위험-보상 추론을 테스트하는 단일 턴, 확률적 작업.
- Sokoban: 비가역적 결정을 포함하는 다중 턴, 결정적 퍼즐.
- Frozen Lake: 적응적 계획이 필요한 확률적, 다중 턴 작업.
각 환경은 실세계 사전 지식을 최소화하고 훈련 중 개발된 의사결정 전략에만 초점을 맞추도록 설계되었다. 예를 들어, Bandit 환경에서 에이전트는 서로 다른 보상 분포를 나타내는 Dragon과 Phoenix 팔에 대해 상징적으로 추론하며, 이를 "힘"과 "희망"으로 해석하여 결과를 예측해야 한다.
StarPO-S로 강화 학습 안정화
훈련 붕괴를 방지하기 위해 연구자들은 원래 프레임워크의 안정화된 버전인 StarPO-S를 도입했다. StarPO-S는 세 가지 주요 개입을 포함한다:
- 불확실성 기반 롤아웃 필터링: 에이전트가 결과 불확실성을 보이는 롤아웃을 우선시한다.
- KL 페널티 제거: 모델이 원래 정책에서 더 자유롭게 벗어나 새로운 행동을 탐색할 수 있도록 한다.
- 비대칭 PPO 클리핑: 낮은 보상 궤적보다 높은 보상 궤적을 더 증폭하여 학습을 촉진한다.
이러한 변경은 훈련 붕괴를 지연시키거나 제거하고 세 가지 작업 모두에서 성능을 향상시킨다. Wang이 말했듯이, "StarPO-S… 세 가지 작업 모두에서 작동한다. 붕괴를 완화한다. 더 나은 보상."
훌륭한 에이전틱 AI 모델을 만드는 요소는?
RL 훈련의 성공은 아키텍처뿐만 아니라 에이전트가 생성한 데이터의 품질에 달려 있다. 팀은 훈련에 큰 영향을 미치는 세 가지 중요한 차원을 식별했다:
- 작업 다양성: 다양한 초기 시나리오에 모델을 노출시키면 일반화가 향상된다.
- 상호작용 세분성: 턴당 여러 행동을 허용하면 더 의미 있는 계획이 가능해진다.
- 롤아웃 신선도: 훈련 데이터를 현재 모델 정책과 정렬하여 오래된 학습 신호를 피한다.
이러한 요소들은 더 안정적이고 효과적인 훈련 과정을 만든다. Github의 대화형 데모 사이트는 에이전트 롤아웃을 전체 대화 턴으로 시각화하며, 행동뿐만 아니라 그에 앞선 단계별 사고 과정을 포함한다. 예를 들어, 수학 문제를 푸는 데 있어 에이전트는 답변 'x = 5'를 제출하기 전에 먼저 변수를 분리하는 '생각'을 할 수 있다. 이러한 중간 사고는 가시적이고 추적 가능하여 에이전트의 의사결정 과정을 투명하게 만든다.
추론이 소진될 때
명시적 추론은 Bandit과 같은 단순한 단일 턴 작업에서 성능을 향상시키지만, 다중 턴 훈련 중에는 퇴화하는 경향이 있다. 구조화된 프롬프트와 토큰을 사용함에도 불구하고, 추론 흔적은 직접 보상받지 않으면 종종 축소되거나 사라진다. 이는 보상이 일반적으로 작업 완료에 초점을 맞추어 설계되며, 그 뒤의 과정 품질을 소홀히 할 수 있음을 보여준다. 팀은 더 나은 구조화된 추론을 장려하기 위해 형식 기반 페널티를 실험했지만, 더 정교한 보상 형성이 필요할 가능성이 있다고 인정했다.
오픈 도구와 미래 방향
RAGEN과 StarPO 및 StarPO-S 프레임워크는 이제 https://github.com/RAGEN-AI/RAGEN에서 오픈 소스 프로젝트로 제공된다. 그러나 작성 시점에서 GitHub 저장소에는 명시적 라이선스가 나열되어 있지 않아 다른 사람의 사용 또는 재배포가 제한될 수 있다.
이 시스템은 작업을 완료할 뿐만 아니라 생각하고, 계획하고, 진화하는 AI 에이전트를 개발하려는 이들에게 귀중한 기반을 제공한다. AI가 더 큰 자율성을 향해 나아가면서, RAGEN과 같은 프로젝트는 모델이 자신의 행동의 결과로부터 배우는 데 필요한 것을 조명하는 데 도움을 준다.
실세계 기업 채택을 위한 미해결 질문
RAGEN 논문은 상세한 기술 로드맵을 제공하지만, 기업 환경에서 이러한 방법을 적용하려는 이들에게 몇 가지 실질적인 질문이 남아 있다. 예를 들어, RAGEN의 접근법은 양식화된 상징적 작업을 넘어 얼마나 전이 가능한가? 기업이 송장 처리나 고객 지원과 같은 워크플로우에서 이 시스템을 사용하려면 완전히 새로운 환경과 보상 함수를 설계해야 할까?
Wang은 X에서 VentureBeat에 보낸 직접 메시지에서 작업 다양성을 개선하면 도움이 될 수 있다고 제안했다. 현재 게임 작업은 유사한 격자 표현만을 가지며 의미적 정보가 부족하다. 그는 또한 기업이 RAGEN을 사용하여 AI 에이전트를 위한 자체 훈련 연습을 설계할 수 있다고 낙관적으로 언급하며, GitHub 링크가 새로운 환경을 추가하는 간단한 소개를 제공한다고 밝혔다.
또 다른 중요한 영역은 확장성이다. StarPO-S의 개선에도 불구하고, 논문은 훈련이 장기적으로 결국 붕괴된다고 인정한다. 이는 개방적이거나 지속적으로 진화하는 작업 시퀀스에서 추론을 지속하는 이론적 또는 실제적 경로가 있는지에 대한 질문을 제기한다.
작성 시점에서 RAGEN GitHub 저장소 또는 문서에는 명시적 라이선스가 나열되어 있지 않아 사용 권한에 대한 질문이 열려 있다. 그럼에도 불구하고, RAGEN은 기술적 기여뿐만 아니라 더 자율적이고 추론 능력을 갖춘 AI 에이전트를 향한 개념적 단계로 두드러진다. 기업 AI 스택의 일부가 될지는 아직 미지수지만, 에이전트 학습 역학에 대한 통찰은 이미 LLM 훈련의 새로운 경계를 재정의하는 데 도움을 주고 있다.
관련 기사
최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다
전례 없는 단결력을 보여준 OpenAI, Google DeepMind, Anthropic, Meta의 연구원들은 경쟁적 차이를 제쳐두고 책임감 있는 AI 개발에 대한 공동의 경고를 발표했습니다. 일반적으로 라이벌 관계에 있는 이들 조직의 40여 명의 선도적인 과학자들은 AI 의사결정 과정의 투명성을 보장하기 위해 빠르게 닫혀가는 창을 강조하는 획기적인 연구
앤트로픽의 AI 업그레이드: 이제 전체 Google 워크스페이스를 즉시 검색하는 Claude
오늘 발표된 앤트로픽의 대대적인 업그레이드는 클라우드를 AI 어시스턴트에서 '진정한 가상 협업자'로 변화시켜 획기적인 자율 연구 기능과 원활한 Google Workspace 통합을 도입합니다. 이러한 발전으로 Claude는 점점 더 혼잡해지는 엔터프라이즈 AI 생산성 영역에서 OpenAI와 Microsoft의 강력한 경쟁자로 자리매김했습니다.새로운 리서치
알리바바의 '제로서치' AI, 자율 학습으로 교육 비용 88% 절감
알리바바의 제로서치: AI 학습 효율성의 판도를 바꾸는 방법알리바바 그룹 연구원들은 값비싼 상용 검색 엔진 API를 완전히 우회하여 AI 시스템이 정보 검색을 학습하는 방식을 혁신할 수 있는 획기적인 방법을 개척했습니다. 이들의 제로서치 기술은 대규모 언어 모델이 훈련 단계에서 기존의 검색 엔진 상호 작용 대신 시뮬레이션 환경을 통해 정교한 검색 능력을 배
의견 (7)
0/200
ScottEvans
2025년 8월 13일 오후 8시 0분 59초 GMT+09:00
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
2025년 7월 23일 오후 1시 59분 29초 GMT+09:00
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
2025년 5월 6일 오후 4시 48분 4초 GMT+09:00
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
2025년 5월 6일 오전 7시 45분 54초 GMT+09:00
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
2025년 5월 5일 오후 12시 45분 4초 GMT+09:00
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
2025년 5월 5일 오전 5시 0분 48초 GMT+09:00
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
AI 에이전트의 해: 2025년의 기대와 현실에 대한 심층 분석
2025년은 OpenAI, Anthropic, Google, DeepSeek과 같은 회사에서 개발한 고급 대형 언어 및 멀티모달 모델로 구동되는 전문 AI 에이전트가 마침내 주목받을 해로 많은 전문가들이 예고했다. 그러나 최근 X 소셜 네트워크에서 VentureBeat가 실시한 설문조사에 따르면, 대부분의 AI 에이전트는 여전히 실험 단계에 머물러 있으며, 일종의 기업적 림보 상태에 갇혀 있다.
하지만 희망의 빛이 지평선에 보인다. 노스웨스턴 대학교, 마이크로소프트, 스탠퍼드 대학교, 워싱턴 대학교의 연구자들로 구성된 협력 팀, 그리고 이전에 DeepSeek 연구원이었으며 현재 노스웨스턴에서 컴퓨터 과학 박사 과정을 밟고 있는 Zihan Wang이 포함된 팀은 RAGEN을 소개했다. 이 새로운 시스템은 AI 에이전트를 훈련시키고 평가하여 실세계 기업 사용에 보다 신뢰할 수 있고 적응력 있게 만들고자 한다.
RAGEN: AI 에이전트 훈련의 새로운 접근법
수학 문제 풀이나 코드 생성과 같은 정적인 작업과 달리, RAGEN은 에이전트가 불확실성 속에서 적응하고, 기억하고, 추론해야 하는 동적이고 다중 턴 상호작용에 초점을 맞춘다. 이 시스템은 StarPO (State-Thinking-Actions-Reward Policy Optimization)라는 맞춤형 강화 학습(RL) 프레임워크를 기반으로 하며, 암기 학습이 아닌 경험을 통한 학습을 강조한다. StarPO는 단일 단계 응답이 아닌 전체 의사결정 시퀀스를 살펴본다.
StarPO는 두 단계로 작동한다: LLM이 추론에 의해 안내된 완전한 상호작용 시퀀스를 생성하는 롤아웃 단계와, 정규화된 누적 보상을 사용하여 모델을 최적화하는 업데이트 단계다. 이 접근법은 전통적인 정책 최적화 방법에 비해 더 안정적이고 해석 가능한 학습 루프를 제공한다.
연구자들은 알리바바의 Qwen 모델, 구체적으로 Qwen 1.5와 Qwen 2.5의 미세 조정된 버전을 사용하여 이 프레임워크를 테스트했다. 이 모델들은 오픈 웨이트와 강력한 지시 따르기 능력으로 선택되었으며, 이는 재현성과 상징적 작업에 걸친 일관된 기준 비교를 용이하게 했다.
에코 트랩: 강화 학습의 도전 과제
Zihan Wang은 널리 공유된 X 스레드에서 RL 훈련의 중요한 문제를 강조했다: *왜 RL 훈련은 항상 붕괴되는가?* 팀은 LLM 에이전트가 처음에는 잘 추론된 응답을 생성하지만, RL 시스템이 종종 단축된 방법을 보상하여 성능을 저하시키는 반복적인 행동으로 이어지는 현상을 발견했다. 이를 그들은 "에코 트랩"이라고 명명했다.
이러한 퇴행은 특정 문구나 전략이 초기에 높은 보상을 받아 과도하게 사용되며 탐색을 억제하는 피드백 루프에 의해 촉진된다. 증상은 명확하다: 보상 분산의 급격한 하락, 그래디언트 스파이크, 그리고 추론 흔적의 소실이다.
RAGEN의 테스트 환경
이러한 행동을 통제된 환경에서 연구하기 위해, RAGEN은 세 가지 상징적 환경에서 에이전트를 평가한다:
- Bandit: 상징적 위험-보상 추론을 테스트하는 단일 턴, 확률적 작업.
- Sokoban: 비가역적 결정을 포함하는 다중 턴, 결정적 퍼즐.
- Frozen Lake: 적응적 계획이 필요한 확률적, 다중 턴 작업.
각 환경은 실세계 사전 지식을 최소화하고 훈련 중 개발된 의사결정 전략에만 초점을 맞추도록 설계되었다. 예를 들어, Bandit 환경에서 에이전트는 서로 다른 보상 분포를 나타내는 Dragon과 Phoenix 팔에 대해 상징적으로 추론하며, 이를 "힘"과 "희망"으로 해석하여 결과를 예측해야 한다.
StarPO-S로 강화 학습 안정화
훈련 붕괴를 방지하기 위해 연구자들은 원래 프레임워크의 안정화된 버전인 StarPO-S를 도입했다. StarPO-S는 세 가지 주요 개입을 포함한다:
- 불확실성 기반 롤아웃 필터링: 에이전트가 결과 불확실성을 보이는 롤아웃을 우선시한다.
- KL 페널티 제거: 모델이 원래 정책에서 더 자유롭게 벗어나 새로운 행동을 탐색할 수 있도록 한다.
- 비대칭 PPO 클리핑: 낮은 보상 궤적보다 높은 보상 궤적을 더 증폭하여 학습을 촉진한다.
이러한 변경은 훈련 붕괴를 지연시키거나 제거하고 세 가지 작업 모두에서 성능을 향상시킨다. Wang이 말했듯이, "StarPO-S… 세 가지 작업 모두에서 작동한다. 붕괴를 완화한다. 더 나은 보상."
훌륭한 에이전틱 AI 모델을 만드는 요소는?
RL 훈련의 성공은 아키텍처뿐만 아니라 에이전트가 생성한 데이터의 품질에 달려 있다. 팀은 훈련에 큰 영향을 미치는 세 가지 중요한 차원을 식별했다:
- 작업 다양성: 다양한 초기 시나리오에 모델을 노출시키면 일반화가 향상된다.
- 상호작용 세분성: 턴당 여러 행동을 허용하면 더 의미 있는 계획이 가능해진다.
- 롤아웃 신선도: 훈련 데이터를 현재 모델 정책과 정렬하여 오래된 학습 신호를 피한다.
이러한 요소들은 더 안정적이고 효과적인 훈련 과정을 만든다. Github의 대화형 데모 사이트는 에이전트 롤아웃을 전체 대화 턴으로 시각화하며, 행동뿐만 아니라 그에 앞선 단계별 사고 과정을 포함한다. 예를 들어, 수학 문제를 푸는 데 있어 에이전트는 답변 'x = 5'를 제출하기 전에 먼저 변수를 분리하는 '생각'을 할 수 있다. 이러한 중간 사고는 가시적이고 추적 가능하여 에이전트의 의사결정 과정을 투명하게 만든다.
추론이 소진될 때
명시적 추론은 Bandit과 같은 단순한 단일 턴 작업에서 성능을 향상시키지만, 다중 턴 훈련 중에는 퇴화하는 경향이 있다. 구조화된 프롬프트와 토큰을 사용함에도 불구하고, 추론 흔적은 직접 보상받지 않으면 종종 축소되거나 사라진다. 이는 보상이 일반적으로 작업 완료에 초점을 맞추어 설계되며, 그 뒤의 과정 품질을 소홀히 할 수 있음을 보여준다. 팀은 더 나은 구조화된 추론을 장려하기 위해 형식 기반 페널티를 실험했지만, 더 정교한 보상 형성이 필요할 가능성이 있다고 인정했다.
오픈 도구와 미래 방향
RAGEN과 StarPO 및 StarPO-S 프레임워크는 이제 https://github.com/RAGEN-AI/RAGEN에서 오픈 소스 프로젝트로 제공된다. 그러나 작성 시점에서 GitHub 저장소에는 명시적 라이선스가 나열되어 있지 않아 다른 사람의 사용 또는 재배포가 제한될 수 있다.
이 시스템은 작업을 완료할 뿐만 아니라 생각하고, 계획하고, 진화하는 AI 에이전트를 개발하려는 이들에게 귀중한 기반을 제공한다. AI가 더 큰 자율성을 향해 나아가면서, RAGEN과 같은 프로젝트는 모델이 자신의 행동의 결과로부터 배우는 데 필요한 것을 조명하는 데 도움을 준다.
실세계 기업 채택을 위한 미해결 질문
RAGEN 논문은 상세한 기술 로드맵을 제공하지만, 기업 환경에서 이러한 방법을 적용하려는 이들에게 몇 가지 실질적인 질문이 남아 있다. 예를 들어, RAGEN의 접근법은 양식화된 상징적 작업을 넘어 얼마나 전이 가능한가? 기업이 송장 처리나 고객 지원과 같은 워크플로우에서 이 시스템을 사용하려면 완전히 새로운 환경과 보상 함수를 설계해야 할까?
Wang은 X에서 VentureBeat에 보낸 직접 메시지에서 작업 다양성을 개선하면 도움이 될 수 있다고 제안했다. 현재 게임 작업은 유사한 격자 표현만을 가지며 의미적 정보가 부족하다. 그는 또한 기업이 RAGEN을 사용하여 AI 에이전트를 위한 자체 훈련 연습을 설계할 수 있다고 낙관적으로 언급하며, GitHub 링크가 새로운 환경을 추가하는 간단한 소개를 제공한다고 밝혔다.
또 다른 중요한 영역은 확장성이다. StarPO-S의 개선에도 불구하고, 논문은 훈련이 장기적으로 결국 붕괴된다고 인정한다. 이는 개방적이거나 지속적으로 진화하는 작업 시퀀스에서 추론을 지속하는 이론적 또는 실제적 경로가 있는지에 대한 질문을 제기한다.
작성 시점에서 RAGEN GitHub 저장소 또는 문서에는 명시적 라이선스가 나열되어 있지 않아 사용 권한에 대한 질문이 열려 있다. 그럼에도 불구하고, RAGEN은 기술적 기여뿐만 아니라 더 자율적이고 추론 능력을 갖춘 AI 에이전트를 향한 개념적 단계로 두드러진다. 기업 AI 스택의 일부가 될지는 아직 미지수지만, 에이전트 학습 역학에 대한 통찰은 이미 LLM 훈련의 새로운 경계를 재정의하는 데 도움을 주고 있다.




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












