소식 전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen

전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen

2025년 5월 4일
DavidMartínez
0

전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen

AI 요원의 해 : 2025 년의 기대와 현실에 대한 자세한 내용

2025 년 AI 에이전트 (OpenAi, Anthropic, Google 및 DeepSeek와 같은 회사의 고급 대형 언어 및 다중 모드 모델로 구동되는 AI 에이전트)가 마침내 중앙 단계를 밟을 수있는 AI 에이전트가 많은 전문가들에 의해 예고되었습니다. 그러나 소셜 네트워크 X의 최근 벤처 비트 여론 조사에 따르면, 대부분의 AI 요원은 여전히 ​​실험 단계에서 고통을 겪고 있으며 일종의 기업 림보에 걸렸습니다.

그러나 수평선에는 희망이 빛납니다. 노스 웨스턴 대학교, 마이크로 소프트, 스탠포드 및 워싱턴 대학교의 연구원들의 협력 노력은 현재 노스 웨스턴에서 컴퓨터 과학 박사 학위를 추구하는 전 딥 스키 (Deepseek) 연구원 인 Zihan Wang을 포함하여 Ragen을 소개했습니다. 이 새로운 시스템은 AI 에이전트를 교육하고 평가하여 실제 엔터프라이즈 사용에보다 신뢰할 수 있고 적응할 수 있도록하는 것을 목표로합니다.

RAGEN : AI 요원 훈련에 대한 새로운 접근 방식

Ragen은 수학 해결 또는 코드 생성과 같은 정적 작업과 달리 에이전트가 불확실성 속에서 적응, 기억 및 이유가 필요한 동적 다중 회전 상호 작용에 중점을 둡니다. 이 시스템은 Starpo (State-thinking-Actions-Reward 정책 최적화)라는 맞춤형 강화 학습 (RL) 프레임 워크를 기반으로하며, 이는 암기보다는 경험을 통한 학습을 ​​강조합니다. Starpo는 단일 단계 응답뿐만 아니라 전체 의사 결정 시퀀스를 살펴 봅니다.

Starpo는 LLM이 추론에 의해 안내 된 완전한 상호 작용 시퀀스를 생성하는 롤아웃 스테이지와 정규화 된 누적 보상을 사용하여 모델이 최적화되는 업데이트 단계 인 두 단계로 작동합니다. 이 접근법은 전통적인 정책 최적화 방법에 비해보다 안정적이고 해석 가능한 학습 루프를 제공합니다.

연구원들은 Alibaba의 Qwen 모델의 미세 조정 된 버전, 특히 Qwen 1.5 및 Qwen 2.5를 사용하여 열린 가중치와 강력한 교육 기능으로 선택된이 프레임 워크를 테스트했습니다. 이 선택은 상징적 작업에 대한 재현성과 일관된 기준 비교를 촉진했습니다.

에코 트랩 : 강화 학습의 도전

Zihan Wang은 널리 공유 된 X 스레드에서 RL 교육에서 중요한 문제를 강조했습니다. * RL 교육이 항상 무너지는 이유는 무엇입니까? * 팀은 LLM 에이전트가 처음에 잘 통합 된 응답을 생성하는 반면, RL 시스템은 종종 성능을 저하시키는 반복적 인 행동으로 이어지는 반복적 인 행동을 이끌어 냈습니다.

이 회귀 분석은 특정 문구 나 전략이 초기에 높은 보상을 얻는 피드백 루프에 의해 촉진되어 과도하게 사용하고 탐사를 장려합니다. 증상은 분명합니다. 보상 분산 절벽, 그라디언트 스파이크 및 사라지는 추론 흔적.

Ragen의 테스트 환경

통제 된 환경에서 이러한 행동을 연구하기 위해 Ragen은 세 가지 상징적 환경에서 에이전트를 평가합니다.

  • Bandit : 상징적 위험 보상 추론을 테스트하는 단일 회전의 확률 적 작업.
  • Sokoban : 돌이킬 수없는 결정과 관련된 다중 회전, 결정 론적 퍼즐.
  • Frozen Lake : 적응 계획이 필요한 확률 론적 다중 회전 작업.

각 환경은 실제 사전을 최소화하고 훈련 중에 개발 된 의사 결정 전략에만 집중하도록 설계되었습니다. 예를 들어, 산적 환경에서, 요원들은 다른 보상 분포를 나타내는 용과 피닉스 암에 대해 상징적으로 추론해야하며, 결과를 예측하기 위해 "강도"및 "희망"으로 해석해야합니다.

Starpo-S를 사용한 강화 학습 안정화

훈련 붕괴와 싸우기 위해 연구원들은 원래 프레임 워크의 안정화 된 버전 인 Starpo-S를 소개했습니다. Starpo-S에는 세 가지 주요 개입이 포함됩니다.

  1. 불확실성 기반 롤아웃 필터링 : 에이전트가 결과 불확실성을 보여주는 롤아웃 우선 순위.
  2. KL 페널티 제거 : 모델이 원래 정책에서보다 자유롭게 벗어나 새로운 행동을 탐색 할 수 있도록합니다.
  3. 비대칭 PPO 클리핑 : 학습을 높이기 위해 보상이 적은 것보다 높은 보상 궤적을 증폭시킵니다.

이러한 변경 사항은 교육 붕괴를 지연 시키거나 제거하고 세 가지 작업 모두에서 성능을 향상시키는 데 도움이됩니다. Wang이 말한 것처럼 "Starpo-S…는 3 가지 작업 모두에서 작동합니다. 붕괴를 완화하십시오. 더 나은 보상."

좋은 에이전트 AI 모델은 무엇입니까?

RL 교육의 성공은 아키텍처뿐만 아니라 에이전트가 생성 한 데이터의 품질에도 달려 있습니다. 팀은 교육에 크게 영향을 미치는 세 가지 중요한 차원을 확인했습니다.

  • 작업 다양성 : 모델을 광범위한 초기 시나리오에 노출하면 일반화가 향상됩니다.
  • 상호 작용 과립 : 턴당 여러 행동을 허용하면 더 의미있는 계획이 가능합니다.
  • 롤아웃 신선함 : 교육 데이터를 현재 모델 정책에 맞추는 것은 오래된 학습 신호를 피할 수 있습니다.

이러한 요소는보다 안정적이고 효과적인 교육 과정에 기여합니다. GitHub의 대화식 데모 사이트는 작업뿐만 아니라 이전의 단계별 사고 과정을 포함하여 에이전트 롤아웃을 전체 대화로 시각화합니다. 예를 들어, 수학 문제를 해결할 때 에이전트는 먼저 'x = 5'와 같은 답을 제출하기 전에 변수를 격리하는 것에 대해 '생각'할 수 있습니다. 이러한 중간 사고는 눈에 띄고 추적 가능하며, 에이전트가 결정을 내리는 방법에 투명성을 더합니다.

추론이 다 떨어질 때

명백한 추론은 Bandit과 같은 단순한 단일 회전 작업의 성능을 향상 시키지만 멀티 턴 훈련 중에 부패하는 경향이 있습니다. 구조화 된 프롬프트와 토큰을 사용하더라도 추론 추론은 직접적으로 보상하지 않는 한 종종 수축하거나 사라집니다. 이것은 보상이 일반적으로 설계되는 방법에 대한 제한을 강조합니다. 작업 완료에 중점을두면 그 뒤에있는 프로세스의 품질을 무시할 수 있습니다. 이 팀은 더 나은 구조적 추론을 장려하기 위해 형식 기반 벌칙을 실험했지만 더 세련된 보상 형성이 필요하다는 것을 인정했습니다.

열린 도구와 향후 방향

Ragen은 Starpo 및 Starpo-S 프레임 워크와 함께 https://github.com/ragen-ai/ragen 에서 오픈 소스 프로젝트로 제공됩니다. 그러나 글을 쓰는 시점에는 GitHub 저장소에 명시 적 라이센스가 나열되어 있지 않으며,이 라이센스는 다른 사람의 사용 또는 재분배를 제한 할 수 있습니다.

이 시스템은 완전한 작업뿐만 아니라 생각하고 계획하고 진화하는 AI 에이전트 개발에 관심이있는 사람들에게 귀중한 기반을 제공합니다. AI가 더 큰 자율성을 향해 나아가면서 Ragen과 같은 프로젝트는 자신의 행동의 결과로부터 배우는 모델을 훈련시키는 데 필요한 것을 조명합니다.

실제 기업 채택을위한 뛰어난 질문

Ragen Paper는 자세한 기술 로드맵을 제공하지만 기업 환경에 이러한 방법을 적용하려는 사람들에게는 몇 가지 실질적인 질문이 남아 있습니다. 예를 들어, Ragen의 접근 방식은 양식화되고 상징적 인 작업을 넘어서는가? 기업은 송장 처리 또는 고객 지원과 같은 워크 플로 에서이 시스템을 사용하기 위해 완전히 새로운 환경과 보상 기능을 설계해야합니까?

Wang은 X의 VentureBeat에게 직접 메시지를 보내는 메시지에서 현재 게임 작업에는 유사한 그리드 표현 만 있지만 의미 론적 정보가 부족하기 때문에 작업 다양성을 개선하면 도움이 될 수 있다고 제안했습니다. 그는 또한 Ragen을 사용하여 AI 요원을위한 자체 교육 연습을 설계하는 비즈니스에 대한 낙관론을 표명했습니다. Github 링크는 새로운 환경 추가에 대한 간단한 소개를 제공한다고 지적했습니다.

또 다른 중요한 영역은 확장 성입니다. Starpo-S가 제공 한 개선 사항에도 불구하고,이 논문은 훈련이 여전히 더 긴 지평을 통해 여전히 무너지고 있음을 인정합니다. 이것은 의문을 제기합니다. 개방형 또는 지속적으로 진화하는 작업 시퀀스에 대한 추론을 유지하는 이론적이거나 실용적인 경로가 있습니까?

글을 쓰는 시점에는 Ragen Github 저장소 또는 문서에 명시적인 라이센스가 나열되어 있지 않으므로 사용 권한에 대한 공개 질문이 남습니다. 그럼에도 불구하고 Ragen은 기술적 기여뿐만 아니라보다 자율적이고 추론 가능한 AI 요원을 향한 개념적 단계로 두드러집니다. 엔터프라이즈 AI 스택의 일부가되는지 여부는 여전히 남아 있지만, 에이전트 학습 역학에 대한 통찰력은 이미 LLM 교육의 국경을 재정의하는 데 도움이되고 있습니다.

관련 기사
Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi La inteligencia está en todas partes, pero medirla con precisión se siente como tratar de atrapar una nube con las manos desnudas. Utilizamos pruebas y puntos de referencia, como los exámenes de ingreso a la universidad, para tener una idea aproximada. Cada año, los estudiantes se agrupan por estas pruebas, a veces incluso anotando un 100%perfecto. Pero ese puntaje perfecto m
Llega la búsqueda profunda abierta para desafiar la perplejidad y la búsqueda de chatgpt Llega la búsqueda profunda abierta para desafiar la perplejidad y la búsqueda de chatgpt Si está en el mundo tecnológico, es probable que haya escuchado sobre el rumor que rodea Open Deep Search (ODS), el nuevo marco de código abierto de la Fundación Sentient. ODS está haciendo olas ofreciendo una alternativa robusta a los motores de búsqueda de IA patentados como la perplejidad y la búsqueda de chatgpt, y se trata de
MCP estandariza la conectividad de IA con herramientas y datos: surge un nuevo protocolo MCP estandariza la conectividad de IA con herramientas y datos: surge un nuevo protocolo Si te estás sumergiendo en el mundo de la inteligencia artificial (IA), probablemente hayas notado lo crucial que es obtener diferentes modelos de IA, fuentes de datos y herramientas para jugar bien juntos. Ahí es donde entra el Protocolo de contexto del modelo (MCP), actuando como un cambio de juego en la estandarización de la conectividad de IA. T
의견 (0)
0/200
Back to Top
OR