소식 AI는 인간의 지식을 넘어서 성장했다고 Google의 Deepmind Unit은 말합니다.

AI는 인간의 지식을 넘어서 성장했다고 Google의 Deepmind Unit은 말합니다.

2025년 4월 25일
JuanLewis
0

전통적인 시험을 넘어 AI 발전 : 경험 학습의 상승

인공 지능 분야 (AI)는 많은 모델이 이미 능숙한 튜링 테스트와 같은 전통적인 벤치 마크의 범위를 넘어 생성 AI를 밀기위한 노력으로 윙윙 거리고 있습니다. 초점은 이제 이러한 테스트를 수행하도록 설계된 것이 아니라보다 역동적 인 프로세스를 통해 진화하도록 설계된 AI 개발로 이동합니다.

David Silver와 Richard Sutton과 같은 전설을 포함한 Google의 Deepmind의 연구원들은 그들의 논문에서 새로운 AI 기능의 잠금을 해제하는 열쇠가 테스트에 있지 않고 AI 훈련을받는 방식 에 있다고 주장합니다. 그들은 현재 사용 된 정적 데이터 세트가 현재 상당한 발전을 촉진하기에는 너무 제한되어 있다고 제안합니다.

그들의 해결책? AI는보다 경험적인 방식으로 세상과 교류해야하며, 상호 작용으로부터 배우고 환경 피드백을 기반으로 목표를 설정해야합니다. "경험적 학습의 모든 잠재력이 활용되면 놀라운 새로운 능력이 발생할 것"이라고 그들은 주장한다. 체스와 Go에서 인간을 가장 잘 보낸 Alphazero에 대한 그의 작품으로 유명한 Silver와 강화 학습의 선구자 인 Sutton은 현재의 큰 언어 모델 (LLM)의 한계를 초월하기위한 "스트림"이라는 새로운 접근법을 제안합니다.

Google Deepmind

Google Deepmind

강화 학습에서 생성 AI에 이르기까지 : 교대 및 그 결과

Alphazero와 Alphago가 성공한 후 AI 커뮤니티는 Chatgpt와 같은 생성 AI 모델로의 전환을 보았습니다. 이로 인해 AI는 더 넓은 범위의 자발적인 인간 입력을 처리 할 수 ​​있었지만 강화 학습이 가능하게하는 자기 발견 측면을 잃는 것을 의미했습니다.

Silver and Sutton에 따르면, 현재 LLM은 프롬프트 단계에서 인간의 판단에 크게 의존하여 잠재력을 제한합니다. "에이전트는 인간 평가자에 의해 과소 평가 된 더 나은 전략을 발견 할 수 없다"고 설명했다. 더욱이, 프롬프트 상호 작용의 짧고 잘린 특성으로 인해 AI는 간단한 질문과 응답 교환을 넘어서는 것을 허용하지 않습니다.

스트림 소개 : AI 학습을위한 새로운 패러다임

제안 된 "경험의 시대"는 인간이 평생 동안 배우는 것처럼 지속적인 상호 작용의 "스트림"내에서 작동하는 AI 요원을 포함합니다. Silver and Sutton은 AI 에이전트를 자신의 장기 경험 스트림으로 구상하여 즉각적인 작업을 넘어서 목표를 추구 할 수 있습니다.

이 접근법은 AI 에이전트가 세계 모델과 상호 작용하여 보상 형태로 피드백을받는 강화 학습을 기반으로합니다. 이러한 보상은 AI가 다른 맥락에서 어떤 행동이 가치가 있는지 배우는 데 도움이됩니다. 연구원들은 세계에 경제 지표에서 건강 지표에 이르기까지 보상으로 작용할 수있는 신호가 풍부하다고 지적합니다.

장기 목표를 가진 AI 요원 구축

이 프로세스를 시작하기 위해 AI 개발자는 "세계 모델"시뮬레이션을 사용하여 AI가 예측을하고 실제로 테스트하며 결과에 따라 모델을 수정할 수 있습니다. AI가 세상과 계속 상호 작용함에 따라, 이해가 발전하여 새로운 데이터에 적응하고 오류를 수정합니다.

AI의 보상 기능이 이러한 목표에 맞추면서 인간은 여전히 ​​체력 향상이나 새로운 언어 학습과 같은 광범위한 목표를 설정하는 데 역할을합니다. 이 설정은 장기 동안 건강 또는 교육을 추적하고 조언하는 AI 보조원으로 이어지거나 새로운 재료 발견 또는 탄소 배출 감소와 같은 야심 찬 과학적 목표를 추구 할 수 있습니다.

AI의 미래 : 경험 학습에 대한 추론을 넘어서

연구원들은 장기적인 체험 학습을 할 수있는 AI 요원이 Gemini 및 Deepseek의 R1과 같은 현재의 "추론"AI 모델을 능가 할 수 있다고 생각합니다. 그들은 추론 모델이 종종 인간의 생각을 모방 한 것으로 주장하며, 이는 오래된 가정에 의해 제한 될 수있다. 대조적으로, 경험적 요원은 전례없는 기능을 잠금 해제 할 수있어 미래가 우리가 본 것과 크게 다릅니다.

그러나 이러한 변화는 작업 변위와 장기간 자율적으로 작동 할 수있는 AI 에이전트를 제어하는 ​​과제와 같은 위험을 초래합니다. 반대로, 적응성 AI는 피드백에 따라 행동을 조정하여 인간에게 부정적인 영향을 완화하는 법을 배울 수 있습니다.

Silver와 Sutton은 체험 데이터가 인간 생성 데이터의 규모와 품질을 훨씬 능가 할 것이라고 확신하며, 잠재적으로 인공 일반 정보 또는 초 지능을 초래할 수 있습니다. 강화 학습의 발전과 함께이 패러다임 전환은 많은 영역에서 인간 도달 범위를 넘어 새로운 기능을 잠금 해제 할 수 있습니다.

Silver는 최근 Deepmind Podcast에서 이러한 아이디어를 더 논의하여 AI를 경험의 시대로 옮기는 잠재력과 도전을 강조했습니다.

관련 기사
Tabletop RPG의 사전 생성 캐릭터 대 커스텀 프로덕션 Tabletop RPG의 사전 생성 캐릭터 대 커스텀 프로덕션 TTRPG (Tabletop roble-Playing Games)에 새로운 플레이어를 소개하는 것은 짜릿한 여행이 될 수 있지만 GMS (Game Masters)에게 중요한 질문이됩니다. 사전 생성 캐릭터를 나눠 주거나 캐릭터 제작 프로세스를 안내해야합니까? 이 선택은 첫 경험에 깊은 영향을 줄 수 있습니다.
AI eBook Generator : eBook을 쉽게 만들고 판매합니다 AI eBook Generator : eBook을 쉽게 만들고 판매합니다 오늘날의 디지털 세계에서는 eBook을 만들고 판매하는 것이 많은 사람들에게 유익한 노력이 될 수 있습니다. 그러나 종종 많은 시간과 노력이 필요합니다. 인공 지능 (AI) 덕분에 전자 책을 만드는 과정이 더욱 접근 가능하고 간소화되었습니다. AI eBook GE의 세계로 뛰어 들자
AI 기반 가이드 : 간단한 단계로 멋진 디지털 아트 스티커 만들기 AI 기반 가이드 : 간단한 단계로 멋진 디지털 아트 스티커 만들기 생생한 디지털 아트 스티커 제작 세계에 뛰어들 준비가 되셨습니까? Chatgpt 및 Dall-E와 같은 도구를 사용하여 AI의 마술을 활용하여 독특한 스티커 아이디어를 활성화시키는 방법을 살펴 보겠습니다. 이 안내서는 상세한 프롬프트 제작에서 Y 정제에 이르기까지 프로세스를 안내합니다.
의견 (0)
0/200
OR