AI는 인간의 지식을 넘어서 성장했다고 Google의 Deepmind Unit은 말합니다.
전통적인 테스트를 넘어 AI 발전: 경험적 학습의 부상
인공지능(AI) 분야는 생성 AI를 튜링 테스트와 같은 전통적인 벤치마크의 한계를 넘어 발전시키려는 노력으로 활기를 띠고 있다. 이미 많은 모델이 이러한 테스트를 통과했으며, 이제 초점은 이러한 테스트를 통과하도록 설계된 AI가 아니라 보다 동적인 과정을 통해 진화하는 AI를 개발하는 데로 옮겨가고 있다.
Google의 DeepMind 연구자들, 특히 David Silver와 Richard Sutton 같은 전설적인 인물들은 그들의 논문 경험의 시대에 오신 것을 환영합니다에서 새로운 AI 능력을 발휘하는 열쇠는 테스트가 아니라 AI가 훈련받는 방식에 있다고 주장한다. 그들은 현재 사용되는 정적 데이터셋이 상당한 발전을 촉진하기에는 너무 제한적이라고 제안한다.
그들의 해결책은? AI는 보다 경험적으로 세상과 상호작용하며, 환경 피드백을 기반으로 목표를 설정하고 학습해야 한다. "경험적 학습의 잠재력이 완전히 활용되면 놀라운 새로운 능력이 나타날 것"이라고 그들은 단언한다. AlphaZero로 체스와 바둑에서 인간을 이긴 것으로 유명한 Silver와 강화 학습의 선구자인 Sutton은 현재 대형 언어 모델(LLM)의 한계를 초월하는 새로운 접근 방식인 "스트림"을 제안한다.

Google DeepMind 강화 학습에서 생성 AI로: 변화와 그 결과
AlphaZero와 AlphaGo의 성공 이후, AI 커뮤니티는 ChatGPT와 같은 생성 AI 모델로 전환되었으며, 이는 강화 학습에서 크게 벗어났다. 이를 통해 AI는 더 광범위한 즉흥적인 인간 입력을 처리할 수 있게 되었지만, 강화 학습이 가능하게 했던 자기 발견적 측면을 잃게 되었다.
Silver와 Sutton에 따르면, 현재 LLM은 프롬프트 단계에서 인간의 판단에 크게 의존하며, 이는 그들의 잠재력을 제한한다. "에이전트는 인간 평가자가 저평가한 더 나은 전략을 발견할 수 없다"고 그들은 설명한다. 또한, 짧고 단절된 프롬프트 상호작용의 특성은 AI가 단순한 질문-답변 교환을 넘어 발전할 수 없게 한다.
스트림 소개: AI 학습의 새로운 패러다임
제안된 "경험의 시대"는 AI 에이전트가 인간이 평생에 걸쳐 배우는 것처럼 연속적인 상호작용의 "스트림" 내에서 작동하는 것을 포함한다. Silver와 Sutton은 AI 에이전트가 즉각적인 작업을 넘어 목표를 추구할 수 있도록 장기적인 경험 스트림을 가진 AI를 구상한다.
이 접근 방식은 AI 에이전트가 세계 모델과 상호작용하며 보상의 형태로 피드백을 받는 강화 학습을 기반으로 한다. 이러한 보상은 AI가 다양한 맥락에서 어떤 행동이 가치 있는지를 배우도록 돕는다. 연구자들은 경제 지표에서 건강 지표에 이르기까지 세상이 보상으로 사용될 수 있는 신호로 가득 차 있다고 지적한다.
장기 목표를 가진 AI 에이전트 구축
이 과정을 시작하기 위해 AI 개발자는 "세계 모델" 시뮬레이션을 사용할 수 있으며, 이를 통해 AI는 예측을 하고, 현실에서 이를 테스트하며, 결과에 따라 모델을 개선할 수 있다. AI가 세상과 계속 상호작용하면서 그 이해는 새로운 데이터에 적응하고 오류를 수정하며 진화한다.
인간은 여전히 피트니스 향상이나 새로운 언어 학습과 같은 광범위한 목표를 설정하는 역할을 하며, AI의 보상 함수는 이러한 목표에 맞춰 조정된다. 이 설정은 건강이나 교육을 장기간 추적하고 조언하는 AI 어시스턴트로 이어질 수 있으며, 심지어 새로운 소재 발견이나 탄소 배출 감소와 같은 야심찬 과학적 목표를 추구할 수도 있다.
AI의 미래: 추론을 넘어 경험적 학습으로
연구자들은 장기적인 경험적 학습이 가능한 AI 에이전트가 Gemini나 DeepSeek의 R1과 같은 현재 "추론" AI 모델을 능가할 수 있다고 믿는다. 그들은 추론 모델이 종종 인간의 사고를 모방하며, 이는 시대에 뒤떨어진 가정에 의해 제한될 수 있다고 주장한다. 반면, 경험적 에이전트는 전례 없는 능력을 발휘하여 우리가 본 것과는 크게 다른 미래로 이어질 수 있다.
그러나 이러한 전환은 일자리 대체와 장기간 자율적으로 작동할 수 있는 AI 에이전트를 제어하는 도전과 같은 위험도 가져온다. 반면, 적응 가능한 AI는 피드백을 기반으로 행동을 조정함으로써 인간에 대한 부정적인 영향을 완화하도록 학습할 수 있다.
Silver와 Sutton은 경험적 데이터가 인간이 생성한 데이터의 규모와 품질을 훨씬 초월하여 잠재적으로 인공지능 일반 또는 초지능으로 이어질 것이라고 확신한다. 이 패러다임 전환은 강화 학습의 발전과 결합되어 많은 영역에서 인간의 범위를 넘어서는 새로운 능력을 발휘할 수 있다.
Silver는 최근 DeepMind 팟캐스트에서 이러한 아이디어를 더 논의하며, AI를 경험의 시대로 이동시키는 잠재력과 도전을 강조했다.
관련 기사
클로드 오푸스 4.7, 인공지능보다 신뢰성을 중시하며 출시
Anthropic은 올해도 거의 이틀에 한 번꼴로 새로운 기능을 출시하며 공격적인 행보를 이어가고 있습니다. 많은 기대를 모았던 Claude Opus 4.7이 방금 공식 출시되었는데, 흥미롭게도 Anthropic은 발표문에서 “이 모델이 우리가 개발한 가장 강력한 모델은 아닙니다”라고 솔직하게 밝혔습니다. 소문으로만 돌던 더 강력한 'Claude Mytho
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
관련 특별 주제 추천
의견 (14)
0/500
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎
전통적인 테스트를 넘어 AI 발전: 경험적 학습의 부상
인공지능(AI) 분야는 생성 AI를 튜링 테스트와 같은 전통적인 벤치마크의 한계를 넘어 발전시키려는 노력으로 활기를 띠고 있다. 이미 많은 모델이 이러한 테스트를 통과했으며, 이제 초점은 이러한 테스트를 통과하도록 설계된 AI가 아니라 보다 동적인 과정을 통해 진화하는 AI를 개발하는 데로 옮겨가고 있다.
Google의 DeepMind 연구자들, 특히 David Silver와 Richard Sutton 같은 전설적인 인물들은 그들의 논문 경험의 시대에 오신 것을 환영합니다에서 새로운 AI 능력을 발휘하는 열쇠는 테스트가 아니라 AI가 훈련받는 방식에 있다고 주장한다. 그들은 현재 사용되는 정적 데이터셋이 상당한 발전을 촉진하기에는 너무 제한적이라고 제안한다.
그들의 해결책은? AI는 보다 경험적으로 세상과 상호작용하며, 환경 피드백을 기반으로 목표를 설정하고 학습해야 한다. "경험적 학습의 잠재력이 완전히 활용되면 놀라운 새로운 능력이 나타날 것"이라고 그들은 단언한다. AlphaZero로 체스와 바둑에서 인간을 이긴 것으로 유명한 Silver와 강화 학습의 선구자인 Sutton은 현재 대형 언어 모델(LLM)의 한계를 초월하는 새로운 접근 방식인 "스트림"을 제안한다.
강화 학습에서 생성 AI로: 변화와 그 결과
AlphaZero와 AlphaGo의 성공 이후, AI 커뮤니티는 ChatGPT와 같은 생성 AI 모델로 전환되었으며, 이는 강화 학습에서 크게 벗어났다. 이를 통해 AI는 더 광범위한 즉흥적인 인간 입력을 처리할 수 있게 되었지만, 강화 학습이 가능하게 했던 자기 발견적 측면을 잃게 되었다.
Silver와 Sutton에 따르면, 현재 LLM은 프롬프트 단계에서 인간의 판단에 크게 의존하며, 이는 그들의 잠재력을 제한한다. "에이전트는 인간 평가자가 저평가한 더 나은 전략을 발견할 수 없다"고 그들은 설명한다. 또한, 짧고 단절된 프롬프트 상호작용의 특성은 AI가 단순한 질문-답변 교환을 넘어 발전할 수 없게 한다.
스트림 소개: AI 학습의 새로운 패러다임
제안된 "경험의 시대"는 AI 에이전트가 인간이 평생에 걸쳐 배우는 것처럼 연속적인 상호작용의 "스트림" 내에서 작동하는 것을 포함한다. Silver와 Sutton은 AI 에이전트가 즉각적인 작업을 넘어 목표를 추구할 수 있도록 장기적인 경험 스트림을 가진 AI를 구상한다.
이 접근 방식은 AI 에이전트가 세계 모델과 상호작용하며 보상의 형태로 피드백을 받는 강화 학습을 기반으로 한다. 이러한 보상은 AI가 다양한 맥락에서 어떤 행동이 가치 있는지를 배우도록 돕는다. 연구자들은 경제 지표에서 건강 지표에 이르기까지 세상이 보상으로 사용될 수 있는 신호로 가득 차 있다고 지적한다.
장기 목표를 가진 AI 에이전트 구축
이 과정을 시작하기 위해 AI 개발자는 "세계 모델" 시뮬레이션을 사용할 수 있으며, 이를 통해 AI는 예측을 하고, 현실에서 이를 테스트하며, 결과에 따라 모델을 개선할 수 있다. AI가 세상과 계속 상호작용하면서 그 이해는 새로운 데이터에 적응하고 오류를 수정하며 진화한다.
인간은 여전히 피트니스 향상이나 새로운 언어 학습과 같은 광범위한 목표를 설정하는 역할을 하며, AI의 보상 함수는 이러한 목표에 맞춰 조정된다. 이 설정은 건강이나 교육을 장기간 추적하고 조언하는 AI 어시스턴트로 이어질 수 있으며, 심지어 새로운 소재 발견이나 탄소 배출 감소와 같은 야심찬 과학적 목표를 추구할 수도 있다.
AI의 미래: 추론을 넘어 경험적 학습으로
연구자들은 장기적인 경험적 학습이 가능한 AI 에이전트가 Gemini나 DeepSeek의 R1과 같은 현재 "추론" AI 모델을 능가할 수 있다고 믿는다. 그들은 추론 모델이 종종 인간의 사고를 모방하며, 이는 시대에 뒤떨어진 가정에 의해 제한될 수 있다고 주장한다. 반면, 경험적 에이전트는 전례 없는 능력을 발휘하여 우리가 본 것과는 크게 다른 미래로 이어질 수 있다.
그러나 이러한 전환은 일자리 대체와 장기간 자율적으로 작동할 수 있는 AI 에이전트를 제어하는 도전과 같은 위험도 가져온다. 반면, 적응 가능한 AI는 피드백을 기반으로 행동을 조정함으로써 인간에 대한 부정적인 영향을 완화하도록 학습할 수 있다.
Silver와 Sutton은 경험적 데이터가 인간이 생성한 데이터의 규모와 품질을 훨씬 초월하여 잠재적으로 인공지능 일반 또는 초지능으로 이어질 것이라고 확신한다. 이 패러다임 전환은 강화 학습의 발전과 결합되어 많은 영역에서 인간의 범위를 넘어서는 새로운 능력을 발휘할 수 있다.
Silver는 최근 DeepMind 팟캐스트에서 이러한 아이디어를 더 논의하며, AI를 경험의 시대로 이동시키는 잠재력과 도전을 강조했다.
클로드 오푸스 4.7, 인공지능보다 신뢰성을 중시하며 출시
Anthropic은 올해도 거의 이틀에 한 번꼴로 새로운 기능을 출시하며 공격적인 행보를 이어가고 있습니다. 많은 기대를 모았던 Claude Opus 4.7이 방금 공식 출시되었는데, 흥미롭게도 Anthropic은 발표문에서 “이 모델이 우리가 개발한 가장 강력한 모델은 아닙니다”라고 솔직하게 밝혔습니다. 소문으로만 돌던 더 강력한 'Claude Mytho
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎





집






