100배의 속도 향상과 최소한의 학습 데이터로 LLM을 능가하는 새로운 AI 모델
싱가포르에 본사를 둔 AI 스타트업인 Sapient Intelligence는 훨씬 작은 모델 크기와 훨씬 적은 데이터를 사용하면서도 복잡한 추론 과제에서 대규모 언어 모델(LLM)과 경쟁할 수 있고, 특정 시나리오에서는 이를 뛰어넘는 새로운 AI 아키텍처를 설계했습니다.
계층적 추론 모델(HRM)로 명명된 이 시스템은 느리고 체계적인 계획과 빠르고 직관적인 처리를 위해 별도의 메커니즘을 사용하는 인간의 두뇌에서 영감을 얻었습니다. 이 모델은 최신 LLM이 요구하는 데이터와 메모리의 일부만을 사용하여 놀라운 결과를 제공합니다. 이러한 효율성은 데이터가 제한적이고 컴퓨팅 성능이 제약이 되는 엔터프라이즈 AI 배포에 상당한 잠재력을 가지고 있습니다.
연쇄적 사고 추론의 한계
복잡한 작업에 직면했을 때, 현대의 LLM은 대부분 문제를 중간 텍스트 기반 단계로 세분화하여 모델이 답을 향해 진행하면서 사고 과정을 언어화하도록 효과적으로 유도하는 연쇄적 사고(CoT) 프롬프트에 의존합니다.
CoT는 인공 지능의 추론 능력을 향상시켰지만, 내재적인 약점을 가지고 있습니다. 사피엔트 인텔리전스 팀은 연구 논문에서 "CoT는 추론을 위한 임시방편일 뿐 진정한 해결책이 될 수 없다"고 주장합니다. 이는 엄격하고 인간이 결정한 분류에 의존하며, 한 단계가 잘못되거나 순서가 잘못되면 전체 프로세스가 완전히 탈선할 수 있습니다."
명시적인 텍스트 생성에 의존하는 이러한 방식은 모델의 추론을 토큰 수준에 묶어두기 때문에 종종 방대한 학습 데이터 세트가 필요하고 응답이 길고 느려지는 결과를 초래합니다. 또한 이 방법은 말로 직접 표현되지 않고 내부적으로 발생하는 일종의 '잠재적 추론'을 놓칩니다.
연구자들은 "이러한 집중적인 데이터 수요를 줄이기 위해서는 보다 간소화된 방법이 필수적입니다."라고 말합니다.
뇌에서 영감을 얻은 계층적 프레임워크
CoT를 뛰어넘기 위해 연구팀은 가시적인 "사고 토큰"을 생성하는 대신 모델이 내부의 추상적인 표현을 사용하여 문제를 해결하는 "잠재적 추론"을 조사했습니다. 이는 인간의 인지와 더 밀접한 관련이 있으며, 논문에서는 "뇌는 생각을 계속해서 언어로 변환할 필요 없이 잠재 공간에서 놀라운 효율성으로 확장된 논리적 추론 사슬을 유지한다"고 언급합니다.
그러나 이러한 종류의 심오한 내적 추론을 AI에서 구현하는 것은 어렵습니다. 딥러닝 모델에 레이어를 추가하는 것만으로도 학습 신호가 레이어에 걸쳐 희미해져 효과적인 학습을 방해하는 '소실 그라데이션' 문제가 자주 발생합니다. 반대로 계산을 반복하는 반복 설계는 문제를 충분히 검토하지 않고 모델이 솔루션을 조기에 수정하는 '조기 수렴'을 경험할 수 있습니다.

계층적 추론 모델(HRM)은 뇌의 구조에서 영감을 얻었습니다. 출처: arXiv 더 나은 방법을 찾기 위해 Sapient 팀은 신경과학에서 지침을 찾았습니다. 연구진은 "인간의 뇌는 현재의 인공 시스템이 놓치고 있는 계산 깊이를 달성할 수 있는 설득력 있는 모델을 제시합니다."라고 말합니다. "이 모델은 다양한 시간 척도로 작동하는 피질 영역에서 계층적으로 계산을 구조화하여 심층적이고 다단계적인 분석을 가능하게 합니다."
이에 영향을 받아 연구진은 느리고 추상적인 전략 수립을 위한 상위 수준(H) 모듈과 신속하고 세부적인 처리를 위한 하위 수준(L) 모듈로 구성된 두 개의 상호 연결된 반복 모듈로 HRM을 만들었습니다. 이러한 배열은 팀에서 "계층적 수렴"이라고 부르는 메커니즘을 촉진합니다. 기본적으로 빠른 L 모듈은 문제의 한 부분을 처리하며 안정적이고 로컬한 답을 찾을 때까지 여러 주기를 실행합니다. 그런 다음 느린 H 모듈이 이 결과를 통합하고 전체적인 계획을 다듬은 다음 L 모듈에 새롭고 더 잘 정의된 하위 문제를 할당합니다. 이렇게 하면 L-모듈이 효과적으로 재부팅되어 정체(조기 수렴)를 막고 전체 시스템이 사라지는 그라데이션을 피하는 간소화된 아키텍처를 사용하여 확장된 일련의 추론 단계를 수행할 수 있습니다.

HRM(왼쪽)은 계산 주기에 걸쳐 솔루션에 부드럽게 수렴하고 조기 수렴(가운데, RNN)과 소실 그라데이션(오른쪽, 기존 심층 신경망)을 방지합니다. 출처: arXiv 논문에서는 "이 메커니즘을 통해 HRM은 일련의 개별적이고 안정적인 중첩 계산을 연속적으로 수행할 수 있으며, H 모듈은 전체 문제 해결 방식을 안내하고 L 모듈은 각 단계에 대한 집중적인 검색 또는 개선을 수행합니다."라고 설명합니다. 이 중첩 루프 아키텍처를 통해 모델은 확장된 CoT 프롬프트나 방대한 데이터 세트 없이도 잠재 공간에서 심층 분석을 수행할 수 있습니다.
논리적으로 우려되는 점은 이러한 '잠재적 추론'이 해석 가능성을 희생하는지 여부입니다. 사피엔트 인텔리전스의 창립자이자 CEO인 Guan Wang은 이 개념에 이의를 제기하며, CoT가 모델의 인지에 대한 통찰력을 제공하는 것처럼 모델의 내부 작동을 해석하고 설명할 수 있다고 설명합니다. 또한 그는 CoT 자체가 신뢰할 수 없을 수 있다고 지적합니다. "CoT는 모델의 진정한 내부 추론을 정확하게 나타내지 못합니다."라며 왕은 모델이 때때로 결함이 있는 추론으로 정답을 산출할 수도 있고 그 반대의 경우도 있다는 연구를 인용하며 VentureBeat에 말했습니다. "여전히 근본적으로 불투명합니다."

다양한 컴퓨팅 주기에 걸쳐 미로 문제를 추론하는 HRM의 예제 출처: arXiv 직장에서의 HRM
연구진은 모델을 평가하기 위해 추상화 및 추론 코퍼스(ARC-AGI), 고난이도 스도쿠 퍼즐, 복잡한 미로 탐색 작업 등 집중적인 검색과 역추적이 필요한 벤치마크에 대해 HRM을 비교했습니다.
연구 결과에 따르면 HRM은 정교한 LLM도 풀 수 없는 문제를 해결하는 방법을 학습하는 것으로 나타났습니다. 예를 들어, '스도쿠-익스트림' 및 '미로-하드' 테스트에서 최고 수준의 CoT 모델은 0%의 정확도를 기록하며 완전히 실패했습니다. 반면 HRM은 과제당 1,000개의 예제만으로 학습한 후 거의 완벽한 정확도를 달성했습니다.
추상적 추론과 일반화의 척도인 ARC-AGI 벤치마크에서 27M 파라미터 HRM은 40.3%의 정확도를 달성했습니다. 이는 훨씬 더 큰 규모의 o3-mini-high(34.5%)와 Claude 3.7 Sonnet(21.2%)과 같은 저명한 CoT 기반 모델을 능가하는 수치입니다. 방대한 사전 학습 데이터 세트 없이 최소한의 데이터만으로 달성한 이 성과는 이 설계의 강점과 효율성을 잘 보여줍니다.

복잡한 추론 작업에서 대규모 모델보다 뛰어난 성능을 발휘하는 HRM 출처: arXiv 퍼즐 풀기는 모델의 능력을 보여주지만, 실제적인 영향은 다른 범주의 과제에서 볼 수 있습니다. 왕에 따르면 개발자는 언어 중심적이거나 창의적인 과제에는 LLM을 계속 사용해야 하지만 '복잡하거나 결정론적인 과제'에는 HRM 스타일의 프레임워크가 환각을 줄이면서 우수한 결과를 제공한다고 합니다. 그는 특히 구현된 AI 및 로봇 공학처럼 지연 시간이 중요한 분야나 과학 연구처럼 데이터가 희박한 영역에서 "복잡한 의사 결정이나 장기적인 계획이 필요한 순차적 문제"를 강조합니다.
이러한 상황에서 HRM은 단순히 솔루션을 찾는 데 그치지 않고 문제 해결 능력을 향상시키는 방법을 학습합니다. "마스터 수준의 스도쿠 테스트에서... 초급자가 전문가로 발전하는 것과 마찬가지로 HRM은 훈련이 계속되면서 점차 단계가 줄어듭니다."라고 왕은 설명합니다.
기업 입장에서는 아키텍처의 효율성이 수익성에 영향을 미치는 부분입니다. 토큰 단위로 순차적으로 생성되는 CoT 대신 HRM의 병렬 계산을 통해 왕은 "작업 완료 속도가 100배 빨라졌다"고 추정합니다. 그 결과 추론 대기 시간이 단축되고 엣지 디바이스에서 고급 추론을 실행할 수 있는 용량을 확보할 수 있습니다.
재정적 이점도 상당합니다. "HRM과 같은 전문 추론 엔진은 크고 비용이 많이 들며 지연 시간이 긴 API 기반 모델에 비해 복잡한 추론 업무에 더 적합한 옵션입니다."라고 왕은 설명합니다. 그는 효율성을 설명하기 위해 전문 스도쿠용 모델을 훈련하는 데 약 2시간의 GPU 시간이 필요하고, 까다로운 ARC-AGI 벤치마크의 경우 50~200시간의 GPU 시간이 필요하며, 이는 거대한 기초 모델에 필요한 리소스의 최소한의 몫이라고 언급했습니다. 따라서 데이터와 자금이 모두 제한적인 상황에서 물류 계획부터 복잡한 시스템 문제 해결에 이르기까지 전문적인 비즈니스 문제를 해결할 수 있는 기회가 생깁니다.
앞으로 사피엔트 인텔리전스는 HRM을 틈새 문제 해결 도구에서 보다 광범위한 범용 추론 요소로 전환하기 위한 작업을 진행 중입니다. 왕은 "우리는 HRM을 기반으로 두뇌에서 영감을 얻은 모델을 적극적으로 구축하고 있습니다."라고 말하며 의료, 기후 예측, 로봇 공학 분야에서 초기 성과가 고무적이라고 지적했습니다. 그는 이러한 미래 모델은 특히 자가 교정 기능의 통합을 통해 현재의 텍스트 기반 시스템과는 크게 달라질 것이라고 암시했습니다.
이 연구는 오늘날의 AI 리더들을 혼란스럽게 하는 일련의 문제에 대해 더 큰 모델이 아니라 가장 진보된 추론 시스템인 인간의 뇌를 모델로 한 더 지능적이고 잘 조직된 프레임워크가 앞으로 나아갈 길일 수 있음을 암시합니다.
관련 기사
베인은 에이전트형 AI 자동화 분야의 SaaS 시장 규모가 1,000억 달러에 달할 것으로 전망했다
베인 앤 컴퍼니(Bain & Company)는 에이전트형 AI를 활용하는 SaaS 기업을 위한 미국 내 시장 규모가 1,000억 달러에 달할 것으로 추산했다. 이 회사는 이 시장이 기업 시스템 내 조정 업무의 자동화에서 비롯된다고 밝혔다.이 추정치는 AI 시대의 소프트웨어 산업에 관한 베인의 5부작 시리즈 중 두 번째 편에서 나온 것이다. 이 보고서는 에이
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
휴머노이드 로봇의 시험 운영이 진행됨에 따라 물리적 AI가 공장 현장에 한 걸음 더 다가서고 있다
로이터 통신에 따르면, 영국의 기술 기업 휴머노이드(Humanoid)가 독일 산업용 부품 공급업체 셰플러(Schaeffler)가 운영하는 공장에 휴머노이드 로봇을 도입할 예정이다.휴머노이드 대변인에 따르면, 이번 협약을 통해 2032년까지 셰플러의 전 세계 제조 현장에 1,000~2,000대의 로봇이 도입될 전망이다. 계약 규모는 공개되지 않았다. 첫 번
관련 특별 주제 추천
의견 (0)
0/500
싱가포르에 본사를 둔 AI 스타트업인 Sapient Intelligence는 훨씬 작은 모델 크기와 훨씬 적은 데이터를 사용하면서도 복잡한 추론 과제에서 대규모 언어 모델(LLM)과 경쟁할 수 있고, 특정 시나리오에서는 이를 뛰어넘는 새로운 AI 아키텍처를 설계했습니다.
계층적 추론 모델(HRM)로 명명된 이 시스템은 느리고 체계적인 계획과 빠르고 직관적인 처리를 위해 별도의 메커니즘을 사용하는 인간의 두뇌에서 영감을 얻었습니다. 이 모델은 최신 LLM이 요구하는 데이터와 메모리의 일부만을 사용하여 놀라운 결과를 제공합니다. 이러한 효율성은 데이터가 제한적이고 컴퓨팅 성능이 제약이 되는 엔터프라이즈 AI 배포에 상당한 잠재력을 가지고 있습니다.
연쇄적 사고 추론의 한계
복잡한 작업에 직면했을 때, 현대의 LLM은 대부분 문제를 중간 텍스트 기반 단계로 세분화하여 모델이 답을 향해 진행하면서 사고 과정을 언어화하도록 효과적으로 유도하는 연쇄적 사고(CoT) 프롬프트에 의존합니다.
CoT는 인공 지능의 추론 능력을 향상시켰지만, 내재적인 약점을 가지고 있습니다. 사피엔트 인텔리전스 팀은 연구 논문에서 "CoT는 추론을 위한 임시방편일 뿐 진정한 해결책이 될 수 없다"고 주장합니다. 이는 엄격하고 인간이 결정한 분류에 의존하며, 한 단계가 잘못되거나 순서가 잘못되면 전체 프로세스가 완전히 탈선할 수 있습니다."
명시적인 텍스트 생성에 의존하는 이러한 방식은 모델의 추론을 토큰 수준에 묶어두기 때문에 종종 방대한 학습 데이터 세트가 필요하고 응답이 길고 느려지는 결과를 초래합니다. 또한 이 방법은 말로 직접 표현되지 않고 내부적으로 발생하는 일종의 '잠재적 추론'을 놓칩니다.
연구자들은 "이러한 집중적인 데이터 수요를 줄이기 위해서는 보다 간소화된 방법이 필수적입니다."라고 말합니다.
뇌에서 영감을 얻은 계층적 프레임워크
CoT를 뛰어넘기 위해 연구팀은 가시적인 "사고 토큰"을 생성하는 대신 모델이 내부의 추상적인 표현을 사용하여 문제를 해결하는 "잠재적 추론"을 조사했습니다. 이는 인간의 인지와 더 밀접한 관련이 있으며, 논문에서는 "뇌는 생각을 계속해서 언어로 변환할 필요 없이 잠재 공간에서 놀라운 효율성으로 확장된 논리적 추론 사슬을 유지한다"고 언급합니다.
그러나 이러한 종류의 심오한 내적 추론을 AI에서 구현하는 것은 어렵습니다. 딥러닝 모델에 레이어를 추가하는 것만으로도 학습 신호가 레이어에 걸쳐 희미해져 효과적인 학습을 방해하는 '소실 그라데이션' 문제가 자주 발생합니다. 반대로 계산을 반복하는 반복 설계는 문제를 충분히 검토하지 않고 모델이 솔루션을 조기에 수정하는 '조기 수렴'을 경험할 수 있습니다.

더 나은 방법을 찾기 위해 Sapient 팀은 신경과학에서 지침을 찾았습니다. 연구진은 "인간의 뇌는 현재의 인공 시스템이 놓치고 있는 계산 깊이를 달성할 수 있는 설득력 있는 모델을 제시합니다."라고 말합니다. "이 모델은 다양한 시간 척도로 작동하는 피질 영역에서 계층적으로 계산을 구조화하여 심층적이고 다단계적인 분석을 가능하게 합니다."
이에 영향을 받아 연구진은 느리고 추상적인 전략 수립을 위한 상위 수준(H) 모듈과 신속하고 세부적인 처리를 위한 하위 수준(L) 모듈로 구성된 두 개의 상호 연결된 반복 모듈로 HRM을 만들었습니다. 이러한 배열은 팀에서 "계층적 수렴"이라고 부르는 메커니즘을 촉진합니다. 기본적으로 빠른 L 모듈은 문제의 한 부분을 처리하며 안정적이고 로컬한 답을 찾을 때까지 여러 주기를 실행합니다. 그런 다음 느린 H 모듈이 이 결과를 통합하고 전체적인 계획을 다듬은 다음 L 모듈에 새롭고 더 잘 정의된 하위 문제를 할당합니다. 이렇게 하면 L-모듈이 효과적으로 재부팅되어 정체(조기 수렴)를 막고 전체 시스템이 사라지는 그라데이션을 피하는 간소화된 아키텍처를 사용하여 확장된 일련의 추론 단계를 수행할 수 있습니다.

논문에서는 "이 메커니즘을 통해 HRM은 일련의 개별적이고 안정적인 중첩 계산을 연속적으로 수행할 수 있으며, H 모듈은 전체 문제 해결 방식을 안내하고 L 모듈은 각 단계에 대한 집중적인 검색 또는 개선을 수행합니다."라고 설명합니다. 이 중첩 루프 아키텍처를 통해 모델은 확장된 CoT 프롬프트나 방대한 데이터 세트 없이도 잠재 공간에서 심층 분석을 수행할 수 있습니다.
논리적으로 우려되는 점은 이러한 '잠재적 추론'이 해석 가능성을 희생하는지 여부입니다. 사피엔트 인텔리전스의 창립자이자 CEO인 Guan Wang은 이 개념에 이의를 제기하며, CoT가 모델의 인지에 대한 통찰력을 제공하는 것처럼 모델의 내부 작동을 해석하고 설명할 수 있다고 설명합니다. 또한 그는 CoT 자체가 신뢰할 수 없을 수 있다고 지적합니다. "CoT는 모델의 진정한 내부 추론을 정확하게 나타내지 못합니다."라며 왕은 모델이 때때로 결함이 있는 추론으로 정답을 산출할 수도 있고 그 반대의 경우도 있다는 연구를 인용하며 VentureBeat에 말했습니다. "여전히 근본적으로 불투명합니다."

직장에서의 HRM
연구진은 모델을 평가하기 위해 추상화 및 추론 코퍼스(ARC-AGI), 고난이도 스도쿠 퍼즐, 복잡한 미로 탐색 작업 등 집중적인 검색과 역추적이 필요한 벤치마크에 대해 HRM을 비교했습니다.
연구 결과에 따르면 HRM은 정교한 LLM도 풀 수 없는 문제를 해결하는 방법을 학습하는 것으로 나타났습니다. 예를 들어, '스도쿠-익스트림' 및 '미로-하드' 테스트에서 최고 수준의 CoT 모델은 0%의 정확도를 기록하며 완전히 실패했습니다. 반면 HRM은 과제당 1,000개의 예제만으로 학습한 후 거의 완벽한 정확도를 달성했습니다.
추상적 추론과 일반화의 척도인 ARC-AGI 벤치마크에서 27M 파라미터 HRM은 40.3%의 정확도를 달성했습니다. 이는 훨씬 더 큰 규모의 o3-mini-high(34.5%)와 Claude 3.7 Sonnet(21.2%)과 같은 저명한 CoT 기반 모델을 능가하는 수치입니다. 방대한 사전 학습 데이터 세트 없이 최소한의 데이터만으로 달성한 이 성과는 이 설계의 강점과 효율성을 잘 보여줍니다.

퍼즐 풀기는 모델의 능력을 보여주지만, 실제적인 영향은 다른 범주의 과제에서 볼 수 있습니다. 왕에 따르면 개발자는 언어 중심적이거나 창의적인 과제에는 LLM을 계속 사용해야 하지만 '복잡하거나 결정론적인 과제'에는 HRM 스타일의 프레임워크가 환각을 줄이면서 우수한 결과를 제공한다고 합니다. 그는 특히 구현된 AI 및 로봇 공학처럼 지연 시간이 중요한 분야나 과학 연구처럼 데이터가 희박한 영역에서 "복잡한 의사 결정이나 장기적인 계획이 필요한 순차적 문제"를 강조합니다.
이러한 상황에서 HRM은 단순히 솔루션을 찾는 데 그치지 않고 문제 해결 능력을 향상시키는 방법을 학습합니다. "마스터 수준의 스도쿠 테스트에서... 초급자가 전문가로 발전하는 것과 마찬가지로 HRM은 훈련이 계속되면서 점차 단계가 줄어듭니다."라고 왕은 설명합니다.
기업 입장에서는 아키텍처의 효율성이 수익성에 영향을 미치는 부분입니다. 토큰 단위로 순차적으로 생성되는 CoT 대신 HRM의 병렬 계산을 통해 왕은 "작업 완료 속도가 100배 빨라졌다"고 추정합니다. 그 결과 추론 대기 시간이 단축되고 엣지 디바이스에서 고급 추론을 실행할 수 있는 용량을 확보할 수 있습니다.
재정적 이점도 상당합니다. "HRM과 같은 전문 추론 엔진은 크고 비용이 많이 들며 지연 시간이 긴 API 기반 모델에 비해 복잡한 추론 업무에 더 적합한 옵션입니다."라고 왕은 설명합니다. 그는 효율성을 설명하기 위해 전문 스도쿠용 모델을 훈련하는 데 약 2시간의 GPU 시간이 필요하고, 까다로운 ARC-AGI 벤치마크의 경우 50~200시간의 GPU 시간이 필요하며, 이는 거대한 기초 모델에 필요한 리소스의 최소한의 몫이라고 언급했습니다. 따라서 데이터와 자금이 모두 제한적인 상황에서 물류 계획부터 복잡한 시스템 문제 해결에 이르기까지 전문적인 비즈니스 문제를 해결할 수 있는 기회가 생깁니다.
앞으로 사피엔트 인텔리전스는 HRM을 틈새 문제 해결 도구에서 보다 광범위한 범용 추론 요소로 전환하기 위한 작업을 진행 중입니다. 왕은 "우리는 HRM을 기반으로 두뇌에서 영감을 얻은 모델을 적극적으로 구축하고 있습니다."라고 말하며 의료, 기후 예측, 로봇 공학 분야에서 초기 성과가 고무적이라고 지적했습니다. 그는 이러한 미래 모델은 특히 자가 교정 기능의 통합을 통해 현재의 텍스트 기반 시스템과는 크게 달라질 것이라고 암시했습니다.
이 연구는 오늘날의 AI 리더들을 혼란스럽게 하는 일련의 문제에 대해 더 큰 모델이 아니라 가장 진보된 추론 시스템인 인간의 뇌를 모델로 한 더 지능적이고 잘 조직된 프레임워크가 앞으로 나아갈 길일 수 있음을 암시합니다.





집






