삼성의 소형 AI 모델, 추론 능력에서 대형 경쟁사보다 뛰어난 성능 발휘
삼성 AI 연구원의 새 논문은 복잡한 추론 작업을 처리하는 데 있어 컴팩트한 네트워크가 대규모 대규모 언어 모델(LLM)을 능가하는 방법을 설명합니다.
AI 우위를 차지하기 위한 경쟁에서 "클수록 좋다"는 것이 업계의 지배적인 진리입니다. 거대 기술 기업들이 점점 더 큰 모델을 개발하는 데 수십억 달러를 투자하는 동안, 삼성 SAIL 몬트리올의 알렉시아 졸리쿠르 마르티노는 작은 재귀 모델(TRM)을 사용하여 보다 효율적인 다른 접근 방식을 제안합니다.
최고급 LLM의 0.01%에 불과한 700만 개의 파라미터로 TRM은 ARC-AGI 지능 테스트와 같이 까다롭기로 유명한 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 삼성의 연구 결과는 규모만이 AI를 발전시키는 유일한 길이라는 통념에 도전하며, 보다 지속 가능하고 매개변수 효율이 높은 대안을 제시합니다.
규모의 한계 극복
LLM은 인간과 유사한 텍스트를 생성하는 데는 탁월하지만 복잡한 다단계 추론을 처리하는 능력은 취약한 경우가 많습니다. 응답을 토큰 단위로 생성하기 때문에 초기에 한 번의 오류로 인해 전체 솔루션이 손상되어 최종 정답이 잘못될 수 있습니다.
모델이 문제를 단계별로 분석하는 연쇄 사고와 같은 기법은 이러한 문제를 완화하는 것을 목표로 합니다. 하지만 이러한 접근 방식은 계산 비용이 많이 들고, 상당한 양의 고품질 추론 데이터가 필요한 경우가 많으며, 여전히 결함이 있는 논리를 생성할 수 있습니다. 이러한 개선에도 불구하고 LLM은 완벽한 논리적 실행을 요구하는 퍼즐을 푸는 데 어려움을 겪습니다.
삼성의 연구는 최근의 계층적 추론 모델(HRM)을 기반으로 합니다. HRM은 서로 다른 주파수로 답을 재귀적으로 개선하는 두 개의 작은 신경망을 사용했습니다. 유망하긴 했지만, 이 모델은 불확실한 생물학적 논증과 항상 적용 가능한 것은 아닌 고정점 정리에 의존하는 복잡한 모델이었습니다.
TRM은 HRM의 이중 네트워크 구조 대신 내부 추론과 제안된 답을 모두 재귀적으로 향상시키는 단일의 컴팩트한 네트워크를 사용합니다.
이 모델은 질문, 초기 답변 추측, 잠재적 추론 기능을 수신합니다. 그런 다음 여러 단계를 반복하여 세 가지 입력을 모두 기반으로 추론을 개선합니다. 이렇게 개선된 추론을 사용하여 최종 답변 예측을 업데이트합니다. 이 전체 프로세스는 최대 16회까지 반복할 수 있으므로 모델은 매우 효율적인 방식으로 점진적으로 자가 수정할 수 있습니다.
연구 결과, 직관적으로도 2계층 네트워크가 4계층 네트워크보다 훨씬 더 잘 일반화된다는 사실이 밝혀졌습니다. 더 작은 설계는 제한된 특수 데이터 세트에 대해 학습할 때 흔히 발생하는 문제인 과적합을 방지하는 것으로 보입니다.
TRM은 또한 이전 모델의 복잡한 수학적 가정을 제거합니다. 기존 HRM 모델은 학습을 정당화하기 위해 고정된 점으로 함수가 수렴한다고 가정해야 했습니다. TRM은 전체 재귀 프로세스를 통해 역전파함으로써 이를 우회하여 성능을 크게 개선하여 스도쿠-익스트림 벤치마크 정확도를 제거 테스트에서 56.5%에서 87.4%로 높였습니다.
더 적은 리소스로 AI 벤치마크를 경신한 삼성의 모델
결과는 놀랍습니다. 1,000개의 훈련 예제만 사용하는 스도쿠-익스트림 데이터 세트에서 TRM은 87.4%의 테스트 정확도를 달성하여 HRM의 55%에서 크게 뛰어넘었습니다. 30×30 미로를 통과하는 긴 경로를 탐색해야 하는 미로-하드에서는 TRM이 85.3%를 기록해 HRM의 74.5%에 비해 훨씬 높은 점수를 기록했습니다.
특히 TRM은 AI의 진정한 유동적 지능을 평가하기 위해 고안된 벤치마크인 추상화 및 추론 코퍼스(ARC-AGI)에서 상당한 진전을 보였습니다. 단 7백만 개의 매개변수만으로 TRM은 ARC-AGI-1에서 44.6%, ARC-AGI-2에서 7.8%의 정확도를 달성했습니다. 이는 2,700만 개의 파라미터를 사용한 HRM을 능가하며, 심지어 세계 최대 규모의 LLM을 능가하는 수치입니다. 이에 비해 Gemini 2.5 Pro는 ARC-AGI-2에서 4.9%의 점수에 불과합니다.
TRM의 트레이닝 프로세스도 최적화되었습니다. 모델이 답을 충분히 개선하여 다음 단계로 넘어갈 수 있는 시점을 결정하는 ACT라는 적응 메커니즘이 간소화되어 각 훈련 단계에서 비용이 많이 드는 두 번째 전진 패스가 필요하지 않게 되었습니다. 이러한 조정은 전반적인 일반화에 영향을 미치지 않았습니다.
삼성의 연구는 점점 더 큰 규모의 AI 모델을 구축하는 추세에 강력한 반론을 제시합니다. 반복 추론과 자가 수정이 가능한 아키텍처를 설계함으로써 극도로 어려운 문제도 극히 일부의 컴퓨팅 리소스만으로 해결할 수 있다는 것을 보여줍니다.
참조하세요: 취약점 수정을 자동화하기 위해 코드를 재작성하는 Google의 새로운 AI 에이전트

업계 리더로부터 AI와 빅데이터에 대해 더 자세히 알아보고 싶으신가요? 암스테르담, 캘리포니아, 런던에서 열리는 AI 및 빅 데이터 엑스포에 참석하세요. 이 종합적인 이벤트는 TechEx의 일부이며 사이버 보안 엑스포와 같은 다른 주요 기술 이벤트와 함께 진행됩니다. 자세한 내용을 보려면 여기를 클릭하세요.
AI 뉴스는 TechForge Media에서 제공합니다. 예정된 다른 엔터프라이즈 기술 이벤트와 웨비나는 여기에서 확인하세요.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (0)
0/500
삼성 AI 연구원의 새 논문은 복잡한 추론 작업을 처리하는 데 있어 컴팩트한 네트워크가 대규모 대규모 언어 모델(LLM)을 능가하는 방법을 설명합니다.
AI 우위를 차지하기 위한 경쟁에서 "클수록 좋다"는 것이 업계의 지배적인 진리입니다. 거대 기술 기업들이 점점 더 큰 모델을 개발하는 데 수십억 달러를 투자하는 동안, 삼성 SAIL 몬트리올의 알렉시아 졸리쿠르 마르티노는 작은 재귀 모델(TRM)을 사용하여 보다 효율적인 다른 접근 방식을 제안합니다.
최고급 LLM의 0.01%에 불과한 700만 개의 파라미터로 TRM은 ARC-AGI 지능 테스트와 같이 까다롭기로 유명한 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 삼성의 연구 결과는 규모만이 AI를 발전시키는 유일한 길이라는 통념에 도전하며, 보다 지속 가능하고 매개변수 효율이 높은 대안을 제시합니다.
규모의 한계 극복
LLM은 인간과 유사한 텍스트를 생성하는 데는 탁월하지만 복잡한 다단계 추론을 처리하는 능력은 취약한 경우가 많습니다. 응답을 토큰 단위로 생성하기 때문에 초기에 한 번의 오류로 인해 전체 솔루션이 손상되어 최종 정답이 잘못될 수 있습니다.
모델이 문제를 단계별로 분석하는 연쇄 사고와 같은 기법은 이러한 문제를 완화하는 것을 목표로 합니다. 하지만 이러한 접근 방식은 계산 비용이 많이 들고, 상당한 양의 고품질 추론 데이터가 필요한 경우가 많으며, 여전히 결함이 있는 논리를 생성할 수 있습니다. 이러한 개선에도 불구하고 LLM은 완벽한 논리적 실행을 요구하는 퍼즐을 푸는 데 어려움을 겪습니다.
삼성의 연구는 최근의 계층적 추론 모델(HRM)을 기반으로 합니다. HRM은 서로 다른 주파수로 답을 재귀적으로 개선하는 두 개의 작은 신경망을 사용했습니다. 유망하긴 했지만, 이 모델은 불확실한 생물학적 논증과 항상 적용 가능한 것은 아닌 고정점 정리에 의존하는 복잡한 모델이었습니다.
TRM은 HRM의 이중 네트워크 구조 대신 내부 추론과 제안된 답을 모두 재귀적으로 향상시키는 단일의 컴팩트한 네트워크를 사용합니다.
이 모델은 질문, 초기 답변 추측, 잠재적 추론 기능을 수신합니다. 그런 다음 여러 단계를 반복하여 세 가지 입력을 모두 기반으로 추론을 개선합니다. 이렇게 개선된 추론을 사용하여 최종 답변 예측을 업데이트합니다. 이 전체 프로세스는 최대 16회까지 반복할 수 있으므로 모델은 매우 효율적인 방식으로 점진적으로 자가 수정할 수 있습니다.
연구 결과, 직관적으로도 2계층 네트워크가 4계층 네트워크보다 훨씬 더 잘 일반화된다는 사실이 밝혀졌습니다. 더 작은 설계는 제한된 특수 데이터 세트에 대해 학습할 때 흔히 발생하는 문제인 과적합을 방지하는 것으로 보입니다.
TRM은 또한 이전 모델의 복잡한 수학적 가정을 제거합니다. 기존 HRM 모델은 학습을 정당화하기 위해 고정된 점으로 함수가 수렴한다고 가정해야 했습니다. TRM은 전체 재귀 프로세스를 통해 역전파함으로써 이를 우회하여 성능을 크게 개선하여 스도쿠-익스트림 벤치마크 정확도를 제거 테스트에서 56.5%에서 87.4%로 높였습니다.
더 적은 리소스로 AI 벤치마크를 경신한 삼성의 모델
결과는 놀랍습니다. 1,000개의 훈련 예제만 사용하는 스도쿠-익스트림 데이터 세트에서 TRM은 87.4%의 테스트 정확도를 달성하여 HRM의 55%에서 크게 뛰어넘었습니다. 30×30 미로를 통과하는 긴 경로를 탐색해야 하는 미로-하드에서는 TRM이 85.3%를 기록해 HRM의 74.5%에 비해 훨씬 높은 점수를 기록했습니다.
특히 TRM은 AI의 진정한 유동적 지능을 평가하기 위해 고안된 벤치마크인 추상화 및 추론 코퍼스(ARC-AGI)에서 상당한 진전을 보였습니다. 단 7백만 개의 매개변수만으로 TRM은 ARC-AGI-1에서 44.6%, ARC-AGI-2에서 7.8%의 정확도를 달성했습니다. 이는 2,700만 개의 파라미터를 사용한 HRM을 능가하며, 심지어 세계 최대 규모의 LLM을 능가하는 수치입니다. 이에 비해 Gemini 2.5 Pro는 ARC-AGI-2에서 4.9%의 점수에 불과합니다.
TRM의 트레이닝 프로세스도 최적화되었습니다. 모델이 답을 충분히 개선하여 다음 단계로 넘어갈 수 있는 시점을 결정하는 ACT라는 적응 메커니즘이 간소화되어 각 훈련 단계에서 비용이 많이 드는 두 번째 전진 패스가 필요하지 않게 되었습니다. 이러한 조정은 전반적인 일반화에 영향을 미치지 않았습니다.
삼성의 연구는 점점 더 큰 규모의 AI 모델을 구축하는 추세에 강력한 반론을 제시합니다. 반복 추론과 자가 수정이 가능한 아키텍처를 설계함으로써 극도로 어려운 문제도 극히 일부의 컴퓨팅 리소스만으로 해결할 수 있다는 것을 보여줍니다.
참조하세요: 취약점 수정을 자동화하기 위해 코드를 재작성하는 Google의 새로운 AI 에이전트

업계 리더로부터 AI와 빅데이터에 대해 더 자세히 알아보고 싶으신가요? 암스테르담, 캘리포니아, 런던에서 열리는 AI 및 빅 데이터 엑스포에 참석하세요. 이 종합적인 이벤트는 TechEx의 일부이며 사이버 보안 엑스포와 같은 다른 주요 기술 이벤트와 함께 진행됩니다. 자세한 내용을 보려면 여기를 클릭하세요.
AI 뉴스는 TechForge Media에서 제공합니다. 예정된 다른 엔터프라이즈 기술 이벤트와 웨비나는 여기에서 확인하세요.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비





집






