다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)

집

뉴스

2025년 8월 24일

StephenGonzalez

# research # LLMs

일본의 AI 연구소 사카나 AI는 여러 개의 대규모 언어 모델(LLM)이 함께 작업하여 매우 효과적인 AI 팀을 구성할 수 있는 기술을 공개했습니다. Multi-LLM AB-MCTS라고 명명된 이 방법을 사용하면 모델이 시행착오를 거치면서 각자의 고유한 강점을 활용하여 단일 모델이 처리할 수 없는 복잡한 작업을 처리할 수 있습니다.

이 접근 방식은 기업에게 더욱 강력한 AI 시스템을 구축할 수 있는 방법을 제공합니다. 기업은 하나의 공급업체나 모델에 의존하는 대신 다양한 프론티어 모델의 강점을 동적으로 활용하여 각 작업 부문에 가장 적합한 AI를 할당함으로써 최적의 결과를 달성할 수 있습니다.

집단 지성 활용

프론티어 AI 모델은 학습 데이터와 설계에 따라 각각 뚜렷한 강점과 약점을 가지고 빠르게 발전하고 있습니다. 어떤 모델은 코딩에서, 또 다른 모델은 창작물 작성에서 두각을 나타낼 수 있습니다. 사카나 AI의 팀은 이러한 차이를 결함이 아닌 자산으로 간주합니다.

연구원들은 블로그에서 "우리는 이러한 고유한 역량을 집단 지성을 구축하는 데 유용한 도구로 간주합니다."라고 말합니다. 이들은 다양성을 통해 돌파구를 마련하는 인간 팀처럼 AI 시스템도 협업을 통해 더 많은 것을 성취할 수 있다고 주장합니다. "AI 시스템은 서로의 강점을 결합함으로써 단일 모델로는 극복할 수 없는 문제를 해결할 수 있습니다."

추론 성능 향상

사카나 AI의 알고리즘인 '추론 시간 스케일링' 기법('테스트 시간 스케일링'이라고도 함)은 AI 연구 분야에서 주목을 받고 있습니다. 대규모 모델과 데이터 세트에 초점을 맞춘 '훈련 시간 스케일링'과 달리 추론 시간 스케일링은 훈련 후 계산 리소스를 최적화하여 성능을 향상시킵니다.

한 가지 방법은 강화 학습을 사용하여 모델이 상세한 생각의 사슬(CoT) 시퀀스를 생성하도록 장려하는 것으로, OpenAI o3 및 DeepSeek-R1과 같은 모델에서 볼 수 있습니다. 또 다른 접근 방식인 반복 샘플링은 브레인스토밍과 유사하게 모델에 다양한 솔루션을 생성하도록 여러 번 메시지를 표시합니다. 사카나 AI의 방식은 이러한 개념을 개선합니다.

사카나 AI의 연구 과학자이자 논문 공동 저자인 타쿠야 아키바는 VentureBeat와의 인터뷰에서 "우리의 프레임워크는 Best-of-N 샘플링을 개선합니다."라고 말합니다. "강화 학습을 통해 확장 CoT와 같은 추론 기술을 향상시킵니다. 전략적으로 검색 접근 방식과 적합한 LLM을 선택함으로써 제한된 호출 내에서 성능을 최적화하여 복잡한 작업에서 탁월한 성능을 발휘합니다."

적응형 브랜칭 검색의 작동 방식

이 기술의 핵심은 적응형 분기 몬테카를로 트리 검색(AB-MCTS) 알고리즘입니다. 이 알고리즘은 '더 깊이 검색'(유망한 솔루션을 구체화)과 '더 넓게 검색'(새로운 솔루션 생성)의 균형을 유지함으로써 LLM이 지능적인 시행착오를 수행할 수 있게 해줍니다. AB-MCTS는 이러한 전략을 혼합하여 시스템이 필요할 때 아이디어를 구체화하거나 새로운 아이디어로 전환할 수 있도록 합니다.

이는 딥마인드의 알파고에 사용된 의사 결정 알고리즘인 몬테카를로 트리 검색(MCTS)에 의해 구동됩니다. AB-MCTS는 확률 모델을 사용하여 각 단계에서 세분화 또는 재시작 여부를 결정합니다.

다양한 테스트 시간 확장 전략 출처: 사카나 AI

멀티 LLM AB-MCTS는 여기서 더 나아가 '무엇을' 할 것인지(정제 또는 생성) 뿐만 아니라 '어떤' LLM을 사용할 것인지도 결정합니다. 처음에는 작업에 가장 적합한 모델을 알지 못하는 상태에서 시스템은 여러 LLM을 테스트하여 시간이 지남에 따라 어떤 모델이 더 나은 성능을 발휘하는지 학습하고 더 많은 작업을 할당합니다.

AI 팀 테스트

멀티 LLM AB-MCTS 시스템은 새로운 문제에 대해 인간과 같은 시각적 추론을 테스트하는 ARC-AGI-2 벤치마크에서 평가되었는데, 이는 AI에게 어려운 과제입니다.

연구팀은 o4-mini, Gemini 2.5 Pro, DeepSeek-R1과 같은 프론티어 모델을 결합했습니다.

이 모델 집합은 120개의 테스트 문제 중 30% 이상을 해결하여 단일 모델의 성능을 훨씬 뛰어넘었습니다. 이 시스템은 각 작업에 가장 적합한 모델을 동적으로 할당하여 명확한 솔루션 경로가 존재할 때 가장 효과적인 LLM을 신속하게 식별했습니다.

AB-MCTS와 개별 모델 비교 출처: 사카나 AI

놀랍게도 이 시스템은 이전에는 어떤 단일 모델로도 해결할 수 없었던 문제를 해결했습니다. 한 예로, o4-mini의 잘못된 솔루션을 DeepSeek-R1과 Gemini-2.5 Pro가 개선하여 오류를 수정하고 정답을 제공했습니다.

연구진은 "이는 멀티-LLM AB-MCTS가 프론티어 모델을 결합하여 이전에는 해결할 수 없었던 문제를 해결함으로써 집단 AI 지능의 한계를 확장할 수 있음을 보여줍니다."라고 설명합니다.

AB-MTCS는 문제 해결 단계에 따라 다양한 모델을 선택할 수 있습니다(출처: 사카나 AI).

AB-MTCS는 문제 해결의 여러 단계에서 서로 다른 모델을 선택할 수 있습니다 출처: 사카나 AI

아키바는 "각 모델의 강점과 환각 성향은 다양합니다."라고 말합니다. "환각 위험이 낮은 모델을 조합함으로써 강력한 추론과 신뢰성을 모두 달성하여 비즈니스의 핵심 문제를 해결할 수 있습니다."

연구부터 실제 사용까지

사카나 AI는 Apache 2.0 라이선스에 따라 오픈 소스 프레임워크인 TreeQuest를 출시하여 개발자와 기업이 Multi-LLM AB-MCTS를 구현할 수 있도록 지원합니다. 이 유연한 API는 다양한 작업을 위한 맞춤형 스코어링과 로직을 지원합니다.

아키바는 "특정 비즈니스 과제를 위해 AB-MCTS를 아직 탐색 중이지만 그 잠재력은 분명합니다."라고 말합니다.

AB-MCTS는 ARC-AGI-2 벤치마크 외에도 복잡한 코딩과 머신러닝 모델 정확도 향상과 같은 작업에서 성공을 거두었습니다.

"AB-MCTS는 소프트웨어 성능 메트릭 최적화와 같은 반복적인 시행착오 작업에서 탁월합니다."라고 아키바는 덧붙입니다. "예를 들어 웹 서비스 응답 지연 시간을 자동으로 줄일 수 있습니다."

이 오픈 소스 도구는 강력하고 안정적인 차세대 엔터프라이즈 AI 애플리케이션을 구현할 수 있습니다.

관련 기사

재무 성적 호조 속에 마이크로소프트, 인력 조정 단행 마이크로소프트, 전략적 인력 재배치 발표마이크로소프트는 전 세계 직원의 3%에 해당하는 약 7,000명의 인력을 감축하는 조치를 시작했습니다. 중요한 점은, 이러한 변화가 재정적 어려움보다는 전략적 우선순위를 반영한다는 것입니다. 회사는 AI 개발 가속화를 위해 운영을 간소화하고, 관리 계층을 줄이는 동시에 기술 인력의 밀도를 높이고 있습니다.이 구조 조정은 전 세계 다양한 사업부에 영향을 미치며, 중간 관리직 및 비기능 직무에서 가장 큰 감축

MIT, 정적 모델을 뛰어넘는 자가 학습 AI 프레임워크 공개 MIT 연구진, 자가 학습 AI 프레임워크 개척MIT 연구팀은 대규모 언어 모델이 자율적으로 기능을 발전시킬 수 있도록 지원하는 혁신적인 시스템인 SEAL(Self-Adapting Language Models)을 개발했습니다. 이 획기적인 기술을 통해 AI 시스템이 자체적으로 학습 자료와 학습 프로토콜을 생성하여 새로운 지식과 기술을 영구적으로 통합할 수

멀티버스 AI, 획기적인 소형 고성능 모델 출시 유럽의 선구적인 AI 스타트업이 조류와 곤충의 두뇌에서 이름을 딴 획기적인 초소형 AI 모델을 공개하며 강력한 인공 지능이 거대한 규모를 필요로 하지 않는다는 사실을 입증했습니다.멀티버스 컴퓨팅의 혁신은 엣지 컴퓨팅 애플리케이션을 위해 특별히 설계된 초소형이지만 성능이 뛰어난 모델에 중점을 두고 있습니다. '칙브레인'(32억 개의 파라미터)과 '슈퍼플라이'

의견 (0)

0/200

제출하다

최고의 뉴스

2025 최고 AI 비디오 생성기: Pika Labs 대 비교 Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O AI Builder와 Power Automate가 문서 요약을 혁신하다 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 Duolingo, 에너지 시스템으로 전환 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 1년 Perplexity Pro 구독 무료 방법 2가지 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다

더