옵션
뉴스
다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)

다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)

2025년 8월 24일
68

일본의 AI 연구소 사카나 AI는 여러 개의 대규모 언어 모델(LLM)이 함께 작업하여 매우 효과적인 AI 팀을 구성할 수 있는 기술을 공개했습니다. Multi-LLM AB-MCTS라고 명명된 이 방법을 사용하면 모델이 시행착오를 거치면서 각자의 고유한 강점을 활용하여 단일 모델이 처리할 수 없는 복잡한 작업을 처리할 수 있습니다.

이 접근 방식은 기업에게 더욱 강력한 AI 시스템을 구축할 수 있는 방법을 제공합니다. 기업은 하나의 공급업체나 모델에 의존하는 대신 다양한 프론티어 모델의 강점을 동적으로 활용하여 각 작업 부문에 가장 적합한 AI를 할당함으로써 최적의 결과를 달성할 수 있습니다.

집단 지성 활용

프론티어 AI 모델은 학습 데이터와 설계에 따라 각각 뚜렷한 강점과 약점을 가지고 빠르게 발전하고 있습니다. 어떤 모델은 코딩에서, 또 다른 모델은 창작물 작성에서 두각을 나타낼 수 있습니다. 사카나 AI의 팀은 이러한 차이를 결함이 아닌 자산으로 간주합니다.

연구원들은 블로그에서 "우리는 이러한 고유한 역량을 집단 지성을 구축하는 데 유용한 도구로 간주합니다."라고 말합니다. 이들은 다양성을 통해 돌파구를 마련하는 인간 팀처럼 AI 시스템도 협업을 통해 더 많은 것을 성취할 수 있다고 주장합니다. "AI 시스템은 서로의 강점을 결합함으로써 단일 모델로는 극복할 수 없는 문제를 해결할 수 있습니다."

추론 성능 향상

사카나 AI의 알고리즘인 '추론 시간 스케일링' 기법('테스트 시간 스케일링'이라고도 함)은 AI 연구 분야에서 주목을 받고 있습니다. 대규모 모델과 데이터 세트에 초점을 맞춘 '훈련 시간 스케일링'과 달리 추론 시간 스케일링은 훈련 후 계산 리소스를 최적화하여 성능을 향상시킵니다.

한 가지 방법은 강화 학습을 사용하여 모델이 상세한 생각의 사슬(CoT) 시퀀스를 생성하도록 장려하는 것으로, OpenAI o3 및 DeepSeek-R1과 같은 모델에서 볼 수 있습니다. 또 다른 접근 방식인 반복 샘플링은 브레인스토밍과 유사하게 모델에 다양한 솔루션을 생성하도록 여러 번 메시지를 표시합니다. 사카나 AI의 방식은 이러한 개념을 개선합니다.

사카나 AI의 연구 과학자이자 논문 공동 저자인 타쿠야 아키바는 VentureBeat와의 인터뷰에서 "우리의 프레임워크는 Best-of-N 샘플링을 개선합니다."라고 말합니다. "강화 학습을 통해 확장 CoT와 같은 추론 기술을 향상시킵니다. 전략적으로 검색 접근 방식과 적합한 LLM을 선택함으로써 제한된 호출 내에서 성능을 최적화하여 복잡한 작업에서 탁월한 성능을 발휘합니다."

적응형 브랜칭 검색의 작동 방식

이 기술의 핵심은 적응형 분기 몬테카를로 트리 검색(AB-MCTS) 알고리즘입니다. 이 알고리즘은 '더 깊이 검색'(유망한 솔루션을 구체화)과 '더 넓게 검색'(새로운 솔루션 생성)의 균형을 유지함으로써 LLM이 지능적인 시행착오를 수행할 수 있게 해줍니다. AB-MCTS는 이러한 전략을 혼합하여 시스템이 필요할 때 아이디어를 구체화하거나 새로운 아이디어로 전환할 수 있도록 합니다.

이는 딥마인드의 알파고에 사용된 의사 결정 알고리즘인 몬테카를로 트리 검색(MCTS)에 의해 구동됩니다. AB-MCTS는 확률 모델을 사용하여 각 단계에서 세분화 또는 재시작 여부를 결정합니다.

다양한 테스트 시간 확장 전략 출처: 사카나 AI

멀티 LLM AB-MCTS는 여기서 더 나아가 '무엇을' 할 것인지(정제 또는 생성) 뿐만 아니라 '어떤' LLM을 사용할 것인지도 결정합니다. 처음에는 작업에 가장 적합한 모델을 알지 못하는 상태에서 시스템은 여러 LLM을 테스트하여 시간이 지남에 따라 어떤 모델이 더 나은 성능을 발휘하는지 학습하고 더 많은 작업을 할당합니다.

AI 팀 테스트

멀티 LLM AB-MCTS 시스템은 새로운 문제에 대해 인간과 같은 시각적 추론을 테스트하는 ARC-AGI-2 벤치마크에서 평가되었는데, 이는 AI에게 어려운 과제입니다.

연구팀은 o4-mini, Gemini 2.5 Pro, DeepSeek-R1과 같은 프론티어 모델을 결합했습니다.

이 모델 집합은 120개의 테스트 문제 중 30% 이상을 해결하여 단일 모델의 성능을 훨씬 뛰어넘었습니다. 이 시스템은 각 작업에 가장 적합한 모델을 동적으로 할당하여 명확한 솔루션 경로가 존재할 때 가장 효과적인 LLM을 신속하게 식별했습니다.

AB-MCTS와 개별 모델 비교(출처: 사카나 AI)
AB-MCTS와 개별 모델 비교 출처: 사카나 AI

놀랍게도 이 시스템은 이전에는 어떤 단일 모델로도 해결할 수 없었던 문제를 해결했습니다. 한 예로, o4-mini의 잘못된 솔루션을 DeepSeek-R1과 Gemini-2.5 Pro가 개선하여 오류를 수정하고 정답을 제공했습니다.

연구진은 "이는 멀티-LLM AB-MCTS가 프론티어 모델을 결합하여 이전에는 해결할 수 없었던 문제를 해결함으로써 집단 AI 지능의 한계를 확장할 수 있음을 보여줍니다."라고 설명합니다.

AB-MTCS는 문제 해결 단계에 따라 다양한 모델을 선택할 수 있습니다(출처: 사카나 AI).
AB-MTCS는 문제 해결의 여러 단계에서 서로 다른 모델을 선택할 수 있습니다 출처: 사카나 AI

아키바는 "각 모델의 강점과 환각 성향은 다양합니다."라고 말합니다. "환각 위험이 낮은 모델을 조합함으로써 강력한 추론과 신뢰성을 모두 달성하여 비즈니스의 핵심 문제를 해결할 수 있습니다."

연구부터 실제 사용까지

사카나 AI는 Apache 2.0 라이선스에 따라 오픈 소스 프레임워크인 TreeQuest를 출시하여 개발자와 기업이 Multi-LLM AB-MCTS를 구현할 수 있도록 지원합니다. 이 유연한 API는 다양한 작업을 위한 맞춤형 스코어링과 로직을 지원합니다.

아키바는 "특정 비즈니스 과제를 위해 AB-MCTS를 아직 탐색 중이지만 그 잠재력은 분명합니다."라고 말합니다.

AB-MCTS는 ARC-AGI-2 벤치마크 외에도 복잡한 코딩과 머신러닝 모델 정확도 향상과 같은 작업에서 성공을 거두었습니다.

"AB-MCTS는 소프트웨어 성능 메트릭 최적화와 같은 반복적인 시행착오 작업에서 탁월합니다."라고 아키바는 덧붙입니다. "예를 들어 웹 서비스 응답 지연 시간을 자동으로 줄일 수 있습니다."

이 오픈 소스 도구는 강력하고 안정적인 차세대 엔터프라이즈 AI 애플리케이션을 구현할 수 있습니다.

관련 기사
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로 비밀 추적 데이터, AI 모델 도용 사건 폭로 새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다 인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다 새로운 연구에 따르면, 인공지능 시스템이 이제 다른 인공지능 모델들이 진품으로 오인하는 사기성 과학 논문을 생성할 수 있게 되었다. 이러한 조작된 연구들은 기존에 효과적이었던 탐지 방법을 우회하며, 연구 생태계가 봇이 다른 봇을 속이는 악순환으로 붕괴될 위험성을 부각시키고 있다. 아이러니하게도 AI 혁신의 최전선에 있는 학술 연구 분야가 AI에 의해 촉발된
관련 특별 주제 추천
만화 창작 만화용 최고의 AI 자동 채색 도구: 일관성 오류 없이 플랫 컬러 적용하기
만화용 최고의 AI 자동 채색 도구: 일관성 오류 없이 플랫 컬러 적용하기

XIX.AI에서 2026년 최고의 만화 AI 자동 채색 도구를 만나보세요. 저희가 엄선한 이 목록에는 일관성 오류 없이 평면 색상을 적용하여 생산성을 높여주는, 최고 평점을 받은 혁신적인 솔루션들이 포함되어 있습니다. 무료 버전과 유료 버전의 비교 분석, 실제 테스트 결과, 매주 업데이트되는 순위 정보를 확인하여 여러분에게 딱 맞는 도구를 찾아보세요. 지금 바로 AI의 힘을 경험해 보세요.

10 도구
xix.ai
글쓰기 최고의 AI 소설 캐릭터 생성기: 일관된 캐릭터 동기와 치명적인 결점 생성
최고의 AI 소설 캐릭터 생성기: 일관된 캐릭터 동기와 치명적인 결점 생성

깊이 있는 캐릭터를 창조할 수 있는 2026년 최고의 AI 소설 프로필 생성 도구를 만나보세요. XIX.AI가 엄선한 이 목록에는 일관된 동기와 치명적인 결점을 생성해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 여러분의 스토리텔링 잠재력을 발휘해 보세요.

10 도구
xix.ai
사업 최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정
최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정

XIX.AI에서 2026년 최고의 AI 가격 최적화 소프트웨어를 만나보세요. 저희가 엄선한 이 목록에는 경쟁사를 추적하고 최대 수익을 위해 매장 가격을 자동으로 조정해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트 결과를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 가격 경쟁력의 우위를 확보하세요.

10 도구
xix.ai
암호 최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링
최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링

XIX.AI에서 2026년 최고의 AI 코드 검토 도구를 만나보세요. 엄선된 이 목록에는 깔끔한 코드 준수 여부를 자동으로 확인하고 레거시 리포지토리 파일을 리팩토링하는 데 있어 판도를 바꿀 만한 최고 등급의 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI의 경쟁력을 확보하세요.

10 도구
xix.ai
텍스트 음성 변환 난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상
난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상

난독증 지원을 위해 엄선된 2026년 최신 최고 평점 AI TTS 앱을 만나보세요. 전문가들이 선정한 이 순위는 무료 및 유료 도구를 비교 분석하여, 읽기 효율과 학습 효과를 높여주는 강력한 기능들을 소개합니다. 학생들의 잠재력을 최대한 발휘할 수 있도록 도와줄, 꼭 사용해봐야 할 혁신적인 솔루션을 확인해 보세요. XIX.AI에서 여정을 시작해 보세요.

10 도구
xix.ai
만화 창작 소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기
소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구
xix.ai
의견 (1)
0/500
JoseJackson
JoseJackson 2026년 2월 12일 오후 5시 0분 30초 GMT+09:00

Вот это да! Модели ИИ, которые сотрудничают, как настоящая команда? Это напоминает мне о том, как разные эксперты работают вместе над сложным проектом. Интересно, сможет ли этот подход решить проблему узкой специализации ИИ, когда одна модель хороша в одном, но бесполезна в другом. Надеюсь, это не приведёт к тому, что ИИ начнут 'ссориться' между собой из-за разных точек зрения! 🤔

OR