옵션
뉴스
다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)

다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)

2025년 8월 24일
0

일본의 AI 연구소 사카나 AI는 여러 개의 대규모 언어 모델(LLM)이 함께 작업하여 매우 효과적인 AI 팀을 구성할 수 있는 기술을 공개했습니다. Multi-LLM AB-MCTS라고 명명된 이 방법을 사용하면 모델이 시행착오를 거치면서 각자의 고유한 강점을 활용하여 단일 모델이 처리할 수 없는 복잡한 작업을 처리할 수 있습니다.

이 접근 방식은 기업에게 더욱 강력한 AI 시스템을 구축할 수 있는 방법을 제공합니다. 기업은 하나의 공급업체나 모델에 의존하는 대신 다양한 프론티어 모델의 강점을 동적으로 활용하여 각 작업 부문에 가장 적합한 AI를 할당함으로써 최적의 결과를 달성할 수 있습니다.

집단 지성 활용

프론티어 AI 모델은 학습 데이터와 설계에 따라 각각 뚜렷한 강점과 약점을 가지고 빠르게 발전하고 있습니다. 어떤 모델은 코딩에서, 또 다른 모델은 창작물 작성에서 두각을 나타낼 수 있습니다. 사카나 AI의 팀은 이러한 차이를 결함이 아닌 자산으로 간주합니다.

연구원들은 블로그에서 "우리는 이러한 고유한 역량을 집단 지성을 구축하는 데 유용한 도구로 간주합니다."라고 말합니다. 이들은 다양성을 통해 돌파구를 마련하는 인간 팀처럼 AI 시스템도 협업을 통해 더 많은 것을 성취할 수 있다고 주장합니다. "AI 시스템은 서로의 강점을 결합함으로써 단일 모델로는 극복할 수 없는 문제를 해결할 수 있습니다."

추론 성능 향상

사카나 AI의 알고리즘인 '추론 시간 스케일링' 기법('테스트 시간 스케일링'이라고도 함)은 AI 연구 분야에서 주목을 받고 있습니다. 대규모 모델과 데이터 세트에 초점을 맞춘 '훈련 시간 스케일링'과 달리 추론 시간 스케일링은 훈련 후 계산 리소스를 최적화하여 성능을 향상시킵니다.

한 가지 방법은 강화 학습을 사용하여 모델이 상세한 생각의 사슬(CoT) 시퀀스를 생성하도록 장려하는 것으로, OpenAI o3 및 DeepSeek-R1과 같은 모델에서 볼 수 있습니다. 또 다른 접근 방식인 반복 샘플링은 브레인스토밍과 유사하게 모델에 다양한 솔루션을 생성하도록 여러 번 메시지를 표시합니다. 사카나 AI의 방식은 이러한 개념을 개선합니다.

사카나 AI의 연구 과학자이자 논문 공동 저자인 타쿠야 아키바는 VentureBeat와의 인터뷰에서 "우리의 프레임워크는 Best-of-N 샘플링을 개선합니다."라고 말합니다. "강화 학습을 통해 확장 CoT와 같은 추론 기술을 향상시킵니다. 전략적으로 검색 접근 방식과 적합한 LLM을 선택함으로써 제한된 호출 내에서 성능을 최적화하여 복잡한 작업에서 탁월한 성능을 발휘합니다."

적응형 브랜칭 검색의 작동 방식

이 기술의 핵심은 적응형 분기 몬테카를로 트리 검색(AB-MCTS) 알고리즘입니다. 이 알고리즘은 '더 깊이 검색'(유망한 솔루션을 구체화)과 '더 넓게 검색'(새로운 솔루션 생성)의 균형을 유지함으로써 LLM이 지능적인 시행착오를 수행할 수 있게 해줍니다. AB-MCTS는 이러한 전략을 혼합하여 시스템이 필요할 때 아이디어를 구체화하거나 새로운 아이디어로 전환할 수 있도록 합니다.

이는 딥마인드의 알파고에 사용된 의사 결정 알고리즘인 몬테카를로 트리 검색(MCTS)에 의해 구동됩니다. AB-MCTS는 확률 모델을 사용하여 각 단계에서 세분화 또는 재시작 여부를 결정합니다.

다양한 테스트 시간 확장 전략 출처: 사카나 AI

멀티 LLM AB-MCTS는 여기서 더 나아가 '무엇을' 할 것인지(정제 또는 생성) 뿐만 아니라 '어떤' LLM을 사용할 것인지도 결정합니다. 처음에는 작업에 가장 적합한 모델을 알지 못하는 상태에서 시스템은 여러 LLM을 테스트하여 시간이 지남에 따라 어떤 모델이 더 나은 성능을 발휘하는지 학습하고 더 많은 작업을 할당합니다.

AI 팀 테스트

멀티 LLM AB-MCTS 시스템은 새로운 문제에 대해 인간과 같은 시각적 추론을 테스트하는 ARC-AGI-2 벤치마크에서 평가되었는데, 이는 AI에게 어려운 과제입니다.

연구팀은 o4-mini, Gemini 2.5 Pro, DeepSeek-R1과 같은 프론티어 모델을 결합했습니다.

이 모델 집합은 120개의 테스트 문제 중 30% 이상을 해결하여 단일 모델의 성능을 훨씬 뛰어넘었습니다. 이 시스템은 각 작업에 가장 적합한 모델을 동적으로 할당하여 명확한 솔루션 경로가 존재할 때 가장 효과적인 LLM을 신속하게 식별했습니다.

AB-MCTS와 개별 모델 비교(출처: 사카나 AI)
AB-MCTS와 개별 모델 비교 출처: 사카나 AI

놀랍게도 이 시스템은 이전에는 어떤 단일 모델로도 해결할 수 없었던 문제를 해결했습니다. 한 예로, o4-mini의 잘못된 솔루션을 DeepSeek-R1과 Gemini-2.5 Pro가 개선하여 오류를 수정하고 정답을 제공했습니다.

연구진은 "이는 멀티-LLM AB-MCTS가 프론티어 모델을 결합하여 이전에는 해결할 수 없었던 문제를 해결함으로써 집단 AI 지능의 한계를 확장할 수 있음을 보여줍니다."라고 설명합니다.

AB-MTCS는 문제 해결 단계에 따라 다양한 모델을 선택할 수 있습니다(출처: 사카나 AI).
AB-MTCS는 문제 해결의 여러 단계에서 서로 다른 모델을 선택할 수 있습니다 출처: 사카나 AI

아키바는 "각 모델의 강점과 환각 성향은 다양합니다."라고 말합니다. "환각 위험이 낮은 모델을 조합함으로써 강력한 추론과 신뢰성을 모두 달성하여 비즈니스의 핵심 문제를 해결할 수 있습니다."

연구부터 실제 사용까지

사카나 AI는 Apache 2.0 라이선스에 따라 오픈 소스 프레임워크인 TreeQuest를 출시하여 개발자와 기업이 Multi-LLM AB-MCTS를 구현할 수 있도록 지원합니다. 이 유연한 API는 다양한 작업을 위한 맞춤형 스코어링과 로직을 지원합니다.

아키바는 "특정 비즈니스 과제를 위해 AB-MCTS를 아직 탐색 중이지만 그 잠재력은 분명합니다."라고 말합니다.

AB-MCTS는 ARC-AGI-2 벤치마크 외에도 복잡한 코딩과 머신러닝 모델 정확도 향상과 같은 작업에서 성공을 거두었습니다.

"AB-MCTS는 소프트웨어 성능 메트릭 최적화와 같은 반복적인 시행착오 작업에서 탁월합니다."라고 아키바는 덧붙입니다. "예를 들어 웹 서비스 응답 지연 시간을 자동으로 줄일 수 있습니다."

이 오픈 소스 도구는 강력하고 안정적인 차세대 엔터프라이즈 AI 애플리케이션을 구현할 수 있습니다.

관련 기사
ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화 ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화 고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.TikTok의 모회사인 ByteDanc
Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공 Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공 코드 품질에 초점을 맞춘 이스라엘 기반 AI 코딩 스타트업 Qodo가 Google Cloud와 파트너십을 시작하여 AI로 생성된 소프트웨어의 무결성을 강화했습니다.기업들이 코딩에 AI를 점점 더 많이 의존함에 따라, 강력한 감독 및 품질 보증 도구에 대한 수요가 증가하고 있습니다.Qodo의 CEO Itamar Friedman은 AI로 생성된 코드가 현대 개
AI Empathy Training Reduces Accuracy, Increases Risks AI Empathy Training Reduces Accuracy, Increases Risks 친근하고 공감적인 챗봇, 예를 들어 ChatGPT는 사용자가 불안해 보일 때 잘못된 답변을 제공할 가능성이 더 높다. 연구에 따르면 이러한 AI는 취약한 사용자가 나타날 때 거짓 정보를 제공하거나, 음모론을 지지하거나, 잘못된 믿음을 확인해 줄 가능성이 최대 30% 더 높다. 기술 제품을 틈새 시장에서 주류 시장으로 전환하는 것은 오랫동안 수익성
의견 (0)
0/200
위로 돌아갑니다
OR