ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화
고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.
주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.
TikTok의 모회사인 ByteDance는 기술 논문에서 소개된 새로운 대형 언어 모델(LLM)인 Seed-Thinking-v1.5를 공개하며 이 경쟁에 뛰어들었습니다. 이 모델은 STEM 및 일반 도메인에서 추론 능력을 강화하는 데 목표를 두고 있습니다.
이 모델은 아직 사용 가능하지 않으며, 라이선스가 독점, 오픈소스, 또는 하이브리드인지 여부는 공개되지 않았습니다. 하지만 논문은 출시 전에 탐구할 만한 주요 통찰을 제공합니다.
전문가 혼합(MoE) 프레임워크 활용
Meta의 Llama 4와 Mistral의 Mixtral을 따라, Seed-Thinking-v1.5는 전문가 혼합(MoE) 아키텍처를 채택했습니다.
이 접근법은 여러 전문화된 모델을 하나로 통합하여 각기 다른 도메인에 초점을 맞춤으로써 효율성을 높입니다.
Seed-Thinking-v1.5는 2000억 개 파라미터 중 단 200억 개만을 사용하여 성능을 최적화합니다.
ByteDance의 GitHub에 공개된 논문은 모델이 구조화된 추론과 의도적인 응답 생성에 중점을 둔 점을 강조합니다.
이 모델은 DeepSeek R1을 능가하며, Google의 Gemini 2.5 Pro와 OpenAI의 o3-mini-high를 타사 벤치마크에서 경쟁하며, ARC-AGI 벤치마크에서 인간의 성능을 초월하는 경제적으로 가치 있는 작업에서 OpenAI 기준을 넘어섭니다.

더 큰 모델에 대한 컴팩트하면서 강력한 대안으로 자리 잡은 Seed-Thinking-v1.5는 혁신적인 강화 학습, 엄선된 훈련 데이터, 고급 AI 인프라를 통해 강력한 벤치마크 결과를 제공합니다.
벤치마크 성능 및 핵심 강점
Seed-Thinking-v1.5는 어려운 작업에서 탁월하며, AIME 2024에서 86.7%, Codeforces에서 pass@8로 55.0%, GPQA 과학 벤치마크에서 77.3%를 기록하며 OpenAI의 o3-mini-high 및 Google의 Gemini 2.5 Pro와 비슷하거나 이를 초월하는 추론 메트릭을 보여줍니다.
비추론 작업에서는 DeepSeek R1보다 8.0% 높은 인간 선호도 승률을 달성하여 논리와 수학을 넘어선 다재다능함을 보여줍니다.
벤치마크 포화를 방지하기 위해 ByteDance는 암기를 방지하고 모델 성능을 더 잘 평가하기 위해 더 어려운 수학 벤치마크인 BeyondAIME을 만들었습니다. 이와 함께 Codeforces 세트는 향후 연구를 돕기 위해 공개될 예정입니다.
훈련 데이터 접근법
Seed-Thinking-v1.5 개발에서 데이터 품질은 핵심이었습니다. 지도 미세 조정을 위해 40만 개 샘플이 엄선되었습니다: 30만 개의 검증 가능한 STEM, 논리, 코딩 작업과 10만 개의 창의적 글쓰기와 같은 비검증 작업.
강화 학습을 위해 데이터는 다음과 같이 나뉘었습니다:
- 검증 가능한 문제: 엘리트 대회에서 전문가가 검증한 10만 개의 엄선된 STEM 질문과 논리 퍼즐.
- 비검증 작업: 쌍대 보상 모델을 통해 평가된 개방형 프롬프트에 대한 인간 선호도 데이터셋.
STEM 데이터의 80% 이상은 고급 수학에 초점을 맞췄으며, 스도쿠 및 24포인트 퍼즐과 같은 논리 작업은 모델 진행 상황에 맞춰 조정되었습니다.
강화 학습 혁신
Seed-Thinking-v1.5는 긴 체인 오브 쏘트 시나리오에서 문제를 해결하기 위해 사용자 정의 액터-크리틱(VAPO) 및 정책-그라디언트(DAPO) 프레임워크를 사용하여 강화 학습을 안정화합니다.
두 가지 보상 모델이 RL 감독을 강화합니다:
- Seed-Verifier: 생성된 답변과 참조 답변 간의 수학적 동등성을 보장하는 규칙 기반 LLM.
- Seed-Thinking-Verifier: 보상 조작에 강한 일관된 평가를 위한 추론 기반 판단자.
이 듀얼 시스템은 간단하고 복잡한 작업 전반에 걸쳐 정밀한 평가를 지원합니다.
확장 가능한 인프라 설계
ByteDance의 HybridFlow 프레임워크는 Ray 클러스터로 구동되며, GPU 유휴 시간을 최소화하기 위해 훈련과 추론을 공동 배치하여 효율적인 대규모 훈련을 지원합니다.
스트리밍 롤아웃 시스템(SRS)은 모델 진화와 런타임을 분리하여 부분 생성의 비동기 관리를 통해 반복 속도를 최대 3배까지 가속화합니다.
추가 기술에는 다음이 포함됩니다:
- 메모리 효율성을 위한 혼합 정밀도(FP8)
- MoE 최적화를 위한 전문가 병렬 처리 및 커널 자동 튜닝
- 견고한 체크포인팅을 위한 ByteCheckpoint
- 최적화된 병렬 처리 및 메모리 설정을 위한 AutoTuner
인간 중심 평가 및 응용
창의적 글쓰기, 인문학, 일반 대화에 걸친 인간 테스트에서 Seed-Thinking-v1.5는 DeepSeek R1을 능가하며 실세계 관련성을 입증했습니다.
팀은 검증 가능한 작업에 대한 훈련이 엄격한 수학적 워크플로우를 통해 창의적 도메인으로의 일반화를 강화했다고 밝혔습니다.
기술 팀 및 기업에 대한 시사점
LLM 수명 주기를 감독하는 기술 리더들에게 Seed-Thinking-v1.5는 고급 추론을 기업 AI 시스템에 통합하는 모델을 제공합니다.
검증 가능한 데이터셋과 다단계 강화 학습을 통한 모듈식 훈련은 정밀한 제어로 LLM 개발을 확장하는 팀에 적합합니다.
Seed-Verifier와 Seed-Thinking-Verifier는 고객 대면 또는 규제 환경에서 필수적인 신뢰할 수 있는 보상 모델링을 강화합니다.
촉박한 일정의 팀을 위해 VAPO와 동적 샘플링은 반복 주기를 줄여 작업별 미세 조정을 간소화합니다.
SRS 및 FP8 최적화를 포함한 하이브리드 인프라는 훈련 처리량과 하드웨어 효율성을 높여 클라우드 및 온프레미스 시스템에 이상적입니다.
모델의 적응형 보상 피드백은 다양한 데이터 파이프라인 관리의 문제를 해결하여 도메인 전반의 일관성을 보장합니다.
데이터 엔지니어들에게는 엄격한 데이터 필터링과 전문가 검증에 대한 초점이 고품질 데이터셋이 모델 성능을 높이는 데 중요한 가치를 강조합니다.
미래 전망
Yonghui Wu가 이끌고 Haibin Lin이 공개적으로 대표하는 ByteDance의 Seed LLM Systems 팀이 개발한 Seed-Thinking-v1.5는 Doubao 1.5 Pro와 같은 노력에 기반을 두며, 공유 RLHF 및 데이터 큐레이션 기술을 사용합니다.
팀은 훈련 효율성과 비검증 작업에 대한 보상 모델링에 초점을 맞춰 강화 학습을 개선하는 것을 목표로 합니다. BeyondAIME과 같은 벤치마크 공개는 추론 중심 AI 연구의 추가 발전을 촉진할 것입니다.
관련 기사
Google, A2A 프로토콜 공개로 AI 에이전트 상호운용성 강화
AI 에이전트는 공급망 관리 및 장비 조달과 같은 복잡하고 반복적인 작업을 처리합니다. 조직이 다양한 벤더와 프레임워크에서 에이전트를 채택함에 따라, 이들 에이전트는 종종 고립되어 효과적으로 협업하지 못합니다. 상호운용성 문제는 지속되며, 에이전트가 때때로 상충되는 권장사항을 제공합니다. AI 워크플로우 표준화는 여전히 어렵고, 에이전트 통합에는 종종 미들
Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공
코드 품질에 초점을 맞춘 이스라엘 기반 AI 코딩 스타트업 Qodo가 Google Cloud와 파트너십을 시작하여 AI로 생성된 소프트웨어의 무결성을 강화했습니다.기업들이 코딩에 AI를 점점 더 많이 의존함에 따라, 강력한 감독 및 품질 보증 도구에 대한 수요가 증가하고 있습니다.Qodo의 CEO Itamar Friedman은 AI로 생성된 코드가 현대 개
Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개
Salesforce는 새로운 직장 AI 전략을 공개하며 월요일, Slack 대화에 통합된 전문화된 “디지털 팀메이트”를 소개했습니다.새 도구인 Slack의 Agentforce는 기업이 직장 대화를 검색하고, 회사 데이터에 접근하며, 직원들이 매일 사용하는 메시징 플랫폼 내에서 작업을 실행하는 작업별 AI 에이전트를 만들고 배포할 수 있게 합니다.“전문화된
의견 (0)
0/200
고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.
주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.
TikTok의 모회사인 ByteDance는 기술 논문에서 소개된 새로운 대형 언어 모델(LLM)인 Seed-Thinking-v1.5를 공개하며 이 경쟁에 뛰어들었습니다. 이 모델은 STEM 및 일반 도메인에서 추론 능력을 강화하는 데 목표를 두고 있습니다.
이 모델은 아직 사용 가능하지 않으며, 라이선스가 독점, 오픈소스, 또는 하이브리드인지 여부는 공개되지 않았습니다. 하지만 논문은 출시 전에 탐구할 만한 주요 통찰을 제공합니다.
전문가 혼합(MoE) 프레임워크 활용
Meta의 Llama 4와 Mistral의 Mixtral을 따라, Seed-Thinking-v1.5는 전문가 혼합(MoE) 아키텍처를 채택했습니다.
이 접근법은 여러 전문화된 모델을 하나로 통합하여 각기 다른 도메인에 초점을 맞춤으로써 효율성을 높입니다.
Seed-Thinking-v1.5는 2000억 개 파라미터 중 단 200억 개만을 사용하여 성능을 최적화합니다.
ByteDance의 GitHub에 공개된 논문은 모델이 구조화된 추론과 의도적인 응답 생성에 중점을 둔 점을 강조합니다.
이 모델은 DeepSeek R1을 능가하며, Google의 Gemini 2.5 Pro와 OpenAI의 o3-mini-high를 타사 벤치마크에서 경쟁하며, ARC-AGI 벤치마크에서 인간의 성능을 초월하는 경제적으로 가치 있는 작업에서 OpenAI 기준을 넘어섭니다.

더 큰 모델에 대한 컴팩트하면서 강력한 대안으로 자리 잡은 Seed-Thinking-v1.5는 혁신적인 강화 학습, 엄선된 훈련 데이터, 고급 AI 인프라를 통해 강력한 벤치마크 결과를 제공합니다.
벤치마크 성능 및 핵심 강점
Seed-Thinking-v1.5는 어려운 작업에서 탁월하며, AIME 2024에서 86.7%, Codeforces에서 pass@8로 55.0%, GPQA 과학 벤치마크에서 77.3%를 기록하며 OpenAI의 o3-mini-high 및 Google의 Gemini 2.5 Pro와 비슷하거나 이를 초월하는 추론 메트릭을 보여줍니다.
비추론 작업에서는 DeepSeek R1보다 8.0% 높은 인간 선호도 승률을 달성하여 논리와 수학을 넘어선 다재다능함을 보여줍니다.
벤치마크 포화를 방지하기 위해 ByteDance는 암기를 방지하고 모델 성능을 더 잘 평가하기 위해 더 어려운 수학 벤치마크인 BeyondAIME을 만들었습니다. 이와 함께 Codeforces 세트는 향후 연구를 돕기 위해 공개될 예정입니다.
훈련 데이터 접근법
Seed-Thinking-v1.5 개발에서 데이터 품질은 핵심이었습니다. 지도 미세 조정을 위해 40만 개 샘플이 엄선되었습니다: 30만 개의 검증 가능한 STEM, 논리, 코딩 작업과 10만 개의 창의적 글쓰기와 같은 비검증 작업.
강화 학습을 위해 데이터는 다음과 같이 나뉘었습니다:
- 검증 가능한 문제: 엘리트 대회에서 전문가가 검증한 10만 개의 엄선된 STEM 질문과 논리 퍼즐.
- 비검증 작업: 쌍대 보상 모델을 통해 평가된 개방형 프롬프트에 대한 인간 선호도 데이터셋.
STEM 데이터의 80% 이상은 고급 수학에 초점을 맞췄으며, 스도쿠 및 24포인트 퍼즐과 같은 논리 작업은 모델 진행 상황에 맞춰 조정되었습니다.
강화 학습 혁신
Seed-Thinking-v1.5는 긴 체인 오브 쏘트 시나리오에서 문제를 해결하기 위해 사용자 정의 액터-크리틱(VAPO) 및 정책-그라디언트(DAPO) 프레임워크를 사용하여 강화 학습을 안정화합니다.
두 가지 보상 모델이 RL 감독을 강화합니다:
- Seed-Verifier: 생성된 답변과 참조 답변 간의 수학적 동등성을 보장하는 규칙 기반 LLM.
- Seed-Thinking-Verifier: 보상 조작에 강한 일관된 평가를 위한 추론 기반 판단자.
이 듀얼 시스템은 간단하고 복잡한 작업 전반에 걸쳐 정밀한 평가를 지원합니다.
확장 가능한 인프라 설계
ByteDance의 HybridFlow 프레임워크는 Ray 클러스터로 구동되며, GPU 유휴 시간을 최소화하기 위해 훈련과 추론을 공동 배치하여 효율적인 대규모 훈련을 지원합니다.
스트리밍 롤아웃 시스템(SRS)은 모델 진화와 런타임을 분리하여 부분 생성의 비동기 관리를 통해 반복 속도를 최대 3배까지 가속화합니다.
추가 기술에는 다음이 포함됩니다:
- 메모리 효율성을 위한 혼합 정밀도(FP8)
- MoE 최적화를 위한 전문가 병렬 처리 및 커널 자동 튜닝
- 견고한 체크포인팅을 위한 ByteCheckpoint
- 최적화된 병렬 처리 및 메모리 설정을 위한 AutoTuner
인간 중심 평가 및 응용
창의적 글쓰기, 인문학, 일반 대화에 걸친 인간 테스트에서 Seed-Thinking-v1.5는 DeepSeek R1을 능가하며 실세계 관련성을 입증했습니다.
팀은 검증 가능한 작업에 대한 훈련이 엄격한 수학적 워크플로우를 통해 창의적 도메인으로의 일반화를 강화했다고 밝혔습니다.
기술 팀 및 기업에 대한 시사점
LLM 수명 주기를 감독하는 기술 리더들에게 Seed-Thinking-v1.5는 고급 추론을 기업 AI 시스템에 통합하는 모델을 제공합니다.
검증 가능한 데이터셋과 다단계 강화 학습을 통한 모듈식 훈련은 정밀한 제어로 LLM 개발을 확장하는 팀에 적합합니다.
Seed-Verifier와 Seed-Thinking-Verifier는 고객 대면 또는 규제 환경에서 필수적인 신뢰할 수 있는 보상 모델링을 강화합니다.
촉박한 일정의 팀을 위해 VAPO와 동적 샘플링은 반복 주기를 줄여 작업별 미세 조정을 간소화합니다.
SRS 및 FP8 최적화를 포함한 하이브리드 인프라는 훈련 처리량과 하드웨어 효율성을 높여 클라우드 및 온프레미스 시스템에 이상적입니다.
모델의 적응형 보상 피드백은 다양한 데이터 파이프라인 관리의 문제를 해결하여 도메인 전반의 일관성을 보장합니다.
데이터 엔지니어들에게는 엄격한 데이터 필터링과 전문가 검증에 대한 초점이 고품질 데이터셋이 모델 성능을 높이는 데 중요한 가치를 강조합니다.
미래 전망
Yonghui Wu가 이끌고 Haibin Lin이 공개적으로 대표하는 ByteDance의 Seed LLM Systems 팀이 개발한 Seed-Thinking-v1.5는 Doubao 1.5 Pro와 같은 노력에 기반을 두며, 공유 RLHF 및 데이터 큐레이션 기술을 사용합니다.
팀은 훈련 효율성과 비검증 작업에 대한 보상 모델링에 초점을 맞춰 강화 학습을 개선하는 것을 목표로 합니다. BeyondAIME과 같은 벤치마크 공개는 추론 중심 AI 연구의 추가 발전을 촉진할 것입니다.











