메이투안, 통합 시각 및 음성 아키텍처를 갖춘 ‘LongCat-Next’ AI 모델 공개

집

뉴스

2026년 4월 12일

StephenMiller

112

메이투안, 통합 시각 및 음성 아키텍처를 갖춘 ‘LongCat-Next’ AI 모델 공개

4월 3일, MiTi 팀은 네이티브 멀티모달 대형 모델인 LongCat-Next를 공식 출시했습니다. 이 모델은 이미지, 오디오, 텍스트를 통합된 이산 토큰 스트림으로 변환함으로써 기존의 “언어 기반 + 플러그인” 방식의 한계를 뛰어넘습니다. 이를 통해 AI는 물리적 세계를 네이티브하게 “보고” “듣는” 것이 가능해지며, 텍스트를 처리하는 것과 동일한 방식으로 이러한 입력 데이터를 처리할 수 있습니다.

기술적 핵심: "모달리티 내재화"를 가능하게 하는 DiNA 아키텍처

서로 다른 데이터 유형 간의 장벽을 제거하기 위해 MiTi는 DiNA(Discrete Native Autoregressive) 아키텍처를 개발하여 다중 모달 모델링에서 심층적인 통합을 달성했습니다:

완전한 모달리티 통합: 이 모델은 텍스트, 이미지, 오디오에 대해 동일한 파라미터, 어텐션 메커니즘, 손실 함수를 사용합니다.

이해와 생성의 대칭성: 단일 수학적 프레임워크 내에서 다음 텍스트 토큰을 예측하는 것은 "이해"를, 이미지 토큰을 예측하는 것은 "생성"을 구성합니다. 두 과정 모두 훈련 과정에서 상당한 시너지 효과를 보여줍니다.

극한의 압축: dNaViT 시각 토케나이저를 활용하여 어떤 해상도의 입력도 처리합니다. 8단계 잔차 벡터 양자화 과정을 통해 픽셀 공간에서 최대 28배의 압축률을 달성하면서도 OCR 및 금융 문서 분석과 같은 작업에 필수적인 세부 정보를 보존합니다.

실증적 성능: 이산 모델링에는 본질적인 한계가 없다

LongCat-Next는 여러 벤치마크에서 전문 모델을 능가하는 성능을 보여주며, "이산화는 필연적으로 정보 손실을 초래한다"는 전통적인 관념에 효과적으로 도전합니다:

세밀한 인식: 밀집된 텍스트 시나리오를 위한 OmniDocBench에서, 이 모델은 Qwen3-Omni뿐만 아니라 전용 비전 모델인 Qwen3-VL보다도 우수한 성능을 보입니다.

시각적 추론: MathVista에서 83.1점이라는 인상적인 점수를 기록하며, 견고한 산업급 논리적 추론 능력을 입증했습니다.

크로스 모달 협업: 선도적인 언어 능력(C-Eval 86.80)을 유지하면서도, 텍스트와 음성의 저지연 병렬 생성을 지원하며 사용자 정의 가능한 음성 복제 기능도 제공합니다.

산업적 통찰: 물리적 세계 AI를 위한 토대

대규모 언어 모델은 오랫동안 텍스트 중심이었습니다. LongCat-Next의 획기적인 성과는 물리적 세계의 정보를 언어처럼 이산화하고 모델링할 수 있음을 입증한 점입니다. AI가 통합된 "모국어"를 갖추게 되면, 도구를 사용하거나 코드를 작성하거나 복잡한 차트를 해석할 때 더 지능적이고 직관적으로 행동할 수 있습니다.

MiTi는 이제 LongCat-Next 모델과 dNaViT 토큰화기를 오픈소스로 공개했습니다. 이 효율적이고 잠재력 높은 고유 이산 아키텍처는 개발자들에게 현실 세계를 인지하고 상호작용할 수 있는 AI를 구축하는 데 필수적인 도구를 제공합니다.

관련 특별 주제 추천

교육 및 학습

최고의 AI 기반 반복 학습 도구들: 의학 및 법학 전공 학생들을 위한 학습 계획 최적화 방법

2026년 최고의 AI 반복 학습 도구들을 만나보세요. XIX.AI가 엄선하여 제공합니다. 우리가 추천하는 이 도구들은 의학 및 법학 전공 학생들이 학습 계획을 최적화하여 최대한의 학습 효과를 얻는 데 도움을 줍니다. 무료 옵션과 유료 옵션을 실제 사용 사례와 매주 업데이트되는 순위를 통해 비교해 보세요. 지금 바로 학습 효율을 높이세요.

10 도구

xix.ai

비디오 제작

대본 작성과 시각적 스토리텔링을 위한 최고의 AI 텍스트-비디오 변환 플랫폼

2026년 최신 최고의 AI 텍스트-비디오 변환 플랫폼: 시나리오 작성과 시각적 스토리텔링을 위한 최고 평점 도구들. 텍스트를 매력적인 영상으로 변환해 줄 강력하고 혁신적인 솔루션을 만나보세요. 매주 업데이트되는 순위와 실제 테스트 결과를 통해 무료 및 유료 옵션을 비교해 보세요. 창의성과 생산성을 높여줄 완벽한 플랫폼을 찾아보세요. XIX.AI에서 엄선된 플랫폼을 확인해 보세요.

10 도구

xix.ai

챗봇

AI 멀티 에이전트 오케스트레이터: 자연어를 통해 복잡한 자동화 워크플로우를 설계하기

2026 최신 정보: 자연어를 통해 복잡한 자동화 워크플로우를 설계할 수 있는 최고의 AI 멀티 에이전트 오케스트레이터들을 만나보세요. 저희가 엄선한 이 목록에는 태스크 자동화와 지능형 프로세스 관리에 탁월한 최고의 플랫폼들이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 사례를 바탕으로 비교해 보세요. XIX.AI가 매주 업데이트하는 전문적인 순위를 통해 AI의 이점을 최대한 활용해 보세요.

10 도구

xix.ai

이미지 편집

최고의 AI 노이즈 감소 소프트웨어: 저조도 야간 사진에서 노이즈와 왜곡을 제거하세요.

2026년 저조도 야간 촬영에 가장 적합한 AI 노이즈 감소 소프트웨어를 발견해 보세요. 저희가 엄선하여 제공하는 이 목록에서는 무료 및 유료 도구들을 비교하며, 실제 사용 테스트 결과와 매주 업데이트되는 순위를 제공합니다. 불필요한 요소들을 쉽게 제거하여 더 깨끗한 이미지를 얻으세요. XIX.AI에서 AI의 강력한 기능을 활용해 보세요.

10 도구

xix.ai

챗봇

최고의 맞춤형 AI 여자친구 생성기: 나만의 개성, 취미, 배경 이야기를 만들어보세요

XIX.AI에서 2026년 최고의 맞춤형 AI 여자친구 생성기를 만나보세요. 독창적인 성격, 취미, 깊이 있는 배경 이야기를 디자인할 수 있도록 엄선된 최고 평점 목록을 확인해 보세요. 실제 사용 후기를 바탕으로 무료 옵션과 유료 옵션을 비교해 보세요. 지금 바로 나만의 완벽한 창의적 동반자를 만나보세요.

10 도구

xix.ai

생산력

AI 아키텍처 설계자: 자연어를 활용하여 확장 가능한 시스템 아키텍처 구축하기

XIX.AI에서 2026년 최고의 AI 아키텍처 설계 도구를 만나보세요. 엄선된 최고 평점 목록에는 자연어를 활용해 확장 가능한 시스템 아키텍처를 구축할 수 있는 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 사용 사례를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI 경쟁력을 강화하고 개발 프로세스를 간소화하세요.

10 도구

xix.ai

의견 (1)

0/500

먼저 로그인하십시오

CharlesHernández

2026년 5월 17일 오전 3시 0분 15초 GMT+09:00

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

최고의 뉴스

AI Builder와 Power Automate가 문서 요약을 혁신하다 AI Notebooklm Podcast의 AI 호스트는 이제 인터뷰에 참여할 수 있습니다 중국, 국가 휴머노이드 로봇 및 구현 지능 표준 공개 기업 AI 도입 정체기, 램프 데이터에 따르면 Bing 이미지 크리에이터 튜토리얼: AI 아트 생성 가이드 당신의 목소리를 사용하여 AI 음악 만들기 배우기 : 단계별 Suno 튜토리얼 iMyFone MagicMic: 실시간 AI 음성 변환기 리뷰 및 튜토리얼 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 엠보디드 인텔리전스, 무분별한 확장을 억제하기 위한 업계 최초의 표준을 발표하다 딥시크 V4, 다중 모달 AI의 판도를 바꾸는 혁신으로 부상하다

더