메이투안, 통합 시각 및 음성 아키텍처를 갖춘 ‘LongCat-Next’ AI 모델 공개

4월 3일, MiTi 팀은 네이티브 멀티모달 대형 모델인 LongCat-Next를 공식 출시했습니다. 이 모델은 이미지, 오디오, 텍스트를 통합된 이산 토큰 스트림으로 변환함으로써 기존의 “언어 기반 + 플러그인” 방식의 한계를 뛰어넘습니다. 이를 통해 AI는 물리적 세계를 네이티브하게 “보고” “듣는” 것이 가능해지며, 텍스트를 처리하는 것과 동일한 방식으로 이러한 입력 데이터를 처리할 수 있습니다.
기술적 핵심: "모달리티 내재화"를 가능하게 하는 DiNA 아키텍처
서로 다른 데이터 유형 간의 장벽을 제거하기 위해 MiTi는 DiNA(Discrete Native Autoregressive) 아키텍처를 개발하여 다중 모달 모델링에서 심층적인 통합을 달성했습니다:
완전한 모달리티 통합: 이 모델은 텍스트, 이미지, 오디오에 대해 동일한 파라미터, 어텐션 메커니즘, 손실 함수를 사용합니다.
이해와 생성의 대칭성: 단일 수학적 프레임워크 내에서 다음 텍스트 토큰을 예측하는 것은 "이해"를, 이미지 토큰을 예측하는 것은 "생성"을 구성합니다. 두 과정 모두 훈련 과정에서 상당한 시너지 효과를 보여줍니다.
극한의 압축: dNaViT 시각 토케나이저를 활용하여 어떤 해상도의 입력도 처리합니다. 8단계 잔차 벡터 양자화 과정을 통해 픽셀 공간에서 최대 28배의 압축률을 달성하면서도 OCR 및 금융 문서 분석과 같은 작업에 필수적인 세부 정보를 보존합니다.
실증적 성능: 이산 모델링에는 본질적인 한계가 없다
LongCat-Next는 여러 벤치마크에서 전문 모델을 능가하는 성능을 보여주며, "이산화는 필연적으로 정보 손실을 초래한다"는 전통적인 관념에 효과적으로 도전합니다:
세밀한 인식: 밀집된 텍스트 시나리오를 위한 OmniDocBench에서, 이 모델은 Qwen3-Omni뿐만 아니라 전용 비전 모델인 Qwen3-VL보다도 우수한 성능을 보입니다.
시각적 추론: MathVista에서 83.1점이라는 인상적인 점수를 기록하며, 견고한 산업급 논리적 추론 능력을 입증했습니다.
크로스 모달 협업: 선도적인 언어 능력(C-Eval 86.80)을 유지하면서도, 텍스트와 음성의 저지연 병렬 생성을 지원하며 사용자 정의 가능한 음성 복제 기능도 제공합니다.
산업적 통찰: 물리적 세계 AI를 위한 토대
대규모 언어 모델은 오랫동안 텍스트 중심이었습니다. LongCat-Next의 획기적인 성과는 물리적 세계의 정보를 언어처럼 이산화하고 모델링할 수 있음을 입증한 점입니다. AI가 통합된 "모국어"를 갖추게 되면, 도구를 사용하거나 코드를 작성하거나 복잡한 차트를 해석할 때 더 지능적이고 직관적으로 행동할 수 있습니다.
MiTi는 이제 LongCat-Next 모델과 dNaViT 토큰화기를 오픈소스로 공개했습니다. 이 효율적이고 잠재력 높은 고유 이산 아키텍처는 개발자들에게 현실 세계를 인지하고 상호작용할 수 있는 AI를 구축하는 데 필수적인 도구를 제공합니다.
관련 기사
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로
관련 특별 주제 추천
의견 (1)
0/500
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

4월 3일, MiTi 팀은 네이티브 멀티모달 대형 모델인 LongCat-Next를 공식 출시했습니다. 이 모델은 이미지, 오디오, 텍스트를 통합된 이산 토큰 스트림으로 변환함으로써 기존의 “언어 기반 + 플러그인” 방식의 한계를 뛰어넘습니다. 이를 통해 AI는 물리적 세계를 네이티브하게 “보고” “듣는” 것이 가능해지며, 텍스트를 처리하는 것과 동일한 방식으로 이러한 입력 데이터를 처리할 수 있습니다.
기술적 핵심: "모달리티 내재화"를 가능하게 하는 DiNA 아키텍처
서로 다른 데이터 유형 간의 장벽을 제거하기 위해 MiTi는 DiNA(Discrete Native Autoregressive) 아키텍처를 개발하여 다중 모달 모델링에서 심층적인 통합을 달성했습니다:
완전한 모달리티 통합: 이 모델은 텍스트, 이미지, 오디오에 대해 동일한 파라미터, 어텐션 메커니즘, 손실 함수를 사용합니다.
이해와 생성의 대칭성: 단일 수학적 프레임워크 내에서 다음 텍스트 토큰을 예측하는 것은 "이해"를, 이미지 토큰을 예측하는 것은 "생성"을 구성합니다. 두 과정 모두 훈련 과정에서 상당한 시너지 효과를 보여줍니다.
극한의 압축: dNaViT 시각 토케나이저를 활용하여 어떤 해상도의 입력도 처리합니다. 8단계 잔차 벡터 양자화 과정을 통해 픽셀 공간에서 최대 28배의 압축률을 달성하면서도 OCR 및 금융 문서 분석과 같은 작업에 필수적인 세부 정보를 보존합니다.
실증적 성능: 이산 모델링에는 본질적인 한계가 없다
LongCat-Next는 여러 벤치마크에서 전문 모델을 능가하는 성능을 보여주며, "이산화는 필연적으로 정보 손실을 초래한다"는 전통적인 관념에 효과적으로 도전합니다:
세밀한 인식: 밀집된 텍스트 시나리오를 위한 OmniDocBench에서, 이 모델은 Qwen3-Omni뿐만 아니라 전용 비전 모델인 Qwen3-VL보다도 우수한 성능을 보입니다.
시각적 추론: MathVista에서 83.1점이라는 인상적인 점수를 기록하며, 견고한 산업급 논리적 추론 능력을 입증했습니다.
크로스 모달 협업: 선도적인 언어 능력(C-Eval 86.80)을 유지하면서도, 텍스트와 음성의 저지연 병렬 생성을 지원하며 사용자 정의 가능한 음성 복제 기능도 제공합니다.
산업적 통찰: 물리적 세계 AI를 위한 토대
대규모 언어 모델은 오랫동안 텍스트 중심이었습니다. LongCat-Next의 획기적인 성과는 물리적 세계의 정보를 언어처럼 이산화하고 모델링할 수 있음을 입증한 점입니다. AI가 통합된 "모국어"를 갖추게 되면, 도구를 사용하거나 코드를 작성하거나 복잡한 차트를 해석할 때 더 지능적이고 직관적으로 행동할 수 있습니다.
MiTi는 이제 LongCat-Next 모델과 dNaViT 토큰화기를 오픈소스로 공개했습니다. 이 효율적이고 잠재력 높은 고유 이산 아키텍처는 개발자들에게 현실 세계를 인지하고 상호작용할 수 있는 AI를 구축하는 데 필수적인 도구를 제공합니다.
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐





집






