Lar
A Meituan apresenta o modelo de IA LongCat-Next com arquitetura unificada de visão e fala

Em 3 de abril, a equipe do MiTi lançou oficialmente o LongCat-Next, um grande modelo multimodal nativo. Esse modelo vai além da abordagem convencional de “base de linguagem mais plug-ins”, convertendo imagens, áudio e texto em um fluxo unificado de tokens discretos. Isso permite que a IA “veja” e “ouça” o mundo físico de forma nativa, processando essas entradas da mesma forma que processa o texto.
Núcleo técnico: a arquitetura DiNA permite a “internalização de modalidades”
Para eliminar as barreiras entre diferentes tipos de dados, a MiTi desenvolveu a arquitetura DiNA (Discrete Native Autoregressive), alcançando uma unificação profunda na modelagem multimodal:
Unificação completa de modalidades: o modelo usa os mesmos parâmetros, mecanismos de atenção e funções de perda para texto, imagens e áudio.
Simetria entre compreensão e geração: dentro de uma única estrutura matemática, prever o próximo token de texto constitui “compreensão”, enquanto prever um token de imagem é “geração”. Ambos os processos apresentam benefícios sinérgicos significativos durante o treinamento.
Compressão extrema: Utilizando o dNaViT Visual Tokenizer, ele processa entradas em qualquer resolução. Por meio de um processo de quantização vetorial residual de 8 camadas, alcança até 28 vezes de compressão no espaço de pixels, preservando detalhes críticos para tarefas como OCR e análise de documentos financeiros.
Desempenho empírico: a modelagem discreta não tem limites inerentes
O LongCat-Next oferece desempenho que supera modelos especializados em vários benchmarks, desafiando efetivamente a noção tradicional de que “a discretização inevitavelmente causa perda de informação”:
Percepção refinada: No OmniDocBench para cenários de texto denso, ele supera não apenas o Qwen3-Omni, mas também o modelo de visão especializado Qwen3-VL.
Raciocínio visual: obteve uma pontuação impressionante de 83,1 no MathVista, demonstrando raciocínio lógico robusto e de nível industrial.
Colaboração multimodal: Ao mesmo tempo em que mantém recursos de linguagem de ponta (C-Eval 86,80), ele suporta geração paralela de texto e fala com baixa latência, além de clonagem de voz personalizável.
Perspectiva do setor: uma base para a IA no mundo físico
Os grandes modelos de linguagem há muito se concentram no texto. A inovação do LongCat-Next é a prova de que as informações do mundo físico podem ser discretizadas e modeladas como a linguagem. Quando uma IA possui uma “linguagem nativa” unificada, ela se torna mais inteligente e intuitiva ao usar ferramentas, escrever código ou interpretar gráficos complexos.
A MiTi tornou o modelo LongCat-Next e o tokenizador dNaViT de código aberto. Essa arquitetura discreta nativa, eficiente e de alto potencial, fornece aos desenvolvedores ferramentas essenciais para a construção de IA capaz de perceber e interagir com o mundo real.
Artigo relacionado
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business
Recomendações de tópicos especiais relacionados
Comentários (1)
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Em 3 de abril, a equipe do MiTi lançou oficialmente o LongCat-Next, um grande modelo multimodal nativo. Esse modelo vai além da abordagem convencional de “base de linguagem mais plug-ins”, convertendo imagens, áudio e texto em um fluxo unificado de tokens discretos. Isso permite que a IA “veja” e “ouça” o mundo físico de forma nativa, processando essas entradas da mesma forma que processa o texto.
Núcleo técnico: a arquitetura DiNA permite a “internalização de modalidades”
Para eliminar as barreiras entre diferentes tipos de dados, a MiTi desenvolveu a arquitetura DiNA (Discrete Native Autoregressive), alcançando uma unificação profunda na modelagem multimodal:
Unificação completa de modalidades: o modelo usa os mesmos parâmetros, mecanismos de atenção e funções de perda para texto, imagens e áudio.
Simetria entre compreensão e geração: dentro de uma única estrutura matemática, prever o próximo token de texto constitui “compreensão”, enquanto prever um token de imagem é “geração”. Ambos os processos apresentam benefícios sinérgicos significativos durante o treinamento.
Compressão extrema: Utilizando o dNaViT Visual Tokenizer, ele processa entradas em qualquer resolução. Por meio de um processo de quantização vetorial residual de 8 camadas, alcança até 28 vezes de compressão no espaço de pixels, preservando detalhes críticos para tarefas como OCR e análise de documentos financeiros.
Desempenho empírico: a modelagem discreta não tem limites inerentes
O LongCat-Next oferece desempenho que supera modelos especializados em vários benchmarks, desafiando efetivamente a noção tradicional de que “a discretização inevitavelmente causa perda de informação”:
Percepção refinada: No OmniDocBench para cenários de texto denso, ele supera não apenas o Qwen3-Omni, mas também o modelo de visão especializado Qwen3-VL.
Raciocínio visual: obteve uma pontuação impressionante de 83,1 no MathVista, demonstrando raciocínio lógico robusto e de nível industrial.
Colaboração multimodal: Ao mesmo tempo em que mantém recursos de linguagem de ponta (C-Eval 86,80), ele suporta geração paralela de texto e fala com baixa latência, além de clonagem de voz personalizável.
Perspectiva do setor: uma base para a IA no mundo físico
Os grandes modelos de linguagem há muito se concentram no texto. A inovação do LongCat-Next é a prova de que as informações do mundo físico podem ser discretizadas e modeladas como a linguagem. Quando uma IA possui uma “linguagem nativa” unificada, ela se torna mais inteligente e intuitiva ao usar ferramentas, escrever código ou interpretar gráficos complexos.
A MiTi tornou o modelo LongCat-Next e o tokenizador dNaViT de código aberto. Essa arquitetura discreta nativa, eficiente e de alto potencial, fornece aos desenvolvedores ferramentas essenciais para a construção de IA capaz de perceber e interagir com o mundo real.
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐











