A Meituan apresenta o modelo de IA LongCat-Next com arquitetura unificada de visão e fala

Lar

Notícias

12 de Abril de 2026

StephenMiller

112

A Meituan apresenta o modelo de IA LongCat-Next com arquitetura unificada de visão e fala

Em 3 de abril, a equipe do MiTi lançou oficialmente o LongCat-Next, um grande modelo multimodal nativo. Esse modelo vai além da abordagem convencional de “base de linguagem mais plug-ins”, convertendo imagens, áudio e texto em um fluxo unificado de tokens discretos. Isso permite que a IA “veja” e “ouça” o mundo físico de forma nativa, processando essas entradas da mesma forma que processa o texto.

Núcleo técnico: a arquitetura DiNA permite a “internalização de modalidades”

Para eliminar as barreiras entre diferentes tipos de dados, a MiTi desenvolveu a arquitetura DiNA (Discrete Native Autoregressive), alcançando uma unificação profunda na modelagem multimodal:

Unificação completa de modalidades: o modelo usa os mesmos parâmetros, mecanismos de atenção e funções de perda para texto, imagens e áudio.

Simetria entre compreensão e geração: dentro de uma única estrutura matemática, prever o próximo token de texto constitui “compreensão”, enquanto prever um token de imagem é “geração”. Ambos os processos apresentam benefícios sinérgicos significativos durante o treinamento.

Compressão extrema: Utilizando o dNaViT Visual Tokenizer, ele processa entradas em qualquer resolução. Por meio de um processo de quantização vetorial residual de 8 camadas, alcança até 28 vezes de compressão no espaço de pixels, preservando detalhes críticos para tarefas como OCR e análise de documentos financeiros.

Desempenho empírico: a modelagem discreta não tem limites inerentes

O LongCat-Next oferece desempenho que supera modelos especializados em vários benchmarks, desafiando efetivamente a noção tradicional de que “a discretização inevitavelmente causa perda de informação”:

Percepção refinada: No OmniDocBench para cenários de texto denso, ele supera não apenas o Qwen3-Omni, mas também o modelo de visão especializado Qwen3-VL.

Raciocínio visual: obteve uma pontuação impressionante de 83,1 no MathVista, demonstrando raciocínio lógico robusto e de nível industrial.

Colaboração multimodal: Ao mesmo tempo em que mantém recursos de linguagem de ponta (C-Eval 86,80), ele suporta geração paralela de texto e fala com baixa latência, além de clonagem de voz personalizável.

Perspectiva do setor: uma base para a IA no mundo físico

Os grandes modelos de linguagem há muito se concentram no texto. A inovação do LongCat-Next é a prova de que as informações do mundo físico podem ser discretizadas e modeladas como a linguagem. Quando uma IA possui uma “linguagem nativa” unificada, ela se torna mais inteligente e intuitiva ao usar ferramentas, escrever código ou interpretar gráficos complexos.

A MiTi tornou o modelo LongCat-Next e o tokenizador dNaViT de código aberto. Essa arquitetura discreta nativa, eficiente e de alto potencial, fornece aos desenvolvedores ferramentas essenciais para a construção de IA capaz de perceber e interagir com o mundo real.

Artigo relacionado

MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto

A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%. Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit

A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business

Recomendações de tópicos especiais relacionados

Educação e Aprendizagem

Melhores ferramentas de repetição espaçada com IA: otimize seus horários de estudo para estudantes de medicina e direito

Descubra os melhores ferramentas de repetição espaçada em AI de 2026, selecionadas por XIX.AI. Nossas escolhas mais recomendadas e revolucionárias ajudam estudantes de medicina e direito a otimizar seus horários de estudo para uma melhor retenção do conhecimento. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Desfrute agora de uma vantagem competitiva no aprendizado.

10 ferramentas

xix.ai

Criação de vídeo

As melhores plataformas de IA para conversão de texto em vídeo para redação de roteiros e narrativa visual

As melhores plataformas de IA para conversão de texto em vídeo de 2026: as ferramentas mais bem avaliadas para redação de roteiros e narrativa visual. Descubra soluções poderosas e revolucionárias para transformar seu texto em vídeos envolventes. Compare opções gratuitas e pagas com nossos rankings atualizados semanalmente e testes práticos. Encontre a plataforma perfeita para impulsionar sua criatividade e produtividade. Explore a seleção especial no XIX.AI.

10 ferramentas

xix.ai

chatbot

Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural

2026 Mais recente: Descubra os melhores orquestradores multi-agente de IA para projetar fluxos de trabalho automatizados complexos através do uso da linguagem natural. Nossa lista selecionada apresenta plataformas poderosas e altamente avaliadas para uma automação de tarefas sem falhas e um gerenciamento inteligente de processos. Compare opções gratuitas e pagas com informações reais do mundo real. Desfrute de uma vantagem competitiva com as classificações atualizadas semanalmente por especialistas da XIX.AI.

10 ferramentas

xix.ai

Edição de imagem

Melhores softwares de redução de ruído por IA: Remova granulação e artefatos em fotografias noturnas com baixa luz

Descubra os melhores softwares de redução de ruído por IA de 2026 para fotografias noturnas em baixas condições de luz. Nossa lista selecionada e avaliada compara ferramentas gratuitas e pagas, apresentando testes reais e classificações atualizadas semanalmente. Remova facilmente granulação e distorções nas imagens. Desfrute das vantagens da inteligência artificial em XIX.AI.

10 ferramentas

xix.ai

chatbot

Os melhores geradores personalizados de namoradas virtuais com IA: crie personalidades, hobbies e histórias de vida exclusivas

Descubra os melhores geradores personalizados de namoradas com IA de 2026 no XIX.AI. Explore nossa lista selecionada e com as melhores avaliações para criar personalidades únicas, hobbies e histórias de fundo detalhadas. Compare as opções gratuitas com as pagas com informações reais. Encontre hoje mesmo sua companheira criativa perfeita.

10 ferramentas

xix.ai

Produtividade

Projetistas de arquitetura de IA: criem arquiteturas de sistemas escaláveis usando linguagem natural

Descubra as melhores ferramentas de projeto de arquitetura de IA de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta soluções poderosas e revolucionárias para criar arquiteturas de sistemas escaláveis usando linguagem natural. Compare opções gratuitas e pagas com informações práticas. Aproveite ao máximo sua vantagem em IA e otimize o desenvolvimento hoje mesmo.

10 ferramentas

xix.ai

Comentários (1)

0/500

Por favor, faça o login primeiro

CharlesHernández

16 de Maio de 2026 à15 19:00:15 WEST

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado DeepSeek V4 surge como uma revolução na IA multimodal

Mais

Apresentou