O Qwen3.5-Omni bate recordes com 215 SOTA, dando início à era da IA multissensorial
O Tongyi Lab lançou oficialmente ontem à noite o novo modelo multimodal de grande porte Qwen3.5-Omni. Esse modelo representa um avanço significativo em termos de compreensão, interação e execução de tarefas em comparação com seu antecessor, transformando a IA de um “assistente limitado à tela” em um “agente inteligente que compreende o mundo físico”.
Principais avanços: Modalidade completa e 215 benchmarks SOTA
O Qwen3.5-Omni apresenta uma arquitetura nativa de “Modalidade Completa”, permitindo-lhe processar texto, imagens, áudio e vídeo de forma integrada. Em avaliações que abrangem análise audiovisual, raciocínio, diálogo e tradução, o modelo alcançou 215 resultados de ponta (SOTA). Notavelmente, suas capacidades gerais de compreensão e reconhecimento de áudio superaram modelos como o Gemini-3.1Pro, enquanto seu desempenho visual e textual permanece de primeira linha, equiparando-se ao seu equivalente, o modelo Qwen3.5 de escala semelhante.

Arquitetura Técnica: Hybrid-Attention MoE
O modelo se baseia na estrutura clássica Thinker-Talker com uma reformulação arquitetônica fundamental:
Thinker (Centro de Compreensão): Atualizado para uma Mistura de Especialistas (MoE) com Atenção Híbrida, suportando um contexto ultralongo de 256 mil tokens. Isso permite processar até 10 horas de áudio ou 1 hora de vídeo, capturando com precisão detalhes minuciosos em sequências longas usando a tecnologia TMRoPE.
Talker (Centro de Expressão): Incorpora a nova tecnologia ARIA e codificação RVQ, substituindo processos DiT computacionalmente pesados. Isso não apenas resolve problemas comuns de geração de áudio, como omissão de palavras e pronúncia incorreta de números, mas também dota o modelo de robustas capacidades de controle de voz em tempo real.
Aplicações no mundo real: da codificação de vibração à clonagem de voz
Os recursos do Qwen3.5-Omni possibilitam diversos cenários de aplicação transformadores:
Codificação de Vibe Emergente Natural: O modelo exibe impressionante compreensão e geração de código sem treinamento específico, permitindo-lhe produzir código Python ou protótipos front-end diretamente a partir da lógica de vídeo.
Interação em tempo real semelhante à humana: Suporta interrupção semântica. É capaz de diferenciar entre ruído de fundo (como uma tosse) e interrupções intencionais, e os usuários podem ajustar o tom (por exemplo, “feliz”) e o volume por meio de instruções simples.
Análise de vídeo detalhada: Pode gerar legendas estruturadas e com marcação de tempo, identificando com precisão ações, mudanças na música de fundo e transições de câmera dentro dos vídeos.
Clonagem de voz personalizada: Os usuários podem criar uma “voz digital” altamente natural e personalizada ao enviar uma breve amostra de áudio, com suporte para 113 idiomas.
O Qwen3.5-Omni já está disponível na plataforma BaiLian da Alibaba Cloud nas versões Plus, Flash e Light. Uma API de diálogo em tempo real (Realtime) e uma demonstração também estão acessíveis através da comunidade ModelScope.
Artigo relacionado
A Apple removeu o aplicativo Cal AI devido a compras dentro do aplicativo não autorizadas e cobranças manipuladoras.
A recent remoção da Cal AI pela Apple, um popular aplicativo de acompanhamento alimentar baseado em inteligência artificial dentro do MyFitnessPal, destaca a rigorosa aplicação das políticas da App Store relativas a pagamentos e assinaturas externas.
O sistema de cobrança baseado em tokens do Github Copilot provoca indignação entre os desenvolvedores.
A era de ouro do GitHub Copilot da Microsoft pode estar chegando ao fim, especialmente para os usuários individuais. A empresa está passando de um modelo de assinatura fixa para um sistema de cobrança baseado em tokens, o que pode aumentar significat
Pontos destacados do documento de oferta pública inicial da SpaceX: ambições de expansão na área de internet por satélite e inteligência artificial
Em seu documento de registro S-1 apresentado antes do planejado IPO, a SpaceX revelou vários indicadores empresariais impressionantes que destacam sua forte presença no campo das comunicações aeroespaciais e da inteligência artificial:Mais de 10 mil
Recomendações de tópicos especiais relacionados
Comentários (0)
O Tongyi Lab lançou oficialmente ontem à noite o novo modelo multimodal de grande porte Qwen3.5-Omni. Esse modelo representa um avanço significativo em termos de compreensão, interação e execução de tarefas em comparação com seu antecessor, transformando a IA de um “assistente limitado à tela” em um “agente inteligente que compreende o mundo físico”.
Principais avanços: Modalidade completa e 215 benchmarks SOTA
O Qwen3.5-Omni apresenta uma arquitetura nativa de “Modalidade Completa”, permitindo-lhe processar texto, imagens, áudio e vídeo de forma integrada. Em avaliações que abrangem análise audiovisual, raciocínio, diálogo e tradução, o modelo alcançou 215 resultados de ponta (SOTA). Notavelmente, suas capacidades gerais de compreensão e reconhecimento de áudio superaram modelos como o Gemini-3.1Pro, enquanto seu desempenho visual e textual permanece de primeira linha, equiparando-se ao seu equivalente, o modelo Qwen3.5 de escala semelhante.

Arquitetura Técnica: Hybrid-Attention MoE
O modelo se baseia na estrutura clássica Thinker-Talker com uma reformulação arquitetônica fundamental:
Thinker (Centro de Compreensão): Atualizado para uma Mistura de Especialistas (MoE) com Atenção Híbrida, suportando um contexto ultralongo de 256 mil tokens. Isso permite processar até 10 horas de áudio ou 1 hora de vídeo, capturando com precisão detalhes minuciosos em sequências longas usando a tecnologia TMRoPE.
Talker (Centro de Expressão): Incorpora a nova tecnologia ARIA e codificação RVQ, substituindo processos DiT computacionalmente pesados. Isso não apenas resolve problemas comuns de geração de áudio, como omissão de palavras e pronúncia incorreta de números, mas também dota o modelo de robustas capacidades de controle de voz em tempo real.
Aplicações no mundo real: da codificação de vibração à clonagem de voz
Os recursos do Qwen3.5-Omni possibilitam diversos cenários de aplicação transformadores:
Codificação de Vibe Emergente Natural: O modelo exibe impressionante compreensão e geração de código sem treinamento específico, permitindo-lhe produzir código Python ou protótipos front-end diretamente a partir da lógica de vídeo.
Interação em tempo real semelhante à humana: Suporta interrupção semântica. É capaz de diferenciar entre ruído de fundo (como uma tosse) e interrupções intencionais, e os usuários podem ajustar o tom (por exemplo, “feliz”) e o volume por meio de instruções simples.
Análise de vídeo detalhada: Pode gerar legendas estruturadas e com marcação de tempo, identificando com precisão ações, mudanças na música de fundo e transições de câmera dentro dos vídeos.
Clonagem de voz personalizada: Os usuários podem criar uma “voz digital” altamente natural e personalizada ao enviar uma breve amostra de áudio, com suporte para 113 idiomas.
O Qwen3.5-Omni já está disponível na plataforma BaiLian da Alibaba Cloud nas versões Plus, Flash e Light. Uma API de diálogo em tempo real (Realtime) e uma demonstração também estão acessíveis através da comunidade ModelScope.
A Apple removeu o aplicativo Cal AI devido a compras dentro do aplicativo não autorizadas e cobranças manipuladoras.
A recent remoção da Cal AI pela Apple, um popular aplicativo de acompanhamento alimentar baseado em inteligência artificial dentro do MyFitnessPal, destaca a rigorosa aplicação das políticas da App Store relativas a pagamentos e assinaturas externas.
O sistema de cobrança baseado em tokens do Github Copilot provoca indignação entre os desenvolvedores.
A era de ouro do GitHub Copilot da Microsoft pode estar chegando ao fim, especialmente para os usuários individuais. A empresa está passando de um modelo de assinatura fixa para um sistema de cobrança baseado em tokens, o que pode aumentar significat
Pontos destacados do documento de oferta pública inicial da SpaceX: ambições de expansão na área de internet por satélite e inteligência artificial
Em seu documento de registro S-1 apresentado antes do planejado IPO, a SpaceX revelou vários indicadores empresariais impressionantes que destacam sua forte presença no campo das comunicações aeroespaciais e da inteligência artificial:Mais de 10 mil





Lar






