O Qwen3.5-Omni bate recordes com 215 SOTA, dando início à era da IA multissensorial

Lar

Notícias

6 de Abril de 2026

MichaelMartinez

123

O Tongyi Lab lançou oficialmente ontem à noite o novo modelo multimodal de grande porte Qwen3.5-Omni. Esse modelo representa um avanço significativo em termos de compreensão, interação e execução de tarefas em comparação com seu antecessor, transformando a IA de um “assistente limitado à tela” em um “agente inteligente que compreende o mundo físico”.

Principais avanços: Modalidade completa e 215 benchmarks SOTA

O Qwen3.5-Omni apresenta uma arquitetura nativa de “Modalidade Completa”, permitindo-lhe processar texto, imagens, áudio e vídeo de forma integrada. Em avaliações que abrangem análise audiovisual, raciocínio, diálogo e tradução, o modelo alcançou 215 resultados de ponta (SOTA). Notavelmente, suas capacidades gerais de compreensão e reconhecimento de áudio superaram modelos como o Gemini-3.1Pro, enquanto seu desempenho visual e textual permanece de primeira linha, equiparando-se ao seu equivalente, o modelo Qwen3.5 de escala semelhante.

Arquitetura Técnica: Hybrid-Attention MoE

O modelo se baseia na estrutura clássica Thinker-Talker com uma reformulação arquitetônica fundamental:

Thinker (Centro de Compreensão): Atualizado para uma Mistura de Especialistas (MoE) com Atenção Híbrida, suportando um contexto ultralongo de 256 mil tokens. Isso permite processar até 10 horas de áudio ou 1 hora de vídeo, capturando com precisão detalhes minuciosos em sequências longas usando a tecnologia TMRoPE.

Talker (Centro de Expressão): Incorpora a nova tecnologia ARIA e codificação RVQ, substituindo processos DiT computacionalmente pesados. Isso não apenas resolve problemas comuns de geração de áudio, como omissão de palavras e pronúncia incorreta de números, mas também dota o modelo de robustas capacidades de controle de voz em tempo real.

Aplicações no mundo real: da codificação de vibração à clonagem de voz

Os recursos do Qwen3.5-Omni possibilitam diversos cenários de aplicação transformadores:

Codificação de Vibe Emergente Natural: O modelo exibe impressionante compreensão e geração de código sem treinamento específico, permitindo-lhe produzir código Python ou protótipos front-end diretamente a partir da lógica de vídeo.

Interação em tempo real semelhante à humana: Suporta interrupção semântica. É capaz de diferenciar entre ruído de fundo (como uma tosse) e interrupções intencionais, e os usuários podem ajustar o tom (por exemplo, “feliz”) e o volume por meio de instruções simples.

Análise de vídeo detalhada: Pode gerar legendas estruturadas e com marcação de tempo, identificando com precisão ações, mudanças na música de fundo e transições de câmera dentro dos vídeos.

Clonagem de voz personalizada: Os usuários podem criar uma “voz digital” altamente natural e personalizada ao enviar uma breve amostra de áudio, com suporte para 113 idiomas.

O Qwen3.5-Omni já está disponível na plataforma BaiLian da Alibaba Cloud nas versões Plus, Flash e Light. Uma API de diálogo em tempo real (Realtime) e uma demonstração também estão acessíveis através da comunidade ModelScope.

Artigo relacionado

A Apple removeu o aplicativo Cal AI devido a compras dentro do aplicativo não autorizadas e cobranças manipuladoras. A recent remoção da Cal AI pela Apple, um popular aplicativo de acompanhamento alimentar baseado em inteligência artificial dentro do MyFitnessPal, destaca a rigorosa aplicação das políticas da App Store relativas a pagamentos e assinaturas externas.

O sistema de cobrança baseado em tokens do Github Copilot provoca indignação entre os desenvolvedores. A era de ouro do GitHub Copilot da Microsoft pode estar chegando ao fim, especialmente para os usuários individuais. A empresa está passando de um modelo de assinatura fixa para um sistema de cobrança baseado em tokens, o que pode aumentar significat

Pontos destacados do documento de oferta pública inicial da SpaceX: ambições de expansão na área de internet por satélite e inteligência artificial Em seu documento de registro S-1 apresentado antes do planejado IPO, a SpaceX revelou vários indicadores empresariais impressionantes que destacam sua forte presença no campo das comunicações aeroespaciais e da inteligência artificial:Mais de 10 mil

Recomendações de tópicos especiais relacionados

Edição de imagem

Geradores de Modelos de Moda por IA Gratuitos: Crie Protótipos de Roupas Realistas e Fotos com Modelos Vestidos

Descubra os melhores geradores de modelos de moda gratuitos em AI de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de alta qualidade que revolucionam o processo de criação de protótipos de roupas realistas e fotos com modelos vestidos. Compare opções gratuitas e pagas, com rankings atualizados semanalmente e testes reais. Desfrute de uma vantagem competitiva em seu design hoje mesmo!

10 ferramentas

xix.ai

escrita

Os melhores editores de continuidade com IA para ficção: detectam automaticamente falhas no enredo e inconsistências na linha do tempo

Descubra os melhores editores de continuidade com IA de 2026 para escritores de ficção. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas que detectam automaticamente falhas no enredo e inconsistências na linha do tempo. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de escrita ideal para garantir narrativas impecáveis. Explore agora as melhores opções no XIX.AI.

10 ferramentas

xix.ai

Criação de Animação

Os principais geradores de storyboards de IA: convertem roteiros cinematográficos em animações cinematográficas automaticamente

Descubra os melhores geradores de storyboards de IA de 2026 em XIX.AI. Nossas ferramentas selecionadas e altamente avaliadas convertem automaticamente roteiros em animações cinematográficas, economizando seu tempo e facilitando a pré-produção. Explore opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Encontre o parceiro criativo perfeito para você hoje mesmo!

10 ferramentas

xix.ai

SEO

Os melhores ferramentas de redirecionamento de IA e localização de links quebrados: Reparam automaticamente os erros de rastreamento para economizar o orçamento de rastreamento.

Descubra os melhores ferramentas de redirecionamento de IA e localização de links quebrados em 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas poderosas que consertam automaticamente erros de rastreamento, economizando assim seu orçamento para esse processo. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Encontre a solução perfeita para SEO agora mesmo!

10 ferramentas

xix.ai

Criação de vídeo

Os melhores criadores de vídeo com IA para podcasters: transforme arquivos de áudio em vídeos envolventes com apresentador

Descubra os melhores criadores de vídeo com IA para podcasters de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas que transformam seu áudio em vídeos envolventes com a sua imagem em primeiro plano, sem esforço. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Destaque-se agora na narrativa visual.

10 ferramentas

xix.ai

chatbot

Crie sua própria história de amor com IA usando estas ferramentas de roleplay

Descubra as melhores ferramentas de roleplay com IA de 2026 para criar narrativas imersivas. A lista selecionada pela XIX.AI apresenta assistentes poderosos e revolucionários, capazes de estimular a narrativa criativa e a profundidade emocional. Compare as opções gratuitas com as pagas por meio de testes práticos. Comece hoje mesmo sua jornada única.

10 ferramentas

xix.ai