A família de IA VibeVoice da Microsoft passa a ser de código aberto, suporta diálogos de 90 minutos e ultrapassa 27 mil estrelas no GitHub

Lar

Notícias

28 de Maio de 2026

JohnRoberts

A Microsoft disponibilizou recentemente como código aberto uma família de modelos de IA de voz de última geração chamada VibeVoice, com recursos como reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). O projeto rapidamente despertou o interesse da comunidade de desenvolvedores, graças ao seu robusto processamento de áudio de longa duração, geração natural de diálogos com múltiplos interlocutores e desempenho em tempo real com baixa latência. Ele já recebeu cerca de 27.000 estrelas no GitHub.

Lançado como uma estrutura de pesquisa de código aberto sob a licença MIT, o VibeVoice oferece suporte à implantação local sem taxas de assinatura de nuvem, com o objetivo de promover a colaboração e a inovação na síntese de fala. A família de modelos é composta por três membros principais, cada um abordando desafios específicos da IA de voz tradicional, como o tratamento de sequências longas, a consistência do locutor e a fluência natural.

VibeVoice-ASR-7B: uma ferramenta poderosa para conversão estruturada de fala em texto, com capacidade para processar até 60 minutos de áudio

O VibeVoice-ASR-7B é um modelo unificado de conversão de fala em texto capaz de processar arquivos de áudio de até 60 minutos de duração em uma única passagem, gerando transcrições estruturadas diretamente. A saída identifica o locutor, fornece marcas de tempo precisas e detalha o conteúdo falado, ao mesmo tempo em que oferece suporte a palavras-chave personalizadas para melhorar a precisão em nomes próprios ou termos técnicos. Com suporte a mais de 50 idiomas, é ideal para cenários complexos, como gravações de reuniões longas e transcrição de podcasts.

Desenvolvedores da comunidade já criaram ferramentas práticas com base nesse modelo, como um método de entrada de voz chamado Vibing para macOS e Windows. O feedback dos usuários indica um ótimo desempenho em velocidade e precisão, aumentando significativamente a eficiência da entrada de voz no dia a dia.

VibeVoice-TTS-1.5B: Geração de fala expressiva por até 90 minutos com vários locutores

O VibeVoice-TTS-1.5B é o modelo central de conversão de texto em fala, capaz de gerar áudio contínuo de até 90 minutos de duração de uma só vez e suportar até quatro locutores distintos para simulação de diálogo natural. A fala sintetizada é expressiva, soando natural e fluente com pausas, ênfases e mudanças emocionais realistas, tornando-a ideal para podcasts, narrativas longas, audiolivros ou diálogos com vários personagens.

Ao contrário de muitos modelos tradicionais de TTS limitados a 1 ou 2 locutores, o VibeVoice-TTS alcança avanços significativos em consistência para formatos longos e com múltiplos locutores. Sua arquitetura combina um tokenizador de fala contínua (acústico e semântico) com uma baixa taxa de quadros (7,5 Hz), aumentando significativamente a eficiência computacional para sequências longas.

VibeVoice-Realtime-0.5B: TTS em tempo real com cerca de 300 milissegundos de latência

O VibeVoice-Realtime-0.5B foi projetado para aplicações em tempo real, suportando entrada de texto em streaming com uma latência de primeiro áudio de aproximadamente 300 milissegundos, ao mesmo tempo em que é capaz de gerar áudio de até 10 minutos de duração. Este modelo é particularmente adequado para aplicações interativas que exigem feedback instantâneo, como assistentes de voz em tempo real ou dublagem em transmissões ao vivo.

Além disso, o projeto introduziu suporte experimental a locutores, incluindo fala multilíngue e várias variações de estilo em inglês, oferecendo aos desenvolvedores maiores opções de personalização.

Análise da AIbase: A abertura do código-fonte do VibeVoice pela Microsoft não apenas reduz a barreira de entrada para IA de voz de alto desempenho, mas também fornece uma solução completa de implantação local. O projeto foi brevemente retirado do ar devido a riscos potenciais de uso indevido, mas foi relançado após a implementação de medidas de segurança, como marcas d'água de áudio e avisos legais audíveis, refletindo princípios de desenvolvimento responsável de IA. Os desenvolvedores agora podem obter pesos de modelo no GitHub e no Hugging Face e testá-los rapidamente por meio de plataformas como o Colab.

Com contribuições contínuas da comunidade de código aberto, incluindo otimizações para o Apple Silicon, o VibeVoice está pronto para acelerar a adoção na criação de conteúdo, ferramentas de acessibilidade e interação por voz. Desenvolvedores interessados podem visitar a página oficial do projeto da Microsoft para explorar mais a fundo.

Endereço do projeto: https://github.com/microsoft/VibeVoice

Artigo relacionado

MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto

A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%. Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit

A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business

Recomendações de tópicos especiais relacionados

Conversão de texto para fala

As melhores ferramentas de voz com IA para desenvolvedores de jogos independentes: economize tempo na dublagem de RPGs e romances visuais

Descubra as melhores ferramentas de voz com IA de 2026 para desenvolvedores de jogos! A lista selecionada pela XIX.AI apresenta soluções de ponta e revolucionárias para economizar seu tempo e dinheiro na dublagem de RPGs e romances visuais. Explore comparações entre opções gratuitas e pagas, testes práticos e rankings atualizados semanalmente. Encontre hoje a ferramenta de voz perfeita para você!

10 ferramentas

xix.ai

Educação e Aprendizagem

Melhores ferramentas de repetição espaçada com IA: otimize seus horários de estudo para estudantes de medicina e direito

Descubra os melhores ferramentas de repetição espaçada em AI de 2026, selecionadas por XIX.AI. Nossas escolhas mais recomendadas e revolucionárias ajudam estudantes de medicina e direito a otimizar seus horários de estudo para uma melhor retenção do conhecimento. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Desfrute agora de uma vantagem competitiva no aprendizado.

10 ferramentas

xix.ai

Criação de vídeo

As melhores plataformas de IA para conversão de texto em vídeo para redação de roteiros e narrativa visual

As melhores plataformas de IA para conversão de texto em vídeo de 2026: as ferramentas mais bem avaliadas para redação de roteiros e narrativa visual. Descubra soluções poderosas e revolucionárias para transformar seu texto em vídeos envolventes. Compare opções gratuitas e pagas com nossos rankings atualizados semanalmente e testes práticos. Encontre a plataforma perfeita para impulsionar sua criatividade e produtividade. Explore a seleção especial no XIX.AI.

10 ferramentas

xix.ai

chatbot

Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural

2026 Mais recente: Descubra os melhores orquestradores multi-agente de IA para projetar fluxos de trabalho automatizados complexos através do uso da linguagem natural. Nossa lista selecionada apresenta plataformas poderosas e altamente avaliadas para uma automação de tarefas sem falhas e um gerenciamento inteligente de processos. Compare opções gratuitas e pagas com informações reais do mundo real. Desfrute de uma vantagem competitiva com as classificações atualizadas semanalmente por especialistas da XIX.AI.

10 ferramentas

xix.ai

Edição de imagem

Melhores softwares de redução de ruído por IA: Remova granulação e artefatos em fotografias noturnas com baixa luz

Descubra os melhores softwares de redução de ruído por IA de 2026 para fotografias noturnas em baixas condições de luz. Nossa lista selecionada e avaliada compara ferramentas gratuitas e pagas, apresentando testes reais e classificações atualizadas semanalmente. Remova facilmente granulação e distorções nas imagens. Desfrute das vantagens da inteligência artificial em XIX.AI.

10 ferramentas

xix.ai

chatbot

Os melhores geradores personalizados de namoradas virtuais com IA: crie personalidades, hobbies e histórias de vida exclusivas

Descubra os melhores geradores personalizados de namoradas com IA de 2026 no XIX.AI. Explore nossa lista selecionada e com as melhores avaliações para criar personalidades únicas, hobbies e histórias de fundo detalhadas. Compare as opções gratuitas com as pagas com informações reais. Encontre hoje mesmo sua companheira criativa perfeita.

10 ferramentas

xix.ai