Lar
A família de IA VibeVoice da Microsoft passa a ser de código aberto, suporta diálogos de 90 minutos e ultrapassa 27 mil estrelas no GitHub
A Microsoft disponibilizou recentemente como código aberto uma família de modelos de IA de voz de última geração chamada VibeVoice, com recursos como reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). O projeto rapidamente despertou o interesse da comunidade de desenvolvedores, graças ao seu robusto processamento de áudio de longa duração, geração natural de diálogos com múltiplos interlocutores e desempenho em tempo real com baixa latência. Ele já recebeu cerca de 27.000 estrelas no GitHub.
Lançado como uma estrutura de pesquisa de código aberto sob a licença MIT, o VibeVoice oferece suporte à implantação local sem taxas de assinatura de nuvem, com o objetivo de promover a colaboração e a inovação na síntese de fala. A família de modelos é composta por três membros principais, cada um abordando desafios específicos da IA de voz tradicional, como o tratamento de sequências longas, a consistência do locutor e a fluência natural.

VibeVoice-ASR-7B: uma ferramenta poderosa para conversão estruturada de fala em texto, com capacidade para processar até 60 minutos de áudio
O VibeVoice-ASR-7B é um modelo unificado de conversão de fala em texto capaz de processar arquivos de áudio de até 60 minutos de duração em uma única passagem, gerando transcrições estruturadas diretamente. A saída identifica o locutor, fornece marcas de tempo precisas e detalha o conteúdo falado, ao mesmo tempo em que oferece suporte a palavras-chave personalizadas para melhorar a precisão em nomes próprios ou termos técnicos. Com suporte a mais de 50 idiomas, é ideal para cenários complexos, como gravações de reuniões longas e transcrição de podcasts.
Desenvolvedores da comunidade já criaram ferramentas práticas com base nesse modelo, como um método de entrada de voz chamado Vibing para macOS e Windows. O feedback dos usuários indica um ótimo desempenho em velocidade e precisão, aumentando significativamente a eficiência da entrada de voz no dia a dia.
VibeVoice-TTS-1.5B: Geração de fala expressiva por até 90 minutos com vários locutores
O VibeVoice-TTS-1.5B é o modelo central de conversão de texto em fala, capaz de gerar áudio contínuo de até 90 minutos de duração de uma só vez e suportar até quatro locutores distintos para simulação de diálogo natural. A fala sintetizada é expressiva, soando natural e fluente com pausas, ênfases e mudanças emocionais realistas, tornando-a ideal para podcasts, narrativas longas, audiolivros ou diálogos com vários personagens.
Ao contrário de muitos modelos tradicionais de TTS limitados a 1 ou 2 locutores, o VibeVoice-TTS alcança avanços significativos em consistência para formatos longos e com múltiplos locutores. Sua arquitetura combina um tokenizador de fala contínua (acústico e semântico) com uma baixa taxa de quadros (7,5 Hz), aumentando significativamente a eficiência computacional para sequências longas.
VibeVoice-Realtime-0.5B: TTS em tempo real com cerca de 300 milissegundos de latência
O VibeVoice-Realtime-0.5B foi projetado para aplicações em tempo real, suportando entrada de texto em streaming com uma latência de primeiro áudio de aproximadamente 300 milissegundos, ao mesmo tempo em que é capaz de gerar áudio de até 10 minutos de duração. Este modelo é particularmente adequado para aplicações interativas que exigem feedback instantâneo, como assistentes de voz em tempo real ou dublagem em transmissões ao vivo.
Além disso, o projeto introduziu suporte experimental a locutores, incluindo fala multilíngue e várias variações de estilo em inglês, oferecendo aos desenvolvedores maiores opções de personalização.
Análise da AIbase: A abertura do código-fonte do VibeVoice pela Microsoft não apenas reduz a barreira de entrada para IA de voz de alto desempenho, mas também fornece uma solução completa de implantação local. O projeto foi brevemente retirado do ar devido a riscos potenciais de uso indevido, mas foi relançado após a implementação de medidas de segurança, como marcas d'água de áudio e avisos legais audíveis, refletindo princípios de desenvolvimento responsável de IA. Os desenvolvedores agora podem obter pesos de modelo no GitHub e no Hugging Face e testá-los rapidamente por meio de plataformas como o Colab.
Com contribuições contínuas da comunidade de código aberto, incluindo otimizações para o Apple Silicon, o VibeVoice está pronto para acelerar a adoção na criação de conteúdo, ferramentas de acessibilidade e interação por voz. Desenvolvedores interessados podem visitar a página oficial do projeto da Microsoft para explorar mais a fundo.
Endereço do projeto: https://github.com/microsoft/VibeVoice
Artigo relacionado
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business
Recomendações de tópicos especiais relacionados
Comentários (0)
A Microsoft disponibilizou recentemente como código aberto uma família de modelos de IA de voz de última geração chamada VibeVoice, com recursos como reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). O projeto rapidamente despertou o interesse da comunidade de desenvolvedores, graças ao seu robusto processamento de áudio de longa duração, geração natural de diálogos com múltiplos interlocutores e desempenho em tempo real com baixa latência. Ele já recebeu cerca de 27.000 estrelas no GitHub.
Lançado como uma estrutura de pesquisa de código aberto sob a licença MIT, o VibeVoice oferece suporte à implantação local sem taxas de assinatura de nuvem, com o objetivo de promover a colaboração e a inovação na síntese de fala. A família de modelos é composta por três membros principais, cada um abordando desafios específicos da IA de voz tradicional, como o tratamento de sequências longas, a consistência do locutor e a fluência natural.

VibeVoice-ASR-7B: uma ferramenta poderosa para conversão estruturada de fala em texto, com capacidade para processar até 60 minutos de áudio
O VibeVoice-ASR-7B é um modelo unificado de conversão de fala em texto capaz de processar arquivos de áudio de até 60 minutos de duração em uma única passagem, gerando transcrições estruturadas diretamente. A saída identifica o locutor, fornece marcas de tempo precisas e detalha o conteúdo falado, ao mesmo tempo em que oferece suporte a palavras-chave personalizadas para melhorar a precisão em nomes próprios ou termos técnicos. Com suporte a mais de 50 idiomas, é ideal para cenários complexos, como gravações de reuniões longas e transcrição de podcasts.
Desenvolvedores da comunidade já criaram ferramentas práticas com base nesse modelo, como um método de entrada de voz chamado Vibing para macOS e Windows. O feedback dos usuários indica um ótimo desempenho em velocidade e precisão, aumentando significativamente a eficiência da entrada de voz no dia a dia.
VibeVoice-TTS-1.5B: Geração de fala expressiva por até 90 minutos com vários locutores
O VibeVoice-TTS-1.5B é o modelo central de conversão de texto em fala, capaz de gerar áudio contínuo de até 90 minutos de duração de uma só vez e suportar até quatro locutores distintos para simulação de diálogo natural. A fala sintetizada é expressiva, soando natural e fluente com pausas, ênfases e mudanças emocionais realistas, tornando-a ideal para podcasts, narrativas longas, audiolivros ou diálogos com vários personagens.
Ao contrário de muitos modelos tradicionais de TTS limitados a 1 ou 2 locutores, o VibeVoice-TTS alcança avanços significativos em consistência para formatos longos e com múltiplos locutores. Sua arquitetura combina um tokenizador de fala contínua (acústico e semântico) com uma baixa taxa de quadros (7,5 Hz), aumentando significativamente a eficiência computacional para sequências longas.
VibeVoice-Realtime-0.5B: TTS em tempo real com cerca de 300 milissegundos de latência
O VibeVoice-Realtime-0.5B foi projetado para aplicações em tempo real, suportando entrada de texto em streaming com uma latência de primeiro áudio de aproximadamente 300 milissegundos, ao mesmo tempo em que é capaz de gerar áudio de até 10 minutos de duração. Este modelo é particularmente adequado para aplicações interativas que exigem feedback instantâneo, como assistentes de voz em tempo real ou dublagem em transmissões ao vivo.
Além disso, o projeto introduziu suporte experimental a locutores, incluindo fala multilíngue e várias variações de estilo em inglês, oferecendo aos desenvolvedores maiores opções de personalização.
Análise da AIbase: A abertura do código-fonte do VibeVoice pela Microsoft não apenas reduz a barreira de entrada para IA de voz de alto desempenho, mas também fornece uma solução completa de implantação local. O projeto foi brevemente retirado do ar devido a riscos potenciais de uso indevido, mas foi relançado após a implementação de medidas de segurança, como marcas d'água de áudio e avisos legais audíveis, refletindo princípios de desenvolvimento responsável de IA. Os desenvolvedores agora podem obter pesos de modelo no GitHub e no Hugging Face e testá-los rapidamente por meio de plataformas como o Colab.
Com contribuições contínuas da comunidade de código aberto, incluindo otimizações para o Apple Silicon, o VibeVoice está pronto para acelerar a adoção na criação de conteúdo, ferramentas de acessibilidade e interação por voz. Desenvolvedores interessados podem visitar a página oficial do projeto da Microsoft para explorar mais a fundo.
Endereço do projeto: https://github.com/microsoft/VibeVoice
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business











