opción
Hogar
Noticias
La familia de IA VibeVoice de Microsoft pasa a ser de código abierto, gestiona diálogos de 90 minutos y supera las 27 000 estrellas en GitHub

La familia de IA VibeVoice de Microsoft pasa a ser de código abierto, gestiona diálogos de 90 minutos y supera las 27 000 estrellas en GitHub

28 de mayo de 2026
51

Microsoft ha publicado recientemente como código abierto una familia de modelos de IA de voz de última generación denominada VibeVoice, que incluye funciones como el reconocimiento automático del habla (ASR) y la conversión de texto a voz (TTS). El proyecto ha captado rápidamente el interés de la comunidad de desarrolladores, gracias a su sólido procesamiento de audio de larga duración, la generación natural de diálogos entre varios interlocutores y su rendimiento en tiempo real con baja latencia. Ya ha obtenido alrededor de 27 000 estrellas en GitHub.

Lanzado como un marco de investigación de código abierto bajo la licencia MIT, VibeVoice admite la implementación local sin cuotas de suscripción a la nube, con el objetivo de fomentar la colaboración y la innovación en la síntesis de voz. La familia de modelos consta de tres miembros principales, cada uno de los cuales aborda retos específicos de la IA de voz tradicional, como el manejo de secuencias largas, la coherencia del hablante y la fluidez natural.

image.png

VibeVoice-ASR-7B: una potente herramienta para la conversión estructurada de voz a texto, capaz de gestionar hasta 60 minutos de audio

VibeVoice-ASR-7B es un modelo unificado de conversión de voz a texto capaz de procesar archivos de audio de hasta 60 minutos de duración en una sola pasada, generando directamente transcripciones estructuradas. El resultado identifica al hablante, proporciona marcas de tiempo precisas y detalla el contenido hablado, al tiempo que admite palabras clave personalizadas para mejorar la precisión en el caso de nombres propios o términos técnicos. Compatible con más de 50 idiomas, es ideal para situaciones complejas como grabaciones de reuniones largas y la transcripción de podcasts.

Los desarrolladores de la comunidad ya han creado herramientas prácticas basadas en este modelo, como un método de entrada de voz llamado Vibing para macOS y Windows. Los comentarios de los usuarios indican un gran rendimiento en cuanto a velocidad y precisión, lo que aumenta significativamente la eficiencia de la entrada de voz diaria.

VibeVoice-TTS-1.5B: generación de voz expresiva de hasta 90 minutos con múltiples hablantes

VibeVoice-TTS-1.5B es el modelo central de conversión de texto a voz, capaz de generar audio continuo de hasta 90 minutos de duración de una sola vez y compatible con hasta cuatro hablantes distintos para una simulación natural del diálogo. El habla sintetizada es expresiva, suena natural y fluida con pausas, énfasis y cambios emocionales realistas, lo que la hace ideal para podcasts, narraciones largas, audiolibros o diálogos con múltiples personajes.

A diferencia de muchos modelos TTS tradicionales limitados a 1-2 locutores, VibeVoice-TTS logra avances significativos en la coherencia de los formatos largos y con múltiples locutores. Su arquitectura combina un tokenizador de voz continua (acústico y semántico) con una baja frecuencia de fotogramas (7,5 Hz), lo que mejora considerablemente la eficiencia computacional para secuencias largas.

VibeVoice-Realtime-0.5B: TTS en tiempo real con una latencia de unos 300 milisegundos

VibeVoice-Realtime-0.5B está diseñado para aplicaciones en tiempo real, admitiendo la entrada de texto en streaming con una latencia del primer audio de aproximadamente 300 milisegundos, sin dejar de ser capaz de generar audio de hasta 10 minutos de duración. Este modelo es especialmente adecuado para aplicaciones interactivas que requieren una respuesta instantánea, como los asistentes de voz en tiempo real o el doblaje en streaming en directo.

Además, el proyecto introdujo compatibilidad experimental con locutores, incluyendo voz multilingüe y diversas variaciones del inglés, lo que ofrece a los desarrolladores mayores opciones de personalización.

Reseña de AIbase: La apertura del código fuente de VibeVoice por parte de Microsoft no solo reduce las barreras de entrada a la IA de voz de alto rendimiento, sino que también proporciona una solución completa de implementación local. El proyecto se retiró temporalmente debido a posibles riesgos de uso indebido, pero se relanzó tras implementar medidas de seguridad como marcas de agua de audio y avisos legales audibles, lo que refleja los principios de desarrollo responsable de la IA. Los desarrolladores ya pueden obtener los pesos de los modelos en GitHub y Hugging Face y probarlos rápidamente a través de plataformas como Colab.

Gracias a las continuas contribuciones de la comunidad de código abierto, incluidas las optimizaciones para Apple Silicon, VibeVoice está llamada a acelerar su adopción en la creación de contenidos, las herramientas de accesibilidad y la interacción por voz. Los desarrolladores interesados pueden visitar la página oficial del proyecto de Microsoft para obtener más información.

Dirección del proyecto: https://github.com/microsoft/VibeVoice

Artículo relacionado
El distrito de Shangcheng en Hangzhou lanza las primeras “Diez Medidas Doradas” audiovisuales de AIGC en Zhejiang, con un fondo industrial de 5 mil millones de yuanes. El distrito de Shangcheng en Hangzhou lanza las primeras “Diez Medidas Doradas” audiovisuales de AIGC en Zhejiang, con un fondo industrial de 5 mil millones de yuanes. El 16 de ese mismo mes, se celebró en el distrito de Shangcheng, Hangzhou, la Conferencia sobre Ecosistema de Innovación de la Industria Audiovisual AIGC. Durante el evento, la provincia presentó su primera política específica para la industria audio
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%. OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%. Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
Recomendaciones de temas especiales relacionados
chatbot Crea tu propia historia de amor con IA gracias a estas herramientas de juego de rol
Crea tu propia historia de amor con IA gracias a estas herramientas de juego de rol

Descubre las mejores herramientas de rol basadas en IA de 2026 para crear narrativas envolventes. La selección de XIX.AI incluye potentes asistentes revolucionarios que te permitirán desarrollar una narrativa creativa y una gran profundidad emocional. Compara las opciones gratuitas con las de pago mediante pruebas reales. Empieza hoy mismo tu viaje único.

10 herramientas
xix.ai
Texto a voz Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales
Las mejores herramientas de voz con IA para desarrolladores de videojuegos independientes: ahorra tiempo en la grabación de voces para juegos de rol y novelas visuales

¡Descubre las mejores herramientas de voz con IA de 2026 para desarrolladores de videojuegos! La lista seleccionada por XIX.AI incluye soluciones de primera categoría que marcarán un antes y un después, y que te permitirán ahorrar tiempo y dinero en la locución de juegos de rol y novelas visuales. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones que se actualizan semanalmente. ¡Encuentra hoy mismo tu herramienta de voz perfecta!

10 herramientas
xix.ai
Educación y aprendizaje Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho
Los mejores herramientas de repetición espaciada con IA: optimiza los horarios de estudio para estudiantes de medicina y derecho

Descubra los mejores herramientas de repetición espacial de IA para 2026, seleccionadas por XIX.AI. Nuestras opciones más recomendadas y revolucionarias ayudan a estudiantes de medicina y derecho a optimizar sus horarios de estudio para lograr un mayor retención del conocimiento. Compare las opciones gratuitas con las pagas mediante pruebas reales y clasificaciones actualizadas semanalmente. Despliegue todo su potencial de aprendizaje ahora mismo.

10 herramientas
xix.ai
Creación de vídeos Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual
Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual

Las mejores plataformas de IA para convertir texto en vídeo de 2026: las herramientas mejor valoradas para la redacción de guiones y la narración visual. Descubre soluciones potentes y revolucionarias para transformar tu texto en vídeos atractivos. Compara las opciones gratuitas con las de pago gracias a nuestras clasificaciones, que se actualizan semanalmente, y a nuestras pruebas en condiciones reales. Encuentra la plataforma perfecta para potenciar tu creatividad y productividad. Explora la selección cuidada de XIX.AI.

10 herramientas
xix.ai
chatbot Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural
Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural

2026 Últimas novedades: Descubra los mejores herramientas de inteligencia artificial para diseñar flujos de trabajo automatizados complejos a través del lenguaje natural. Nuestra lista seleccionada incluye las plataformas más reconocidas y potentes para una automatización de tareas sin problemas y una gestión inteligente de procesos. Compare opciones gratuitas y pagadas con información basada en casos reales. Despliegue todo su potencial con las clasificaciones actualizadas semanalmente por expertos de XIX.AI.

10 herramientas
xix.ai
Edición de imágenes Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz
Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz

Descubra los mejores softwares de reducción de ruido por IA para la fotografía nocturna en condiciones de poca luz en 2026. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, compara herramientas gratuitas con aquellas pagadas, e incluye pruebas reales y clasificaciones actualizadas semanalmente. Elimine fácilmente las imperfecciones y los artefactos en sus imágenes. Despliegue todo el potencial de la IA en XIX.AI.

10 herramientas
xix.ai
comentario (0)
0/500
OR