Maison
La famille d'IA VibeVoice de Microsoft passe en open source, gère des dialogues de 90 minutes et dépasse les 27 000 étoiles sur GitHub
Microsoft a récemment mis en open source une famille de modèles d'IA vocale de pointe baptisée VibeVoice, offrant des fonctionnalités telles que la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS). Le projet a rapidement suscité l'intérêt de la communauté des développeurs, grâce à son traitement robuste des enregistrements audio longs, à la génération naturelle de dialogues entre plusieurs locuteurs et à ses performances en temps réel à faible latence. Il a déjà recueilli environ 27 000 étoiles sur GitHub.
Publié sous forme de framework de recherche open source sous licence MIT, VibeVoice prend en charge le déploiement local sans frais d'abonnement au cloud, dans le but de favoriser la collaboration et l'innovation en matière de synthèse vocale. La famille de modèles comprend trois éléments principaux, chacun répondant à des défis spécifiques de l'IA vocale traditionnelle, tels que la gestion des longues séquences, la cohérence entre locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : un outil puissant pour la reconnaissance vocale structurée, capable de traiter jusqu'à 60 minutes d'audio
VibeVoice-ASR-7B est un modèle unifié de reconnaissance vocale capable de traiter des fichiers audio d'une durée maximale de 60 minutes en un seul passage, en produisant directement des transcriptions structurées. La sortie identifie le locuteur, fournit des horodatages précis et détaille le contenu parlé, tout en prenant en charge des mots-clés personnalisés pour améliorer la précision concernant les noms propres ou les termes techniques. Prise en charge de plus de 50 langues, il est parfaitement adapté à des scénarios complexes tels que les enregistrements de longues réunions et la transcription de podcasts.
Les développeurs de la communauté ont déjà créé des outils pratiques basés sur ce modèle, tels qu’une méthode de saisie vocale appelée Vibing pour macOS et Windows. Les retours des utilisateurs indiquent d’excellentes performances en termes de vitesse et de précision, ce qui améliore considérablement l’efficacité de la saisie vocale au quotidien.
VibeVoice-TTS-1.5B : génération de discours expressif pouvant atteindre 90 minutes avec plusieurs locuteurs
VibeVoice-TTS-1.5B est le modèle central de synthèse vocale, capable de générer un flux audio continu d'une durée maximale de 90 minutes en une seule fois et prenant en charge jusqu'à quatre locuteurs distincts pour une simulation de dialogue naturelle. La parole synthétisée est expressive, sonnant naturelle et fluide avec des pauses, des accents et des variations émotionnelles réalistes, ce qui la rend idéale pour les podcasts, les longs récits, les livres audio ou les dialogues à plusieurs personnages.
Contrairement à de nombreux modèles TTS traditionnels limités à 1 ou 2 locuteurs, VibeVoice-TTS réalise des avancées significatives en matière de cohérence pour les formats longs et les dialogues à plusieurs locuteurs. Son architecture combine un tokeniseur de parole continue (acoustique et sémantique) avec une faible fréquence d'échantillonnage (7,5 Hz), améliorant considérablement l'efficacité de calcul pour les longues séquences.
VibeVoice-Realtime-0.5B : synthèse vocale en temps réel avec une latence d'environ 300 millisecondes
VibeVoice-Realtime-0.5B est conçu pour les applications en temps réel. Il prend en charge la saisie de texte en continu avec une latence audio initiale d'environ 300 millisecondes, tout en étant capable de générer des fichiers audio d'une durée maximale de 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant un retour instantané, telles que les assistants vocaux en temps réel ou le doublage en direct.
De plus, le projet a introduit une prise en charge expérimentale des locuteurs, incluant la parole multilingue et diverses variations stylistiques de l'anglais, offrant ainsi aux développeurs davantage d'options de personnalisation.
Avis d'AIbase: L'ouverture du code source de VibeVoice par Microsoft réduit non seulement les barrières à l'entrée pour l'IA vocale haute performance, mais fournit également une solution complète de déploiement local. Le projet a été brièvement suspendu en raison de risques d'utilisation abusive, mais a été relancé après la mise en place de mesures de sécurité telles que des filigranes audio et des avertissements sonores, reflétant les principes de développement responsable de l'IA. Les développeurs peuvent désormais obtenir les poids des modèles sur GitHub et Hugging Face et les tester rapidement via des plateformes comme Colab.
Grâce aux contributions continues de la communauté open source, notamment les optimisations pour Apple Silicon, VibeVoice est en passe d'accélérer son adoption dans la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent consulter la page officielle du projet de Microsoft pour en savoir plus.
Adresse du projet : https://github.com/microsoft/VibeVoice
Article connexe
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Recommandations de sujets spéciaux liés
commentaires (0)
Microsoft a récemment mis en open source une famille de modèles d'IA vocale de pointe baptisée VibeVoice, offrant des fonctionnalités telles que la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS). Le projet a rapidement suscité l'intérêt de la communauté des développeurs, grâce à son traitement robuste des enregistrements audio longs, à la génération naturelle de dialogues entre plusieurs locuteurs et à ses performances en temps réel à faible latence. Il a déjà recueilli environ 27 000 étoiles sur GitHub.
Publié sous forme de framework de recherche open source sous licence MIT, VibeVoice prend en charge le déploiement local sans frais d'abonnement au cloud, dans le but de favoriser la collaboration et l'innovation en matière de synthèse vocale. La famille de modèles comprend trois éléments principaux, chacun répondant à des défis spécifiques de l'IA vocale traditionnelle, tels que la gestion des longues séquences, la cohérence entre locuteurs et la fluidité naturelle.

VibeVoice-ASR-7B : un outil puissant pour la reconnaissance vocale structurée, capable de traiter jusqu'à 60 minutes d'audio
VibeVoice-ASR-7B est un modèle unifié de reconnaissance vocale capable de traiter des fichiers audio d'une durée maximale de 60 minutes en un seul passage, en produisant directement des transcriptions structurées. La sortie identifie le locuteur, fournit des horodatages précis et détaille le contenu parlé, tout en prenant en charge des mots-clés personnalisés pour améliorer la précision concernant les noms propres ou les termes techniques. Prise en charge de plus de 50 langues, il est parfaitement adapté à des scénarios complexes tels que les enregistrements de longues réunions et la transcription de podcasts.
Les développeurs de la communauté ont déjà créé des outils pratiques basés sur ce modèle, tels qu’une méthode de saisie vocale appelée Vibing pour macOS et Windows. Les retours des utilisateurs indiquent d’excellentes performances en termes de vitesse et de précision, ce qui améliore considérablement l’efficacité de la saisie vocale au quotidien.
VibeVoice-TTS-1.5B : génération de discours expressif pouvant atteindre 90 minutes avec plusieurs locuteurs
VibeVoice-TTS-1.5B est le modèle central de synthèse vocale, capable de générer un flux audio continu d'une durée maximale de 90 minutes en une seule fois et prenant en charge jusqu'à quatre locuteurs distincts pour une simulation de dialogue naturelle. La parole synthétisée est expressive, sonnant naturelle et fluide avec des pauses, des accents et des variations émotionnelles réalistes, ce qui la rend idéale pour les podcasts, les longs récits, les livres audio ou les dialogues à plusieurs personnages.
Contrairement à de nombreux modèles TTS traditionnels limités à 1 ou 2 locuteurs, VibeVoice-TTS réalise des avancées significatives en matière de cohérence pour les formats longs et les dialogues à plusieurs locuteurs. Son architecture combine un tokeniseur de parole continue (acoustique et sémantique) avec une faible fréquence d'échantillonnage (7,5 Hz), améliorant considérablement l'efficacité de calcul pour les longues séquences.
VibeVoice-Realtime-0.5B : synthèse vocale en temps réel avec une latence d'environ 300 millisecondes
VibeVoice-Realtime-0.5B est conçu pour les applications en temps réel. Il prend en charge la saisie de texte en continu avec une latence audio initiale d'environ 300 millisecondes, tout en étant capable de générer des fichiers audio d'une durée maximale de 10 minutes. Ce modèle est particulièrement adapté aux applications interactives nécessitant un retour instantané, telles que les assistants vocaux en temps réel ou le doublage en direct.
De plus, le projet a introduit une prise en charge expérimentale des locuteurs, incluant la parole multilingue et diverses variations stylistiques de l'anglais, offrant ainsi aux développeurs davantage d'options de personnalisation.
Avis d'AIbase: L'ouverture du code source de VibeVoice par Microsoft réduit non seulement les barrières à l'entrée pour l'IA vocale haute performance, mais fournit également une solution complète de déploiement local. Le projet a été brièvement suspendu en raison de risques d'utilisation abusive, mais a été relancé après la mise en place de mesures de sécurité telles que des filigranes audio et des avertissements sonores, reflétant les principes de développement responsable de l'IA. Les développeurs peuvent désormais obtenir les poids des modèles sur GitHub et Hugging Face et les tester rapidement via des plateformes comme Colab.
Grâce aux contributions continues de la communauté open source, notamment les optimisations pour Apple Silicon, VibeVoice est en passe d'accélérer son adoption dans la création de contenu, les outils d'accessibilité et l'interaction vocale. Les développeurs intéressés peuvent consulter la page officielle du projet de Microsoft pour en savoir plus.
Adresse du projet : https://github.com/microsoft/VibeVoice
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des











