Maison
Hume AI lance TADA : un système de synthèse vocale mobile open source cinq fois plus rapide et sans « hallucinations »

Hume AI a mis en open source son dernier modèle de génération vocale, TADA (Text-Acoustic Dual Alignment). Ce système de synthèse vocale (TTS), reposant sur un grand modèle linguistique, utilise une architecture innovante à double alignement pour le texte et les données acoustiques. Cette approche améliore considérablement l'efficacité et la fiabilité de la génération, tout en élargissant son champ d'applications pratiques.
Comme indiqué officiellement, TADA établit une synchronisation stricte 1:1 entre les tokens de texte et les représentations acoustiques. Cette architecture résout complètement le problème courant d'hallucination de contenu au niveau des tokens que l'on retrouve dans les systèmes TTS traditionnels basés sur des LLM. Lors d'évaluations portant sur plus de 1 000 échantillons de test, le modèle n'a présenté aucun cas d'hallucination de contenu.
En termes de performances, TADA génère de l'audio plus de cinq fois plus rapidement que les systèmes TTS LLM comparables. Il fonctionne également avec une efficacité remarquable en termes de ressources, ne nécessitant que 2 à 3 images de ressources de calcul par seconde d'audio. En revanche, les solutions conventionnelles nécessitent généralement entre 12,5 et 75 images. Cette efficacité permet au modèle d'effectuer une inférence locale sur du matériel à faible consommation d'énergie, tel que les smartphones et les appareils périphériques, éliminant ainsi le besoin de serveurs cloud.
TADA offre une prise en charge multilingue, y compris le chinois, avec des versions multilingues basées sur l'échelle de paramètres Llama3.23B. Cette version comprend des modèles pré-entraînés multilingues de 1B (principalement pour l'anglais) et 3B. Avec une fenêtre de contexte de 2 048 tokens, le modèle peut générer environ 700 secondes d'audio continu en un seul passage. Cette capacité dépasse de loin celle des solutions traditionnelles, qui sont généralement limitées à environ 70 secondes avec les mêmes contraintes de tokens.
Une innovation clé réside dans sa fonctionnalité de transcription synchrone. Tout en générant la parole, le modèle produit simultanément la transcription textuelle correspondante. Ce processus élimine le besoin d'une étape distincte et supplémentaire de reconnaissance vocale automatique (ASR), ce qui se traduit par une latence nulle pour la sortie textuelle. Cette fonctionnalité est particulièrement utile pour le sous-titrage en temps réel, les systèmes d'interaction vocale et les outils de création de contenu.
Lors d'évaluations subjectives par des humains, TADA s'est classé deuxième tant pour le naturel que pour la similarité vocale. Il a surpassé plusieurs systèmes dotés d'un plus grand nombre de paramètres et de données d'entraînement plus volumineuses, démontrant ainsi une qualité audio très compétitive.
Lien : https://huggingface.co/collections/HumeAI/tada
Article connexe
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Recommandations de sujets spéciaux liés
commentaires (1)

Hume AI a mis en open source son dernier modèle de génération vocale, TADA (Text-Acoustic Dual Alignment). Ce système de synthèse vocale (TTS), reposant sur un grand modèle linguistique, utilise une architecture innovante à double alignement pour le texte et les données acoustiques. Cette approche améliore considérablement l'efficacité et la fiabilité de la génération, tout en élargissant son champ d'applications pratiques.
Comme indiqué officiellement, TADA établit une synchronisation stricte 1:1 entre les tokens de texte et les représentations acoustiques. Cette architecture résout complètement le problème courant d'hallucination de contenu au niveau des tokens que l'on retrouve dans les systèmes TTS traditionnels basés sur des LLM. Lors d'évaluations portant sur plus de 1 000 échantillons de test, le modèle n'a présenté aucun cas d'hallucination de contenu.
En termes de performances, TADA génère de l'audio plus de cinq fois plus rapidement que les systèmes TTS LLM comparables. Il fonctionne également avec une efficacité remarquable en termes de ressources, ne nécessitant que 2 à 3 images de ressources de calcul par seconde d'audio. En revanche, les solutions conventionnelles nécessitent généralement entre 12,5 et 75 images. Cette efficacité permet au modèle d'effectuer une inférence locale sur du matériel à faible consommation d'énergie, tel que les smartphones et les appareils périphériques, éliminant ainsi le besoin de serveurs cloud.
TADA offre une prise en charge multilingue, y compris le chinois, avec des versions multilingues basées sur l'échelle de paramètres Llama3.23B. Cette version comprend des modèles pré-entraînés multilingues de 1B (principalement pour l'anglais) et 3B. Avec une fenêtre de contexte de 2 048 tokens, le modèle peut générer environ 700 secondes d'audio continu en un seul passage. Cette capacité dépasse de loin celle des solutions traditionnelles, qui sont généralement limitées à environ 70 secondes avec les mêmes contraintes de tokens.
Une innovation clé réside dans sa fonctionnalité de transcription synchrone. Tout en générant la parole, le modèle produit simultanément la transcription textuelle correspondante. Ce processus élimine le besoin d'une étape distincte et supplémentaire de reconnaissance vocale automatique (ASR), ce qui se traduit par une latence nulle pour la sortie textuelle. Cette fonctionnalité est particulièrement utile pour le sous-titrage en temps réel, les systèmes d'interaction vocale et les outils de création de contenu.
Lors d'évaluations subjectives par des humains, TADA s'est classé deuxième tant pour le naturel que pour la similarité vocale. Il a surpassé plusieurs systèmes dotés d'un plus grand nombre de paramètres et de données d'entraînement plus volumineuses, démontrant ainsi une qualité audio très compétitive.
Lien : https://huggingface.co/collections/HumeAI/tada
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des











