Maison
Tongyi, filiale d'Alibaba, dévoile Fun-CineForge : un modèle d'IA open source capable de produire une synthèse vocale de qualité cinématographique
Le 16 mars, Alibaba Tongyi Lab a officiellement lancé et mis en open source Fun-CineForge, un modèle multimodal de synthèse vocale de qualité cinématographique adapté à de multiples scénarios. Ce modèle s'attaque aux principaux défis du doublage par IA, notamment le décalage entre les lèvres et la voix, le manque d'expression émotionnelle et l'incohérence des caractéristiques vocales entre plusieurs personnages. Il propose également une méthode de haute qualité pour la construction d'ensembles de données.

Sur le plan technique, Fun-CineForge est le pionnier du concept de « modalité temporelle ». Contrairement aux modèles conventionnels qui se concentrent uniquement sur le texte ou les visuels, il garantit que la synthèse vocale s'effectue dans des intervalles de temps précis grâce à un contrôle précis des horodatages. Même dans des scènes de film complexes comportant des personnages masqués, des changements fréquents de plan ou des visages flous, le modèle maintient un haut degré de synchronisation audiovisuelle et de respect des instructions.
Le pipeline de construction de l'ensemble de données open source CineDub qui l'accompagne constitue une autre innovation majeure. Le laboratoire Tongyi a utilisé le raisonnement par chaîne de pensée des grands modèles linguistiques pour transformer automatiquement les séquences brutes de films en données structurées, réduisant ainsi considérablement le besoin d'annotation manuelle. Ce processus atteint un taux d'erreur sur les mots d'environ 1 % et un taux d'erreur de diarisation des locuteurs de seulement 1,20 %, offrant ainsi une base d'entraînement hautement compétitive pour les grands modèles.

Fun-CineForge est désormais disponible sur GitHub, HuggingFace et la communauté ModelScope, et prend en charge l'inférence pour des clips vidéo d'une durée maximale de 30 secondes. Il excelle non seulement dans les monologues à locuteur unique, mais offre également une prise en charge de niveau professionnel pour les scénarios de dialogues en duo et à locuteurs multiples. Cette avancée marque l'évolution de la technologie vocale IA, qui passe de rôles basiques de service client et d'assistant à des applications de post-production cinématographique et d'animation de haut niveau.
GitHub : https://github.com/FunAudioLLM/FunCineForge
HuggingFace : https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope : https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Article connexe
Pentium 4 Revival : Un processeur vieux de 20 ans permet d’exécuter le modèle Meta Llama 3 Large
Récemment, la chaîne technique YouTube Fully Buffered a mené une expérience impressionnante et poussée : elle a réussi à faire fonctionner le dernier modèle de grande taille de Meta, Llama 3.2 3B, sur un processeur Pentium 4 641, un circuit électroni
Le district de Shangcheng à Hangzhou lance les premières “Dix Mesures d’Or” audiovisuelles de Zhejiang dans le cadre du programme AIGC, avec la création d’un fonds industriel de 5 milliards de yuans.
Le 16ème, la Conférence sur l’écosystème d’innovation de l’industrie audiovisuelle AIGC s’est tenue dans le district de Shangcheng à Hangzhou. Lors de cet événement, la province a dévoilé sa première politique spécifique pour l’industrie audiovisuell
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
Recommandations de sujets spéciaux liés
commentaires (1)
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
Le 16 mars, Alibaba Tongyi Lab a officiellement lancé et mis en open source Fun-CineForge, un modèle multimodal de synthèse vocale de qualité cinématographique adapté à de multiples scénarios. Ce modèle s'attaque aux principaux défis du doublage par IA, notamment le décalage entre les lèvres et la voix, le manque d'expression émotionnelle et l'incohérence des caractéristiques vocales entre plusieurs personnages. Il propose également une méthode de haute qualité pour la construction d'ensembles de données.

Sur le plan technique, Fun-CineForge est le pionnier du concept de « modalité temporelle ». Contrairement aux modèles conventionnels qui se concentrent uniquement sur le texte ou les visuels, il garantit que la synthèse vocale s'effectue dans des intervalles de temps précis grâce à un contrôle précis des horodatages. Même dans des scènes de film complexes comportant des personnages masqués, des changements fréquents de plan ou des visages flous, le modèle maintient un haut degré de synchronisation audiovisuelle et de respect des instructions.
Le pipeline de construction de l'ensemble de données open source CineDub qui l'accompagne constitue une autre innovation majeure. Le laboratoire Tongyi a utilisé le raisonnement par chaîne de pensée des grands modèles linguistiques pour transformer automatiquement les séquences brutes de films en données structurées, réduisant ainsi considérablement le besoin d'annotation manuelle. Ce processus atteint un taux d'erreur sur les mots d'environ 1 % et un taux d'erreur de diarisation des locuteurs de seulement 1,20 %, offrant ainsi une base d'entraînement hautement compétitive pour les grands modèles.

Fun-CineForge est désormais disponible sur GitHub, HuggingFace et la communauté ModelScope, et prend en charge l'inférence pour des clips vidéo d'une durée maximale de 30 secondes. Il excelle non seulement dans les monologues à locuteur unique, mais offre également une prise en charge de niveau professionnel pour les scénarios de dialogues en duo et à locuteurs multiples. Cette avancée marque l'évolution de la technologie vocale IA, qui passe de rôles basiques de service client et d'assistant à des applications de post-production cinématographique et d'animation de haut niveau.
GitHub : https://github.com/FunAudioLLM/FunCineForge
HuggingFace : https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope : https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Pentium 4 Revival : Un processeur vieux de 20 ans permet d’exécuter le modèle Meta Llama 3 Large
Récemment, la chaîne technique YouTube Fully Buffered a mené une expérience impressionnante et poussée : elle a réussi à faire fonctionner le dernier modèle de grande taille de Meta, Llama 3.2 3B, sur un processeur Pentium 4 641, un circuit électroni
Le district de Shangcheng à Hangzhou lance les premières “Dix Mesures d’Or” audiovisuelles de Zhejiang dans le cadre du programme AIGC, avec la création d’un fonds industriel de 5 milliards de yuans.
Le 16ème, la Conférence sur l’écosystème d’innovation de l’industrie audiovisuelle AIGC s’est tenue dans le district de Shangcheng à Hangzhou. Lors de cet événement, la province a dévoilé sa première politique spécifique pour l’industrie audiovisuell
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.











