Heim
Alibabas Tongyi stellt Fun-CineForge vor: Open-Source-KI-Modell ermöglicht Sprachsynthese in Kinoqualität
Das Alibaba Tongyi Lab hat am 16. März das multimodale Modell „Fun-CineForge“ für die filmspitzen, szenarioübergreifende Sprachsynthese offiziell vorgestellt und als Open-Source-Projekt veröffentlicht. Dieses Modell befasst sich mit zentralen Herausforderungen bei der KI-Synchronisation, darunter Lippensynchronisationsfehler, mangelnder emotionaler Ausdruck und uneinheitliche Stimmcharakteristika bei mehreren Charakteren. Zudem führt es eine hochwertige Methode zur Erstellung von Datensätzen ein.

Technisch gesehen ist Fun-CineForge Vorreiter beim Konzept der „zeitlichen Modalität“. Im Gegensatz zu herkömmlichen Modellen, die sich ausschließlich auf Text oder Bildmaterial konzentrieren, stellt es durch präzise Zeitstempelsteuerung sicher, dass die Sprachsynthese innerhalb genauer Zeitintervalle erfolgt. Selbst in komplexen Filmszenen mit verdeckten Charakteren, häufigen Kameraschnitten oder unscharfen Gesichtern gewährleistet das Modell ein hohes Maß an audiovisueller Synchronisation und die Einhaltung von Anweisungen.
Die begleitende Open-Source-Pipeline zur Erstellung des CineDub-Datensatzes ist eine weitere wichtige Innovation. Tongyi Lab nutzte die Kettengedanken-Argumentation großer Sprachmodelle, um rohes Filmmaterial automatisch in strukturierte Daten umzuwandeln, wodurch der Bedarf an manueller Annotation erheblich reduziert wurde. Dieser Prozess erreicht eine Wortfehlerrate von etwa 1 % und eine Sprecher-Diarisierungsfehlerrate von nur 1,20 %, was eine äußerst wettbewerbsfähige Trainingsgrundlage für große Modelle bietet.

Fun-CineForge ist nun auf GitHub, HuggingFace und in der ModelScope-Community verfügbar und unterstützt die Inferenz für Videoclips mit einer Länge von bis zu 30 Sekunden. Es zeichnet sich nicht nur bei Monologen einzelner Sprecher aus, sondern bietet auch professionelle Unterstützung für Duett- und Mehrsprecher-Dialogszenarien. Dieser Fortschritt signalisiert die Entwicklung der KI-Sprachtechnologie von grundlegenden Kundendienst- und Assistenzfunktionen hin zu hochwertiger Animation und Film-Postproduktion.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Verwandter Artikel
Der Bezirk Shangcheng in Hangzhou führt die ersten „goldenen zehn Maßnahmen“ der audiovisuellen Industrie in Zhejiang unter der Schirmherrschaft von AIGC durch und stellt dabei einen Industriefonds in Höhe von 5 Milliarden Yuan bereit.
Am 16. fand die AIGC Audio-Visual Industry Innovation Ecosystem Conference im Bezirk Shangcheng in Hangzhou statt. Während der Veranstaltung kündigte die Provinz ihre erste spezielle Politik für die AIGC-Audio-Visual-Branche an – „Die Goldenen Zehn“.
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
Das Alibaba Tongyi Lab hat am 16. März das multimodale Modell „Fun-CineForge“ für die filmspitzen, szenarioübergreifende Sprachsynthese offiziell vorgestellt und als Open-Source-Projekt veröffentlicht. Dieses Modell befasst sich mit zentralen Herausforderungen bei der KI-Synchronisation, darunter Lippensynchronisationsfehler, mangelnder emotionaler Ausdruck und uneinheitliche Stimmcharakteristika bei mehreren Charakteren. Zudem führt es eine hochwertige Methode zur Erstellung von Datensätzen ein.

Technisch gesehen ist Fun-CineForge Vorreiter beim Konzept der „zeitlichen Modalität“. Im Gegensatz zu herkömmlichen Modellen, die sich ausschließlich auf Text oder Bildmaterial konzentrieren, stellt es durch präzise Zeitstempelsteuerung sicher, dass die Sprachsynthese innerhalb genauer Zeitintervalle erfolgt. Selbst in komplexen Filmszenen mit verdeckten Charakteren, häufigen Kameraschnitten oder unscharfen Gesichtern gewährleistet das Modell ein hohes Maß an audiovisueller Synchronisation und die Einhaltung von Anweisungen.
Die begleitende Open-Source-Pipeline zur Erstellung des CineDub-Datensatzes ist eine weitere wichtige Innovation. Tongyi Lab nutzte die Kettengedanken-Argumentation großer Sprachmodelle, um rohes Filmmaterial automatisch in strukturierte Daten umzuwandeln, wodurch der Bedarf an manueller Annotation erheblich reduziert wurde. Dieser Prozess erreicht eine Wortfehlerrate von etwa 1 % und eine Sprecher-Diarisierungsfehlerrate von nur 1,20 %, was eine äußerst wettbewerbsfähige Trainingsgrundlage für große Modelle bietet.

Fun-CineForge ist nun auf GitHub, HuggingFace und in der ModelScope-Community verfügbar und unterstützt die Inferenz für Videoclips mit einer Länge von bis zu 30 Sekunden. Es zeichnet sich nicht nur bei Monologen einzelner Sprecher aus, sondern bietet auch professionelle Unterstützung für Duett- und Mehrsprecher-Dialogszenarien. Dieser Fortschritt signalisiert die Entwicklung der KI-Sprachtechnologie von grundlegenden Kundendienst- und Assistenzfunktionen hin zu hochwertiger Animation und Film-Postproduktion.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Der Bezirk Shangcheng in Hangzhou führt die ersten „goldenen zehn Maßnahmen“ der audiovisuellen Industrie in Zhejiang unter der Schirmherrschaft von AIGC durch und stellt dabei einen Industriefonds in Höhe von 5 Milliarden Yuan bereit.
Am 16. fand die AIGC Audio-Visual Industry Innovation Ecosystem Conference im Bezirk Shangcheng in Hangzhou statt. Während der Veranstaltung kündigte die Provinz ihre erste spezielle Politik für die AIGC-Audio-Visual-Branche an – „Die Goldenen Zehn“.
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.











