Дом
Подразделение Tongyi компании Alibaba представило Fun-CineForge: модель искусственного интеллекта с открытым исходным кодом, обеспечивающая синтез речи кинематографического качества
16 марта лаборатория Alibaba Tongyi Lab официально представила и открыла исходный код мультимодальной модели Fun-CineForge для синтеза голоса киноуровня, предназначенной для различных сценариев. Эта модель решает основные проблемы в области дубляжа с помощью ИИ, включая несоответствие синхронизации губ, недостаток эмоциональной выразительности и несогласованность голосовых характеристик у разных персонажей. Кроме того, в ней представлен высококачественный метод построения наборов данных.

С технической точки зрения Fun-CineForge является пионером концепции «временной модальности». В отличие от традиционных моделей, которые сосредоточены исключительно на тексте или визуальных элементах, она обеспечивает синтез голоса в точных временных интервалах благодаря точному управлению временными метками. Даже в сложных сценах фильмов с закрытыми персонажами, частыми переключениями камеры или размытыми лицами модель сохраняет высокую степень аудиовизуальной синхронизации и соблюдения инструкций.
Еще одним ключевым нововведением является сопутствующий конвейер построения набора данных CineDub с открытым исходным кодом. Tongyi Lab использовала цепочку рассуждений на основе крупных языковых моделей для автоматического преобразования необработанных видеоматериалов в структурированные данные, что значительно сократило необходимость в ручной аннотации. Этот процесс обеспечивает уровень ошибок по словам примерно 1% и уровень ошибок диаризации говорящих всего 1,20%, создавая высококонкурентную основу для обучения крупных моделей.

Fun-CineForge теперь доступен на GitHub, HuggingFace и в сообществе ModelScope, поддерживая инференцию для видеороликов длиной до 30 секунд. Он превосходен не только в монологах одного говорящего, но и предлагает профессиональную поддержку для сценариев диалогов в дуэте и с участием нескольких говорящих. Этот прорыв сигнализирует об эволюции технологии голосового ИИ от базовых ролей в обслуживании клиентов и в качестве помощников к высококачественной анимации и постпродакшну фильмов.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Связанная статья
Основные моменты документа SpaceX о публичном размещении акций: амбиции по расширению услуг спутникового Интернета и использованию искусственного интеллекта
В своем заявлении о регистрации типа S-1, представленном перед планируемым IPO, компания SpaceX представила ряд впечатляющих финансовых показателей, подчеркивающих ее прочные позиции в области аэрокосмической связи и искусственного интеллекта:Число
Alibaba Tuhao M890 дебютирует с тройной производительностью, открывая эпоху агентов полного спектра для моделей инференции на основе чипов, облачных технологий и моделирования.
20 мая 2026 года на саммите Alibaba Cloud компания объявила о завершении обновления полноценной технологической системы, разработанной для эры агентов. Это обновление кардинально изменило весь процесс работы системы — от базовых чипов и облачных плат
Возрождение Pentium 4: 20-летний процессор запускает большую модель Meta Llama 3
Недавно технический канал YouTube Fully Buffered провел впечатляющий и сложный эксперимент: им удалось успешно запустить последнюю большую модель Meta Llama 3.2 3B на процессоре Pentium 4 641, выпущенном в 2006 году.Этот тест заставил современные ис
Рекомендации по связанным специальным темам
Комментарии (1)
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
16 марта лаборатория Alibaba Tongyi Lab официально представила и открыла исходный код мультимодальной модели Fun-CineForge для синтеза голоса киноуровня, предназначенной для различных сценариев. Эта модель решает основные проблемы в области дубляжа с помощью ИИ, включая несоответствие синхронизации губ, недостаток эмоциональной выразительности и несогласованность голосовых характеристик у разных персонажей. Кроме того, в ней представлен высококачественный метод построения наборов данных.

С технической точки зрения Fun-CineForge является пионером концепции «временной модальности». В отличие от традиционных моделей, которые сосредоточены исключительно на тексте или визуальных элементах, она обеспечивает синтез голоса в точных временных интервалах благодаря точному управлению временными метками. Даже в сложных сценах фильмов с закрытыми персонажами, частыми переключениями камеры или размытыми лицами модель сохраняет высокую степень аудиовизуальной синхронизации и соблюдения инструкций.
Еще одним ключевым нововведением является сопутствующий конвейер построения набора данных CineDub с открытым исходным кодом. Tongyi Lab использовала цепочку рассуждений на основе крупных языковых моделей для автоматического преобразования необработанных видеоматериалов в структурированные данные, что значительно сократило необходимость в ручной аннотации. Этот процесс обеспечивает уровень ошибок по словам примерно 1% и уровень ошибок диаризации говорящих всего 1,20%, создавая высококонкурентную основу для обучения крупных моделей.

Fun-CineForge теперь доступен на GitHub, HuggingFace и в сообществе ModelScope, поддерживая инференцию для видеороликов длиной до 30 секунд. Он превосходен не только в монологах одного говорящего, но и предлагает профессиональную поддержку для сценариев диалогов в дуэте и с участием нескольких говорящих. Этот прорыв сигнализирует об эволюции технологии голосового ИИ от базовых ролей в обслуживании клиентов и в качестве помощников к высококачественной анимации и постпродакшну фильмов.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Основные моменты документа SpaceX о публичном размещении акций: амбиции по расширению услуг спутникового Интернета и использованию искусственного интеллекта
В своем заявлении о регистрации типа S-1, представленном перед планируемым IPO, компания SpaceX представила ряд впечатляющих финансовых показателей, подчеркивающих ее прочные позиции в области аэрокосмической связи и искусственного интеллекта:Число
Alibaba Tuhao M890 дебютирует с тройной производительностью, открывая эпоху агентов полного спектра для моделей инференции на основе чипов, облачных технологий и моделирования.
20 мая 2026 года на саммите Alibaba Cloud компания объявила о завершении обновления полноценной технологической системы, разработанной для эры агентов. Это обновление кардинально изменило весь процесс работы системы — от базовых чипов и облачных плат
Возрождение Pentium 4: 20-летний процессор запускает большую модель Meta Llama 3
Недавно технический канал YouTube Fully Buffered провел впечатляющий и сложный эксперимент: им удалось успешно запустить последнюю большую модель Meta Llama 3.2 3B на процессоре Pentium 4 641, выпущенном в 2006 году.Этот тест заставил современные ис
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.











