알리바바의 통이(Tongyi), ‘Fun-CineForge’ 공개: 영화급 음성 합성을 구현한 오픈소스 AI 모델
알리바바 통이 랩(Alibaba Tongyi Lab)은 3월 16일, 영화급 품질의 다중 시나리오 음성 합성 다중 모달 모델인 ‘Fun-CineForge’를 공식 출시하고 오픈소스로 공개했다. 이 모델은 입모양 동기화 불일치, 감정 표현 부족, 여러 캐릭터 간 음성 특성 불일치 등 AI 더빙의 핵심 과제를 해결한다. 또한 고품질 데이터셋 구축 방법도 제시한다.

기술적으로 Fun-CineForge는 '시간적 모달리티(temporal modality)' 개념을 최초로 도입했다. 텍스트나 영상 중 하나에만 집중하는 기존 모델과 달리, 이 모델은 정확한 타임스탬프 제어를 통해 음성 합성이 정밀한 시간 간격 내에서 이루어지도록 보장한다. 캐릭터가 가려지거나, 카메라 컷이 잦거나, 얼굴이 흐릿한 복잡한 영화 장면에서도 이 모델은 높은 수준의 영상-음성 동기화와 지시 사항 준수를 유지한다.
함께 공개된 오픈소스 CineDub 데이터셋 구축 파이프라인은 또 다른 핵심 혁신입니다. Tongyi Lab은 대규모 언어 모델의 연쇄적 사고 추론(chain-of-thought reasoning)을 활용하여 원본 영화 영상을 구조화된 데이터로 자동 변환함으로써, 수동 주석 작업의 필요성을 대폭 줄였습니다. 이 프로세스는 약 1%의 단어 오류율과 1.20%에 불과한 화자 식별 오류율을 달성하여, 대규모 모델을 위한 매우 경쟁력 있는 훈련 기반을 제공합니다.

Fun-CineForge는 현재 GitHub, HuggingFace 및 ModelScope 커뮤니티에서 이용 가능하며, 최대 30초 길이의 동영상 클립에 대한 추론을 지원합니다. 이 모델은 단일 화자의 독백뿐만 아니라 듀엣 및 다중 화자 대화 시나리오에 대해서도 전문가 수준의 지원을 제공합니다. 이러한 발전은 AI 음성 기술이 기본적인 고객 서비스 및 비서 역할에서 고품질의 애니메이션 및 영화 후반 제작 분야로 진화하고 있음을 시사합니다.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
관련 기사
펜티엄 4 리바이벌: 20년 된 CPU로 메타 라마 3 대형 모델을 실행하다
최근 유튜브의 기술 채널 Fully Buffered에서 인상적이고 대담한 실험을 진행했습니다. 2006년에 출시된 펜티엄 4 641 프로세서에서 메타의 최신 대형 모델인 Llama 3.2 3B를 성공적으로 실행한 것입니다.이 실험은 현대 인공지능을 20년 전의 하드웨어와 맞닿게 했으며, LLM의 기본적인 호환성 한계를 드러내는 동시에 많은 시청자들로 하여금 AI 시대에 무어의 법칙이 어떻게 이런 특이한 방식으로 세대 간의 교류를 이루었는지 생
항저우 상성구, 절강성 최초의 AIGC 시청각 ‘황금 십조치’ 도입 및 50억 원 규모 산업 펀드 조성 발표
16일, AIGC 오디오-비주얼 산업 혁신 생태계 컨퍼런스가 항저우 상성구에서 열렸습니다. 이 행사에서 해당 지방은 AIGC 오디오-비주얼 산업을 위한 첫 번째 전용 정책인 “골든 텐”을 발표했습니다. 이 정책은 기술 혁신, 비용 절감, 콘텐츠 품질 향상, 인재 양성, 글로벌 확장 등 산업 성장의 모든 측면을 다루고 있습니다.이 정책에는 강력한 인센티브가 포함되어 있습니다. 기술 혁신 분야에서는 AIGC 도구, AI 가상 촬영, AI 대화형
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
관련 특별 주제 추천
의견 (1)
0/500
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
알리바바 통이 랩(Alibaba Tongyi Lab)은 3월 16일, 영화급 품질의 다중 시나리오 음성 합성 다중 모달 모델인 ‘Fun-CineForge’를 공식 출시하고 오픈소스로 공개했다. 이 모델은 입모양 동기화 불일치, 감정 표현 부족, 여러 캐릭터 간 음성 특성 불일치 등 AI 더빙의 핵심 과제를 해결한다. 또한 고품질 데이터셋 구축 방법도 제시한다.

기술적으로 Fun-CineForge는 '시간적 모달리티(temporal modality)' 개념을 최초로 도입했다. 텍스트나 영상 중 하나에만 집중하는 기존 모델과 달리, 이 모델은 정확한 타임스탬프 제어를 통해 음성 합성이 정밀한 시간 간격 내에서 이루어지도록 보장한다. 캐릭터가 가려지거나, 카메라 컷이 잦거나, 얼굴이 흐릿한 복잡한 영화 장면에서도 이 모델은 높은 수준의 영상-음성 동기화와 지시 사항 준수를 유지한다.
함께 공개된 오픈소스 CineDub 데이터셋 구축 파이프라인은 또 다른 핵심 혁신입니다. Tongyi Lab은 대규모 언어 모델의 연쇄적 사고 추론(chain-of-thought reasoning)을 활용하여 원본 영화 영상을 구조화된 데이터로 자동 변환함으로써, 수동 주석 작업의 필요성을 대폭 줄였습니다. 이 프로세스는 약 1%의 단어 오류율과 1.20%에 불과한 화자 식별 오류율을 달성하여, 대규모 모델을 위한 매우 경쟁력 있는 훈련 기반을 제공합니다.

Fun-CineForge는 현재 GitHub, HuggingFace 및 ModelScope 커뮤니티에서 이용 가능하며, 최대 30초 길이의 동영상 클립에 대한 추론을 지원합니다. 이 모델은 단일 화자의 독백뿐만 아니라 듀엣 및 다중 화자 대화 시나리오에 대해서도 전문가 수준의 지원을 제공합니다. 이러한 발전은 AI 음성 기술이 기본적인 고객 서비스 및 비서 역할에서 고품질의 애니메이션 및 영화 후반 제작 분야로 진화하고 있음을 시사합니다.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
펜티엄 4 리바이벌: 20년 된 CPU로 메타 라마 3 대형 모델을 실행하다
최근 유튜브의 기술 채널 Fully Buffered에서 인상적이고 대담한 실험을 진행했습니다. 2006년에 출시된 펜티엄 4 641 프로세서에서 메타의 최신 대형 모델인 Llama 3.2 3B를 성공적으로 실행한 것입니다.이 실험은 현대 인공지능을 20년 전의 하드웨어와 맞닿게 했으며, LLM의 기본적인 호환성 한계를 드러내는 동시에 많은 시청자들로 하여금 AI 시대에 무어의 법칙이 어떻게 이런 특이한 방식으로 세대 간의 교류를 이루었는지 생
항저우 상성구, 절강성 최초의 AIGC 시청각 ‘황금 십조치’ 도입 및 50억 원 규모 산업 펀드 조성 발표
16일, AIGC 오디오-비주얼 산업 혁신 생태계 컨퍼런스가 항저우 상성구에서 열렸습니다. 이 행사에서 해당 지방은 AIGC 오디오-비주얼 산업을 위한 첫 번째 전용 정책인 “골든 텐”을 발표했습니다. 이 정책은 기술 혁신, 비용 절감, 콘텐츠 품질 향상, 인재 양성, 글로벌 확장 등 산업 성장의 모든 측면을 다루고 있습니다.이 정책에는 강력한 인센티브가 포함되어 있습니다. 기술 혁신 분야에서는 AIGC 도구, AI 가상 촬영, AI 대화형
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.





집






