알리바바의 통이 랩(Tongyi Lab), ‘Fun-CineForge’ 오픈소스 공개… 다중 화자 더빙 과제 해결
영화나 애니메이션과 같이 성공 여부가 중요한 제작물에서는 미묘한 감정적 절정을 포착하고 입모양을 완벽하게 동기화하는 것이 무엇보다 중요하지만, 기존의 AI 음성 더빙 기술은 종종 이러한 요구를 충족시키지 못합니다. 이러한 업계의 핵심 과제를 해결하기 위해 Tongyi Lab은 획기적인 영화급 다중 시나리오 다중 모달 더빙 모델인 ‘Fun-CineForge’를 공식 출시하고 오픈소스로 공개했습니다.
시청각적 격차 해소: 매끄러운 싱크를 위한 4대 기둥 프레임워크
Fun-CineForge는 단순한 텍스트 음성 변환(TTS)에 의존하는 대신, 전문 더빙의 네 가지 핵심 요소를 완벽히 구현하도록 설계되었습니다:
립싱크: 합성된 음성이 화면 속 캐릭터의 입 모양과 탁월한 정밀도로 일치하도록 보장합니다.
감정 표현: 얼굴 표정과 문맥적 지시를 분석하여 목소리에 진정한 인간적인 감정을 불어넣습니다.
음성 일관성: 복잡한 다중 화자 대화 장면에서도 특정 캐릭터에 대해 안정적이고 식별 가능한 음성 정체성을 유지합니다.
시간 정렬: 화면에 등장하지 않거나 부분적으로 가려진 화자의 대사도 밀리초 단위의 정확도로 삽입할 수 있습니다.
핵심 혁신: 선구적인 "시간 모달리티(Time Modality)"와 고품질 데이터셋
Fun-CineForge의 기술적 도약은 독특한 "데이터 + 모델" 공동 설계 철학에서 비롯됩니다:

CineDub 고품질 데이터셋: Tongyi Lab은 자동화된 CineDub 데이터셋 구축 파이프라인도 오픈소스로 공개했습니다. 이 파이프라인은 사고 연쇄(chain-of-thought) 오류 수정 메커니즘을 활용하여 중국어 및 영어 텍스트의 전사 오류율을 약 1%~2%로 낮추고, 화자 식별 오류를 1.2%까지 대폭 줄였습니다.
4모달리티 융합 아키텍처: 이 모델은 "시간 모달리티"를 통합하여 시각적 입력(입 모양 및 표정), 텍스트(대화 및 감정적 맥락), 오디오(음성 참조)를 공동으로 모델링하는 선구적인 방식을 도입했습니다. 이러한 융합을 통해 얼굴이 보이지 않는 장면을 포함한 까다로운 장면에서도 정확한 동기화가 가능합니다.
입증된 우수성: 혁신적인 사실적인 다인물 대화 더빙
벤치마크 결과에 따르면 Fun-CineForge는 단어 오류율(WER/CER), 입술 동기화(LSE-C/D), 음성 유사도 등 주요 지표에서 DeepDubber-V1과 같은 기준 모델보다 현저히 우수한 성능을 보입니다. 특히 듀엣 및 다인 대화도 정밀하게 처리할 수 있는 업계 최초의 기능을 구현하여, 최대 30초 분량의 영상 클립에서도 뛰어난 견고성을 보여줍니다.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
관련 특별 주제 추천
의견 (0)
0/500
영화나 애니메이션과 같이 성공 여부가 중요한 제작물에서는 미묘한 감정적 절정을 포착하고 입모양을 완벽하게 동기화하는 것이 무엇보다 중요하지만, 기존의 AI 음성 더빙 기술은 종종 이러한 요구를 충족시키지 못합니다. 이러한 업계의 핵심 과제를 해결하기 위해 Tongyi Lab은 획기적인 영화급 다중 시나리오 다중 모달 더빙 모델인
시청각적 격차 해소: 매끄러운 싱크를 위한 4대 기둥 프레임워크
Fun-CineForge는 단순한 텍스트 음성 변환(TTS)에 의존하는 대신, 전문 더빙의 네 가지 핵심 요소를 완벽히 구현하도록 설계되었습니다:
립싱크: 합성된 음성이 화면 속 캐릭터의 입 모양과 탁월한 정밀도로 일치하도록 보장합니다.
감정 표현: 얼굴 표정과 문맥적 지시를 분석하여 목소리에 진정한 인간적인 감정을 불어넣습니다.
음성 일관성: 복잡한 다중 화자 대화 장면에서도 특정 캐릭터에 대해 안정적이고 식별 가능한 음성 정체성을 유지합니다.
시간 정렬: 화면에 등장하지 않거나 부분적으로 가려진 화자의 대사도 밀리초 단위의 정확도로 삽입할 수 있습니다.
핵심 혁신: 선구적인 "시간 모달리티(Time Modality)"와 고품질 데이터셋
Fun-CineForge의 기술적 도약은 독특한 "데이터 + 모델" 공동 설계 철학에서 비롯됩니다:

CineDub 고품질 데이터셋: Tongyi Lab은 자동화된 CineDub 데이터셋 구축 파이프라인도 오픈소스로 공개했습니다. 이 파이프라인은 사고 연쇄(chain-of-thought) 오류 수정 메커니즘을 활용하여 중국어 및 영어 텍스트의 전사 오류율을 약 1%~2%로 낮추고, 화자 식별 오류를 1.2%까지 대폭 줄였습니다.
4모달리티 융합 아키텍처: 이 모델은 "시간 모달리티"를 통합하여 시각적 입력(입 모양 및 표정), 텍스트(대화 및 감정적 맥락), 오디오(음성 참조)를 공동으로 모델링하는 선구적인 방식을 도입했습니다. 이러한 융합을 통해 얼굴이 보이지 않는 장면을 포함한 까다로운 장면에서도 정확한 동기화가 가능합니다.
입증된 우수성: 혁신적인 사실적인 다인물 대화 더빙
벤치마크 결과에 따르면 Fun-CineForge는 단어 오류율(WER/CER), 입술 동기화(LSE-C/D), 음성 유사도 등 주요 지표에서 DeepDubber-V1과 같은 기준 모델보다 현저히 우수한 성능을 보입니다. 특히 듀엣 및 다인 대화도 정밀하게 처리할 수 있는 업계 최초의 기능을 구현하여, 최대 30초 분량의 영상 클립에서도 뛰어난 견고성을 보여줍니다.
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code





집






