옵션
속보
콘텐츠
BruceSmith
BruceSmith
2026년 3월 24일

알리바바가 동영상에 맞춰 동기화된 고품질 배경음을 생성하는 새로운 영상-음성 변환 프레임워크 ‘PrismAudio’를 공개했다. ICLR 2026에 채택된 이 프레임워크는 분석을 위해 ‘체인 오브 쓰ought(Chain-of-thought)’ 방식을 사용하고, 다중 교사(multi-teacher) 스코어링 시스템을 적용했다. 5억 1,800만 개의 파라미터를 가진 이 경량 모델은 9초 분량의 동영상에 대한 오디오를 0.63초 만에 생성할 수 있다.

알리바바가 동영상에 맞춰 동기화된 고품질 배경음을 생성하는 새로운 영상-음성 변환 프레임워크 ‘PrismAudio’를 공개했다. ICLR 2026에 채택된 이 프레임워크는 분석을 위해 ‘체인 오브 쓰ought(Chain-of-thought)’ 방식을 사용하고, 다중 교사(multi-teacher) 스코어링 시스템을 적용했다. 5억 1,800만 개의 파라미터를 가진 이 경량 모델은 9초 분량의 동영상에 대한 오디오를 0.63초 만에 생성할 수 있다.
의견 (0)
0/300
OR