オプション
速報
コンテンツ
BruceSmith
BruceSmith
2026年3月24日

アリババは、動画に同期した高品質な環境音を生成する新しい動画音声変換フレームワーク「PrismAudio」を公開した。ICLR 2026に採択された本フレームワークは、分析に「チェイン・オブ・ソート(Chain-of-Thought)」プロセスを採用し、マルチティーチャー・スコアリングシステムを採用している。パラメータ数5億1800万の軽量モデルにより、9秒間の動画に対応する音声を0.63秒で生成することができる。

アリババは、動画に同期した高品質な環境音を生成する新しい動画音声変換フレームワーク「PrismAudio」を公開した。ICLR 2026に採択された本フレームワークは、分析に「チェイン・オブ・ソート(Chain-of-Thought)」プロセスを採用し、マルチティーチャー・スコアリングシステムを採用している。パラメータ数5億1800万の軽量モデルにより、9秒間の動画に対応する音声を0.63秒で生成することができる。
コメント (0)
0/300
OR