アリババのTongyiが「Fun-CineForge」を発表:映画級の音声合成を実現するオープンソースAIモデル
アリババ・トンイー・ラボは3月16日、映画品質のマルチシナリオ音声合成マルチモーダルモデル「Fun-CineForge」を正式にリリースし、オープンソース化した。このモデルは、リップシンクのズレ、感情表現の欠如、複数のキャラクター間で声の特性が統一されないといった、AI吹き替えにおける核心的な課題に対処するものである。また、高品質なデータセット構築手法も導入している。

技術面において、Fun-CineForgeは「時間的モダリティ」という概念を先駆的に導入しています。テキストや映像のみに焦点を当てた従来のモデルとは異なり、正確なタイムスタンプ制御を通じて、音声合成が正確な時間間隔内で行われることを保証します。キャラクターが遮られたり、カメラのカットが頻繁であったり、顔がぼやけていたりする複雑な映画シーンにおいても、本モデルは高いレベルの映像・音声の同期と指示への忠実性を維持します。
併せて公開されたオープンソースのデータセット構築パイプライン「CineDub」も、重要な革新の一つです。Tongyi Labは、大規模言語モデルの連鎖的推論を活用し、生の映像データを構造化データへ自動的に変換することで、手動によるアノテーションの必要性を大幅に削減しました。このプロセスにより、単語誤り率(WER)は約1%、話者ダイアリゼーション誤り率はわずか1.20%を達成し、大規模モデル向けの極めて競争力のあるトレーニング基盤を提供しています。

Fun-CineForgeは現在、GitHub、HuggingFace、およびModelScopeコミュニティで公開されており、最大30秒の動画クリップに対する推論をサポートしています。単一話者のモノローグだけでなく、デュエットや複数話者の対話シナリオに対してもプロフェッショナルレベルのサポートを提供します。この進歩は、AI音声技術が基本的なカスタマーサービスやアシスタントの役割から、高水準のアニメーションや映画のポストプロダクションへと進化していることを示しています。
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
関連記事
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま
アリババのTuhao M890が三重の性能を発揮し、チップ・クラウド・モデル・インフェルンスにおけるフルスタックエージェントの時代を切り開く
2026年5月20日、アリババクラウドサミットにおいて、アリババクラウドは「エージェント時代」向けに設計されたフルスタック技術システムのアップグレードが完了したことを発表しました。この変革により、基盤チップやクラウドプラットフォームからモデル、推論ソリューションに至るまで、全てのパイプラインが再構築されました。これにより、アリババクラウドは24時間365日連続運用が可能な大規模エージェントを支える「AIファクトリー」としての地位を確立し、人間ユーザーへの直接的なサービス提供を超えた存在となりまし
ペンティウム4の復活:20年前に登場したCPUでMeta Llama 3の大規模モデルを実行する
最近、YouTubeのテクノロジーチャンネルFully Bufferedは、印象的で徹底的な実験を行いました。2006年に発売されたPentium 4 641プロセッサ上で、Meta社の最新大型モデルLlama 3.2 3Bを正常に動作させることに成功したのです。このテストは、現代の人工知能技術を20年前のハードウェアと対決させるものであり、LLMの基本的な互換性の限界を明らかにするとともに、多くの視聴者に「AI時代のムーアの法則がどのようにして異なる世代間で機能しているのか」と考えさせるもの
関連特集おすすめ
コメント (1)
0/500
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
アリババ・トンイー・ラボは3月16日、映画品質のマルチシナリオ音声合成マルチモーダルモデル「Fun-CineForge」を正式にリリースし、オープンソース化した。このモデルは、リップシンクのズレ、感情表現の欠如、複数のキャラクター間で声の特性が統一されないといった、AI吹き替えにおける核心的な課題に対処するものである。また、高品質なデータセット構築手法も導入している。

技術面において、Fun-CineForgeは「時間的モダリティ」という概念を先駆的に導入しています。テキストや映像のみに焦点を当てた従来のモデルとは異なり、正確なタイムスタンプ制御を通じて、音声合成が正確な時間間隔内で行われることを保証します。キャラクターが遮られたり、カメラのカットが頻繁であったり、顔がぼやけていたりする複雑な映画シーンにおいても、本モデルは高いレベルの映像・音声の同期と指示への忠実性を維持します。
併せて公開されたオープンソースのデータセット構築パイプライン「CineDub」も、重要な革新の一つです。Tongyi Labは、大規模言語モデルの連鎖的推論を活用し、生の映像データを構造化データへ自動的に変換することで、手動によるアノテーションの必要性を大幅に削減しました。このプロセスにより、単語誤り率(WER)は約1%、話者ダイアリゼーション誤り率はわずか1.20%を達成し、大規模モデル向けの極めて競争力のあるトレーニング基盤を提供しています。

Fun-CineForgeは現在、GitHub、HuggingFace、およびModelScopeコミュニティで公開されており、最大30秒の動画クリップに対する推論をサポートしています。単一話者のモノローグだけでなく、デュエットや複数話者の対話シナリオに対してもプロフェッショナルレベルのサポートを提供します。この進歩は、AI音声技術が基本的なカスタマーサービスやアシスタントの役割から、高水準のアニメーションや映画のポストプロダクションへと進化していることを示しています。
GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま
アリババのTuhao M890が三重の性能を発揮し、チップ・クラウド・モデル・インフェルンスにおけるフルスタックエージェントの時代を切り開く
2026年5月20日、アリババクラウドサミットにおいて、アリババクラウドは「エージェント時代」向けに設計されたフルスタック技術システムのアップグレードが完了したことを発表しました。この変革により、基盤チップやクラウドプラットフォームからモデル、推論ソリューションに至るまで、全てのパイプラインが再構築されました。これにより、アリババクラウドは24時間365日連続運用が可能な大規模エージェントを支える「AIファクトリー」としての地位を確立し、人間ユーザーへの直接的なサービス提供を超えた存在となりまし
ペンティウム4の復活:20年前に登場したCPUでMeta Llama 3の大規模モデルを実行する
最近、YouTubeのテクノロジーチャンネルFully Bufferedは、印象的で徹底的な実験を行いました。2006年に発売されたPentium 4 641プロセッサ上で、Meta社の最新大型モデルLlama 3.2 3Bを正常に動作させることに成功したのです。このテストは、現代の人工知能技術を20年前のハードウェアと対決させるものであり、LLMの基本的な互換性の限界を明らかにするとともに、多くの視聴者に「AI時代のムーアの法則がどのようにして異なる世代間で機能しているのか」と考えさせるもの
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.





家






