アリババ・トンイー、『FreeStyle』自然言語制御機能搭載音声モデルを発表
本日、アリババ統一ラボ音声チームは画期的な音声生成モデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を発表しました。これらのモデルの最大の特徴は「フリースタイル」コマンドのサポートです。複雑なパラメータ調整の代わりに、ユーザーは自然な言語記述を用いて声の表現スタイルを精密に制御したり、複雑な音声シーンを一から構築したりできます。

各モデルは異なる目的を果たします:
Fun-CosyVoice3.5:多言語再現と微細制御
CosyVoiceの強化版である本モデルは、音声表現のニュアンス理解において中核的なブレークスルーを達成。
コマンド駆動型生成:ユーザーは「より自信を持って話す」「感情の変化を伴いながらゆっくり話す」などの指示を入力し、リアルタイムで音声調整が可能です。
言語拡張:タイ語、インドネシア語、ポルトガル語、ベトナム語のサポートを追加し、13言語にわたる業界トップクラスの文字起こし精度(WER)と音声類似性を維持。
特殊文字最適化:特殊文字の誤認識率を15.2%から5.3%に低減。
パフォーマンス向上:ファーストパケット遅延が35%短縮され、リアルタイム操作の滑らかさが大幅に向上。
Fun-AudioGen-VD:包括的なサウンドデザイン
このモデルは「オーディオディレクター」として機能し、「キャラクター+環境」を統合したオーディオを生成します。
音声カスタマイズ:性別、年齢、アクセント、および「嗄れた声、低い声、低音」などの詳細な特性を指定可能。
感情とロールプレイ:カスタマーサービス担当者、放送局アナウンサー、子供などの役割をシミュレートし、「外見は平静だが内面は緊張している」といった複雑な状態も表現可能。
没入型環境:背景音(戦場の喧騒、カフェのざわめき)や空間効果(大聖堂のリバーブ、水中音響)を追加し、完全な空間シミュレーションを実現。
同義ラボは、これらのモデルが高品質な音声制作を民主化し、ポッドキャスティング、ゲーム開発、映画ポストプロダクションに強力なAI支援を提供すると指摘している。
関連記事
アント・グループ、オープンソースの「Ling-2.6-flash」を発表。Baolingモデルファミリーに新たなモデルが加わった
アント・グループの「Baoling」大規模モデルシリーズが本日、大幅なアップデートを行い、「Ling-2.6-flash」が世界中の開発者に正式に提供開始されました。さまざまなハードウェア環境に対応し、導入のハードルを下げるため、このモデルではBF16、FP8、INT4を含む複数の精度バージョンもリリースされ、開発者により柔軟な推論オプションを提供します。総パラメータ数1040億、活性化パラメータ
Conntour、AIを活用した防犯映像検索技術でGeneral CatalystとYCから700万ドルの資金調達に成功
監視技術業界は現在、必ずしも好ましい理由ではないにせよ、厳しい視線にさらされている。 米国移民関税執行局(ICE)が監視目的でFlockのカメラネットワークにアクセスしたと報じられたことや、家庭用カメラメーカーのRingが、法執行機関が住宅所有者に近隣の映像提供を要請できる機能を開発したことで批判にさらされたことなど、論争が巻き起こっている。こうした動きは、安全、プライバシー、そして監視の倫理をめ
Apple初のAIハードウェアが公開:カメラ搭載のAirPodsがDVT段階へ
AppleのAIハードウェアへの野心が、ますます明確になってきている。 著名なテックジャーナリストのマーク・ガーマン氏によると、かねてより期待されていたカメラ内蔵のAirPodsが、開発の重要な最終段階である「デザイン検証テスト(DVT)」に入ったという。これは、製品の工業デザインと主要機能がほぼ確定したことを意味し、このイヤホンはApple初の真のAIウェアラブルデバイスとなる見込みだ。写真撮影
関連特集おすすめ
コメント (0)
0/500
本日、アリババ統一ラボ音声チームは画期的な音声生成モデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を発表しました。これらのモデルの最大の特徴は「フリースタイル」コマンドのサポートです。複雑なパラメータ調整の代わりに、ユーザーは自然な言語記述を用いて声の表現スタイルを精密に制御したり、複雑な音声シーンを一から構築したりできます。

各モデルは異なる目的を果たします:
Fun-CosyVoice3.5:多言語再現と微細制御
CosyVoiceの強化版である本モデルは、音声表現のニュアンス理解において中核的なブレークスルーを達成。
コマンド駆動型生成:ユーザーは「より自信を持って話す」「感情の変化を伴いながらゆっくり話す」などの指示を入力し、リアルタイムで音声調整が可能です。
言語拡張:タイ語、インドネシア語、ポルトガル語、ベトナム語のサポートを追加し、13言語にわたる業界トップクラスの文字起こし精度(WER)と音声類似性を維持。
特殊文字最適化:特殊文字の誤認識率を15.2%から5.3%に低減。
パフォーマンス向上:ファーストパケット遅延が35%短縮され、リアルタイム操作の滑らかさが大幅に向上。
Fun-AudioGen-VD:包括的なサウンドデザイン
このモデルは「オーディオディレクター」として機能し、「キャラクター+環境」を統合したオーディオを生成します。
音声カスタマイズ:性別、年齢、アクセント、および「嗄れた声、低い声、低音」などの詳細な特性を指定可能。
感情とロールプレイ:カスタマーサービス担当者、放送局アナウンサー、子供などの役割をシミュレートし、「外見は平静だが内面は緊張している」といった複雑な状態も表現可能。
没入型環境:背景音(戦場の喧騒、カフェのざわめき)や空間効果(大聖堂のリバーブ、水中音響)を追加し、完全な空間シミュレーションを実現。
同義ラボは、これらのモデルが高品質な音声制作を民主化し、ポッドキャスティング、ゲーム開発、映画ポストプロダクションに強力なAI支援を提供すると指摘している。
アント・グループ、オープンソースの「Ling-2.6-flash」を発表。Baolingモデルファミリーに新たなモデルが加わった
アント・グループの「Baoling」大規模モデルシリーズが本日、大幅なアップデートを行い、「Ling-2.6-flash」が世界中の開発者に正式に提供開始されました。さまざまなハードウェア環境に対応し、導入のハードルを下げるため、このモデルではBF16、FP8、INT4を含む複数の精度バージョンもリリースされ、開発者により柔軟な推論オプションを提供します。総パラメータ数1040億、活性化パラメータ
Conntour、AIを活用した防犯映像検索技術でGeneral CatalystとYCから700万ドルの資金調達に成功
監視技術業界は現在、必ずしも好ましい理由ではないにせよ、厳しい視線にさらされている。 米国移民関税執行局(ICE)が監視目的でFlockのカメラネットワークにアクセスしたと報じられたことや、家庭用カメラメーカーのRingが、法執行機関が住宅所有者に近隣の映像提供を要請できる機能を開発したことで批判にさらされたことなど、論争が巻き起こっている。こうした動きは、安全、プライバシー、そして監視の倫理をめ
Apple初のAIハードウェアが公開:カメラ搭載のAirPodsがDVT段階へ
AppleのAIハードウェアへの野心が、ますます明確になってきている。 著名なテックジャーナリストのマーク・ガーマン氏によると、かねてより期待されていたカメラ内蔵のAirPodsが、開発の重要な最終段階である「デザイン検証テスト(DVT)」に入ったという。これは、製品の工業デザインと主要機能がほぼ確定したことを意味し、このイヤホンはApple初の真のAIウェアラブルデバイスとなる見込みだ。写真撮影





家






