Heim
Alibaba Tongyi stellt Sprachmodell mit „FreeStyle”-Steuerung in natürlicher Sprache vor
Heute stellte das Speech Team von Alibaba Tongyi Lab zwei bahnbrechende Sprachgenerierungsmodelle vor: Fun-CosyVoice3.5 und Fun-AudioGen-VD. Das herausragende Merkmal dieser Modelle ist ihre Unterstützung für „FreeStyle”-Befehle. Anstelle komplexer Parametereinstellungen können Benutzer mit einfachen Beschreibungen in natürlicher Sprache den Ausdruck der Stimme präzise steuern oder komplexe Audioszenen von Grund auf neu erstellen.

Jedes Modell dient unterschiedlichen Zwecken:
Fun-CosyVoice3.5: Mehrsprachige Replikation und fein abgestimmte Steuerung
Diese verbesserte Version von CosyVoice erzielt grundlegende Durchbrüche beim Verständnis der Nuancen des Sprachausdrucks.
Befehlgesteuerte Generierung: Benutzer können Anweisungen wie „sprich selbstbewusster” oder „verlangsame mit emotionaler Variation” eingeben, um die Stimme in Echtzeit anzupassen.
Spracherweiterung: Durch die zusätzliche Unterstützung für Thai, Indonesisch, Portugiesisch und Vietnamesisch bleibt die branchenführende Leistung in Bezug auf Transkriptionsgenauigkeit (WER) und Stimmähnlichkeit in 13 Sprachen erhalten.
Optimierung seltener Zeichen: Durch spezielles Training wurde die Fehlerquote für ungewöhnliche Zeichen von 15,2 % auf 5,3 %reduziert.
Leistungssteigerung: Die Latenz des ersten Pakets wurde um 35 % verringert, was die Flüssigkeit der Echtzeit-Interaktion erheblich verbessert.
Fun-AudioGen-VD: Umfassendes Sounddesign
Dieses Modell fungiert als „Audio-Regisseur“ und erzeugt integrierte Audiodaten, die „Charaktere + Umgebungen“ kombinieren.
Stimmenanpassung: Legen Sie Geschlecht, Alter, Akzent und detaillierte Eigenschaften wie „heisere, tiefe oder tiefe” Stimmen fest.
Emotionen und Rollenspiel: Simuliert Rollen wie Kundendienstmitarbeiter, Rundfunksprecher und Kinder und vermittelt sogar komplexe Zustände wie „äußerlich ruhig, innerlich angespannt“.
Immersive Umgebungen: Fügt Hintergrundgeräusche (Chaos auf dem Schlachtfeld, Gemurmel im Café) und räumliche Effekte (Kathedralenhall, Unterwasserakustik) für eine vollständige räumliche Simulation hinzu.
Tongyi Lab merkt an, dass diese Modelle die Erstellung hochwertiger Stimmen demokratisieren und leistungsstarke KI-Unterstützung für Podcasting, Spieleentwicklung und Film-Postproduktion bieten werden.
Verwandter Artikel
Ein Überblick über den neuen ETSI-Sicherheitsstandard für KI
Die Norm ETSI EN 304 223 legt grundlegende Sicherheitsanforderungen für künstliche Intelligenz fest, die Organisationen in ihre Governance-Strukturen integrieren sollten.Da Unternehmen maschinelles Le
Gmail führt einen personalisierten KI-Posteingang, KI-Übersichten in der Suche und weitere Funktionen ein
Google hat einen neuen, KI-gestützten Posteingang für Gmail eingeführt, der Ihnen einen personalisierten Überblick über Ihre Aufgaben bietet und Sie über wichtige Neuigkeiten auf dem Laufenden hält. D
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Heute stellte das Speech Team von Alibaba Tongyi Lab zwei bahnbrechende Sprachgenerierungsmodelle vor: Fun-CosyVoice3.5 und Fun-AudioGen-VD. Das herausragende Merkmal dieser Modelle ist ihre Unterstützung für „FreeStyle”-Befehle. Anstelle komplexer Parametereinstellungen können Benutzer mit einfachen Beschreibungen in natürlicher Sprache den Ausdruck der Stimme präzise steuern oder komplexe Audioszenen von Grund auf neu erstellen.

Jedes Modell dient unterschiedlichen Zwecken:
Fun-CosyVoice3.5: Mehrsprachige Replikation und fein abgestimmte Steuerung
Diese verbesserte Version von CosyVoice erzielt grundlegende Durchbrüche beim Verständnis der Nuancen des Sprachausdrucks.
Befehlgesteuerte Generierung: Benutzer können Anweisungen wie „sprich selbstbewusster” oder „verlangsame mit emotionaler Variation” eingeben, um die Stimme in Echtzeit anzupassen.
Spracherweiterung: Durch die zusätzliche Unterstützung für Thai, Indonesisch, Portugiesisch und Vietnamesisch bleibt die branchenführende Leistung in Bezug auf Transkriptionsgenauigkeit (WER) und Stimmähnlichkeit in 13 Sprachen erhalten.
Optimierung seltener Zeichen: Durch spezielles Training wurde die Fehlerquote für ungewöhnliche Zeichen von 15,2 % auf 5,3 %reduziert.
Leistungssteigerung: Die Latenz des ersten Pakets wurde um 35 % verringert, was die Flüssigkeit der Echtzeit-Interaktion erheblich verbessert.
Fun-AudioGen-VD: Umfassendes Sounddesign
Dieses Modell fungiert als „Audio-Regisseur“ und erzeugt integrierte Audiodaten, die „Charaktere + Umgebungen“ kombinieren.
Stimmenanpassung: Legen Sie Geschlecht, Alter, Akzent und detaillierte Eigenschaften wie „heisere, tiefe oder tiefe” Stimmen fest.
Emotionen und Rollenspiel: Simuliert Rollen wie Kundendienstmitarbeiter, Rundfunksprecher und Kinder und vermittelt sogar komplexe Zustände wie „äußerlich ruhig, innerlich angespannt“.
Immersive Umgebungen: Fügt Hintergrundgeräusche (Chaos auf dem Schlachtfeld, Gemurmel im Café) und räumliche Effekte (Kathedralenhall, Unterwasserakustik) für eine vollständige räumliche Simulation hinzu.
Tongyi Lab merkt an, dass diese Modelle die Erstellung hochwertiger Stimmen demokratisieren und leistungsstarke KI-Unterstützung für Podcasting, Spieleentwicklung und Film-Postproduktion bieten werden.
Ein Überblick über den neuen ETSI-Sicherheitsstandard für KI
Die Norm ETSI EN 304 223 legt grundlegende Sicherheitsanforderungen für künstliche Intelligenz fest, die Organisationen in ihre Governance-Strukturen integrieren sollten.Da Unternehmen maschinelles Le
Gmail führt einen personalisierten KI-Posteingang, KI-Übersichten in der Suche und weitere Funktionen ein
Google hat einen neuen, KI-gestützten Posteingang für Gmail eingeführt, der Ihnen einen personalisierten Überblick über Ihre Aufgaben bietet und Sie über wichtige Neuigkeiten auf dem Laufenden hält. D
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita











