Heim
Das Open-Source-TTS-Modell „OmniVoice“ von Xiaomi ermöglicht Zero-Shot-Klonen in über 600 Sprachen
Vor kurzem hat das Kaldi-Team der nächsten Generation (k2-fsa) bei Xiaomi „OmniVoice“ offiziell als Open-Source-Projekt veröffentlicht – ein umfangreiches, mehrsprachiges Zero-Shot-Text-to-Speech-Modell, das über 600 Sprachen unterstützt. Es erzielt in mehreren wichtigen Benchmarks für die chinesische, englische und mehrsprachige Sprachsynthese Ergebnisse auf dem neuesten Stand der Technik und markiert damit einen bedeutenden Durchbruch auf diesem Gebiet.
Führende Leistung: Chinesische WER von nur 0,84 %, übertrifft Mainstream-Modelle in mehrsprachigen Tests
Im Seed-TTS-Testset für Chinesisch erreicht OmniVoice eine bemerkenswert niedrige Wortfehlerrate (WER) von nur 0,84 %. In mehrsprachigen Bewertungen übertreffen seine Ähnlichkeits- (SIM-o) und WER-Werte bekannte kommerzielle Modelle wie ElevenLabs v2 und MiniMax und zeugen von außergewöhnlicher Sprachnatürlichkeit und Klarheit.

Ultraschnelle Inferenz: RTF von nur 0,025, 40-mal schneller als in Echtzeit
OmniVoice weist einen Echtzeitfaktor (RTF) von nur 0,025 auf, was bedeutet, dass seine Synthese-Geschwindigkeit die Echtzeitanforderungen bei weitem übertrifft. Dieser enorme Effizienzgewinn ermöglicht die schnelle Erzeugung langer Sprachaufnahmen in praktischen Anwendungen und verbessert das Benutzererlebnis erheblich.
Innovative Kernarchitektur: Diskretes, nicht-autoregressives Design, inspiriert von Diffusionsmodellen
OmniVoice nutzt eine neuartige diskrete, nicht-autoregressive Architektur, die von Diffusions-Sprachmodellen inspiriert ist. Es generiert Sprache aus Text in einem einzigen Schritt und umgeht dabei traditionelle semantische Zwischentoken. Dieses optimierte Design vereinfacht die Pipeline und gewährleistet gleichzeitig eine hohe Ausgabequalität. Eine Strategie der vollständigen zufälligen Maskierung des Codebuchs in Kombination mit der Initialisierung durch vortrainierte LLMs steigert die Trainingseffizienz zusätzlich und verbessert die Klarheit und Verständlichkeit der endgültigen Sprache.
Flexibles Klonen und Anpassen von Stimmen: Funktioniert mit nur 3–10 Sekunden Audio
Das Modell unterstützt hochwertiges Zero-Shot-Stimmklonen unter Verwendung von nur 3–10 Sekunden Referenzaudio. Benutzer können Stimmattribute auch über natürliche Sprachbefehle anpassen und dabei Geschlecht, Alter, Tonhöhe, Akzent, Dialekt und sogar Spezialeffekte wie Flüstern festlegen.
Verarbeitet nicht-linguistische Symbole und ermöglicht eine fein abgestimmte Aussprachekontrolle
OmniVoice kann nicht-sprachliche Symbole wie [Lachen] verarbeiten und unterstützt die Aussprachekorrektur über Pinyin oder phonetische Symbole. Dadurch eignet es sich besonders gut für die präzise Synthese in Chinesisch und verschiedenen Dialekten.
Unterstützung für über 600 Sprachen: Beitrag zur digitalen Erhaltung von Minderheiten- und bedrohten Sprachen
Ein wesentliches Highlight von OmniVoice ist seine umfassende Sprachabdeckung, die sowohl große als auch zahlreiche Sprachen mit geringen Ressourcen effizient unterstützt. Für Minderheiten- und bedrohte Sprachen kann es mit minimalen Datenmengen hochwertige Sprache generieren und bietet damit ein erhebliches Potenzial für die digitale Sprachbewahrung und den Schutz der Kultur.
Der Code und die vortrainierten Modelle von OmniVoice sind nun auf GitHub und Hugging Face als Open Source verfügbar, sodass Entwickler sie lokal bereitstellen oder in Anwendungen integrieren können. AIbase wird das Feedback der Community und Anwendungsfälle aus der Praxis weiterhin beobachten. Entwickler sind herzlich eingeladen, ihre Erfahrungen zu teilen.
Projekt-Link: https://github.com/k2-fsa/OmniVoice
Verwandter Artikel
DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung
DeepL, ein Übersetzungsunternehmen, das vor allem für seine textbasierten Tools bekannt ist, hat heute eine Suite für Sprach-zu-Sprach-Übersetzungen auf den Markt gebracht, die über maßgeschneiderte A
Talats KI-Besprechungsnotizen werden auf Ihrem Gerät gespeichert, nicht in der Cloud
Granola, die KI-gestützte Notiz-App mit einem Unternehmenswert von 250 Millionen Dollar, hat bei Tech-Gründern und Risikokapitalgebern an Beliebtheit gewonnen. Ein Entwickler sieht jedoch Bedarf an ei
Der neue Roewe i6 kommt für 659.000 Yuan auf den Markt – mit Snapdragon 8155 und dem „Doubao“-Großmodell
SAIC Roewe hat heute den neuen Roewe i6 vorgestellt, eine Kompaktlimousine, die die Designsprache des Roewe D7 vollständig aufgreift. Der markante, große, senkrechte Kühlergrill und die horizontale Li
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Vor kurzem hat das Kaldi-Team der nächsten Generation (k2-fsa) bei Xiaomi „OmniVoice“ offiziell als Open-Source-Projekt veröffentlicht – ein umfangreiches, mehrsprachiges Zero-Shot-Text-to-Speech-Modell, das über 600 Sprachen unterstützt. Es erzielt in mehreren wichtigen Benchmarks für die chinesische, englische und mehrsprachige Sprachsynthese Ergebnisse auf dem neuesten Stand der Technik und markiert damit einen bedeutenden Durchbruch auf diesem Gebiet.
Führende Leistung: Chinesische WER von nur 0,84 %, übertrifft Mainstream-Modelle in mehrsprachigen Tests
Im Seed-TTS-Testset für Chinesisch erreicht OmniVoice eine bemerkenswert niedrige Wortfehlerrate (WER) von nur 0,84 %. In mehrsprachigen Bewertungen übertreffen seine Ähnlichkeits- (SIM-o) und WER-Werte bekannte kommerzielle Modelle wie ElevenLabs v2 und MiniMax und zeugen von außergewöhnlicher Sprachnatürlichkeit und Klarheit.

Ultraschnelle Inferenz: RTF von nur 0,025, 40-mal schneller als in Echtzeit
OmniVoice weist einen Echtzeitfaktor (RTF) von nur 0,025 auf, was bedeutet, dass seine Synthese-Geschwindigkeit die Echtzeitanforderungen bei weitem übertrifft. Dieser enorme Effizienzgewinn ermöglicht die schnelle Erzeugung langer Sprachaufnahmen in praktischen Anwendungen und verbessert das Benutzererlebnis erheblich.
Innovative Kernarchitektur: Diskretes, nicht-autoregressives Design, inspiriert von Diffusionsmodellen
OmniVoice nutzt eine neuartige diskrete, nicht-autoregressive Architektur, die von Diffusions-Sprachmodellen inspiriert ist. Es generiert Sprache aus Text in einem einzigen Schritt und umgeht dabei traditionelle semantische Zwischentoken. Dieses optimierte Design vereinfacht die Pipeline und gewährleistet gleichzeitig eine hohe Ausgabequalität. Eine Strategie der vollständigen zufälligen Maskierung des Codebuchs in Kombination mit der Initialisierung durch vortrainierte LLMs steigert die Trainingseffizienz zusätzlich und verbessert die Klarheit und Verständlichkeit der endgültigen Sprache.
Flexibles Klonen und Anpassen von Stimmen: Funktioniert mit nur 3–10 Sekunden Audio
Das Modell unterstützt hochwertiges Zero-Shot-Stimmklonen unter Verwendung von nur 3–10 Sekunden Referenzaudio. Benutzer können Stimmattribute auch über natürliche Sprachbefehle anpassen und dabei Geschlecht, Alter, Tonhöhe, Akzent, Dialekt und sogar Spezialeffekte wie Flüstern festlegen.
Verarbeitet nicht-linguistische Symbole und ermöglicht eine fein abgestimmte Aussprachekontrolle
OmniVoice kann nicht-sprachliche Symbole wie [Lachen] verarbeiten und unterstützt die Aussprachekorrektur über Pinyin oder phonetische Symbole. Dadurch eignet es sich besonders gut für die präzise Synthese in Chinesisch und verschiedenen Dialekten.
Unterstützung für über 600 Sprachen: Beitrag zur digitalen Erhaltung von Minderheiten- und bedrohten Sprachen
Ein wesentliches Highlight von OmniVoice ist seine umfassende Sprachabdeckung, die sowohl große als auch zahlreiche Sprachen mit geringen Ressourcen effizient unterstützt. Für Minderheiten- und bedrohte Sprachen kann es mit minimalen Datenmengen hochwertige Sprache generieren und bietet damit ein erhebliches Potenzial für die digitale Sprachbewahrung und den Schutz der Kultur.
Der Code und die vortrainierten Modelle von OmniVoice sind nun auf GitHub und Hugging Face als Open Source verfügbar, sodass Entwickler sie lokal bereitstellen oder in Anwendungen integrieren können. AIbase wird das Feedback der Community und Anwendungsfälle aus der Praxis weiterhin beobachten. Entwickler sind herzlich eingeladen, ihre Erfahrungen zu teilen.
Projekt-Link: https://github.com/k2-fsa/OmniVoice
DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung
DeepL, ein Übersetzungsunternehmen, das vor allem für seine textbasierten Tools bekannt ist, hat heute eine Suite für Sprach-zu-Sprach-Übersetzungen auf den Markt gebracht, die über maßgeschneiderte A
Talats KI-Besprechungsnotizen werden auf Ihrem Gerät gespeichert, nicht in der Cloud
Granola, die KI-gestützte Notiz-App mit einem Unternehmenswert von 250 Millionen Dollar, hat bei Tech-Gründern und Risikokapitalgebern an Beliebtheit gewonnen. Ein Entwickler sieht jedoch Bedarf an ei
Der neue Roewe i6 kommt für 659.000 Yuan auf den Markt – mit Snapdragon 8155 und dem „Doubao“-Großmodell
SAIC Roewe hat heute den neuen Roewe i6 vorgestellt, eine Kompaktlimousine, die die Designsprache des Roewe D7 vollständig aufgreift. Der markante, große, senkrechte Kühlergrill und die horizontale Li











