Option
Heim
Nachricht
Das Open-Source-TTS-Modell „OmniVoice“ von Xiaomi ermöglicht Zero-Shot-Klonen in über 600 Sprachen

Das Open-Source-TTS-Modell „OmniVoice“ von Xiaomi ermöglicht Zero-Shot-Klonen in über 600 Sprachen

8. Mai 2026
90

Vor kurzem hat das Kaldi-Team der nächsten Generation (k2-fsa) bei Xiaomi „OmniVoice“ offiziell als Open-Source-Projekt veröffentlicht – ein umfangreiches, mehrsprachiges Zero-Shot-Text-to-Speech-Modell, das über 600 Sprachen unterstützt. Es erzielt in mehreren wichtigen Benchmarks für die chinesische, englische und mehrsprachige Sprachsynthese Ergebnisse auf dem neuesten Stand der Technik und markiert damit einen bedeutenden Durchbruch auf diesem Gebiet.

Führende Leistung: Chinesische WER von nur 0,84 %, übertrifft Mainstream-Modelle in mehrsprachigen Tests

Im Seed-TTS-Testset für Chinesisch erreicht OmniVoice eine bemerkenswert niedrige Wortfehlerrate (WER) von nur 0,84 %. In mehrsprachigen Bewertungen übertreffen seine Ähnlichkeits- (SIM-o) und WER-Werte bekannte kommerzielle Modelle wie ElevenLabs v2 und MiniMax und zeugen von außergewöhnlicher Sprachnatürlichkeit und Klarheit.

image.png

Ultraschnelle Inferenz: RTF von nur 0,025, 40-mal schneller als in Echtzeit

OmniVoice weist einen Echtzeitfaktor (RTF) von nur 0,025 auf, was bedeutet, dass seine Synthese-Geschwindigkeit die Echtzeitanforderungen bei weitem übertrifft. Dieser enorme Effizienzgewinn ermöglicht die schnelle Erzeugung langer Sprachaufnahmen in praktischen Anwendungen und verbessert das Benutzererlebnis erheblich.

Innovative Kernarchitektur: Diskretes, nicht-autoregressives Design, inspiriert von Diffusionsmodellen

OmniVoice nutzt eine neuartige diskrete, nicht-autoregressive Architektur, die von Diffusions-Sprachmodellen inspiriert ist. Es generiert Sprache aus Text in einem einzigen Schritt und umgeht dabei traditionelle semantische Zwischentoken. Dieses optimierte Design vereinfacht die Pipeline und gewährleistet gleichzeitig eine hohe Ausgabequalität. Eine Strategie der vollständigen zufälligen Maskierung des Codebuchs in Kombination mit der Initialisierung durch vortrainierte LLMs steigert die Trainingseffizienz zusätzlich und verbessert die Klarheit und Verständlichkeit der endgültigen Sprache.

Flexibles Klonen und Anpassen von Stimmen: Funktioniert mit nur 3–10 Sekunden Audio

Das Modell unterstützt hochwertiges Zero-Shot-Stimmklonen unter Verwendung von nur 3–10 Sekunden Referenzaudio. Benutzer können Stimmattribute auch über natürliche Sprachbefehle anpassen und dabei Geschlecht, Alter, Tonhöhe, Akzent, Dialekt und sogar Spezialeffekte wie Flüstern festlegen.

Verarbeitet nicht-linguistische Symbole und ermöglicht eine fein abgestimmte Aussprachekontrolle

OmniVoice kann nicht-sprachliche Symbole wie [Lachen] verarbeiten und unterstützt die Aussprachekorrektur über Pinyin oder phonetische Symbole. Dadurch eignet es sich besonders gut für die präzise Synthese in Chinesisch und verschiedenen Dialekten.

Unterstützung für über 600 Sprachen: Beitrag zur digitalen Erhaltung von Minderheiten- und bedrohten Sprachen

Ein wesentliches Highlight von OmniVoice ist seine umfassende Sprachabdeckung, die sowohl große als auch zahlreiche Sprachen mit geringen Ressourcen effizient unterstützt. Für Minderheiten- und bedrohte Sprachen kann es mit minimalen Datenmengen hochwertige Sprache generieren und bietet damit ein erhebliches Potenzial für die digitale Sprachbewahrung und den Schutz der Kultur.

Der Code und die vortrainierten Modelle von OmniVoice sind nun auf GitHub und Hugging Face als Open Source verfügbar, sodass Entwickler sie lokal bereitstellen oder in Anwendungen integrieren können. AIbase wird das Feedback der Community und Anwendungsfälle aus der Praxis weiterhin beobachten. Entwickler sind herzlich eingeladen, ihre Erfahrungen zu teilen.

Projekt-Link: https://github.com/k2-fsa/OmniVoice

Verwandter Artikel
DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung DeepL, ein Übersetzungsunternehmen, das vor allem für seine textbasierten Tools bekannt ist, hat heute eine Suite für Sprach-zu-Sprach-Übersetzungen auf den Markt gebracht, die über maßgeschneiderte A
Talats KI-Besprechungsnotizen werden auf Ihrem Gerät gespeichert, nicht in der Cloud Talats KI-Besprechungsnotizen werden auf Ihrem Gerät gespeichert, nicht in der Cloud Granola, die KI-gestützte Notiz-App mit einem Unternehmenswert von 250 Millionen Dollar, hat bei Tech-Gründern und Risikokapitalgebern an Beliebtheit gewonnen. Ein Entwickler sieht jedoch Bedarf an ei
Der neue Roewe i6 kommt für 659.000 Yuan auf den Markt – mit Snapdragon 8155 und dem „Doubao“-Großmodell Der neue Roewe i6 kommt für 659.000 Yuan auf den Markt – mit Snapdragon 8155 und dem „Doubao“-Großmodell SAIC Roewe hat heute den neuen Roewe i6 vorgestellt, eine Kompaktlimousine, die die Designsprache des Roewe D7 vollständig aufgreift. Der markante, große, senkrechte Kühlergrill und die horizontale Li
Empfehlungen zu verwandten Spezialthemen
Schreiben Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen
Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools
xix.ai
Geschäft Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an
Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools
xix.ai
Code Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys
Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools
xix.ai
Text-zu-Sprache Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern
Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern

Entdecken Sie die besten KI-TTS-Apps des Jahres 2026, die speziell zur Unterstützung bei Legasthenie ausgewählt wurden. In unseren Experten-Rankings vergleichen wir kostenlose und kostenpflichtige Tools und stellen leistungsstarke Funktionen für mehr Leseeffizienz und besseren Lernerfolg vor. Entdecken Sie bahnbrechende Lösungen, die Sie unbedingt ausprobieren sollten, um das Potenzial Ihrer Schüler voll auszuschöpfen. Beginnen Sie Ihre Reise bei XIX.AI.

10 Tools
xix.ai
Comic-Erstellung Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte
Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte

Entdecken Sie bei XIX.AI die besten KI-Generatoren für Shonen-Manga des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools zur Erstellung actiongeladener Sequenzen und dynamischer Energieeffekte. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit der Gestaltung epischer Manga!

15 Tools
xix.ai
Geschäft Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren
Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools
xix.ai
Kommentare (0)
0/500
OR