Das Open-Source-Audiomodell von Meituan setzt neue Maßstäbe im Bereich der Stimmklonung

Heim

Nachricht

6. April 2026

BillyAdams

196

Die Audioerzeugung erlebt derzeit einen grundlegenden Wandel von mehrstufigen Kaskadenarchitekturen hin zu End-to-End-Modellen. Um den Informationsverlust und die Fehlerakkumulation zu überwinden, die der traditionellen Zwischenrepräsentation „Mel-Spektrogramm“ in TTS-Systemen innewohnen, hat das Meituan LongCat-Team LongCat-AudioDiT offiziell veröffentlicht und als Open-Source-Projekt zur Verfügung gestellt (erhältlich in Versionen mit 1 Mrd. und 3,5 Mrd. Parametern). Dieses Modell übertrifft erfolgreich bisherige Leistungsgrenzen beim Zero-Shot-Stimmklonen durch direkte Modellierung des latenten Raums der Wellenform.

Kernarchitektur: Über Mel-Spektrogramme hinaus

LongCat-AudioDiT verzichtet auf die herkömmliche mehrstufige Pipeline aus „akustischer Merkmalsvorhersage + neuronalem Vocoder“ und etabliert stattdessen eine optimierte Minimalarchitektur, die auf einem Wav-VAE (Waveform Variational Autoencoder) und einem DiT (Diffusion Transformer) basiert.

Effizientes Wav-VAE: Unter Verwendung eines vollständig konvolutionellen Designs komprimiert es 24-kHz-Wellenformen um den Faktor 2000 auf eine Bildrate von 11,7 Hz. Durch nicht-parametrische Shortcut-Verzweigungen und multiobjektives adversariales Training stellt es sicher, dass die rekonstruierte Wellenform eine präzise Zeit-Frequenz-Struktur beibehält und gleichzeitig eine hervorragende, natürliche Hörqualität liefert.

Semantisch erweitertes DiT: Das Modell verbindet auf innovative Weise die ursprünglichen Wort-Embeddings aus dem UMT5-Text-Encoder mit seinen obersten versteckten Zuständen. Dies gleicht phonetische Details aus, die in hochrangigen semantischen Darstellungen verloren gehen, und verbessert die Verständlichkeit der generierten Sprache erheblich.

Inferenzoptimierung: Präzise Korrektur von Stimmabweichungen

Um die Generierungsqualität weiter zu verbessern, implementierte das Team zwei entscheidende technische Verfeinerungen:

Dualer Beschränkungsmechanismus: Diese Technik identifiziert und behebt das anhaltende Problem der „Diskrepanz zwischen Training und Inferenz“ bei der flussangepassten TTS. Durch das erzwungene Zurücksetzen der latenten Variablen im Prompt-Bereich während der Inferenz werden Probleme wie Stimmdrift und Instabilität des Sprechers vollständig gelöst.

Adaptive Projection Guidance (APG): APG ersetzt die traditionelle classifier-free guidance (CFG). Es kann nützliche Komponenten innerhalb des Führungssignals präzise herausfiltern und gleichzeitig Komponenten unterdrücken, die zu einer Verschlechterung der Audioqualität führen, wodurch die Natürlichkeit der Sprache erheblich verbessert wird, ohne eine spektrale „Übersättigung“ zu verursachen.

Leistung: Klon-Genauigkeit auf SOTA-Niveau

In Benchmark-Tests auf dem Seed-Datensatz zeigt LongCat-AudioDiT eine überragende Leistung:

Ähnlichkeit (SIM): Das 3,5-Milliarden-Modell erzielte einen Wert von 0,818 im Seed-ZH-Testsatz und 0,797 im anspruchsvollen Seed-Hard-Satz, womit es namhafte Modelle wie Seed-TTS, CosyVoice3.5 und MiniMax-Speech übertraf.

Genauigkeit: Es zählt zu den branchenweit leistungsstärksten Modellen in allen wichtigen Metriken, darunter ein englischer WER von 1,50 % und ein chinesischer CER für schwierige Sätze von 6,04 %.

Bemerkenswert ist, dass LongCat-AudioDiT im Vergleich zu mehrstufig trainierten Modellen überlegene Ergebnisse erzielt, obwohl es nur ein einstufiges Training auf vorverarbeiteten ASR-Transkriptionsdaten verwendet. Die dazugehörige Forschungsarbeit, der Quellcode und die Modellgewichte sind nun vollständig als Open Source auf GitHub und HuggingFace verfügbar.

Projekt-Links:

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

Verwandter Artikel

Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi

DeepSeek Code steht kurz vor der Markteinführung Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil

Musks Grok: 1,5 Billionen Parameter und die Übernahme von Cursor-Code – bahnbrechende Neuerung oder nur ein Bluff? Elon Musk macht endlich einen Schritt.Im Wettlauf um die KI-Programmierung legen OpenAI und Anthropic einen Gang zu, während xAI hinterherzuhinken scheint. Musk hat oft sein Ziel bekräftigt, Claude Ko

Empfehlungen zu verwandten Spezialthemen

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Chatbot

Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools

xix.ai

Code

Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools

xix.ai