Heim
Das Open-Source-Audiomodell von Meituan setzt neue Maßstäbe im Bereich der Stimmklonung
Die Audioerzeugung erlebt derzeit einen grundlegenden Wandel von mehrstufigen Kaskadenarchitekturen hin zu End-to-End-Modellen. Um den Informationsverlust und die Fehlerakkumulation zu überwinden, die der traditionellen Zwischenrepräsentation „Mel-Spektrogramm“ in TTS-Systemen innewohnen, hat das Meituan LongCat-Team LongCat-AudioDiT offiziell veröffentlicht und als Open-Source-Projekt zur Verfügung gestellt (erhältlich in Versionen mit 1 Mrd. und 3,5 Mrd. Parametern). Dieses Modell übertrifft erfolgreich bisherige Leistungsgrenzen beim Zero-Shot-Stimmklonen durch direkte Modellierung des latenten Raums der Wellenform.

Kernarchitektur: Über Mel-Spektrogramme hinaus
LongCat-AudioDiT verzichtet auf die herkömmliche mehrstufige Pipeline aus „akustischer Merkmalsvorhersage + neuronalem Vocoder“ und etabliert stattdessen eine optimierte Minimalarchitektur, die auf einem Wav-VAE (Waveform Variational Autoencoder) und einem DiT (Diffusion Transformer) basiert.
Effizientes Wav-VAE: Unter Verwendung eines vollständig konvolutionellen Designs komprimiert es 24-kHz-Wellenformen um den Faktor 2000 auf eine Bildrate von 11,7 Hz. Durch nicht-parametrische Shortcut-Verzweigungen und multiobjektives adversariales Training stellt es sicher, dass die rekonstruierte Wellenform eine präzise Zeit-Frequenz-Struktur beibehält und gleichzeitig eine hervorragende, natürliche Hörqualität liefert.
Semantisch erweitertes DiT: Das Modell verbindet auf innovative Weise die ursprünglichen Wort-Embeddings aus dem UMT5-Text-Encoder mit seinen obersten versteckten Zuständen. Dies gleicht phonetische Details aus, die in hochrangigen semantischen Darstellungen verloren gehen, und verbessert die Verständlichkeit der generierten Sprache erheblich.
Inferenzoptimierung: Präzise Korrektur von Stimmabweichungen
Um die Generierungsqualität weiter zu verbessern, implementierte das Team zwei entscheidende technische Verfeinerungen:
Dualer Beschränkungsmechanismus: Diese Technik identifiziert und behebt das anhaltende Problem der „Diskrepanz zwischen Training und Inferenz“ bei der flussangepassten TTS. Durch das erzwungene Zurücksetzen der latenten Variablen im Prompt-Bereich während der Inferenz werden Probleme wie Stimmdrift und Instabilität des Sprechers vollständig gelöst.
Adaptive Projection Guidance (APG): APG ersetzt die traditionelle classifier-free guidance (CFG). Es kann nützliche Komponenten innerhalb des Führungssignals präzise herausfiltern und gleichzeitig Komponenten unterdrücken, die zu einer Verschlechterung der Audioqualität führen, wodurch die Natürlichkeit der Sprache erheblich verbessert wird, ohne eine spektrale „Übersättigung“ zu verursachen.
Leistung: Klon-Genauigkeit auf SOTA-Niveau
In Benchmark-Tests auf dem Seed-Datensatz zeigt LongCat-AudioDiT eine überragende Leistung:
Ähnlichkeit (SIM): Das 3,5-Milliarden-Modell erzielte einen Wert von 0,818 im Seed-ZH-Testsatz und 0,797 im anspruchsvollen Seed-Hard-Satz, womit es namhafte Modelle wie Seed-TTS, CosyVoice3.5 und MiniMax-Speech übertraf.
Genauigkeit: Es zählt zu den branchenweit leistungsstärksten Modellen in allen wichtigen Metriken, darunter ein englischer WER von 1,50 % und ein chinesischer CER für schwierige Sätze von 6,04 %.
Bemerkenswert ist, dass LongCat-AudioDiT im Vergleich zu mehrstufig trainierten Modellen überlegene Ergebnisse erzielt, obwohl es nur ein einstufiges Training auf vorverarbeiteten ASR-Transkriptionsdaten verwendet. Die dazugehörige Forschungsarbeit, der Quellcode und die Modellgewichte sind nun vollständig als Open Source auf GitHub und HuggingFace verfügbar.
Projekt-Links:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT
Verwandter Artikel
Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab
Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi
DeepSeek Code steht kurz vor der Markteinführung
Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil
Musks Grok: 1,5 Billionen Parameter und die Übernahme von Cursor-Code – bahnbrechende Neuerung oder nur ein Bluff?
Elon Musk macht endlich einen Schritt.Im Wettlauf um die KI-Programmierung legen OpenAI und Anthropic einen Gang zu, während xAI hinterherzuhinken scheint. Musk hat oft sein Ziel bekräftigt, Claude Ko
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Die Audioerzeugung erlebt derzeit einen grundlegenden Wandel von mehrstufigen Kaskadenarchitekturen hin zu End-to-End-Modellen. Um den Informationsverlust und die Fehlerakkumulation zu überwinden, die der traditionellen Zwischenrepräsentation „Mel-Spektrogramm“ in TTS-Systemen innewohnen, hat das Meituan LongCat-Team LongCat-AudioDiT offiziell veröffentlicht und als Open-Source-Projekt zur Verfügung gestellt (erhältlich in Versionen mit 1 Mrd. und 3,5 Mrd. Parametern). Dieses Modell übertrifft erfolgreich bisherige Leistungsgrenzen beim Zero-Shot-Stimmklonen durch direkte Modellierung des latenten Raums der Wellenform.

Kernarchitektur: Über Mel-Spektrogramme hinaus
LongCat-AudioDiT verzichtet auf die herkömmliche mehrstufige Pipeline aus „akustischer Merkmalsvorhersage + neuronalem Vocoder“ und etabliert stattdessen eine optimierte Minimalarchitektur, die auf einem Wav-VAE (Waveform Variational Autoencoder) und einem DiT (Diffusion Transformer) basiert.
Effizientes Wav-VAE: Unter Verwendung eines vollständig konvolutionellen Designs komprimiert es 24-kHz-Wellenformen um den Faktor 2000 auf eine Bildrate von 11,7 Hz. Durch nicht-parametrische Shortcut-Verzweigungen und multiobjektives adversariales Training stellt es sicher, dass die rekonstruierte Wellenform eine präzise Zeit-Frequenz-Struktur beibehält und gleichzeitig eine hervorragende, natürliche Hörqualität liefert.
Semantisch erweitertes DiT: Das Modell verbindet auf innovative Weise die ursprünglichen Wort-Embeddings aus dem UMT5-Text-Encoder mit seinen obersten versteckten Zuständen. Dies gleicht phonetische Details aus, die in hochrangigen semantischen Darstellungen verloren gehen, und verbessert die Verständlichkeit der generierten Sprache erheblich.
Inferenzoptimierung: Präzise Korrektur von Stimmabweichungen
Um die Generierungsqualität weiter zu verbessern, implementierte das Team zwei entscheidende technische Verfeinerungen:
Dualer Beschränkungsmechanismus: Diese Technik identifiziert und behebt das anhaltende Problem der „Diskrepanz zwischen Training und Inferenz“ bei der flussangepassten TTS. Durch das erzwungene Zurücksetzen der latenten Variablen im Prompt-Bereich während der Inferenz werden Probleme wie Stimmdrift und Instabilität des Sprechers vollständig gelöst.
Adaptive Projection Guidance (APG): APG ersetzt die traditionelle classifier-free guidance (CFG). Es kann nützliche Komponenten innerhalb des Führungssignals präzise herausfiltern und gleichzeitig Komponenten unterdrücken, die zu einer Verschlechterung der Audioqualität führen, wodurch die Natürlichkeit der Sprache erheblich verbessert wird, ohne eine spektrale „Übersättigung“ zu verursachen.
Leistung: Klon-Genauigkeit auf SOTA-Niveau
In Benchmark-Tests auf dem Seed-Datensatz zeigt LongCat-AudioDiT eine überragende Leistung:
Ähnlichkeit (SIM): Das 3,5-Milliarden-Modell erzielte einen Wert von 0,818 im Seed-ZH-Testsatz und 0,797 im anspruchsvollen Seed-Hard-Satz, womit es namhafte Modelle wie Seed-TTS, CosyVoice3.5 und MiniMax-Speech übertraf.
Genauigkeit: Es zählt zu den branchenweit leistungsstärksten Modellen in allen wichtigen Metriken, darunter ein englischer WER von 1,50 % und ein chinesischer CER für schwierige Sätze von 6,04 %.
Bemerkenswert ist, dass LongCat-AudioDiT im Vergleich zu mehrstufig trainierten Modellen überlegene Ergebnisse erzielt, obwohl es nur ein einstufiges Training auf vorverarbeiteten ASR-Transkriptionsdaten verwendet. Die dazugehörige Forschungsarbeit, der Quellcode und die Modellgewichte sind nun vollständig als Open Source auf GitHub und HuggingFace verfügbar.
Projekt-Links:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT
Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab
Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi
DeepSeek Code steht kurz vor der Markteinführung
Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil
Musks Grok: 1,5 Billionen Parameter und die Übernahme von Cursor-Code – bahnbrechende Neuerung oder nur ein Bluff?
Elon Musk macht endlich einen Schritt.Im Wettlauf um die KI-Programmierung legen OpenAI und Anthropic einen Gang zu, während xAI hinterherzuhinken scheint. Musk hat oft sein Ziel bekräftigt, Claude Ko











