Heim
Hume AI veröffentlicht TADA: eine Open-Source-Sprachausgabe für Mobilgeräte mit fünffacher Geschwindigkeit und ohne Halluzinationen

Hume AI hat sein neuestes Sprachgenerierungsmodell, TADA (Text-Acoustic Dual Alignment), als Open-Source-Software veröffentlicht. Dieses Text-to-Speech-System (TTS), das auf einem großen Sprachmodell basiert, nutzt eine innovative Architektur mit doppelter Ausrichtung für Text und Akustik. Dieser Ansatz steigert die Effizienz und Zuverlässigkeit der Generierung erheblich und erweitert das Spektrum der praktischen Anwendungsmöglichkeiten.
Wie offiziell dargelegt, stellt TADA eine strikte 1:1-Synchronisation zwischen Text-Tokens und akustischen Darstellungen her. Diese Architektur löst das häufige Problem der Halluzination von Inhalten auf Token-Ebene, das bei herkömmlichen LLM-basierten TTS-Systemen auftritt, vollständig. In Evaluierungen mit über 1.000 Testbeispielen zeigte das Modell keinerlei Fälle von Inhaltshalluzinationen.
Was die Leistung betrifft, generiert TADA Audio mehr als fünfmal schneller als vergleichbare LLM-TTS-Systeme. Es arbeitet zudem mit bemerkenswerter Ressourceneffizienz und benötigt nur 2–3 Frames an Rechenressourcen pro Sekunde Audio. Im Gegensatz dazu benötigen herkömmliche Lösungen typischerweise zwischen 12,5 und 75 Frames. Diese Effizienz ermöglicht es dem Modell, lokale Inferenz auf Hardware mit geringem Stromverbrauch wie Smartphones und Edge-Geräten auszuführen, wodurch Cloud-Server überflüssig werden.
TADA bietet mehrsprachige Unterstützung, einschließlich Chinesisch, wobei die mehrsprachigen Versionen auf der Parameterskala von Llama3.23B basieren. Die Veröffentlichung umfasst vortrainierte 1B- (hauptsächlich für Englisch) und 3B-Mehrsprachenmodelle. Mit einem Kontextfenster von 2048 Tokens kann das Modell in einem einzigen Durchlauf etwa 700 Sekunden kontinuierlichen Ton generieren. Diese Fähigkeit übertrifft herkömmliche Lösungen bei weitem, die unter denselben Token-Beschränkungen typischerweise auf etwa 70 Sekunden begrenzt sind.
Eine wichtige Neuerung ist die Funktion zur synchronen Transkription. Während der Sprachgenerierung gibt das Modell gleichzeitig die entsprechende Text-Transkription aus. Dieser Prozess macht einen separaten, zusätzlichen Schritt der automatischen Spracherkennung (ASR) überflüssig, was zu einer Latenz von null bei der Textausgabe führt. Diese Funktionalität ist besonders wertvoll für Echtzeit-Untertitelung, Sprachinteraktionssysteme und Tools zur Inhaltserstellung.
In subjektiven Bewertungen durch Menschen belegte TADA sowohl bei der Natürlichkeit als auch bei der Stimmähnlichkeit den zweiten Platz. Es übertraf mehrere Systeme mit einer größeren Anzahl von Parametern und umfangreicheren Trainingsdaten und zeigte dabei eine äußerst wettbewerbsfähige Audioqualität.
Link: https://huggingface.co/collections/HumeAI/tada
Verwandter Artikel
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)

Hume AI hat sein neuestes Sprachgenerierungsmodell, TADA (Text-Acoustic Dual Alignment), als Open-Source-Software veröffentlicht. Dieses Text-to-Speech-System (TTS), das auf einem großen Sprachmodell basiert, nutzt eine innovative Architektur mit doppelter Ausrichtung für Text und Akustik. Dieser Ansatz steigert die Effizienz und Zuverlässigkeit der Generierung erheblich und erweitert das Spektrum der praktischen Anwendungsmöglichkeiten.
Wie offiziell dargelegt, stellt TADA eine strikte 1:1-Synchronisation zwischen Text-Tokens und akustischen Darstellungen her. Diese Architektur löst das häufige Problem der Halluzination von Inhalten auf Token-Ebene, das bei herkömmlichen LLM-basierten TTS-Systemen auftritt, vollständig. In Evaluierungen mit über 1.000 Testbeispielen zeigte das Modell keinerlei Fälle von Inhaltshalluzinationen.
Was die Leistung betrifft, generiert TADA Audio mehr als fünfmal schneller als vergleichbare LLM-TTS-Systeme. Es arbeitet zudem mit bemerkenswerter Ressourceneffizienz und benötigt nur 2–3 Frames an Rechenressourcen pro Sekunde Audio. Im Gegensatz dazu benötigen herkömmliche Lösungen typischerweise zwischen 12,5 und 75 Frames. Diese Effizienz ermöglicht es dem Modell, lokale Inferenz auf Hardware mit geringem Stromverbrauch wie Smartphones und Edge-Geräten auszuführen, wodurch Cloud-Server überflüssig werden.
TADA bietet mehrsprachige Unterstützung, einschließlich Chinesisch, wobei die mehrsprachigen Versionen auf der Parameterskala von Llama3.23B basieren. Die Veröffentlichung umfasst vortrainierte 1B- (hauptsächlich für Englisch) und 3B-Mehrsprachenmodelle. Mit einem Kontextfenster von 2048 Tokens kann das Modell in einem einzigen Durchlauf etwa 700 Sekunden kontinuierlichen Ton generieren. Diese Fähigkeit übertrifft herkömmliche Lösungen bei weitem, die unter denselben Token-Beschränkungen typischerweise auf etwa 70 Sekunden begrenzt sind.
Eine wichtige Neuerung ist die Funktion zur synchronen Transkription. Während der Sprachgenerierung gibt das Modell gleichzeitig die entsprechende Text-Transkription aus. Dieser Prozess macht einen separaten, zusätzlichen Schritt der automatischen Spracherkennung (ASR) überflüssig, was zu einer Latenz von null bei der Textausgabe führt. Diese Funktionalität ist besonders wertvoll für Echtzeit-Untertitelung, Sprachinteraktionssysteme und Tools zur Inhaltserstellung.
In subjektiven Bewertungen durch Menschen belegte TADA sowohl bei der Natürlichkeit als auch bei der Stimmähnlichkeit den zweiten Platz. Es übertraf mehrere Systeme mit einer größeren Anzahl von Parametern und umfangreicheren Trainingsdaten und zeigte dabei eine äußerst wettbewerbsfähige Audioqualität.
Link: https://huggingface.co/collections/HumeAI/tada
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente











