Heim
Microsofts VibeVoice-KI-Familie wird Open Source, bewältigt 90-minütige Dialoge und erreicht über 27.000 GitHub-Stars
Microsoft hat kürzlich eine hochmoderne Familie von Sprach-KI-Modellen namens VibeVoice als Open-Source-Software veröffentlicht, die Funktionen wie automatische Spracherkennung (ASR) und Text-to-Speech (TTS) bietet. Das Projekt hat dank seiner robusten Verarbeitung langer Audioaufnahmen, der natürlichen Generierung von Dialogen mit mehreren Sprechern und der Echtzeitleistung mit geringer Latenz schnell das Interesse der Entwickler-Community geweckt. Es hat auf GitHub bereits rund 27.000 Sterne erhalten.
VibeVoice wurde als Open-Source-Forschungsframework unter der MIT-Lizenz veröffentlicht und unterstützt die lokale Bereitstellung ohne Cloud-Abonnementgebühren, um die Zusammenarbeit und Innovation im Bereich der Sprachsynthese zu fördern. Die Modellfamilie umfasst drei Kernkomponenten, die jeweils spezifische Herausforderungen der traditionellen Sprach-KI angehen, wie die Verarbeitung langer Sequenzen, die Konsistenz der Sprecher und eine natürliche Sprachflüssigkeit.

VibeVoice-ASR-7B: Ein leistungsstarkes Tool für strukturierte Sprach-zu-Text-Umwandlung, das bis zu 60 Minuten Audio verarbeitet
VibeVoice-ASR-7B ist ein einheitliches Sprach-zu-Text-Modell, das Audiodateien mit einer Länge von bis zu 60 Minuten in einem einzigen Durchlauf verarbeiten und direkt strukturierte Transkripte ausgeben kann. Die Ausgabe identifiziert den Sprecher, liefert präzise Zeitstempel und beschreibt den gesprochenen Inhalt im Detail, während benutzerdefinierte Schlüsselwörter unterstützt werden, um die Genauigkeit bei Eigennamen oder Fachbegriffen zu verbessern. Mit Unterstützung für über 50 Sprachen eignet es sich besonders für komplexe Szenarien wie lange Besprechungsaufzeichnungen und die Transkription von Podcasts.
Entwickler aus der Community haben bereits praktische Tools auf Basis dieses Modells erstellt, wie beispielsweise eine Spracheingabemethode namens „Vibing“ für macOS und Windows. Nutzerfeedback zeigt eine starke Leistung in Bezug auf Geschwindigkeit und Genauigkeit, was die Effizienz der täglichen Spracheingabe erheblich steigert.
VibeVoice-TTS-1.5B: Ausdrucksstarke Sprachausgabe für bis zu 90 Minuten mit mehreren Sprechern
VibeVoice-TTS-1.5B ist das zentrale Text-to-Speech-Modell, das in einem Durchgang bis zu 90 Minuten langes Audio generieren kann und bis zu vier verschiedene Sprecher für eine natürliche Dialogsimulation unterstützt. Die synthetisierte Sprache ist ausdrucksstark, klingt natürlich und flüssig mit realistischen Pausen, Betonungen und emotionalen Schwankungen und eignet sich somit ideal für Podcasts, lange Erzählungen, Hörbücher oder Dialoge mit mehreren Charakteren.
Im Gegensatz zu vielen traditionellen TTS-Modellen, die auf 1–2 Sprecher beschränkt sind, erzielt VibeVoice-TTS bedeutende Durchbrüche bei der Konsistenz von Langform- und Mehrsprecher-Inhalten. Seine Architektur kombiniert einen Tokenizer für kontinuierliche Sprache (akustisch und semantisch) mit einer niedrigen Bildrate (7,5 Hz), was die Recheneffizienz bei langen Sequenzen erheblich verbessert.
VibeVoice-Realtime-0.5B: Echtzeit-TTS mit einer Latenz von etwa 300 Millisekunden
VibeVoice-Realtime-0.5B ist für Echtzeitanwendungen konzipiert und unterstützt die Streaming-Texteingabe mit einer Latenz bis zum ersten Ton von etwa 300 Millisekunden, während es dennoch in der Lage ist, Audioaufnahmen mit einer Länge von bis zu 10 Minuten zu generieren. Dieses Modell eignet sich besonders für interaktive Anwendungen, die sofortiges Feedback erfordern, wie beispielsweise Echtzeit-Sprachassistenten oder Live-Streaming-Synchronisation.
Darüber hinaus führte das Projekt experimentelle Sprecherunterstützung ein, einschließlich mehrsprachiger Sprache und verschiedener englischer Stilvarianten, was Entwicklern größere Anpassungsmöglichkeiten bietet.
AIbase-Rückblick: Microsofts Open-Source-Veröffentlichung von VibeVoice senkt nicht nur die Einstiegshürde für leistungsstarke Sprach-KI, sondern bietet auch eine vollständige Lösung für die lokale Bereitstellung. Das Projekt wurde aufgrund potenzieller Missbrauchsrisiken vorübergehend eingestellt, aber nach der Implementierung von Sicherheitsmaßnahmen wie Audio-Wasserzeichen und akustischen Haftungsausschlüssen wieder aufgenommen, was den Prinzipien einer verantwortungsvollen KI-Entwicklung entspricht. Entwickler können nun Modellgewichte von GitHub und Hugging Face beziehen und diese über Plattformen wie Colab schnell testen.
Dank der kontinuierlichen Beiträge der Open-Source-Community, einschließlich Optimierungen für Apple Silicon, ist VibeVoice bestens gerüstet, um die Verbreitung in den Bereichen Content-Erstellung, Barrierefreiheits-Tools und Sprachinteraktion zu beschleunigen. Interessierte Entwickler können die offizielle Projektseite von Microsoft besuchen, um sich weiter zu informieren.
Projektadresse: https://github.com/microsoft/VibeVoice
Verwandter Artikel
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Microsoft hat kürzlich eine hochmoderne Familie von Sprach-KI-Modellen namens VibeVoice als Open-Source-Software veröffentlicht, die Funktionen wie automatische Spracherkennung (ASR) und Text-to-Speech (TTS) bietet. Das Projekt hat dank seiner robusten Verarbeitung langer Audioaufnahmen, der natürlichen Generierung von Dialogen mit mehreren Sprechern und der Echtzeitleistung mit geringer Latenz schnell das Interesse der Entwickler-Community geweckt. Es hat auf GitHub bereits rund 27.000 Sterne erhalten.
VibeVoice wurde als Open-Source-Forschungsframework unter der MIT-Lizenz veröffentlicht und unterstützt die lokale Bereitstellung ohne Cloud-Abonnementgebühren, um die Zusammenarbeit und Innovation im Bereich der Sprachsynthese zu fördern. Die Modellfamilie umfasst drei Kernkomponenten, die jeweils spezifische Herausforderungen der traditionellen Sprach-KI angehen, wie die Verarbeitung langer Sequenzen, die Konsistenz der Sprecher und eine natürliche Sprachflüssigkeit.

VibeVoice-ASR-7B: Ein leistungsstarkes Tool für strukturierte Sprach-zu-Text-Umwandlung, das bis zu 60 Minuten Audio verarbeitet
VibeVoice-ASR-7B ist ein einheitliches Sprach-zu-Text-Modell, das Audiodateien mit einer Länge von bis zu 60 Minuten in einem einzigen Durchlauf verarbeiten und direkt strukturierte Transkripte ausgeben kann. Die Ausgabe identifiziert den Sprecher, liefert präzise Zeitstempel und beschreibt den gesprochenen Inhalt im Detail, während benutzerdefinierte Schlüsselwörter unterstützt werden, um die Genauigkeit bei Eigennamen oder Fachbegriffen zu verbessern. Mit Unterstützung für über 50 Sprachen eignet es sich besonders für komplexe Szenarien wie lange Besprechungsaufzeichnungen und die Transkription von Podcasts.
Entwickler aus der Community haben bereits praktische Tools auf Basis dieses Modells erstellt, wie beispielsweise eine Spracheingabemethode namens „Vibing“ für macOS und Windows. Nutzerfeedback zeigt eine starke Leistung in Bezug auf Geschwindigkeit und Genauigkeit, was die Effizienz der täglichen Spracheingabe erheblich steigert.
VibeVoice-TTS-1.5B: Ausdrucksstarke Sprachausgabe für bis zu 90 Minuten mit mehreren Sprechern
VibeVoice-TTS-1.5B ist das zentrale Text-to-Speech-Modell, das in einem Durchgang bis zu 90 Minuten langes Audio generieren kann und bis zu vier verschiedene Sprecher für eine natürliche Dialogsimulation unterstützt. Die synthetisierte Sprache ist ausdrucksstark, klingt natürlich und flüssig mit realistischen Pausen, Betonungen und emotionalen Schwankungen und eignet sich somit ideal für Podcasts, lange Erzählungen, Hörbücher oder Dialoge mit mehreren Charakteren.
Im Gegensatz zu vielen traditionellen TTS-Modellen, die auf 1–2 Sprecher beschränkt sind, erzielt VibeVoice-TTS bedeutende Durchbrüche bei der Konsistenz von Langform- und Mehrsprecher-Inhalten. Seine Architektur kombiniert einen Tokenizer für kontinuierliche Sprache (akustisch und semantisch) mit einer niedrigen Bildrate (7,5 Hz), was die Recheneffizienz bei langen Sequenzen erheblich verbessert.
VibeVoice-Realtime-0.5B: Echtzeit-TTS mit einer Latenz von etwa 300 Millisekunden
VibeVoice-Realtime-0.5B ist für Echtzeitanwendungen konzipiert und unterstützt die Streaming-Texteingabe mit einer Latenz bis zum ersten Ton von etwa 300 Millisekunden, während es dennoch in der Lage ist, Audioaufnahmen mit einer Länge von bis zu 10 Minuten zu generieren. Dieses Modell eignet sich besonders für interaktive Anwendungen, die sofortiges Feedback erfordern, wie beispielsweise Echtzeit-Sprachassistenten oder Live-Streaming-Synchronisation.
Darüber hinaus führte das Projekt experimentelle Sprecherunterstützung ein, einschließlich mehrsprachiger Sprache und verschiedener englischer Stilvarianten, was Entwicklern größere Anpassungsmöglichkeiten bietet.
AIbase-Rückblick: Microsofts Open-Source-Veröffentlichung von VibeVoice senkt nicht nur die Einstiegshürde für leistungsstarke Sprach-KI, sondern bietet auch eine vollständige Lösung für die lokale Bereitstellung. Das Projekt wurde aufgrund potenzieller Missbrauchsrisiken vorübergehend eingestellt, aber nach der Implementierung von Sicherheitsmaßnahmen wie Audio-Wasserzeichen und akustischen Haftungsausschlüssen wieder aufgenommen, was den Prinzipien einer verantwortungsvollen KI-Entwicklung entspricht. Entwickler können nun Modellgewichte von GitHub und Hugging Face beziehen und diese über Plattformen wie Colab schnell testen.
Dank der kontinuierlichen Beiträge der Open-Source-Community, einschließlich Optimierungen für Apple Silicon, ist VibeVoice bestens gerüstet, um die Verbreitung in den Bereichen Content-Erstellung, Barrierefreiheits-Tools und Sprachinteraktion zu beschleunigen. Interessierte Entwickler können die offizielle Projektseite von Microsoft besuchen, um sich weiter zu informieren.
Projektadresse: https://github.com/microsoft/VibeVoice
Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen.
Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente











