Microsofts VibeVoice-KI-Familie wird Open Source, bewältigt 90-minütige Dialoge und erreicht über 27.000 GitHub-Stars

Heim

Nachricht

28. Mai 2026

JohnRoberts

Microsoft hat kürzlich eine hochmoderne Familie von Sprach-KI-Modellen namens VibeVoice als Open-Source-Software veröffentlicht, die Funktionen wie automatische Spracherkennung (ASR) und Text-to-Speech (TTS) bietet. Das Projekt hat dank seiner robusten Verarbeitung langer Audioaufnahmen, der natürlichen Generierung von Dialogen mit mehreren Sprechern und der Echtzeitleistung mit geringer Latenz schnell das Interesse der Entwickler-Community geweckt. Es hat auf GitHub bereits rund 27.000 Sterne erhalten.

VibeVoice wurde als Open-Source-Forschungsframework unter der MIT-Lizenz veröffentlicht und unterstützt die lokale Bereitstellung ohne Cloud-Abonnementgebühren, um die Zusammenarbeit und Innovation im Bereich der Sprachsynthese zu fördern. Die Modellfamilie umfasst drei Kernkomponenten, die jeweils spezifische Herausforderungen der traditionellen Sprach-KI angehen, wie die Verarbeitung langer Sequenzen, die Konsistenz der Sprecher und eine natürliche Sprachflüssigkeit.

VibeVoice-ASR-7B: Ein leistungsstarkes Tool für strukturierte Sprach-zu-Text-Umwandlung, das bis zu 60 Minuten Audio verarbeitet

VibeVoice-ASR-7B ist ein einheitliches Sprach-zu-Text-Modell, das Audiodateien mit einer Länge von bis zu 60 Minuten in einem einzigen Durchlauf verarbeiten und direkt strukturierte Transkripte ausgeben kann. Die Ausgabe identifiziert den Sprecher, liefert präzise Zeitstempel und beschreibt den gesprochenen Inhalt im Detail, während benutzerdefinierte Schlüsselwörter unterstützt werden, um die Genauigkeit bei Eigennamen oder Fachbegriffen zu verbessern. Mit Unterstützung für über 50 Sprachen eignet es sich besonders für komplexe Szenarien wie lange Besprechungsaufzeichnungen und die Transkription von Podcasts.

Entwickler aus der Community haben bereits praktische Tools auf Basis dieses Modells erstellt, wie beispielsweise eine Spracheingabemethode namens „Vibing“ für macOS und Windows. Nutzerfeedback zeigt eine starke Leistung in Bezug auf Geschwindigkeit und Genauigkeit, was die Effizienz der täglichen Spracheingabe erheblich steigert.

VibeVoice-TTS-1.5B: Ausdrucksstarke Sprachausgabe für bis zu 90 Minuten mit mehreren Sprechern

VibeVoice-TTS-1.5B ist das zentrale Text-to-Speech-Modell, das in einem Durchgang bis zu 90 Minuten langes Audio generieren kann und bis zu vier verschiedene Sprecher für eine natürliche Dialogsimulation unterstützt. Die synthetisierte Sprache ist ausdrucksstark, klingt natürlich und flüssig mit realistischen Pausen, Betonungen und emotionalen Schwankungen und eignet sich somit ideal für Podcasts, lange Erzählungen, Hörbücher oder Dialoge mit mehreren Charakteren.

Im Gegensatz zu vielen traditionellen TTS-Modellen, die auf 1–2 Sprecher beschränkt sind, erzielt VibeVoice-TTS bedeutende Durchbrüche bei der Konsistenz von Langform- und Mehrsprecher-Inhalten. Seine Architektur kombiniert einen Tokenizer für kontinuierliche Sprache (akustisch und semantisch) mit einer niedrigen Bildrate (7,5 Hz), was die Recheneffizienz bei langen Sequenzen erheblich verbessert.

VibeVoice-Realtime-0.5B: Echtzeit-TTS mit einer Latenz von etwa 300 Millisekunden

VibeVoice-Realtime-0.5B ist für Echtzeitanwendungen konzipiert und unterstützt die Streaming-Texteingabe mit einer Latenz bis zum ersten Ton von etwa 300 Millisekunden, während es dennoch in der Lage ist, Audioaufnahmen mit einer Länge von bis zu 10 Minuten zu generieren. Dieses Modell eignet sich besonders für interaktive Anwendungen, die sofortiges Feedback erfordern, wie beispielsweise Echtzeit-Sprachassistenten oder Live-Streaming-Synchronisation.

Darüber hinaus führte das Projekt experimentelle Sprecherunterstützung ein, einschließlich mehrsprachiger Sprache und verschiedener englischer Stilvarianten, was Entwicklern größere Anpassungsmöglichkeiten bietet.

AIbase-Rückblick: Microsofts Open-Source-Veröffentlichung von VibeVoice senkt nicht nur die Einstiegshürde für leistungsstarke Sprach-KI, sondern bietet auch eine vollständige Lösung für die lokale Bereitstellung. Das Projekt wurde aufgrund potenzieller Missbrauchsrisiken vorübergehend eingestellt, aber nach der Implementierung von Sicherheitsmaßnahmen wie Audio-Wasserzeichen und akustischen Haftungsausschlüssen wieder aufgenommen, was den Prinzipien einer verantwortungsvollen KI-Entwicklung entspricht. Entwickler können nun Modellgewichte von GitHub und Hugging Face beziehen und diese über Plattformen wie Colab schnell testen.

Dank der kontinuierlichen Beiträge der Open-Source-Community, einschließlich Optimierungen für Apple Silicon, ist VibeVoice bestens gerüstet, um die Verbreitung in den Bereichen Content-Erstellung, Barrierefreiheits-Tools und Sprachinteraktion zu beschleunigen. Interessierte Entwickler können die offizielle Projektseite von Microsoft besuchen, um sich weiter zu informieren.

Projektadresse: https://github.com/microsoft/VibeVoice

Verwandter Artikel

Das MIIT bittet die Öffentlichkeit um Rückmeldungen zu 121 Branchenstandards, darunter auch das Protokoll zum Kontext von KI-Modellen. Das chinesische Ministerium für Industrie und Informationstechnologie hat offiziell eine Mitteilung veröffentlicht, in der es die Öffentlichkeit um Rückmeldungen zu 121 Standardisierungsprojekten im Industriebereich bittet, darunter auch die „Anforde

OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri

OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente

Empfehlungen zu verwandten Spezialthemen

Bildung und Lernen

Die besten AI-basierten Werkzeuge für geplantes Wiederholen: Optimieren Sie Ihr Lernplan für Medizinstudenten und Jurastudenten

Entdecken Sie die besten KI-basierten Wiederholungstools für das Jahr 2026, ausgewählt von XIX.AI. Unsere hochbewerteten, bahnbrechenden Tools helfen Medizinstudenten und Jurastudenten dabei, ihre Lernpläne so zu optimieren, dass das Gelernte optimal im Gedächtnis bleibt. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings. Entfalten Sie jetzt Ihren Vorsprung beim Lernen.

10 Tools

xix.ai

Videoerstellung

Die besten KI-Plattformen für die Umwandlung von Text in Video zum Verfassen von Drehbüchern und für visuelles Storytelling

Die besten KI-Plattformen für die Umwandlung von Text in Video im Jahr 2026: Erstklassige Tools für das Verfassen von Drehbüchern und visuelles Storytelling. Entdecken Sie leistungsstarke, bahnbrechende Lösungen, mit denen Sie Ihren Text in fesselnde Videos verwandeln können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand unserer wöchentlich aktualisierten Ranglisten und Praxistests. Finden Sie die perfekte Plattform, um Ihre Kreativität und Produktivität zu steigern. Entdecken Sie die sorgfältig zusammengestellte Auswahl bei XIX.AI.

10 Tools

xix.ai

Chatbot

KI-Multi-Agent-Orchestratoren: Gestaltung komplexer automatisierter Arbeitsabläufe mithilfe natürlicher Sprache

2026 Neuestes: Entdecken Sie die besten AI-Multi-Agenten-Orchestratoren, um mithilfe natürlicher Sprache komplexe automatisierte Arbeitsabläufe zu gestalten. Unsere sorgfältig ausgewählte Liste enthält hochbewertete, leistungsstarke Plattformen für reibungslose Aufgabenerstellung und intelligente Prozessverwaltung. Vergleichen Sie kostenlose und kostenpflichtige Optionen unter Berücksichtigung praktischer Erfahrungen. Nutzen Sie die wöchentlich aktualisierten Rankings von XIX.AI, um einen Vorsprung durch künstliche Intelligenz zu erlangen.

10 Tools

xix.ai

Bildbearbeitung

Die besten AI-Softwarelösungen zur Geräuschreduzierung: Beseitigen Sie Körnchen und Artefakte in Nachtaufnahmen bei schwachem Licht.

Entdecken Sie die besten KI-basierten Softwarelösungen zur Rauschreduzierung für Nachtfotografie in schwach beleuchteten Umgebungen im Jahr 2026. Unsere hochrangig bewertete, sorgfältig ausgewählte Liste vergleicht kostenlose und kostenpflichtige Tools und enthält Ergebnisse aus realen Tests sowie wöchentlich aktualisierte Ranglisten. Entfernen Sie mühelos Unreinheiten und Artefakte aus Ihren Bildern – eröffnen Sie mit XIX.AI den Vorteil der KI-Technologie für Ihre Fotografie.

10 Tools

xix.ai

Chatbot

Die besten Generatoren für individuelle KI-Freundinnen: Entwirf einzigartige Persönlichkeiten, Hobbys und Hintergrundgeschichten

Entdecken Sie auf XIX.AI die besten Generatoren für individuelle KI-Freundinnen des Jahres 2026. Stöbern Sie in unserer sorgfältig zusammengestellten Liste der besten Angebote, um einzigartige Persönlichkeiten, Hobbys und tiefgründige Hintergrundgeschichten zu entwerfen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Holen Sie sich noch heute Ihre perfekte kreative Begleiterin.

10 Tools

xix.ai

Produktivität

Entwickler von KI-Architekturen: Erstellen Sie skalierbare Systemarchitekturen mithilfe natürlicher Sprache

Entdecken Sie auf XIX.AI die besten Tools für den Entwurf von KI-Architekturen im Jahr 2026. Unsere sorgfältig zusammengestellte Liste der Top-Bewertungen umfasst leistungsstarke, bahnbrechende Lösungen für die Erstellung skalierbarer Systemarchitekturen mithilfe natürlicher Sprache. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schöpfen Sie das Potenzial Ihrer KI voll aus und optimieren Sie noch heute Ihre Entwicklungsprozesse.

10 Tools

xix.ai