ElfLabs enthüllt ein neues Sprach-zu-Text-Modell
ElevenLabs, ein KI-Startup, das kürzlich beeindruckende 180 Millionen Dollar an Finanzierung erhalten hat, ist bekannt für seine Fähigkeiten in der Audioerzeugung. Jetzt haben sie einen mutigen Schritt in neues Terrain gewagt, indem sie ihr erstes eigenständiges Sprach-zu-Text-Modell namens Scribe auf den Markt gebracht haben.
Mit einem Wert von 3,3 Milliarden Dollar ist ElevenLabs für viele Unternehmen, die Text-zu-Sprach-Dienste benötigen, eine erste Wahl, dank ihrer riesigen Sammlung von Stimmen. Nun richten sie ihren Fokus auf Spracherkennung und wollen es mit großen Namen wie Gladia, Speechmatics, AssemblyAI, Deepgram und den Whisper-Modellen von OpenAI aufnehmen.
Scribe macht keine halben Sachen – es unterstützt direkt ab Projektstart über 99 Sprachen. ElevenLabs sagt, es biete hervorragende Genauigkeit für über 25 Sprachen mit einer Wortfehlerrate von weniger als 5 %. Dazu gehören Englisch (mit einer angegebenen Genauigkeit von 97 %), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch, unter anderem. Die übrigen Sprachen fallen in verschiedene Genauigkeitskategorien: hoch (5 % bis 10 % Wortfehlerrate), gut (10 % bis 20 % Wortfehlerrate) und moderat (25 % bis 50 %).
Das Unternehmen behauptet, Scribe übertreffe Google Gemini 2.0 Flash und Whisper Large V3 in mehreren Sprachen, laut FLEURS- und Common-Voice-Benchmark-Tests.

Bildnachweis: ElevenLabs ElevenLabs hat den Sprach-zu-Text-Teil bereits letztes Jahr für ihre KI-Konversationsagentenplattform entwickelt, aber Scribe ist ihr erster Versuch eines eigenständigen Spracherkennungsmodells. In einem Gespräch mit TechCrunch im letzten Monat verriet CEO Mati Staniszewski Details zu ihren Plänen, die Spracherkennungstechnologie zu verbessern.
„Wir wollen besser darin werden, zu verstehen, was du in einem Gespräch sagst. Wir konzentrieren uns nicht mehr nur auf das Generieren von Inhalten; wir bewegen uns hin zu Verständnis und Transkription von Sprache“, sagte Staniszewski. „Viele denken, Sprach-zu-Text ist nichts Neues, aber für viele Sprachen ist es immer noch ziemlich schwierig. Wir glauben, dass wir es besser machen können, weil wir interne Teams haben, die Daten labeln und uns schnelles Feedback geben.“
Scribe hat auch einige coole Funktionen, wie intelligente Sprecherzuordnung, um zu erkennen, wer spricht, Zeitstempel auf Wortebene für präzise Untertitel und automatische Markierung von Klangereignissen wie Publikumslachen. Außerdem ermöglicht ElevenLabs Kunden, Videoinhalte direkt zu transkribieren, um Untertitel oder Beschriftungen in ihrem Studio hinzuzufügen.
Derzeit funktioniert Scribe nur mit vorab aufgenommenem Audio. Aber keine Sorge, das Unternehmen sagt, dass sie bald an einer Version mit geringer Latenz für Echtzeit arbeiten. Also ist es noch nicht ganz bereit für Besprechungstranskripte oder Sprachnotizen.
ElevenLabs berechnet 0,40 Dollar pro Stunde transkribiertem Audio für Scribe. Das ist ein wettbewerbsfähiger Preis, aber einige Konkurrenten bieten günstigere Tarife für Audiotranskriptionen an, mit ein paar zusätzlichen Funktionen.
Verwandter Artikel
Erhöhen Sie die Qualität Ihrer Bilder mit HitPaw AI Photo Enhancer: Ein umfassender Leitfaden
Möchten Sie Ihre Bildbearbeitung revolutionieren? Dank modernster künstlicher Intelligenz ist die Verbesserung Ihrer Bilder nun mühelos. Dieser detaillierte Leitfaden stellt den HitPaw AI Photo Enhanc
KI-gestützte Musikerstellung: Songs und Videos mühelos erstellen
Musikerstellung kann komplex sein und erfordert Zeit, Ressourcen und Fachwissen. Künstliche Intelligenz hat diesen Prozess revolutioniert und ihn einfach und zugänglich gemacht. Dieser Leitfaden zeigt
Erstellung KI-gestützter Malbücher: Ein umfassender Leitfaden
Das Gestalten von Malbüchern ist ein lohnendes Unterfangen, das künstlerischen Ausdruck mit beruhigenden Erlebnissen für Nutzer verbindet. Der Prozess kann jedoch arbeitsintensiv sein. Glücklicherweis
Kommentare (27)
0/200
TimothyMartínez
21. August 2025 15:01:20 MESZ
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
12. August 2025 23:00:59 MESZ
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
21. April 2025 03:44:55 MESZ
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
20. April 2025 22:36:44 MESZ
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
PaulBrown
20. April 2025 04:47:04 MESZ
ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀
0
HarryLewis
20. April 2025 03:23:49 MESZ
ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀
0
ElevenLabs, ein KI-Startup, das kürzlich beeindruckende 180 Millionen Dollar an Finanzierung erhalten hat, ist bekannt für seine Fähigkeiten in der Audioerzeugung. Jetzt haben sie einen mutigen Schritt in neues Terrain gewagt, indem sie ihr erstes eigenständiges Sprach-zu-Text-Modell namens Scribe auf den Markt gebracht haben.
Mit einem Wert von 3,3 Milliarden Dollar ist ElevenLabs für viele Unternehmen, die Text-zu-Sprach-Dienste benötigen, eine erste Wahl, dank ihrer riesigen Sammlung von Stimmen. Nun richten sie ihren Fokus auf Spracherkennung und wollen es mit großen Namen wie Gladia, Speechmatics, AssemblyAI, Deepgram und den Whisper-Modellen von OpenAI aufnehmen.
Scribe macht keine halben Sachen – es unterstützt direkt ab Projektstart über 99 Sprachen. ElevenLabs sagt, es biete hervorragende Genauigkeit für über 25 Sprachen mit einer Wortfehlerrate von weniger als 5 %. Dazu gehören Englisch (mit einer angegebenen Genauigkeit von 97 %), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch, unter anderem. Die übrigen Sprachen fallen in verschiedene Genauigkeitskategorien: hoch (5 % bis 10 % Wortfehlerrate), gut (10 % bis 20 % Wortfehlerrate) und moderat (25 % bis 50 %).
Das Unternehmen behauptet, Scribe übertreffe Google Gemini 2.0 Flash und Whisper Large V3 in mehreren Sprachen, laut FLEURS- und Common-Voice-Benchmark-Tests.
ElevenLabs hat den Sprach-zu-Text-Teil bereits letztes Jahr für ihre KI-Konversationsagentenplattform entwickelt, aber Scribe ist ihr erster Versuch eines eigenständigen Spracherkennungsmodells. In einem Gespräch mit TechCrunch im letzten Monat verriet CEO Mati Staniszewski Details zu ihren Plänen, die Spracherkennungstechnologie zu verbessern.
„Wir wollen besser darin werden, zu verstehen, was du in einem Gespräch sagst. Wir konzentrieren uns nicht mehr nur auf das Generieren von Inhalten; wir bewegen uns hin zu Verständnis und Transkription von Sprache“, sagte Staniszewski. „Viele denken, Sprach-zu-Text ist nichts Neues, aber für viele Sprachen ist es immer noch ziemlich schwierig. Wir glauben, dass wir es besser machen können, weil wir interne Teams haben, die Daten labeln und uns schnelles Feedback geben.“
Scribe hat auch einige coole Funktionen, wie intelligente Sprecherzuordnung, um zu erkennen, wer spricht, Zeitstempel auf Wortebene für präzise Untertitel und automatische Markierung von Klangereignissen wie Publikumslachen. Außerdem ermöglicht ElevenLabs Kunden, Videoinhalte direkt zu transkribieren, um Untertitel oder Beschriftungen in ihrem Studio hinzuzufügen.
Derzeit funktioniert Scribe nur mit vorab aufgenommenem Audio. Aber keine Sorge, das Unternehmen sagt, dass sie bald an einer Version mit geringer Latenz für Echtzeit arbeiten. Also ist es noch nicht ganz bereit für Besprechungstranskripte oder Sprachnotizen.
ElevenLabs berechnet 0,40 Dollar pro Stunde transkribiertem Audio für Scribe. Das ist ein wettbewerbsfähiger Preis, aber einige Konkurrenten bieten günstigere Tarife für Audiotranskriptionen an, mit ein paar zusätzlichen Funktionen.




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊




ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀




ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀












