Option
Heim
Nachricht
ElfLabs enthüllt ein neues Sprach-zu-Text-Modell

ElfLabs enthüllt ein neues Sprach-zu-Text-Modell

10. April 2025
114

ElevenLabs, ein KI-Startup, das kürzlich beeindruckende 180 Millionen Dollar an Finanzierung erhalten hat, ist bekannt für seine Fähigkeiten in der Audioerzeugung. Jetzt haben sie einen mutigen Schritt in neues Terrain gewagt, indem sie ihr erstes eigenständiges Sprach-zu-Text-Modell namens Scribe auf den Markt gebracht haben.

Mit einem Wert von 3,3 Milliarden Dollar ist ElevenLabs für viele Unternehmen, die Text-zu-Sprach-Dienste benötigen, eine erste Wahl, dank ihrer riesigen Sammlung von Stimmen. Nun richten sie ihren Fokus auf Spracherkennung und wollen es mit großen Namen wie Gladia, Speechmatics, AssemblyAI, Deepgram und den Whisper-Modellen von OpenAI aufnehmen.

Scribe macht keine halben Sachen – es unterstützt direkt ab Projektstart über 99 Sprachen. ElevenLabs sagt, es biete hervorragende Genauigkeit für über 25 Sprachen mit einer Wortfehlerrate von weniger als 5 %. Dazu gehören Englisch (mit einer angegebenen Genauigkeit von 97 %), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch, unter anderem. Die übrigen Sprachen fallen in verschiedene Genauigkeitskategorien: hoch (5 % bis 10 % Wortfehlerrate), gut (10 % bis 20 % Wortfehlerrate) und moderat (25 % bis 50 %).

Das Unternehmen behauptet, Scribe übertreffe Google Gemini 2.0 Flash und Whisper Large V3 in mehreren Sprachen, laut FLEURS- und Common-Voice-Benchmark-Tests.

Bildnachweis: ElevenLabs

ElevenLabs hat den Sprach-zu-Text-Teil bereits letztes Jahr für ihre KI-Konversationsagentenplattform entwickelt, aber Scribe ist ihr erster Versuch eines eigenständigen Spracherkennungsmodells. In einem Gespräch mit TechCrunch im letzten Monat verriet CEO Mati Staniszewski Details zu ihren Plänen, die Spracherkennungstechnologie zu verbessern.

„Wir wollen besser darin werden, zu verstehen, was du in einem Gespräch sagst. Wir konzentrieren uns nicht mehr nur auf das Generieren von Inhalten; wir bewegen uns hin zu Verständnis und Transkription von Sprache“, sagte Staniszewski. „Viele denken, Sprach-zu-Text ist nichts Neues, aber für viele Sprachen ist es immer noch ziemlich schwierig. Wir glauben, dass wir es besser machen können, weil wir interne Teams haben, die Daten labeln und uns schnelles Feedback geben.“

Scribe hat auch einige coole Funktionen, wie intelligente Sprecherzuordnung, um zu erkennen, wer spricht, Zeitstempel auf Wortebene für präzise Untertitel und automatische Markierung von Klangereignissen wie Publikumslachen. Außerdem ermöglicht ElevenLabs Kunden, Videoinhalte direkt zu transkribieren, um Untertitel oder Beschriftungen in ihrem Studio hinzuzufügen.

Derzeit funktioniert Scribe nur mit vorab aufgenommenem Audio. Aber keine Sorge, das Unternehmen sagt, dass sie bald an einer Version mit geringer Latenz für Echtzeit arbeiten. Also ist es noch nicht ganz bereit für Besprechungstranskripte oder Sprachnotizen.

ElevenLabs berechnet 0,40 Dollar pro Stunde transkribiertem Audio für Scribe. Das ist ein wettbewerbsfähiger Preis, aber einige Konkurrenten bieten günstigere Tarife für Audiotranskriptionen an, mit ein paar zusätzlichen Funktionen.

Verwandter Artikel
Die besten AI-Tools für die Erstellung von Infografiken im Bildungsbereich - Design-Tipps und -Techniken Die besten AI-Tools für die Erstellung von Infografiken im Bildungsbereich - Design-Tipps und -Techniken In der heutigen digital geprägten Bildungslandschaft haben sich Infografiken zu einem transformativen Kommunikationsmedium entwickelt, das komplexe Informationen in visuell ansprechende, leicht verstä
Topaz DeNoise AI: Das beste Tool zur Rauschunterdrückung im Jahr 2025 - Vollständige Anleitung Topaz DeNoise AI: Das beste Tool zur Rauschunterdrückung im Jahr 2025 - Vollständige Anleitung In der wettbewerbsintensiven Welt der Digitalfotografie ist die Bildschärfe nach wie vor von größter Bedeutung. Fotografen aller Erfahrungsstufen haben mit digitalem Rauschen zu kämpfen, das ansonsten
Meister Emerald Kaizo Nuzlocke: Ultimatives Überlebens- und Strategiehandbuch Meister Emerald Kaizo Nuzlocke: Ultimatives Überlebens- und Strategiehandbuch Smaragd-Kaizo ist einer der beeindruckendsten Pokémon-ROM-Hacks, die je erdacht wurden. Auch wenn der Versuch eines Nuzlocke-Laufs die Herausforderung exponentiell erhöht, ist der Sieg durch sorgfälti
Kommentare (29)
0/200
MiaDavis
MiaDavis 5. September 2025 02:30:33 MESZ

스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔

LawrenceLopez
LawrenceLopez 30. August 2025 22:30:33 MESZ

A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!

TimothyMartínez
TimothyMartínez 21. August 2025 15:01:20 MESZ

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 12. August 2025 23:00:59 MESZ

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 21. April 2025 03:44:55 MESZ

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 20. April 2025 22:36:44 MESZ

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

Zurück nach oben
OR