Heim
ElevenLabs setzt neue Maßstäbe bei der Sprach-zu-Text-Umwandlung; Google Gemini folgt mit umfassenden Funktionen
Artificial Analysis hat die neueste Version seines Sprach-zu-Text-Benchmarks, AA-WER v2.0, veröffentlicht. Die Ergebnisse zeigen, dass ElevenLabs und Google bei der Leistung der Audio-Transkription klar an der Spitze liegen.

Gemessen an der Kern-Wortfehlerrate (WER) erreichte ElevenLabs' Scribe v2 mit einer beeindruckend niedrigen Fehlerquote von 2,3 % den ersten Platz. Dicht dahinter lag Googles Gemini3Pro mit 2,9 %. Es ist erwähnenswert, dass Google Gemini nicht speziell für die Transkription optimiert hat; dieses Ergebnis beruht ausschließlich auf seinen robusten multimodalen allgemeinen Fähigkeiten.
Andere führende Modelle erzielten folgende Ergebnisse:
Mistral Voxtral Small: Belegte mit einer Fehlerquote von 3,0 % den dritten Platz.
Google Gemini3Flash: Zeigte mit einer Fehlerquote von 3,1 % eine solide Leistung.
OpenAI Whisper Large v3: Das am weitesten verbreitete Open-Source-Modell landete mit einer Fehlerquote von 4,2 % im Mittelfeld.
Die Schlusslichter: Alibabas Qwen3ASR Flash (5,9 %), Amazons Nova2Omni (6,0 %) und Rev AI (6,1 %) bildeten das Schlusslicht der Rangliste.

Im speziellen AA-AgentTalk-Benchmark für Sprachassistenzbefehle blieb die Rangliste unverändert. ElevenLabs’ Scribe v2 und Googles Gemini3Pro behielten mit Fehlerquoten von 1,6 % bzw. 1,7 % ihre Führung und erwiesen sich als äußerst zuverlässig bei kurzen, direkten Sprachinteraktionen.
Verwandter Artikel
OpenAI-Chef Altman kritisiert Anthropic scharf für panikgetriebene Marketingstrategien
Der anhaltende öffentliche Streit zwischen den KI-Marktführern OpenAI und Anthropic hat sich verschärft. Sam Altman, CEO von OpenAI, hat kürzlich in einem Podcast das neueste Sicherheitsmodell seines
Cursor AI, ein Startup im Bereich Programmierung, will nach einer bedeutenden Investition von SpaceX 200 Mitarbeiter im asiatisch-pazifischen Raum einstellen
Das KI-Coding-Startup Cursor hat eine umfassende globale Expansion angekündigt und plant, in den nächsten sechs Monaten 200 Mitarbeiter im asiatisch-pazifischen Raum einzustellen. Zu den wichtigsten P
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)
Artificial Analysis hat die neueste Version seines Sprach-zu-Text-Benchmarks, AA-WER v2.0, veröffentlicht. Die Ergebnisse zeigen, dass ElevenLabs und Google bei der Leistung der Audio-Transkription klar an der Spitze liegen.

Gemessen an der Kern-Wortfehlerrate (WER) erreichte ElevenLabs' Scribe v2 mit einer beeindruckend niedrigen Fehlerquote von 2,3 % den ersten Platz. Dicht dahinter lag Googles Gemini3Pro mit 2,9 %. Es ist erwähnenswert, dass Google Gemini nicht speziell für die Transkription optimiert hat; dieses Ergebnis beruht ausschließlich auf seinen robusten multimodalen allgemeinen Fähigkeiten.
Andere führende Modelle erzielten folgende Ergebnisse:
Mistral Voxtral Small: Belegte mit einer Fehlerquote von 3,0 % den dritten Platz.
Google Gemini3Flash: Zeigte mit einer Fehlerquote von 3,1 % eine solide Leistung.
OpenAI Whisper Large v3: Das am weitesten verbreitete Open-Source-Modell landete mit einer Fehlerquote von 4,2 % im Mittelfeld.
Die Schlusslichter: Alibabas Qwen3ASR Flash (5,9 %), Amazons Nova2Omni (6,0 %) und Rev AI (6,1 %) bildeten das Schlusslicht der Rangliste.

Im speziellen AA-AgentTalk-Benchmark für Sprachassistenzbefehle blieb die Rangliste unverändert. ElevenLabs’ Scribe v2 und Googles Gemini3Pro behielten mit Fehlerquoten von 1,6 % bzw. 1,7 % ihre Führung und erwiesen sich als äußerst zuverlässig bei kurzen, direkten Sprachinteraktionen.
OpenAI-Chef Altman kritisiert Anthropic scharf für panikgetriebene Marketingstrategien
Der anhaltende öffentliche Streit zwischen den KI-Marktführern OpenAI und Anthropic hat sich verschärft. Sam Altman, CEO von OpenAI, hat kürzlich in einem Podcast das neueste Sicherheitsmodell seines
Cursor AI, ein Startup im Bereich Programmierung, will nach einer bedeutenden Investition von SpaceX 200 Mitarbeiter im asiatisch-pazifischen Raum einstellen
Das KI-Coding-Startup Cursor hat eine umfassende globale Expansion angekündigt und plant, in den nächsten sechs Monaten 200 Mitarbeiter im asiatisch-pazifischen Raum einzustellen. Zu den wichtigsten P
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An











