Elevenlabs推出了新的語音到文本模型
ElevenLabs,一家最近獲得1.8億美元融資的AI新創公司,以其音頻生成技術聞名。但現在,他們大膽跨入新領域,推出首個獨立語音轉文字模型,名為Scribe。
估值33億美元的ElevenLabs一直是許多公司尋求文字轉語音服務的首選,歸功於其龐大的語音庫。現在,他們將目標轉向語音檢測,旨在挑戰Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型等大品牌。
Scribe一開始就支援超過99種語言。ElevenLabs表示,其在超過25種語言中具有出色準確度,字詞錯誤率低於5%。包括英語(號稱準確度97%)、法語、德語、印地語、印尼語、日語、卡納達語、馬拉雅拉姆語、波蘭語、葡萄牙語、西班牙語及越南語等。其他語言分為不同準確度類別:高(5%至10%字詞錯誤率)、良好(10%至20%字詞錯誤率)及中等(25%至50%)。
該公司聲稱,根據FLEURS與Common Voice基準測試,Scribe在多種語言中超越Google Gemini 2.0 Flash及Whisper Large V3。

圖片來源:ElevenLabs ElevenLabs去年實際上已為其AI對話代理平台建構了語音轉文字功能,但Scribe是他們首次推出的獨立語音檢測模型。上個月與TechCrunch的對話中,執行長Mati Staniszewski透露了他們增強語音檢測技術的計劃。
Staniszewski表示:「我們希望更擅長理解你在對話中說什麼。我們不再僅限於生成內容;我們正轉向理解與轉錄語音。很多人認為語音轉文字已是舊技術,但在許多語言中仍相當粗糙。我們認為可以做得更好,因為我們有內部團隊標記數據並提供快速反饋。」
Scribe還具備一些很酷的功能,例如智能語者分割以辨識誰在說話、字級時間戳記以提供精準字幕,以及自動標記觀眾笑聲等聲音事件。此外,ElevenLabs允許客戶直接轉錄視頻內容,在其工作室中添加字幕或標題。
目前,Scribe僅支援預錄音頻。但公司表示,他們正在開發低延遲的實時版本,很快將推出。因此,暫時還不適用於會議記錄或語音筆記。
ElevenLabs對Scribe的收費為每小時轉錄音頻0.40美元。價格具競爭力,但一些競爭對手提供更低的音頻轉錄費率,並附帶一些不同的功能。
相關文章
製作教育資訊圖表的最佳 AI 工具 - 設計技巧與技術
在現今數位驅動的教育環境中,資訊圖表已成為一種轉化的溝通媒介,可將複雜的資訊轉換為視覺上吸引人、容易理解的格式。AI 技術正在徹底改變教育工作者製作這些視覺學習輔助工具的方式,讓所有人都能使用專業等級的設計,同時大幅縮短製作時間。本論文深入探討 ChatGPT 等尖端 AI 解決方案,這些解決方案透過簡化的工作流程、創意自動化和智慧型設計協助,讓教師和內容創造者能夠製作吸引人的教育資訊圖表。重點利
Topaz DeNoise AI:2025 年最佳降噪工具 - 完整指南
在競爭激烈的數位攝影世界中,影像的清晰度仍然是最重要的。各種技術層級的攝影師都要面對數位雜訊的問題,這些雜訊會影響原本優異的拍攝效果。Topaz DeNoise AI 是最先進的解決方案,利用人工智慧來降低雜訊,同時保留關鍵細節。本深入評論將探討此創新軟體如何在 2025 年改變您的攝影工作流程,並檢視其主要功能、實用應用與工作流程整合。重點Topaz DeNoise AI 利用人工智慧有效消除影
Master Emerald Kaizo Nuzlocke:終極生存與策略指南
Emerald Kaizo 是有史以來最強大的 Pokémon ROM hacks 之一。雖然嘗試執行 Nuzlocke 會使挑戰成倍增加,但透過縝密的規劃和策略執行,勝利仍然是可以實現的。這本權威指南提供在 Hardcore Nuzlocke 規則下征服 Emerald Kaizo 的必要工具、經過實戰考驗的戰術以及深入的 AI 分析。準備好迎接 Pokémon 精通的終極考驗吧!基本策略收集關
評論 (29)
0/200
MiaDavis
2025-09-05 08:30:33
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
2025-08-31 04:30:33
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
2025-08-21 21:01:20
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
2025-08-13 05:00:59
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
2025-04-21 09:44:55
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
2025-04-21 04:36:44
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs,一家最近獲得1.8億美元融資的AI新創公司,以其音頻生成技術聞名。但現在,他們大膽跨入新領域,推出首個獨立語音轉文字模型,名為Scribe。
估值33億美元的ElevenLabs一直是許多公司尋求文字轉語音服務的首選,歸功於其龐大的語音庫。現在,他們將目標轉向語音檢測,旨在挑戰Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型等大品牌。
Scribe一開始就支援超過99種語言。ElevenLabs表示,其在超過25種語言中具有出色準確度,字詞錯誤率低於5%。包括英語(號稱準確度97%)、法語、德語、印地語、印尼語、日語、卡納達語、馬拉雅拉姆語、波蘭語、葡萄牙語、西班牙語及越南語等。其他語言分為不同準確度類別:高(5%至10%字詞錯誤率)、良好(10%至20%字詞錯誤率)及中等(25%至50%)。
該公司聲稱,根據FLEURS與Common Voice基準測試,Scribe在多種語言中超越Google Gemini 2.0 Flash及Whisper Large V3。
ElevenLabs去年實際上已為其AI對話代理平台建構了語音轉文字功能,但Scribe是他們首次推出的獨立語音檢測模型。上個月與TechCrunch的對話中,執行長Mati Staniszewski透露了他們增強語音檢測技術的計劃。
Staniszewski表示:「我們希望更擅長理解你在對話中說什麼。我們不再僅限於生成內容;我們正轉向理解與轉錄語音。很多人認為語音轉文字已是舊技術,但在許多語言中仍相當粗糙。我們認為可以做得更好,因為我們有內部團隊標記數據並提供快速反饋。」
Scribe還具備一些很酷的功能,例如智能語者分割以辨識誰在說話、字級時間戳記以提供精準字幕,以及自動標記觀眾笑聲等聲音事件。此外,ElevenLabs允許客戶直接轉錄視頻內容,在其工作室中添加字幕或標題。
目前,Scribe僅支援預錄音頻。但公司表示,他們正在開發低延遲的實時版本,很快將推出。因此,暫時還不適用於會議記錄或語音筆記。
ElevenLabs對Scribe的收費為每小時轉錄音頻0.40美元。價格具競爭力,但一些競爭對手提供更低的音頻轉錄費率,並附帶一些不同的功能。




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












