Elevenlabs推出了新的語音到文本模型
ElevenLabs,一家最近獲得1.8億美元融資的AI新創公司,以其音頻生成技術聞名。但現在,他們大膽跨入新領域,推出首個獨立語音轉文字模型,名為Scribe。
估值33億美元的ElevenLabs一直是許多公司尋求文字轉語音服務的首選,歸功於其龐大的語音庫。現在,他們將目標轉向語音檢測,旨在挑戰Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型等大品牌。
Scribe一開始就支援超過99種語言。ElevenLabs表示,其在超過25種語言中具有出色準確度,字詞錯誤率低於5%。包括英語(號稱準確度97%)、法語、德語、印地語、印尼語、日語、卡納達語、馬拉雅拉姆語、波蘭語、葡萄牙語、西班牙語及越南語等。其他語言分為不同準確度類別:高(5%至10%字詞錯誤率)、良好(10%至20%字詞錯誤率)及中等(25%至50%)。
該公司聲稱,根據FLEURS與Common Voice基準測試,Scribe在多種語言中超越Google Gemini 2.0 Flash及Whisper Large V3。

圖片來源:ElevenLabs ElevenLabs去年實際上已為其AI對話代理平台建構了語音轉文字功能,但Scribe是他們首次推出的獨立語音檢測模型。上個月與TechCrunch的對話中,執行長Mati Staniszewski透露了他們增強語音檢測技術的計劃。
Staniszewski表示:「我們希望更擅長理解你在對話中說什麼。我們不再僅限於生成內容;我們正轉向理解與轉錄語音。很多人認為語音轉文字已是舊技術,但在許多語言中仍相當粗糙。我們認為可以做得更好,因為我們有內部團隊標記數據並提供快速反饋。」
Scribe還具備一些很酷的功能,例如智能語者分割以辨識誰在說話、字級時間戳記以提供精準字幕,以及自動標記觀眾笑聲等聲音事件。此外,ElevenLabs允許客戶直接轉錄視頻內容,在其工作室中添加字幕或標題。
目前,Scribe僅支援預錄音頻。但公司表示,他們正在開發低延遲的實時版本,很快將推出。因此,暫時還不適用於會議記錄或語音筆記。
ElevenLabs對Scribe的收費為每小時轉錄音頻0.40美元。價格具競爭力,但一些競爭對手提供更低的音頻轉錄費率,並附帶一些不同的功能。
相關文章
OpenAI 重啟機器人業務,Automan 招募基礎設施研發工程師
6月1日,OpenAI 執行長山姆·奧特曼(Sam Altman)在社群媒體上宣布,該公司將重返機器人領域,並發布了 OpenAI 機器人團隊的職缺。 該公司正招募全端硬體、營運、系統及機器學習工程師。此舉標誌著在關閉早期機器人業務後,再度回歸實體世界的具身智能領域,旨在將其領先的大型模型能力從數位世界延伸至真實的實體環境中。奧特曼強調,人工智慧的真正價值在於提供實質的現實世界協助。在發展策略方面
貝恩公司預測,基於代理式人工智慧的自動化SaaS市場規模將達1,000億美元
貝恩公司估計,在美國,運用代理式人工智慧的 SaaS 企業市場規模可達 1,000 億美元。該公司表示,此市場源於企業系統內協調任務的自動化。此預測源自貝恩公司關於「AI時代軟體產業」五部曲系列的第二篇報告。該報告探討了代理式AI可能開拓哪些新的軟體市場,以及SaaS供應商如何搶佔這些市場。企業系統中的協調工作根據貝恩公司的分析,該市場源於員工在不同企業應用程式間執行的人工任務。這些工作流程通常涉
AI 搜尋強制政策引發用戶出走潮,DuckDuckGo 用戶數激增
繼 Google 在 2026 年 I/O 大會上宣布將對其搜尋引擎進行全面的人工智慧改造後,由於缺乏簡單的「一鍵停用」功能來關閉 AI 功能,許多使用者開始尋找更具掌控力的替代方案。 以隱私保護為核心的搜尋平台DuckDuckGo近期明顯感受到流量轉移,已成為對 Google 強勢推動 AI 感到不滿用戶的熱門避風港。1. 用戶用腳投票:安裝量激增根據 DuckDuckGo 分享的數據,隨著用戶
相關專題推薦
評論 (29)
0/500
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
ElevenLabs,一家最近獲得1.8億美元融資的AI新創公司,以其音頻生成技術聞名。但現在,他們大膽跨入新領域,推出首個獨立語音轉文字模型,名為Scribe。
估值33億美元的ElevenLabs一直是許多公司尋求文字轉語音服務的首選,歸功於其龐大的語音庫。現在,他們將目標轉向語音檢測,旨在挑戰Gladia、Speechmatics、AssemblyAI、Deepgram及OpenAI的Whisper模型等大品牌。
Scribe一開始就支援超過99種語言。ElevenLabs表示,其在超過25種語言中具有出色準確度,字詞錯誤率低於5%。包括英語(號稱準確度97%)、法語、德語、印地語、印尼語、日語、卡納達語、馬拉雅拉姆語、波蘭語、葡萄牙語、西班牙語及越南語等。其他語言分為不同準確度類別:高(5%至10%字詞錯誤率)、良好(10%至20%字詞錯誤率)及中等(25%至50%)。
該公司聲稱,根據FLEURS與Common Voice基準測試,Scribe在多種語言中超越Google Gemini 2.0 Flash及Whisper Large V3。

ElevenLabs去年實際上已為其AI對話代理平台建構了語音轉文字功能,但Scribe是他們首次推出的獨立語音檢測模型。上個月與TechCrunch的對話中,執行長Mati Staniszewski透露了他們增強語音檢測技術的計劃。
Staniszewski表示:「我們希望更擅長理解你在對話中說什麼。我們不再僅限於生成內容;我們正轉向理解與轉錄語音。很多人認為語音轉文字已是舊技術,但在許多語言中仍相當粗糙。我們認為可以做得更好,因為我們有內部團隊標記數據並提供快速反饋。」
Scribe還具備一些很酷的功能,例如智能語者分割以辨識誰在說話、字級時間戳記以提供精準字幕,以及自動標記觀眾笑聲等聲音事件。此外,ElevenLabs允許客戶直接轉錄視頻內容,在其工作室中添加字幕或標題。
目前,Scribe僅支援預錄音頻。但公司表示,他們正在開發低延遲的實時版本,很快將推出。因此,暫時還不適用於會議記錄或語音筆記。
ElevenLabs對Scribe的收費為每小時轉錄音頻0.40美元。價格具競爭力,但一些競爭對手提供更低的音頻轉錄費率,並附帶一些不同的功能。
OpenAI 重啟機器人業務,Automan 招募基礎設施研發工程師
6月1日,OpenAI 執行長山姆·奧特曼(Sam Altman)在社群媒體上宣布,該公司將重返機器人領域,並發布了 OpenAI 機器人團隊的職缺。 該公司正招募全端硬體、營運、系統及機器學習工程師。此舉標誌著在關閉早期機器人業務後,再度回歸實體世界的具身智能領域,旨在將其領先的大型模型能力從數位世界延伸至真實的實體環境中。奧特曼強調,人工智慧的真正價值在於提供實質的現實世界協助。在發展策略方面
AI 搜尋強制政策引發用戶出走潮,DuckDuckGo 用戶數激增
繼 Google 在 2026 年 I/O 大會上宣布將對其搜尋引擎進行全面的人工智慧改造後,由於缺乏簡單的「一鍵停用」功能來關閉 AI 功能,許多使用者開始尋找更具掌控力的替代方案。 以隱私保護為核心的搜尋平台DuckDuckGo近期明顯感受到流量轉移,已成為對 Google 強勢推動 AI 感到不滿用戶的熱門避風港。1. 用戶用腳投票:安裝量激增根據 DuckDuckGo 分享的數據,隨著用戶
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀





首頁






