Elevenlabs推出了新的语音到文本模型
ElevenLabs,一家最近获得1.8亿美元巨额融资的AI初创公司,以其音频生成技术而闻名。但现在,他们大胆进军新领域,推出了首个人工语音转文本模型,名为Scribe。
估值33亿美元的ElevenLabs一直是许多需要文本转语音服务的公司的首选,这得益于他们庞大的语音库。现在,他们将目标转向语音检测,旨在挑战Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型等大牌。
Scribe毫不逊色——它一经推出就支持超过99种语言。ElevenLabs表示,它在超过25种语言上具有出色的准确性,词错率低于5%。这包括英语(据称准确率达97%)、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则分为不同准确性类别:高(词错率5%至10%)、良好(词错率10%至20%)和中等(词错率25%至50%)。
该公司声称,根据FLEURS和Common Voice基准测试,Scribe在多种语言上超越了Google Gemini 2.0 Flash和Whisper Large V3。

图片来源:ElevenLabs ElevenLabs实际上去年就为其AI对话代理平台构建了语音转文本功能,但Scribe是他们首次尝试推出独立的语音检测模型。在上个月与TechCrunch的对话中,首席执行官Mati Staniszewski透露了他们计划加强语音检测技术的细节。
“我们希望在对话中更好地理解你的话语。我们不再只专注于生成内容;我们正在转向理解和转录语音,”Staniszewski说。“很多人认为语音转文本是老技术,但在许多语言上,它的表现仍然相当粗糙。我们认为我们可以做得更好,因为我们有内部团队来标注数据并提供快速反馈。”
Scribe还拥有一些很酷的功能,比如智能发言者分割以识别谁在说话,单词级时间戳以实现精准字幕,以及自动标记观众笑声等声音事件。此外,ElevenLabs允许客户直接转录视频内容,以便在他们的工作室中添加字幕或标题。
目前,Scribe仅支持预录音频。但不用担心,公司表示他们正在开发低延迟的实时版本,很快就会推出。因此,它暂时还无法用于会议转录或语音笔记记录。
ElevenLabs为Scribe的收费是每小时转录音频0.40美元。这是一个有竞争力的价格,但一些竞争对手为音频转录提供了更便宜的费率,并附带了一些不同的功能。
相关文章
创建教育信息图表的最佳人工智能工具 - 设计技巧与技术
在当今数字驱动的教育环境中,信息图表已成为一种变革性的交流媒介,它能将复杂的信息转换成具有视觉吸引力、易于理解的格式。人工智能技术正在彻底改变教育工作者制作这些可视化学习辅助工具的方式,使所有人都能获得专业级的设计,同时大幅缩短制作时间。本讲座将深入探讨 ChatGPT 等尖端人工智能解决方案,这些解决方案通过简化工作流程、创意自动化和智能设计辅助,使教师和内容创作者能够制作出引人入胜的教育信息图
Topaz DeNoise AI:2025 年最佳降噪工具 - 完整指南
在竞争激烈的数码摄影领域,图像清晰度仍然是最重要的。各种技术水平的摄影师都要面对数码噪点的问题,这些噪点影响了原本出色的拍摄效果。Topaz DeNoise AI 是一种先进的解决方案,它利用人工智能解决降噪问题,同时保留关键细节。本深度评论将探讨这款创新软件如何在 2025 年改变您的摄影工作流程,研究其主要功能、实际应用和工作流程集成。要点Topaz DeNoise AI 利用人工智能有效消除
翡翠开藏大师》(Master Emerald Kaizo Nuzlocke):终极生存与策略指南
Emerald Kaizo 是有史以来最强大的神奇宝贝 ROM 黑客之一。虽然尝试运行 Nuzlocke 会使挑战成倍增加,但通过精心策划和战略执行,胜利仍然是可以实现的。这本权威指南提供了在硬核 Nuzlocke 规则下征服翡翠海藏的必备工具、经过实战检验的战术和深入的人工智能分析。准备好接受神奇宝贝高手的终极考验吧!基本策略收集关键工具:游戏文档、专门的 PKHeX(EK 版)和精确的伤害计算
评论 (29)
0/200
MiaDavis
2025-09-05 08:30:33
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
2025-08-31 04:30:33
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
2025-08-21 21:01:20
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
2025-08-13 05:00:59
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
2025-04-21 09:44:55
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
2025-04-21 04:36:44
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs,一家最近获得1.8亿美元巨额融资的AI初创公司,以其音频生成技术而闻名。但现在,他们大胆进军新领域,推出了首个人工语音转文本模型,名为Scribe。
估值33亿美元的ElevenLabs一直是许多需要文本转语音服务的公司的首选,这得益于他们庞大的语音库。现在,他们将目标转向语音检测,旨在挑战Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型等大牌。
Scribe毫不逊色——它一经推出就支持超过99种语言。ElevenLabs表示,它在超过25种语言上具有出色的准确性,词错率低于5%。这包括英语(据称准确率达97%)、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则分为不同准确性类别:高(词错率5%至10%)、良好(词错率10%至20%)和中等(词错率25%至50%)。
该公司声称,根据FLEURS和Common Voice基准测试,Scribe在多种语言上超越了Google Gemini 2.0 Flash和Whisper Large V3。
ElevenLabs实际上去年就为其AI对话代理平台构建了语音转文本功能,但Scribe是他们首次尝试推出独立的语音检测模型。在上个月与TechCrunch的对话中,首席执行官Mati Staniszewski透露了他们计划加强语音检测技术的细节。
“我们希望在对话中更好地理解你的话语。我们不再只专注于生成内容;我们正在转向理解和转录语音,”Staniszewski说。“很多人认为语音转文本是老技术,但在许多语言上,它的表现仍然相当粗糙。我们认为我们可以做得更好,因为我们有内部团队来标注数据并提供快速反馈。”
Scribe还拥有一些很酷的功能,比如智能发言者分割以识别谁在说话,单词级时间戳以实现精准字幕,以及自动标记观众笑声等声音事件。此外,ElevenLabs允许客户直接转录视频内容,以便在他们的工作室中添加字幕或标题。
目前,Scribe仅支持预录音频。但不用担心,公司表示他们正在开发低延迟的实时版本,很快就会推出。因此,它暂时还无法用于会议转录或语音笔记记录。
ElevenLabs为Scribe的收费是每小时转录音频0.40美元。这是一个有竞争力的价格,但一些竞争对手为音频转录提供了更便宜的费率,并附带了一些不同的功能。




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












