Elevenlabs推出了新的语音到文本模型
ElevenLabs,一家最近获得1.8亿美元巨额融资的AI初创公司,以其音频生成技术而闻名。但现在,他们大胆进军新领域,推出了首个人工语音转文本模型,名为Scribe。
估值33亿美元的ElevenLabs一直是许多需要文本转语音服务的公司的首选,这得益于他们庞大的语音库。现在,他们将目标转向语音检测,旨在挑战Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型等大牌。
Scribe毫不逊色——它一经推出就支持超过99种语言。ElevenLabs表示,它在超过25种语言上具有出色的准确性,词错率低于5%。这包括英语(据称准确率达97%)、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则分为不同准确性类别:高(词错率5%至10%)、良好(词错率10%至20%)和中等(词错率25%至50%)。
该公司声称,根据FLEURS和Common Voice基准测试,Scribe在多种语言上超越了Google Gemini 2.0 Flash和Whisper Large V3。

图片来源:ElevenLabs ElevenLabs实际上去年就为其AI对话代理平台构建了语音转文本功能,但Scribe是他们首次尝试推出独立的语音检测模型。在上个月与TechCrunch的对话中,首席执行官Mati Staniszewski透露了他们计划加强语音检测技术的细节。
“我们希望在对话中更好地理解你的话语。我们不再只专注于生成内容;我们正在转向理解和转录语音,”Staniszewski说。“很多人认为语音转文本是老技术,但在许多语言上,它的表现仍然相当粗糙。我们认为我们可以做得更好,因为我们有内部团队来标注数据并提供快速反馈。”
Scribe还拥有一些很酷的功能,比如智能发言者分割以识别谁在说话,单词级时间戳以实现精准字幕,以及自动标记观众笑声等声音事件。此外,ElevenLabs允许客户直接转录视频内容,以便在他们的工作室中添加字幕或标题。
目前,Scribe仅支持预录音频。但不用担心,公司表示他们正在开发低延迟的实时版本,很快就会推出。因此,它暂时还无法用于会议转录或语音笔记记录。
ElevenLabs为Scribe的收费是每小时转录音频0.40美元。这是一个有竞争力的价格,但一些竞争对手为音频转录提供了更便宜的费率,并附带了一些不同的功能。
相关文章
AI语音翻译器G5 Pro:无缝全球沟通
在全球互联至关重要的世界中,弥合语言差距比以往任何时候都更重要。AI语音翻译器G5 Pro以其实时翻译功能为多种场景提供实用解决方案。无论您是探索新国家、进行国际商务,还是学习新语言,此设备都能轻松简化沟通。本文深入探讨AI语音翻译器G5 Pro的功能、优势和应用,展示其如何在多语言环境中增强互动。主要亮点AI语音翻译器G5 Pro支持多种语言,促进全球互联。其即时翻译功能支持旅行、教育和商务等场
使用HitPaw AI照片增强器提升您的图像:全面指南
想改变您的照片编辑体验吗?凭借尖端人工智能技术,改善您的图像现在变得轻而易举。本详细指南介绍了HitPaw AI照片增强器,这是一款离线AI工具,可自动提升图像质量和分辨率。无论您是经验丰富的摄影师还是希望优化个人快照的爱好者,HitPaw AI照片增强器都能提供强大的功能,带来惊艳的效果。主要亮点HitPaw AI照片增强器是一款适用于Windows和Mac的AI驱动解决方案,旨在提升图像质量。
AI驱动的音乐创作:轻松打造歌曲与视频
音乐创作可能复杂,需要时间、资源和专业知识。人工智能已转变这一过程,使其简单易用。本指南介绍如何利用AI让任何人都能免费创作独特的歌曲和视觉效果,开启新的创作可能性。我们探索了具有直观界面和先进AI的平台,将您的音乐创意转化为现实,无需高昂成本。关键要点AI可生成完整歌曲,包括人声,而不仅是器乐。Suno AI和Hailuo AI等平台提供免费音乐创作工具。ChatGPT等AI工具可简化歌词创作,
评论 (27)
0/200
TimothyMartínez
2025-08-21 21:01:20
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
2025-08-13 05:00:59
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
2025-04-21 09:44:55
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
2025-04-21 04:36:44
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
PaulBrown
2025-04-20 10:47:04
ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀
0
HarryLewis
2025-04-20 09:23:49
ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀
0
ElevenLabs,一家最近获得1.8亿美元巨额融资的AI初创公司,以其音频生成技术而闻名。但现在,他们大胆进军新领域,推出了首个人工语音转文本模型,名为Scribe。
估值33亿美元的ElevenLabs一直是许多需要文本转语音服务的公司的首选,这得益于他们庞大的语音库。现在,他们将目标转向语音检测,旨在挑战Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型等大牌。
Scribe毫不逊色——它一经推出就支持超过99种语言。ElevenLabs表示,它在超过25种语言上具有出色的准确性,词错率低于5%。这包括英语(据称准确率达97%)、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语等。其余语言则分为不同准确性类别:高(词错率5%至10%)、良好(词错率10%至20%)和中等(词错率25%至50%)。
该公司声称,根据FLEURS和Common Voice基准测试,Scribe在多种语言上超越了Google Gemini 2.0 Flash和Whisper Large V3。
ElevenLabs实际上去年就为其AI对话代理平台构建了语音转文本功能,但Scribe是他们首次尝试推出独立的语音检测模型。在上个月与TechCrunch的对话中,首席执行官Mati Staniszewski透露了他们计划加强语音检测技术的细节。
“我们希望在对话中更好地理解你的话语。我们不再只专注于生成内容;我们正在转向理解和转录语音,”Staniszewski说。“很多人认为语音转文本是老技术,但在许多语言上,它的表现仍然相当粗糙。我们认为我们可以做得更好,因为我们有内部团队来标注数据并提供快速反馈。”
Scribe还拥有一些很酷的功能,比如智能发言者分割以识别谁在说话,单词级时间戳以实现精准字幕,以及自动标记观众笑声等声音事件。此外,ElevenLabs允许客户直接转录视频内容,以便在他们的工作室中添加字幕或标题。
目前,Scribe仅支持预录音频。但不用担心,公司表示他们正在开发低延迟的实时版本,很快就会推出。因此,它暂时还无法用于会议转录或语音笔记记录。
ElevenLabs为Scribe的收费是每小时转录音频0.40美元。这是一个有竞争力的价格,但一些竞争对手为音频转录提供了更便宜的费率,并附带了一些不同的功能。




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊




ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀




ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀












