选项
首页
新闻
Openai升级其转录和发声的AI模型

Openai升级其转录和发声的AI模型

2025-04-10
115

OpenAI 正通过其 API 推出新的 AI 模型,用于转录和语音生成,承诺较早期版本有显著改进。这些更新是 OpenAI 更大“代理”愿景的一部分,专注于创建能够为用户独立执行任务的自主系统。虽然“代理”一词可能存在争议,但 OpenAI 的产品负责人 Olivier Godement 将其视为可与企业客户互动的聊天机器人。

“在未来几个月,我们将看到越来越多的代理出现,”Godement 在接受 TechCrunch 采访时表示。“总体目标是帮助客户和开发者使用有用、可访问且精准的代理。”

OpenAI 最新的文本转语音模型,名为“gpt-4o-mini-tts”,不仅旨在生成更逼真、更细腻的语音,而且比其前代模型更具适应性。开发者现在可以使用自然语言指令引导模型,例如“像疯狂科学家一样说话”或“使用平静的声音,像正念老师一样”。这种控制水平能够提供更个性化的语音体验。

以下是一个“真实犯罪风格”、饱经风霜的语音样本:

以下是一个女性“专业”语音的示例:

OpenAI 产品团队成员 Jeff Harris 向 TechCrunch 强调,目标是让开发者能够定制语音的“体验”和“语境”。“在不同场景中,你不希望语音单调,”Harris 解释道。“例如,在客户支持场景中,如果需要为错误表示歉意,你可以为语音注入那种情感。我们坚信,开发者和用户不仅想控制内容,还想控制语音表达的方式。”

至于 OpenAI 的新语音转文本产品,“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型将取代过时的 Whisper 转录模型。它们在多样化的高质量音频数据上训练,声称能更好地处理带口音和多样化的语音,即使在嘈杂环境中也能表现良好。此外,这些模型较少出现“幻觉”问题,即 Whisper 有时会凭空生成单词或整个段落,导致转录中出现种族评论或虚构医疗治疗等不准确内容。

“在这方面,这些模型比 Whisper 有显著改进,”Harris 指出。“确保模型的准确性对于可靠的语音体验至关重要,我们所说的准确性是指模型能正确捕捉所说的话,而不添加未说的内容。”

然而,不同语言的表现可能有所差异。OpenAI 的内部基准测试显示,gpt-4o-transcribe(两者中更精准的一个)在印度语系和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)的“词错率”接近 30%。这意味着在这些语言中,每十个单词中大约有三个可能与人工转录不同。

OpenAI 转录结果

OpenAI 转录基准测试结果。图片来源:OpenAI

与以往惯例不同,OpenAI 不会免费提供这些新转录模型。此前,他们以 MIT 许可发布新版 Whisper 供商业使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不适合公开发布。

“这些模型太大,无法像 Whisper 那样在普通笔记本电脑上运行,”Harris 补充道。“当我们公开模型时,我们希望谨慎行事,确保它们适合特定需求。我们认为终端用户设备是开源模型的主要领域。”

2025 年 3 月 20 日上午 11:54(太平洋时间)更新,以澄清词错率相关语言,并更新基准测试结果图表为更近期版本。

相关文章
前OpenAI工程师分享公司文化与快速增长的见解 前OpenAI工程师分享公司文化与快速增长的见解 三周前,为OpenAI关键产品做出贡献的工程师Calvin French-Owen离开公司。他最近发表了一篇引人入胜的博客,详细描述了在OpenAI的一年,包括开发Codex的紧张努力,Codex是一个与Cursor和Anthropic的Claude Code竞争的编码代理。French-Owen澄清,他的离开并非因内部冲突,而是源于回归创业生活的愿望。他之前共同创立了Segment,一家2020
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI 谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta为AI人才提供高薪,否认1亿美元签约奖金 Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
评论 (31)
0/200
BenHernández
BenHernández 2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark
NicholasClark 2025-04-16 13:54:41

OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸

SamuelRoberts
SamuelRoberts 2025-04-16 05:24:36

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

返回顶部
OR