选项
首页
新闻
Openai升级其转录和发声的AI模型

Openai升级其转录和发声的AI模型

2025-04-10
227

OpenAI 正通过其 API 推出新的 AI 模型,用于转录和语音生成,承诺较早期版本有显著改进。这些更新是 OpenAI 更大“代理”愿景的一部分,专注于创建能够为用户独立执行任务的自主系统。虽然“代理”一词可能存在争议,但 OpenAI 的产品负责人 Olivier Godement 将其视为可与企业客户互动的聊天机器人。

“在未来几个月,我们将看到越来越多的代理出现,”Godement 在接受 TechCrunch 采访时表示。“总体目标是帮助客户和开发者使用有用、可访问且精准的代理。”

OpenAI 最新的文本转语音模型,名为“gpt-4o-mini-tts”,不仅旨在生成更逼真、更细腻的语音,而且比其前代模型更具适应性。开发者现在可以使用自然语言指令引导模型,例如“像疯狂科学家一样说话”或“使用平静的声音,像正念老师一样”。这种控制水平能够提供更个性化的语音体验。

以下是一个“真实犯罪风格”、饱经风霜的语音样本:

以下是一个女性“专业”语音的示例:

OpenAI 产品团队成员 Jeff Harris 向 TechCrunch 强调,目标是让开发者能够定制语音的“体验”和“语境”。“在不同场景中,你不希望语音单调,”Harris 解释道。“例如,在客户支持场景中,如果需要为错误表示歉意,你可以为语音注入那种情感。我们坚信,开发者和用户不仅想控制内容,还想控制语音表达的方式。”

至于 OpenAI 的新语音转文本产品,“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型将取代过时的 Whisper 转录模型。它们在多样化的高质量音频数据上训练,声称能更好地处理带口音和多样化的语音,即使在嘈杂环境中也能表现良好。此外,这些模型较少出现“幻觉”问题,即 Whisper 有时会凭空生成单词或整个段落,导致转录中出现种族评论或虚构医疗治疗等不准确内容。

“在这方面,这些模型比 Whisper 有显著改进,”Harris 指出。“确保模型的准确性对于可靠的语音体验至关重要,我们所说的准确性是指模型能正确捕捉所说的话,而不添加未说的内容。”

然而,不同语言的表现可能有所差异。OpenAI 的内部基准测试显示,gpt-4o-transcribe(两者中更精准的一个)在印度语系和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)的“词错率”接近 30%。这意味着在这些语言中,每十个单词中大约有三个可能与人工转录不同。

OpenAI 转录结果

OpenAI 转录基准测试结果。图片来源:OpenAI

与以往惯例不同,OpenAI 不会免费提供这些新转录模型。此前,他们以 MIT 许可发布新版 Whisper 供商业使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不适合公开发布。

“这些模型太大,无法像 Whisper 那样在普通笔记本电脑上运行,”Harris 补充道。“当我们公开模型时,我们希望谨慎行事,确保它们适合特定需求。我们认为终端用户设备是开源模型的主要领域。”

2025 年 3 月 20 日上午 11:54(太平洋时间)更新,以澄清词错率相关语言,并更新基准测试结果图表为更近期版本。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
代码 最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件
最佳 AI 代码审查工具:自动确保代码符合规范,并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具,可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即开启您的 AI 优势。

10 个工具
xix.ai
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
评论 (33)
0/500
LeviKing
LeviKing 2025-12-23 08:30:38

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez
FrankMartínez 2025-08-19 16:01:39

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

OR