Openai升级其转录和发声的AI模型

首页

新闻

Openai升级其转录和发声的AI模型

2025-04-10

CharlesWhite

227

# openai # api

OpenAI 正通过其 API 推出新的 AI 模型，用于转录和语音生成，承诺较早期版本有显著改进。这些更新是 OpenAI 更大“代理”愿景的一部分，专注于创建能够为用户独立执行任务的自主系统。虽然“代理”一词可能存在争议，但 OpenAI 的产品负责人 Olivier Godement 将其视为可与企业客户互动的聊天机器人。

“在未来几个月，我们将看到越来越多的代理出现，”Godement 在接受 TechCrunch 采访时表示。“总体目标是帮助客户和开发者使用有用、可访问且精准的代理。”

OpenAI 最新的文本转语音模型，名为“gpt-4o-mini-tts”，不仅旨在生成更逼真、更细腻的语音，而且比其前代模型更具适应性。开发者现在可以使用自然语言指令引导模型，例如“像疯狂科学家一样说话”或“使用平静的声音，像正念老师一样”。这种控制水平能够提供更个性化的语音体验。

以下是一个“真实犯罪风格”、饱经风霜的语音样本：

以下是一个女性“专业”语音的示例：

OpenAI 产品团队成员 Jeff Harris 向 TechCrunch 强调，目标是让开发者能够定制语音的“体验”和“语境”。“在不同场景中，你不希望语音单调，”Harris 解释道。“例如，在客户支持场景中，如果需要为错误表示歉意，你可以为语音注入那种情感。我们坚信，开发者和用户不仅想控制内容，还想控制语音表达的方式。”

至于 OpenAI 的新语音转文本产品，“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，这些模型将取代过时的 Whisper 转录模型。它们在多样化的高质量音频数据上训练，声称能更好地处理带口音和多样化的语音，即使在嘈杂环境中也能表现良好。此外，这些模型较少出现“幻觉”问题，即 Whisper 有时会凭空生成单词或整个段落，导致转录中出现种族评论或虚构医疗治疗等不准确内容。

“在这方面，这些模型比 Whisper 有显著改进，”Harris 指出。“确保模型的准确性对于可靠的语音体验至关重要，我们所说的准确性是指模型能正确捕捉所说的话，而不添加未说的内容。”

然而，不同语言的表现可能有所差异。OpenAI 的内部基准测试显示，gpt-4o-transcribe（两者中更精准的一个）在印度语系和达罗毗荼语系（如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语）的“词错率”接近 30%。这意味着在这些语言中，每十个单词中大约有三个可能与人工转录不同。

OpenAI 转录结果

OpenAI 转录基准测试结果。图片来源：OpenAI

与以往惯例不同，OpenAI 不会免费提供这些新转录模型。此前，他们以 MIT 许可发布新版 Whisper 供商业使用。Harris 指出，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多，不适合公开发布。

“这些模型太大，无法像 Whisper 那样在普通笔记本电脑上运行，”Harris 补充道。“当我们公开模型时，我们希望谨慎行事，确保它们适合特定需求。我们认为终端用户设备是开源模型的主要领域。”

2025 年 3 月 20 日上午 11:54（太平洋时间）更新，以澄清词错率相关语言，并更新基准测试结果图表为更近期版本。

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬，OpenAI（当时还是一家小型非营利研究实验室）的核心成员召开会议，商讨如何成立一家营利性实体，以实现技术的商业化，并筹集实现通用人工智能（AGI）所需的资金。埃隆·马斯克要求全面掌控公司，并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示，他认为这是马斯克试图收买人心，当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open

相关专题推荐

代码

最佳 AI 代码审查工具：自动确保代码符合规范，并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具，可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜，对比免费与付费选项。立即开启您的 AI 优势。

10 个工具

xix.ai

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

0/500

请登录后再操作

LeviKing

2025-12-23 08:30:38

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez

2025-08-19 16:01:39

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández

2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选