Openai升级其转录和发声的AI模型
OpenAI 正通过其 API 推出新的 AI 模型,用于转录和语音生成,承诺较早期版本有显著改进。这些更新是 OpenAI 更大“代理”愿景的一部分,专注于创建能够为用户独立执行任务的自主系统。虽然“代理”一词可能存在争议,但 OpenAI 的产品负责人 Olivier Godement 将其视为可与企业客户互动的聊天机器人。
“在未来几个月,我们将看到越来越多的代理出现,”Godement 在接受 TechCrunch 采访时表示。“总体目标是帮助客户和开发者使用有用、可访问且精准的代理。”
OpenAI 最新的文本转语音模型,名为“gpt-4o-mini-tts”,不仅旨在生成更逼真、更细腻的语音,而且比其前代模型更具适应性。开发者现在可以使用自然语言指令引导模型,例如“像疯狂科学家一样说话”或“使用平静的声音,像正念老师一样”。这种控制水平能够提供更个性化的语音体验。
以下是一个“真实犯罪风格”、饱经风霜的语音样本:
以下是一个女性“专业”语音的示例:
OpenAI 产品团队成员 Jeff Harris 向 TechCrunch 强调,目标是让开发者能够定制语音的“体验”和“语境”。“在不同场景中,你不希望语音单调,”Harris 解释道。“例如,在客户支持场景中,如果需要为错误表示歉意,你可以为语音注入那种情感。我们坚信,开发者和用户不仅想控制内容,还想控制语音表达的方式。”
至于 OpenAI 的新语音转文本产品,“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型将取代过时的 Whisper 转录模型。它们在多样化的高质量音频数据上训练,声称能更好地处理带口音和多样化的语音,即使在嘈杂环境中也能表现良好。此外,这些模型较少出现“幻觉”问题,即 Whisper 有时会凭空生成单词或整个段落,导致转录中出现种族评论或虚构医疗治疗等不准确内容。
“在这方面,这些模型比 Whisper 有显著改进,”Harris 指出。“确保模型的准确性对于可靠的语音体验至关重要,我们所说的准确性是指模型能正确捕捉所说的话,而不添加未说的内容。”
然而,不同语言的表现可能有所差异。OpenAI 的内部基准测试显示,gpt-4o-transcribe(两者中更精准的一个)在印度语系和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)的“词错率”接近 30%。这意味着在这些语言中,每十个单词中大约有三个可能与人工转录不同。

OpenAI 转录基准测试结果。图片来源:OpenAI 与以往惯例不同,OpenAI 不会免费提供这些新转录模型。此前,他们以 MIT 许可发布新版 Whisper 供商业使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不适合公开发布。
“这些模型太大,无法像 Whisper 那样在普通笔记本电脑上运行,”Harris 补充道。“当我们公开模型时,我们希望谨慎行事,确保它们适合特定需求。我们认为终端用户设备是开源模型的主要领域。”
2025 年 3 月 20 日上午 11:54(太平洋时间)更新,以澄清词错率相关语言,并更新基准测试结果图表为更近期版本。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (33)
0/500
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
OpenAI 正通过其 API 推出新的 AI 模型,用于转录和语音生成,承诺较早期版本有显著改进。这些更新是 OpenAI 更大“代理”愿景的一部分,专注于创建能够为用户独立执行任务的自主系统。虽然“代理”一词可能存在争议,但 OpenAI 的产品负责人 Olivier Godement 将其视为可与企业客户互动的聊天机器人。
“在未来几个月,我们将看到越来越多的代理出现,”Godement 在接受 TechCrunch 采访时表示。“总体目标是帮助客户和开发者使用有用、可访问且精准的代理。”
OpenAI 最新的文本转语音模型,名为“gpt-4o-mini-tts”,不仅旨在生成更逼真、更细腻的语音,而且比其前代模型更具适应性。开发者现在可以使用自然语言指令引导模型,例如“像疯狂科学家一样说话”或“使用平静的声音,像正念老师一样”。这种控制水平能够提供更个性化的语音体验。
以下是一个“真实犯罪风格”、饱经风霜的语音样本:
以下是一个女性“专业”语音的示例:
OpenAI 产品团队成员 Jeff Harris 向 TechCrunch 强调,目标是让开发者能够定制语音的“体验”和“语境”。“在不同场景中,你不希望语音单调,”Harris 解释道。“例如,在客户支持场景中,如果需要为错误表示歉意,你可以为语音注入那种情感。我们坚信,开发者和用户不仅想控制内容,还想控制语音表达的方式。”
至于 OpenAI 的新语音转文本产品,“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,这些模型将取代过时的 Whisper 转录模型。它们在多样化的高质量音频数据上训练,声称能更好地处理带口音和多样化的语音,即使在嘈杂环境中也能表现良好。此外,这些模型较少出现“幻觉”问题,即 Whisper 有时会凭空生成单词或整个段落,导致转录中出现种族评论或虚构医疗治疗等不准确内容。
“在这方面,这些模型比 Whisper 有显著改进,”Harris 指出。“确保模型的准确性对于可靠的语音体验至关重要,我们所说的准确性是指模型能正确捕捉所说的话,而不添加未说的内容。”
然而,不同语言的表现可能有所差异。OpenAI 的内部基准测试显示,gpt-4o-transcribe(两者中更精准的一个)在印度语系和达罗毗荼语系(如泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语)的“词错率”接近 30%。这意味着在这些语言中,每十个单词中大约有三个可能与人工转录不同。

与以往惯例不同,OpenAI 不会免费提供这些新转录模型。此前,他们以 MIT 许可发布新版 Whisper 供商业使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不适合公开发布。
“这些模型太大,无法像 Whisper 那样在普通笔记本电脑上运行,”Harris 补充道。“当我们公开模型时,我们希望谨慎行事,确保它们适合特定需求。我们认为终端用户设备是开源模型的主要领域。”
2025 年 3 月 20 日上午 11:54(太平洋时间)更新,以澄清词错率相关语言,并更新基准测试结果图表为更近期版本。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸





首页






