Openai升级其转录和发声的AI模型
2025年04月10日
CharlesWhite
6
Openai正在通过其API推出新的AI模型,以进行转录和语音生成,并有望对其早期版本进行重大改进。这些更新是OpenAI较大的“代理”愿景的一部分,该愿景的重点是创建能够独立执行用户执行任务的自主系统。尽管可以辩论“代理”一词,但Openai的产品负责人Olivier Godement将其视为可以与企业客户互动的聊天机器人。
“我们将在接下来的几个月中看到越来越多的代理商出现,” Godement在简报中与TechCrunch分享。 “总体目标是协助客户和开发人员利用有用,易于访问和精确的代理商。”
Openai最新的文本到语音模型,称为“ GPT-4O-Mini-TTS”,不仅旨在产生更多的寿命和细微差别的语音,而且还比其前任更适合适应。开发人员现在可以使用自然语言命令来指导模型,例如“像疯狂的科学家说话”或“使用宁静的声音,就像正念老师一样”。这种控制水平可以提供更个性化的语音体验。
这是风化的声音:
这是女性“专业”声音的一个例子:
OpenAI产品团队的成员Jeff Harris强调了TechCrunch,目的是使开发人员能够自定义“体验”和“上下文”。哈里斯解释说:“在各种情况下,您不想要单调的声音。” “例如,在一个客户支持环境中,声音需要为错误声音道歉,您可以将这种情感注入声音中。我们坚信开发人员和用户不仅希望控制内容,而且要控制言论的方式。”
转到Openai的新语音到文本产品,即GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”,这些模型设置为取代过时的耳语转录模型。他们经过各种高质量音频数据的培训,他们声称即使在嘈杂的环境中,也可以更好地处理强调和多样化的语音。此外,这些模型不太容易出现“幻觉”,这个问题有时会发明单词或整个段落,从而在成绩单中增加种族评论或虚拟的医疗治疗等不准确性。
哈里斯指出:“在这方面,这些模型比耳语显示出显着改善。” “确保模型的准确性对于可靠的语音体验至关重要,并且通过精度,我们的意思是,模型正确捕获了口语单词而不添加未唱歌的内容。”
但是,性能可能因语言而异。 OpenAI的内部基准表明,GPT-4O-Transcribe(两者中更精确)的“单词错误率”接近AIND和Dravidian语言,例如泰米尔语,泰卢固语,马拉雅拉姆语和卡纳达语。这表明,每十个单词中,大约有三个与这些语言的人类转录不同。

OpenAI转录基准测试的结果。图片来源:Openai
在偏离他们通常的练习中,Openai不会免费提供这些新的转录模型。从历史上看,他们根据MIT的商业用途发布了新的耳语版本。哈里斯指出,GPT-4O-Transcribe和GPT-4O-Mini-Transcribe明显大于耳语,这使得它们不适合开放释放。
哈里斯补充说:“这些型号太大了,无法像耳语一样在典型的笔记本电脑上运行。” “当我们公开发布模型时,我们想进行周到的操作,以确保它们根据特定需求进行量身定制。我们将最终用户设备视为开源型号的主要区域。”
更新了2025年3月20日,PT上午11:54,以阐明围绕单词错误率的语言,并使用更近期的版本更新基准结果图表。
相关文章
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations
OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
评论 (20)
0/200
ThomasBaker
2025年04月11日 18:32:00
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
2025年04月11日 21:05:15
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
2025年04月10日 19:20:36
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
2025年04月14日 21:30:18
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
2025年04月10日 15:34:07
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
2025年04月11日 17:06:16
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0






Openai正在通过其API推出新的AI模型,以进行转录和语音生成,并有望对其早期版本进行重大改进。这些更新是OpenAI较大的“代理”愿景的一部分,该愿景的重点是创建能够独立执行用户执行任务的自主系统。尽管可以辩论“代理”一词,但Openai的产品负责人Olivier Godement将其视为可以与企业客户互动的聊天机器人。
“我们将在接下来的几个月中看到越来越多的代理商出现,” Godement在简报中与TechCrunch分享。 “总体目标是协助客户和开发人员利用有用,易于访问和精确的代理商。”
Openai最新的文本到语音模型,称为“ GPT-4O-Mini-TTS”,不仅旨在产生更多的寿命和细微差别的语音,而且还比其前任更适合适应。开发人员现在可以使用自然语言命令来指导模型,例如“像疯狂的科学家说话”或“使用宁静的声音,就像正念老师一样”。这种控制水平可以提供更个性化的语音体验。
这是风化的声音:
这是女性“专业”声音的一个例子:
OpenAI产品团队的成员Jeff Harris强调了TechCrunch,目的是使开发人员能够自定义“体验”和“上下文”。哈里斯解释说:“在各种情况下,您不想要单调的声音。” “例如,在一个客户支持环境中,声音需要为错误声音道歉,您可以将这种情感注入声音中。我们坚信开发人员和用户不仅希望控制内容,而且要控制言论的方式。”
转到Openai的新语音到文本产品,即GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”,这些模型设置为取代过时的耳语转录模型。他们经过各种高质量音频数据的培训,他们声称即使在嘈杂的环境中,也可以更好地处理强调和多样化的语音。此外,这些模型不太容易出现“幻觉”,这个问题有时会发明单词或整个段落,从而在成绩单中增加种族评论或虚拟的医疗治疗等不准确性。
哈里斯指出:“在这方面,这些模型比耳语显示出显着改善。” “确保模型的准确性对于可靠的语音体验至关重要,并且通过精度,我们的意思是,模型正确捕获了口语单词而不添加未唱歌的内容。”
但是,性能可能因语言而异。 OpenAI的内部基准表明,GPT-4O-Transcribe(两者中更精确)的“单词错误率”接近AIND和Dravidian语言,例如泰米尔语,泰卢固语,马拉雅拉姆语和卡纳达语。这表明,每十个单词中,大约有三个与这些语言的人类转录不同。
在偏离他们通常的练习中,Openai不会免费提供这些新的转录模型。从历史上看,他们根据MIT的商业用途发布了新的耳语版本。哈里斯指出,GPT-4O-Transcribe和GPT-4O-Mini-Transcribe明显大于耳语,这使得它们不适合开放释放。
哈里斯补充说:“这些型号太大了,无法像耳语一样在典型的笔记本电脑上运行。” “当我们公开发布模型时,我们想进行周到的操作,以确保它们根据特定需求进行量身定制。我们将最终用户设备视为开源型号的主要区域。”
更新了2025年3月20日,PT上午11:54,以阐明围绕单词错误率的语言,并使用更近期的版本更新基准结果图表。




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












