选项
首页
新闻
Openai升级其转录和发声的AI模型

Openai升级其转录和发声的AI模型

2025-04-10
100

Openai正在通过其API推出新的AI模型,以进行转录和语音生成,并有望对其早期版本进行重大改进。这些更新是OpenAI较大的“代理”愿景的一部分,该愿景的重点是创建能够独立执行用户执行任务的自主系统。尽管可以辩论“代理”一词,但Openai的产品负责人Olivier Godement将其视为可以与企业客户互动的聊天机器人。

“我们将在接下来的几个月中看到越来越多的代理商出现,” Godement在简报中与TechCrunch分享。 “总体目标是协助客户和开发人员利用有用,易于访问和精确的代理商。”

Openai最新的文本到语音模型,称为“ GPT-4O-Mini-TTS”,不仅旨在产生更多的寿命和细微差别的语音,而且还比其前任更适合适应。开发人员现在可以使用自然语言命令来指导模型,例如“像疯狂的科学家说话”或“使用宁静的声音,就像正念老师一样”。这种控制水平可以提供更个性化的语音体验。

这是风化的声音:

这是女性“专业”声音的一个例子:

OpenAI产品团队的成员Jeff Harris强调了TechCrunch,目的是使开发人员能够自定义“体验”和“上下文”。哈里斯解释说:“在各种情况下,您不想要单调的声音。” “例如,在一个客户支持环境中,声音需要为错误声音道歉,您可以将这种情感注入声音中。我们坚信开发人员和用户不仅希望控制内容,而且要控制言论的方式。”

转到Openai的新语音到文本产品,即GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”,这些模型设置为取代过时的耳语转录模型。他们经过各种高质量音频数据的培训,他们声称即使在嘈杂的环境中,也可以更好地处理强调和多样化的语音。此外,这些模型不太容易出现“幻觉”,这个问题有时会发明单词或整个段落,从而在成绩单中增加种族评论或虚拟的医疗治疗等不准确性。

哈里斯指出:“在这方面,这些模型比耳语显示出显着改善。” “确保模型的准确性对于可靠的语音体验至关重要,并且通过精度,我们的意思是,模型正确捕获了口语单词而不添加未唱歌的内容。”

但是,性能可能因语言而异。 OpenAI的内部基准表明,GPT-4O-Transcribe(两者中更精确)的“单词错误率”接近AIND和Dravidian语言,例如泰米尔语,泰卢固语,马拉雅拉姆语和卡纳达语。这表明,每十个单词中,大约有三个与这些语言的人类转录不同。

OpenAI转录结果

OpenAI转录基准测试的结果。图片来源:Openai

在偏离他们通常的练习中,Openai不会免费提供这些新的转录模型。从历史上看,他们根据MIT的商业用途发布了新的耳语版本。哈里斯指出,GPT-4O-Transcribe和GPT-4O-Mini-Transcribe明显大于耳语,这使得它们不适合开放释放。

哈里斯补充说:“这些型号太大了,无法像耳语一样在典型的笔记本电脑上运行。” “当我们公开发布模型时,我们想进行周到的操作,以确保它们根据特定需求进行量身定制。我们将最终用户设备视为开源型号的主要区域。”

更新了2025年3月20日,PT上午11:54,以阐明围绕单词错误率的语言,并使用更近期的版本更新基准结果图表。

相关文章
OpenAI升级其Operator Agent的AI模型 OpenAI升级其Operator Agent的AI模型 OpenAI将Operator智能体推向新高度OpenAI正为其自主AI智能体Operator进行重大升级。此次更新意味着Operator将很快采用基于o3模型的架构——这是OpenAI尖端o系列推理模型的最新成员。此前Operator一直基于定制版GPT-4o运行,但这次迭代将带来显著提升。o3模型的突破性意义在数学与逻辑推理任务中,o3几乎在所有指标上都
OpenAI的o3 AI模型在基准测试中的得分低于最初暗示的水平 OpenAI的o3 AI模型在基准测试中的得分低于最初暗示的水平 为什么基准测试差异在人工智能领域很重要?在人工智能领域,数字往往能讲述故事——有时,这些数字并不能完全匹配。以OpenAI的o3模型为例。最初的声明令人震惊:o3据说能够处理超过25%的著名难题FrontierMath问题。作为对比,竞争对手的成绩停留在个位数。但快进到最近的发展情况,备受尊敬的研究机构Epoch AI对此提出了质疑。他们的研究结果显示,o3
Ziff Davis起诉OpenAI涉嫌侵犯版权 Ziff Davis起诉OpenAI涉嫌侵犯版权 齐夫·戴维斯起诉OpenAI侵犯版权这一举动在科技界和出版界引起了轩然大波,Ziff Davis——旗下拥有《CNET》、《PCMag》、《IGN》和《Everyday Health》等品牌的庞大企业集团——已因涉嫌侵犯版权对OpenAI提起诉讼。据《纽约时报》报道,该诉讼声称OpenAI故意在其未获授权的情况下使用Ziff Davis的内容,创造了“完全复
评论 (30)
0/200
ThomasBaker
ThomasBaker 2025-04-12 08:00:00

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 2025-04-12 08:00:00

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 2025-04-11 08:00:00

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 2025-04-15 08:00:00

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 2025-04-10 08:00:00

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 2025-04-12 08:00:00

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

返回顶部
OR