首頁 消息 Openai升級其轉錄和發聲的AI模型

Openai升級其轉錄和發聲的AI模型

2025年04月10日
CharlesWhite
6

Openai正在通過其API推出新的AI模型,以進行轉錄和語音生成,並有望對其早期版本進行重大改進。這些更新是OpenAI較大的“代理”願景的一部分,該願景的重點是創建能夠獨立執行用戶執行任務的自主系統。儘管可以辯論“代理”一詞,但Openai的產品負責人Olivier Godement將其視為可以與企業客戶互動的聊天機器人。

“我們將在接下來的幾個月中看到越來越多的代理商出現,” Godement在簡報中與TechCrunch分享。 “總體目標是協助客戶和開發人員利用有用,易於訪問和精確的代理商。”

Openai最新的文本到語音模型,稱為“ GPT-4O-Mini-TTS”,不僅旨在產生更多的壽命和細微差別的語音,而且還比其前任更適合適應。開發人員現在可以使用自然語言命令來指導模型,例如“像瘋狂的科學家說話”或“使用寧靜的聲音,就像正念老師一樣”。這種控制水平可以提供更個性化的語音體驗。

這是風化的聲音:

這是女性“專業”聲音的一個例子:

OpenAI產品團隊的成員Jeff Harris強調了TechCrunch,目的是使開發人員能夠自定義“體驗”和“上下文”。哈里斯解釋說:“在各種情況下,您不想要單調的聲音。” “例如,在一個客戶支持環境中,聲音需要為錯誤聲音道歉,您可以將這種情感注入聲音中。我們堅信開發人員和用戶不僅希望控制內容,而且要控制言論的方式。”

轉到Openai的新語音到文本產品,即GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”,這些模型設置為取代過時的耳語轉錄模型。他們經過各種高質量音頻數據的培訓,他們聲稱即使在嘈雜的環境中,也可以更好地處理強調和多樣化的語音。此外,這些模型不太容易出現“幻覺”,這個問題有時會發明單詞或整個段落,從而在成績單中增加種族評論或虛擬的醫療治療等不准確性。

哈里斯指出:“在這方面,這些模型比耳語顯示出顯著改善。” “確保模型的準確性對於可靠的語音體驗至關重要,並且通過精度,我們的意思是,模型正確捕獲了口語單詞而不添加未唱歌的內容。”

但是,性能可能因語言而異。 OpenAI的內部基準表明,GPT-4O-Transcribe(兩者中更精確)的“單詞錯誤率”接近AIND和Dravidian語言,例如泰米爾語,泰盧固語,馬拉雅拉姆語和卡納達語。這表明,每十個單詞中,大約有三個與這些語言的人類轉錄不同。

OpenAI轉錄結果

OpenAI轉錄基準測試的結果。圖片來源:Openai

在偏離他們通常的練習中,Openai不會免費提供這些新的轉錄模型。從歷史上看,他們根據MIT的商業用途發布了新的耳語版本。哈里斯指出,GPT-4O-Transcribe和GPT-4O-Mini-Transcribe明顯大於耳語,這使得它們不適合開放釋放。

哈里斯補充說:“這些型號太大了,無法像耳語一樣在典型的筆記本電腦上運行。” “當我們公開發布模型時,我們想進行周到的操作,以確保它們根據特定需求進行量身定制。我們將最終用戶設備視為開源型號的主要區域。”

更新了2025年3月20日,PT上午11:54,以闡明圍繞單詞錯誤率的語言,並使用更近期的版本更新基準結果圖表。

相關文章
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them. Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
評論 (20)
0/200
ThomasBaker
ThomasBaker 2025年04月11日 18:32:00

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 2025年04月11日 21:05:15

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 2025年04月10日 19:20:36

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 2025年04月14日 21:30:18

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 2025年04月10日 15:34:07

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 2025年04月11日 17:06:16

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

Back to Top
OR