選項
首頁
消息
Openai升級其轉錄和發聲的AI模型

Openai升級其轉錄和發聲的AI模型

2025-04-10
100

Openai正在通過其API推出新的AI模型,以進行轉錄和語音生成,並有望對其早期版本進行重大改進。這些更新是OpenAI較大的“代理”願景的一部分,該願景的重點是創建能夠獨立執行用戶執行任務的自主系統。儘管可以辯論“代理”一詞,但Openai的產品負責人Olivier Godement將其視為可以與企業客戶互動的聊天機器人。

“我們將在接下來的幾個月中看到越來越多的代理商出現,” Godement在簡報中與TechCrunch分享。 “總體目標是協助客戶和開發人員利用有用,易於訪問和精確的代理商。”

Openai最新的文本到語音模型,稱為“ GPT-4O-Mini-TTS”,不僅旨在產生更多的壽命和細微差別的語音,而且還比其前任更適合適應。開發人員現在可以使用自然語言命令來指導模型,例如“像瘋狂的科學家說話”或“使用寧靜的聲音,就像正念老師一樣”。這種控制水平可以提供更個性化的語音體驗。

這是風化的聲音:

這是女性“專業”聲音的一個例子:

OpenAI產品團隊的成員Jeff Harris強調了TechCrunch,目的是使開發人員能夠自定義“體驗”和“上下文”。哈里斯解釋說:“在各種情況下,您不想要單調的聲音。” “例如,在一個客戶支持環境中,聲音需要為錯誤聲音道歉,您可以將這種情感注入聲音中。我們堅信開發人員和用戶不僅希望控制內容,而且要控制言論的方式。”

轉到Openai的新語音到文本產品,即GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”,這些模型設置為取代過時的耳語轉錄模型。他們經過各種高質量音頻數據的培訓,他們聲稱即使在嘈雜的環境中,也可以更好地處理強調和多樣化的語音。此外,這些模型不太容易出現“幻覺”,這個問題有時會發明單詞或整個段落,從而在成績單中增加種族評論或虛擬的醫療治療等不准確性。

哈里斯指出:“在這方面,這些模型比耳語顯示出顯著改善。” “確保模型的準確性對於可靠的語音體驗至關重要,並且通過精度,我們的意思是,模型正確捕獲了口語單詞而不添加未唱歌的內容。”

但是,性能可能因語言而異。 OpenAI的內部基準表明,GPT-4O-Transcribe(兩者中更精確)的“單詞錯誤率”接近AIND和Dravidian語言,例如泰米爾語,泰盧固語,馬拉雅拉姆語和卡納達語。這表明,每十個單詞中,大約有三個與這些語言的人類轉錄不同。

OpenAI轉錄結果

OpenAI轉錄基準測試的結果。圖片來源:Openai

在偏離他們通常的練習中,Openai不會免費提供這些新的轉錄模型。從歷史上看,他們根據MIT的商業用途發布了新的耳語版本。哈里斯指出,GPT-4O-Transcribe和GPT-4O-Mini-Transcribe明顯大於耳語,這使得它們不適合開放釋放。

哈里斯補充說:“這些型號太大了,無法像耳語一樣在典型的筆記本電腦上運行。” “當我們公開發布模型時,我們想進行周到的操作,以確保它們根據特定需求進行量身定制。我們將最終用戶設備視為開源型號的主要區域。”

更新了2025年3月20日,PT上午11:54,以闡明圍繞單詞錯誤率的語言,並使用更近期的版本更新基準結果圖表。

相關文章
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
評論 (30)
0/200
ThomasBaker
ThomasBaker 2025-04-12 08:00:00

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 2025-04-12 08:00:00

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 2025-04-11 08:00:00

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 2025-04-15 08:00:00

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 2025-04-10 08:00:00

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 2025-04-12 08:00:00

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

回到頂部
OR