選項
首頁
新聞
Openai升級其轉錄和發聲的AI模型

Openai升級其轉錄和發聲的AI模型

2025-04-10
115

OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。

Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」

OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。

以下是一個「真實犯罪風格」、滄桑語音的範例:

以下是一個女性「專業」語音的範例:

OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」

談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。

「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」

然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。

OpenAI 轉錄結果

OpenAI 轉錄基準測試結果。圖片來源:OpenAI

與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。

「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」

2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。

相關文章
前OpenAI工程師分享公司文化與快速成長的見解 前OpenAI工程師分享公司文化與快速成長的見解 三週前,Calvin French-Owen,一位為OpenAI關鍵產品做出貢獻的工程師,離開了公司。他最近發表了一篇引人入勝的部落格文章,詳細描述了他在OpenAI一年的經歷,包括開發Codex的緊張努力,這是一個與Cursor和Anthropic的Claude Code競爭的編碼代理。French-Owen澄清,他的離職並非因內部衝突,而是源於他希望回歸創業生活。他之前共同創辦了Segment
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
評論 (31)
0/200
BenHernández
BenHernández 2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark
NicholasClark 2025-04-16 13:54:41

OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸

SamuelRoberts
SamuelRoberts 2025-04-16 05:24:36

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

回到頂部
OR