Openai升級其轉錄和發聲的AI模型
OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。
Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」
OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。
以下是一個「真實犯罪風格」、滄桑語音的範例:
以下是一個女性「專業」語音的範例:
OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」
談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。
「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」
然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。

OpenAI 轉錄基準測試結果。圖片來源:OpenAI 與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。
「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」
2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。
相關文章
非營利組織利用 AI 代理提升慈善募款工作
當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時,一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗,展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1,以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力
來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案
ChatGPT 利用新的企業功能增強生產力OpenAI 發表了兩項強大的新功能,將 ChatGPT 轉型為全面的企業生產力工具:自動化會議記錄和無縫雲儲存整合。革命性的錄音功能新推出的 「記錄模式 」可自動轉錄和分析以下內容:重要的商務會議有創意的腦力激盪會議 個人思考過程此優質功能目前為 ChatGPT 團隊訂閱者專屬 (每位使用者每月 $25),可提供:精確、有時
評論 (32)
0/200
FrankMartínez
2025-08-19 16:01:39
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
0
BenHernández
2025-07-23 16:50:48
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
0
GeorgeTaylor
2025-04-21 03:57:07
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
0
GregoryAllen
2025-04-17 12:50:37
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
0
StevenAllen
2025-04-17 12:38:26
OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸
0
NicholasClark
2025-04-16 13:54:41
OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸
0
OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。
Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」
OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。
以下是一個「真實犯罪風格」、滄桑語音的範例:
以下是一個女性「專業」語音的範例:
OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」
談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。
「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」
然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。
與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。
「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」
2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。




The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎




Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔




Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸




OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸




OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸




OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸












