Openai升級其轉錄和發聲的AI模型
OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。
Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」
OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。
以下是一個「真實犯罪風格」、滄桑語音的範例:
以下是一個女性「專業」語音的範例:
OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」
談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。
「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」
然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。

OpenAI 轉錄基準測試結果。圖片來源:OpenAI 與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。
「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」
2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (33)
0/500
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。
Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」
OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。
以下是一個「真實犯罪風格」、滄桑語音的範例:
以下是一個女性「專業」語音的範例:
OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」
談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。
「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」
然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。

與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。
「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」
2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸





首頁






