選項
首頁
新聞
Openai升級其轉錄和發聲的AI模型

Openai升級其轉錄和發聲的AI模型

2025-04-10
227

OpenAI 正在透過其 API 推出新的 AI 模型,用於轉錄和語音生成,承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分,專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議,但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。

Godement 在接受 TechCrunch 簡報時表示:「未來幾個月,我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」

OpenAI 最新的文字轉語音模型,名為「gpt-4o-mini-tts」,不僅旨在生成更逼真且細膩的語音,還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型,例如「像瘋狂科學家一樣說話」或「使用平靜的語音,如冥想導師」。這種控制程度能提供更個人化的語音體驗。

以下是一個「真實犯罪風格」、滄桑語音的範例:

以下是一個女性「專業」語音的範例:

OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調,目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中,你不希望語音單調,」Harris 解釋道。「例如,在客戶服務場景中,語音需要為錯誤表達歉意,你可以將這種情感融入語音。我們堅信,開發者和使用者不僅想控制內容,還想控制說話方式。」

談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練,據稱能更好地處理帶口音和多樣化的語音,即使在嘈雜環境中也是如此。此外,這些模型較不易出現「幻覺」,即 Whisper 有時會自行編造單詞或整段內容,導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。

「在這方面,這些模型比 Whisper 有顯著改進,」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要,所謂準確性,我們指的是模型能正確捕捉說出的詞語,而不添加未說出的內容。」

然而,性能可能因語言而異。OpenAI 的內部基準顯示,兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)的「詞錯率」接近 30%。這意味著在這些語言中,每十個詞中大約有三個可能與人工轉錄不同。

OpenAI 轉錄結果

OpenAI 轉錄基準測試結果。圖片來源:OpenAI

與以往慣例不同,OpenAI 不會免費提供這些新轉錄模型。過去,他們以 MIT 許可證發布新版 Whisper,供商業使用。Harris 指出,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多,不適合公開發布。

「這些模型太大,無法像 Whisper 那樣在普通筆記型電腦上運行,」Harris 補充道。「當我們公開發布模型時,我們希望謹慎行事,確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」

2025 年 3 月 20 日上午 11:54(太平洋時間)更新,以澄清詞錯率的語言表述,並更新基準測試結果圖表為更近期版本。

相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係 薩提亞·納德拉準備利用與OpenAI的新合作關係 週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
寫作 頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點
頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點

探索 2026 年最優秀的 AI 角色設定生成工具,打造立體鮮明的角色。XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具能生成一貫的動機與致命缺陷。透過實際測試,比較免費與付費選項的差異。立即釋放您的說故事潛能。

10 個工具
xix.ai
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
評論 (33)
0/500
LeviKing
LeviKing 2025-12-23 08:30:38

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez
FrankMartínez 2025-08-19 16:01:39

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

OR