Openai升級其轉錄和發聲的AI模型

首頁

新聞

Openai升級其轉錄和發聲的AI模型

2025-04-10

CharlesWhite

146

# openai # api

OpenAI 正在透過其 API 推出新的 AI 模型，用於轉錄和語音生成，承諾相較於早期版本有顯著改進。這些更新是 OpenAI 更大「代理」願景的一部分，專注於創建能夠獨立為使用者執行任務的自主系統。雖然「代理」一詞可能引發爭議，但 OpenAI 產品負責人 Olivier Godement 將其視為能與企業客戶互動的聊天機器人。

Godement 在接受 TechCrunch 簡報時表示：「未來幾個月，我們將看到越來越多的代理出現。總體目標是協助客戶和開發者使用有用、易於存取且精確的代理。」

OpenAI 最新的文字轉語音模型，名為「gpt-4o-mini-tts」，不僅旨在生成更逼真且細膩的語音，還比前代模型更具適應性。開發者現在可以使用自然語言指令引導模型，例如「像瘋狂科學家一樣說話」或「使用平靜的語音，如冥想導師」。這種控制程度能提供更個人化的語音體驗。

以下是一個「真實犯罪風格」、滄桑語音的範例：

以下是一個女性「專業」語音的範例：

OpenAI 產品團隊成員 Jeff Harris 向 TechCrunch 強調，目標是讓開發者能夠自訂語音「體驗」和「情境」。「在不同場景中，你不希望語音單調，」Harris 解釋道。「例如，在客戶服務場景中，語音需要為錯誤表達歉意，你可以將這種情感融入語音。我們堅信，開發者和使用者不僅想控制內容，還想控制說話方式。」

談到 OpenAI 的新語音轉文字產品「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」，這些模型將取代過時的 Whisper 轉錄模型。它們接受了多樣化的高品質音訊數據訓練，據稱能更好地處理帶口音和多樣化的語音，即使在嘈雜環境中也是如此。此外，這些模型較不易出現「幻覺」，即 Whisper 有時會自行編造單詞或整段內容，導致轉錄中出現不準確的種族評論或虛構醫療治療等問題。

「在這方面，這些模型比 Whisper 有顯著改進，」Harris 指出。「確保模型準確性對於可靠的語音體驗至關重要，所謂準確性，我們指的是模型能正確捕捉說出的詞語，而不添加未說出的內容。」

然而，性能可能因語言而異。OpenAI 的內部基準顯示，兩者中較精確的 gpt-4o-transcribe 在印度和德拉威語言（如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語）的「詞錯率」接近 30%。這意味著在這些語言中，每十個詞中大約有三個可能與人工轉錄不同。

OpenAI 轉錄結果

OpenAI 轉錄基準測試結果。圖片來源：OpenAI

與以往慣例不同，OpenAI 不會免費提供這些新轉錄模型。過去，他們以 MIT 許可證發布新版 Whisper，供商業使用。Harris 指出，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 比 Whisper 大得多，不適合公開發布。

「這些模型太大，無法像 Whisper 那樣在普通筆記型電腦上運行，」Harris 補充道。「當我們公開發布模型時，我們希望謹慎行事，確保它們針對特定需求進行優化。我們認為終端使用者設備是開源模型的主要應用領域。」

2025 年 3 月 20 日上午 11:54（太平洋時間）更新，以澄清詞錯率的語言表述，並更新基準測試結果圖表為更近期版本。

非營利組織利用 AI 代理提升慈善募款工作當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時，一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗，展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1，以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等

頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員，史無前例地展現團結，擱置競爭分歧，就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文，強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前，以人類可讀的語言闡明推理過程的新

ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案 ChatGPT 利用新的企業功能增強生產力OpenAI 發表了兩項強大的新功能，將 ChatGPT 轉型為全面的企業生產力工具：自動化會議記錄和無縫雲儲存整合。革命性的錄音功能新推出的「記錄模式」可自動轉錄和分析以下內容：重要的商務會議有創意的腦力激盪會議個人思考過程此優質功能目前為 ChatGPT 團隊訂閱者專屬 (每位使用者每月 $25)，可提供：精確、有時

評論 (32)

0/200

提交

FrankMartínez

2025-08-19 16:01:39

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández

2025-07-23 16:50:48

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

2025-04-21 03:57:07

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

2025-04-17 12:50:37

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

2025-04-17 12:38:26

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark

2025-04-16 13:54:41

OpenAIの新しい音声認識と音声生成モデルは革命的です！ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります！🎙️💸

頭號新聞

Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 2025頂級AI影片生成器：Pika Labs與其他對比 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐 AI語音克隆：掌握語音轉換的終極指南

精選