Mistral 推出開源語音生成模型

首頁

新聞

Mistral 推出開源語音生成模型

2026-06-03

TerryGonzález

# voice AI # Mistral AI # ElevenLabs # text to speech

法國人工智慧公司 Mistral 於週四推出一款全新的開源文字轉語音模型，專為語音 AI 助理及客戶支援等企業應用而設計。該模型使企業能夠開發用於銷售和客戶互動的語音代理，使 Mistral 成為 ElevenLabs、Deepgram 和 OpenAI 的直接競爭對手。

這款名為 Voxtral TTS 的模型支援九種語言，包括英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、義大利語、印地語和阿拉伯語。

「我們的客戶一直都在尋求語音模型。因此，我們開發了一款體積小巧的語音模型，能夠運行於智慧手錶、智慧型手機、筆記型電腦或其他邊緣裝置上。其成本僅為市場上其他產品的零頭，卻能提供最先進的性能，」Mistral AI 科學運營副總裁 Pierre Stock 在接受 TechCrunch 電話採訪時表示。

圖片來源：Mistral

Mistral 表示，這款新模型只需不到五秒的語音樣本，就能適應特定使用者的聲音，並能捕捉細微的口音、語調變化、語氣以及語流中的不規則性。該模型基於 Mistral 3B 建構，能在保持語音特徵的同時流暢地切換語言，使其非常適合用於配音或即時翻譯。Stock 指出，公司的目標是讓模型聽起來像真人，而非機器人。

據該公司表示，此模型專為即時表現而設計。其「首次發聲時間」（TTFA）——即從接收輸入到開始「說話」所需的時間——針對 10 秒、500 字元的樣本，僅需 90 毫秒。該模型還達到了 6 倍的即時係數（RTF），這意味著它大約只需 1.6 秒即可生成 10 秒的音頻片段。

圖片來源：Mistral AI

今年稍早，Mistral 推出了兩款轉錄模型——一款用於大規模批次處理，另一款則針對低延遲的即時應用場景。隨著這款新語音模型的推出，該公司似乎正致力於為企業打造一套全面的語音產品組合。

Stock 補充道：「我們計劃打造一個端到端的平台，能夠處理多模態輸入流——包括音訊、文字和圖像——以及輸出。其關鍵優勢在於，支援音訊輸入與輸出的端到端代理系統能提供更豐富的信息。」

Mistral 將其開源特性與客製化能力視為關鍵差異化優勢，讓企業能根據自身特定需求調整模型，因此相較於競爭對手的解決方案更具吸引力。

Spotify 推出由 ElevenLabs 技術驅動的人工智慧有聲書創作工具作為最新公告的一部分，Spotify 推出了一款由 ElevenLabs 提供技術支援的新 AI 工具，讓作者能直接透過「Spotify for Authors」平台自行發行有聲書。在「投資者日」活動中，該公司確認這項功能將於六月進入測試階段，初期僅限受邀者使用，且僅支援英文。使用這項 AI 驅動的有聲書創作工具的作者無需簽署獨家協議，因此他們可以將生成的有聲書發行至任何平台。此項公告是基於 Sp

頂尖 AI 語音輸入應用程式：專家評測與排行榜 AI 語音輸入應用程式在相對短的時間內取得了顯著進展。長期以來，這些應用程式反應遲緩且容易出錯，要求使用者必須以特定口音清晰地發音。隨著大型語言模型（LLMs）與語音轉文字技術的進步，這種情況已然改變，如今的系統不僅能更精準地理解語音，還能運用語境來正確格式化文字。開發者已整合多項功能，可自動刪除口頭語、修正口誤並管理標點符號，產出的文字幾乎無需編輯。鑑於現今選擇眾多，我們整理了一份您現在即可使用

儘管面臨挑戰，Wispr Flow 仍看好語音 AI 在印度的未來印度的數位生態系與語音技術緊密交織，從語音備忘錄到多語言訊息傳遞皆然。鑑於該國語言的多樣性、切換語言的慣例，以及各異的變現潛力，要將這些普遍的習慣轉化為可擴展的 AI 業務，面臨著巨大的挑戰。Wispr Flow 正積極定位自身，以把握這個複雜卻充滿前景的商機。這家總部位於灣區、專注開發 AI 驅動語音輸入軟體的新創公司表示，印度現已成為其成長最快的市場。即使該地區的語音 AI 產品仍處於早期階段

相關專題推薦

商業