Modulate推出合奏聆聽模型，革新人工智慧語音理解技術

首頁

新聞

2026-02-20

JimmyHill

Modulate推出合奏聆聽模型，革新人工智慧語音理解技術

儘管人工智慧已取得顯著進展，但真正理解人類語言仍是一項重大挑戰。這不僅涉及文字轉錄，更需解讀潛藏的情緒、語調與節奏傳遞的意圖，以及區分善意調侃與真實挫敗、欺騙或惡意等微妙線索。今日，Modulate宣布其「集合式聆聽模型」（ELM）實現重大突破——這項專為現實語音理解設計的新型AI架構。

伴隨這項研究成果，Modulate同步推出全球首款搭載Ensemble Listening Model的實用系統——Velma 2.0。該公司宣稱Velma 2.0在對話準確度上超越頂尖基礎模型，同時大幅降低運算成本——此項主張極具說服力，正當企業日益審慎評估大規模AI部署的財務可行性之際。

語音技術對AI的挑戰

多數語音分析AI系統遵循標準流程：先將音訊轉為文字，再由大型語言模型解析轉錄內容。此方法雖適用於文字轉錄與摘要，卻剝離了口語溝通的豐富元素。

關鍵情境資訊——如語調、情緒變化、停頓、諷刺、對話重疊及背景噪音——在語音轉為純文字時盡數流失。這常導致意圖或情感的誤解。此問題在客服、詐欺偵測、線上遊戲及AI驅動通訊等領域尤為嚴峻，因細微差異正是精準決策的關鍵。

根據 Modulate 的研究，此缺陷源於架構限制而非數據匱乏。大型語言模型專注於預測文本，而非即時整合多重聲學與行為訊號。為彌補此缺口，研究人員開發了「集合式聆聽模型」。

何謂集合式聆聽模型？

集合式聆聽模型並非單一萬用神經網路，而是由多個專用模型協同運作的系統，各模型專責分析語音互動的不同面向。

在集合聆聽模型中，獨立模型分別評估情緒、壓力水平、欺騙跡象、說話者身份、時間點、語音模式、背景噪音，以及合成或模仿聲音的潛在使用。這些訊號透過時間對齊的協調層同步處理，從而生成對對話動態的統一且可解釋的理解。

這種刻意分工是ELM方法的核心。相較於依賴單一巨型模型隱含推導意義，Ensemble Listening Models整合多重精準視角，同時提升精確度與可解釋性。

Velma 2.0 核心架構

Velma 2.0 代表 Modulate 早期集合式系統的重大升級。其整合逾百個即時協同運作的元件模型，並分佈於五層分析架構中。

第一層處理基礎音訊處理，識別發言人數、語音時序與停頓。第二層提取聲學訊號，偵測情緒狀態、壓力水平、欺騙指標、合成語音特徵及環境噪音。

第三層評估感知意圖，區分真誠讚美與諷刺或敵意言論。行為建模則追蹤對話模式演變，標示挫折感、困惑、預製話術或社交工程企圖等徵兆。最終的對話分析層將這些發現轉化為商業相關事件——例如客戶不滿、政策違規、潛在詐欺或人工智慧代理失靈。

Modulate報告指出，Velma 2.0在對話意涵與意圖解讀的準確度上，較主流大型語言模型方法高出約30%，且在規模化應用時具備10至100倍的成本效益優勢。

從遊戲監管到企業智能

集合式聆聽模型源自Modulate早期在線上遊戲領域的探索。諸如《決勝時刻》與《俠盜獵車手線上版》等熱門遊戲，其語音環境具備極高挑戰性——對話節奏迅猛、雜訊紛雜、情緒張力強烈，且充斥俚語與情境化參考。

要即時區分嬉鬧玩笑與實際騷擾，所需能力遠超單純轉錄。在運營語音監管工具ToxMod的過程中，Modulate逐步構建出更精密的模型組合以捕捉這些微妙差異。協調數十種專用模型成為達成必要精準度的關鍵，最終促使團隊將此方法論正式化為全新架構框架。

Velma 2.0 將此架構應用拓展至遊戲領域之外，現已驅動 Modulate 企業級平台，分析橫跨各產業的數億次對話，用以偵測詐欺行為、惡意舉止、客戶不滿及異常人工智慧行為。

對基礎模型的挑戰

此項公告發布之際，正值眾多企業重新評估其人工智慧策略。儘管投入巨額資金，仍有大量人工智慧專案未能投入生產或持續創造價值。常見挑戰包括人工智慧幻覺、推論成本攀升、決策過程不透明，以及難以將人工智慧洞察整合至營運工作流程。

集合聆聽模型（ELMs）正面對此挑戰。透過採用多個小型專用模型取代單一巨型系統，ELMs不僅運行成本更低、稽核流程更簡化，且具備更高可解釋性。每個結果皆可追溯至特定訊號來源，使企業能清晰掌握決策推導過程。

此種透明度在受監管或高風險情境中尤為關鍵，因黑箱決策在此類環境中絕不可取。Modulate 強調集合式聆聽模型並非用以取代大型語言模型，而是作為企業級語音智能更合適的架構。

超越語音轉文字

Velma 2.0 最具前瞻性的功能之一，在於其能解析發言方式而非僅限文字內容。這包括識別合成或偽造聲音——隨著語音生成技術普及，此類威脅日益嚴峻。

隨著語音複製技術進步，企業面臨詐騙、身分偽造與社會工程攻擊的威脅日益加劇。Velma 2.0 將合成語音偵測直接整合至其集合模型中，將真實性視為核心訊號而非事後考量。

該系統的行為建模功能更能提供主動式洞察：無論是察覺對方照本宣科、情緒逐漸升溫，或互動走向衝突，皆能即時偵測。這些能力使企業得以更及時、更有效地介入處理。

企業人工智慧的新方向

Modulate將Ensemble聆聽模型定位為全新類別的AI架構，有別於傳統訊號處理管道與大型基礎模型。其核心理念在於：複雜人類互動應透過協調式專業化解碼，而非粗暴擴大規模。

當企業尋求具備可追溯性、高效能且貼合營運實況的人工智慧系統時，Ensemble聆聽模型預示著未來智能將由眾多專注組件共同建構。隨著Velma 2.0正式部署於實務環境，Modulate正押注此架構演進將突破語音監控與客戶支援的應用範疇。

在業界探索替代日益龐大且不透明系統的方案之際，Ensemble Listening Models 預示著人工智慧的下一次重大突破，或許來自更專注的聆聽能力，而非僅是更強大的運算能力。

AI 瀏覽器 Comet 正式上線，在 iPad 上全面支援多工處理 Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本，現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援，並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合，帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式，提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型，以進

Trace籌集了300萬美元，用於解決企業採用AI智慧助手時所遇到的各種障礙。儘管人工智慧代理具有巨大潛力，但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為，根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業，它作為Y Combinator 2025年夏季培訓專案的一部分誕生，旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程，為人工智慧代理提供所需的上下文資訊，從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生，企業完全可以利用這些資源，”Trace的執行長Tim Cherkasov解釋

Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能 Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上，該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能，讓使用者能針對收件匣內容提出問題，而非僅依賴搜尋關鍵字。據 Google 表示，這項由 Gemini AI 驅動的工具名為「Gmail Live」，能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源：Google舉例來說，您可能需要查詢即將

相關專題推薦

商業