人工智慧心理健康工具意外發現有效深度偽造檢測技術

隨著科技巨頭OpenAI於2025年9月推出旗艦級Sora 2影音生成模型,深度偽造影片已席捲社群媒體,使觀眾對潛在危害性的超寫實內容日漸習以為常。
儘管OpenAI強調將負責任地部署Sora 2作為核心目標——承諾提供用戶「管理資訊流內容的工具與選擇權」,並確保用戶對自身肖像擁有完全控制權——但2025年10月的研究顯示,該模型生成誤導性影片的比率高達80%。
從偽造摩爾多瓦選舉官員銷毀選票的假新聞片段,到虛構幼兒遭移民當局拘留的影像,乃至可口可樂發言人宣布公司將不贊助超級盃的偽造畫面,在這個高度互聯的世界中,虛假資訊的危害性已達空前高峰。
超越Sora:語音詐騙的崛起
早在OpenAI工具問世前,深度偽造內容的創作與傳播便已加速。網路安全公司DeepStrike於2025年9月發布的報告指出,此類內容從2023年的50萬起激增至2025年的800萬起,其中多數用於詐騙。
此趨勢未見緩解跡象;美國AI相關詐騙案預計將於2027年達到400億美元規模。
不僅數量激增,隨著Sora 2與Google Veo 3等工具問世,AI生成人臉、聲音及全身表演的逼真度更達前所未見。電腦科學家暨深度偽造專家呂思偉指出,現行模型能生成穩定無失真的面部影像,而聲音複製技術已達「難以辨別」的境界。
現實情況是,深度偽造技術的演進速度遠超檢測手段。科技公司主打的娛樂工具——用於創作奧運體操動作或豐富音頻背景——正被犯罪分子用於針對企業與個體的詐騙。僅2025年上半年,深度偽造詐騙就造成企業損失3.56億美元,個人損失達5.41億美元。
傳統的深度偽造檢測技術——如檢查水印、修圖痕跡及元數據——已顯力不從心。與此同時,語音深度偽造躍居第二大常見AI詐騙手段,2025年語音釣魚攻擊激增442%,影響範圍極廣。
呂博士指出:「如今僅需數秒音頻,便能生成具備自然語調、節奏、重音、情感、停頓甚至呼吸聲的逼真克隆人。」
傾聽人類之聲
健康科技新創公司Kintsugi開發人工智慧語音生物標記技術,用以識別臨床憂鬱與焦慮徵兆。其研究源於一個簡單理念:我們需要真正傾聽人們的心聲。
「創立金繼的契機源於親身經歷。當時我耗費近五個月反覆致電醫療機構,僅為預約首次治療,卻無人回電。我持續嘗試——但當時就想著:若是父親或兄弟遭遇此境,恐怕早已放棄。」執行長張玉琪向Unite.AI透露。
這家加州公司於2019年成立,旨在解決張所稱的「分流瓶頸」。她認為早期被動檢測病情嚴重程度,能幫助人們更快獲得適當治療。透過Kintsugi Voice技術,聲音生物標記可協助識別臨床抑鬱與焦慮症狀。
多項研究支持運用人工智慧驅動的語音分析作為心理健康生物標記。例如2025年5月發表的論文指出,聲學生物標記能偵測心理健康問題與神經差異的早期徵兆,並倡導在臨床環境中運用歌唱分析評估潛在認知衰退。
根據美國精神醫學會數據,語音分析技術在78%至96%的案例中能精準區分抑鬱症患者與非患者。另一項研究採用一分鐘詞彙流暢度測試(受試者需盡可能列舉特定類別詞彙),在偵測抑鬱與焦慮共病症例時,準確率達70%至83%。
為評估心理健康狀態,Kintsugi僅需收集簡短語音樣本。其聲紋生物標記技術能解析音高、語調、聲線及停頓等特徵——這些特徵與憂鬱症、焦慮症、躁鬱症及失智症密切相關。
張博士未曾預料的是,這項技術同時解決了安全領域的關鍵難題:精準辨識聲音是否真正源自人類。
從心理健康到網路安全
2025年末於紐約峰會期間,張女士向一位資安領域的朋友提及,其團隊對合成語音的測試成效不彰。
「我們試圖運用合成數據強化心理健康模型的訓練,但生成的聲音與真人語音差異過大,幾乎每次都能被識破,」她解釋道。
「他突然打斷我說:『葛蕾絲——這是資安領域的未解難題。』當下所有線索瞬間串聯起來。此後與資安、金融及電信企業的討論中,我們發現深度偽造語音攻擊正急速擴散——在即時通話中區分真人與合成聲音至關重要。」這位執行長補充道。
去年四月,聯邦調查局曾警示公眾:有惡意簡訊與語音詐騙活動假冒美國高階官員,鎖定前政府雇員及其聯絡人。美國主要銀行平均每日遭遇5.5次語音詐騙企圖,范德堡大學醫學中心員工更通報遭遇冒充友人、主管及同事的語音釣魚攻擊。
最初,深度偽造技術並非Kintsugi的關注重點。儘管團隊運用Cartesia、Sesame及ElevenLabs等模型為客服人員與工作流程模擬合成語音,但在充斥著Sora等普及工具的市場中,深度偽造詐騙並非優先考量。
然而,確認語音真實性的線索正是定義人類言語的生物標記。無論語言或內容為何,Kintsugi Voice皆透過分析訊號處理與物理發聲延遲,捕捉微妙的時序變化、韻律變化、認知負荷及生理特徵——著重於言語的形成過程,而非內容本身。
「合成語音雖流暢,卻缺乏生物與認知層面的細微差異,」張博士指出。該公司模型檢測準確率位居前10%,僅需3至5秒音訊即可判別。
金繼的創新技術為心理健康困境者帶來希望,尤其在難以獲得專業照護的地區。其技術同樣能革新深度偽造檢測與網路安全領域——透過驗證真實性而非識別偽造內容。
以人為本的技術作為未來
傳統網路安全聚焦於惡意用途或攻擊者。然而金繼的突破性進展,卻奠基於人性本質本身。
「我們開闢了全新戰場:人類真實性。大型語言模型無法穩定識別自身產出內容,而基於人工製品的技術又過於脆弱。蒐集涵蓋真實人類變異的大型臨床註解數據集成本高昂、進度緩慢,更超出多數安全公司的專業範疇——這使我們的技術難以被複製。」張解釋道。
這家新創公司的策略也指向更廣泛的轉變:跨產業創新。醫療保健領域的領導者可開創基於人工智慧的語音詐騙偵測技術,正如太空科技創新者可能協助緊急應變系統,或遊戲架構可能影響都市規劃。
至於張女士,她致力於建立透過語音互動確認真實人類存在——最終確認真實意圖——的標準。
「正如HTTPS成為網路信任標準,我們相信『人類存在驗證』將成為語音系統的必要環節。訊號處理正是此框架的起點。」她如是說。
隨著生成式人工智慧的進步,最強大的防護或許來自於理解何謂真正的「人性」。
相關文章
螞蟻集團推出開源版 Ling-2.6-flash,為 Baoling 模型系列增添新成員
螞蟻集團的「寶靈」大型模型系列今日迎來重大更新,Ling-2.6-flash現已正式向全球開發者開放。為適應不同的硬體環境並降低部署門檻,該模型同時推出了包含 BF16、FP8 和 INT4 在內的多種精度版本,為開發者提供更靈活的推論選項。作為一款擁有 1040 億總參數與 74 億激活參數的 Instruct 模型,Ling-2.6-flash先前曾以「Elephant Alpha」的代號在
Conntour 從 General Catalyst 和 YC 獲得 700 萬美元資金,用於開發人工智慧驅動的監控影像搜尋技術
監控技術產業目前正受到密切關注,但原因卻並非令人樂見。 隨著美國移民及海關執法局據報曾存取 Flock 的攝影機網路進行監控,以及家用攝影機製造商 Ring 因開發允許執法機關向屋主索取鄰里影像的功能而面臨批評,相關爭議隨之爆發。這些發展已引發關於安全、隱私及監控倫理的廣泛辯論。然而,爭議並未削弱市場需求。視覺語言模型的持續進步,正推動著那些協助企業更有效管理場地的公司持續成長。視訊監控新創公司
蘋果首款 AI 硬體曝光:配備相機的 AirPods 進入 DVT 階段
蘋果在人工智慧硬體領域的野心正逐漸明朗。 知名科技記者馬克·古爾曼(Mark Gurman)報導指出,眾所期待的內建相機 AirPods 已進入關鍵的最終開發階段:設計驗證測試(DVT)。這意味著產品的工業設計與核心功能已大致定案,使這款耳機成為蘋果首款真正的 AI 穿戴式裝置。並非用於拍照:相機是 Siri 的「眼睛」儘管許多人可能有所誤解,但嵌入這些 AirPods 中的低解析度相機並非用於日
相關專題推薦
評論 (1)
0/500

隨著科技巨頭OpenAI於2025年9月推出旗艦級Sora 2影音生成模型,深度偽造影片已席捲社群媒體,使觀眾對潛在危害性的超寫實內容日漸習以為常。
儘管OpenAI強調將負責任地部署Sora 2作為核心目標——承諾提供用戶「管理資訊流內容的工具與選擇權」,並確保用戶對自身肖像擁有完全控制權——但2025年10月的研究顯示,該模型生成誤導性影片的比率高達80%。
從偽造摩爾多瓦選舉官員銷毀選票的假新聞片段,到虛構幼兒遭移民當局拘留的影像,乃至可口可樂發言人宣布公司將不贊助超級盃的偽造畫面,在這個高度互聯的世界中,虛假資訊的危害性已達空前高峰。
超越Sora:語音詐騙的崛起
早在OpenAI工具問世前,深度偽造內容的創作與傳播便已加速。網路安全公司DeepStrike於2025年9月發布的報告指出,此類內容從2023年的50萬起激增至2025年的800萬起,其中多數用於詐騙。
此趨勢未見緩解跡象;美國AI相關詐騙案預計將於2027年達到400億美元規模。
不僅數量激增,隨著Sora 2與Google Veo 3等工具問世,AI生成人臉、聲音及全身表演的逼真度更達前所未見。電腦科學家暨深度偽造專家呂思偉指出,現行模型能生成穩定無失真的面部影像,而聲音複製技術已達「難以辨別」的境界。
現實情況是,深度偽造技術的演進速度遠超檢測手段。科技公司主打的娛樂工具——用於創作奧運體操動作或豐富音頻背景——正被犯罪分子用於針對企業與個體的詐騙。僅2025年上半年,深度偽造詐騙就造成企業損失3.56億美元,個人損失達5.41億美元。
傳統的深度偽造檢測技術——如檢查水印、修圖痕跡及元數據——已顯力不從心。與此同時,語音深度偽造躍居第二大常見AI詐騙手段,2025年語音釣魚攻擊激增442%,影響範圍極廣。
呂博士指出:「如今僅需數秒音頻,便能生成具備自然語調、節奏、重音、情感、停頓甚至呼吸聲的逼真克隆人。」
傾聽人類之聲
健康科技新創公司Kintsugi開發人工智慧語音生物標記技術,用以識別臨床憂鬱與焦慮徵兆。其研究源於一個簡單理念:我們需要真正傾聽人們的心聲。
「創立金繼的契機源於親身經歷。當時我耗費近五個月反覆致電醫療機構,僅為預約首次治療,卻無人回電。我持續嘗試——但當時就想著:若是父親或兄弟遭遇此境,恐怕早已放棄。」執行長張玉琪向Unite.AI透露。
這家加州公司於2019年成立,旨在解決張所稱的「分流瓶頸」。她認為早期被動檢測病情嚴重程度,能幫助人們更快獲得適當治療。透過Kintsugi Voice技術,聲音生物標記可協助識別臨床抑鬱與焦慮症狀。
多項研究支持運用人工智慧驅動的語音分析作為心理健康生物標記。例如2025年5月發表的論文指出,聲學生物標記能偵測心理健康問題與神經差異的早期徵兆,並倡導在臨床環境中運用歌唱分析評估潛在認知衰退。
根據美國精神醫學會數據,語音分析技術在78%至96%的案例中能精準區分抑鬱症患者與非患者。另一項研究採用一分鐘詞彙流暢度測試(受試者需盡可能列舉特定類別詞彙),在偵測抑鬱與焦慮共病症例時,準確率達70%至83%。
為評估心理健康狀態,Kintsugi僅需收集簡短語音樣本。其聲紋生物標記技術能解析音高、語調、聲線及停頓等特徵——這些特徵與憂鬱症、焦慮症、躁鬱症及失智症密切相關。
張博士未曾預料的是,這項技術同時解決了安全領域的關鍵難題:精準辨識聲音是否真正源自人類。
從心理健康到網路安全
2025年末於紐約峰會期間,張女士向一位資安領域的朋友提及,其團隊對合成語音的測試成效不彰。
「我們試圖運用合成數據強化心理健康模型的訓練,但生成的聲音與真人語音差異過大,幾乎每次都能被識破,」她解釋道。
「他突然打斷我說:『葛蕾絲——這是資安領域的未解難題。』當下所有線索瞬間串聯起來。此後與資安、金融及電信企業的討論中,我們發現深度偽造語音攻擊正急速擴散——在即時通話中區分真人與合成聲音至關重要。」這位執行長補充道。
去年四月,聯邦調查局曾警示公眾:有惡意簡訊與語音詐騙活動假冒美國高階官員,鎖定前政府雇員及其聯絡人。美國主要銀行平均每日遭遇5.5次語音詐騙企圖,范德堡大學醫學中心員工更通報遭遇冒充友人、主管及同事的語音釣魚攻擊。
最初,深度偽造技術並非Kintsugi的關注重點。儘管團隊運用Cartesia、Sesame及ElevenLabs等模型為客服人員與工作流程模擬合成語音,但在充斥著Sora等普及工具的市場中,深度偽造詐騙並非優先考量。
然而,確認語音真實性的線索正是定義人類言語的生物標記。無論語言或內容為何,Kintsugi Voice皆透過分析訊號處理與物理發聲延遲,捕捉微妙的時序變化、韻律變化、認知負荷及生理特徵——著重於言語的形成過程,而非內容本身。
「合成語音雖流暢,卻缺乏生物與認知層面的細微差異,」張博士指出。該公司模型檢測準確率位居前10%,僅需3至5秒音訊即可判別。
金繼的創新技術為心理健康困境者帶來希望,尤其在難以獲得專業照護的地區。其技術同樣能革新深度偽造檢測與網路安全領域——透過驗證真實性而非識別偽造內容。
以人為本的技術作為未來
傳統網路安全聚焦於惡意用途或攻擊者。然而金繼的突破性進展,卻奠基於人性本質本身。
「我們開闢了全新戰場:人類真實性。大型語言模型無法穩定識別自身產出內容,而基於人工製品的技術又過於脆弱。蒐集涵蓋真實人類變異的大型臨床註解數據集成本高昂、進度緩慢,更超出多數安全公司的專業範疇——這使我們的技術難以被複製。」張解釋道。
這家新創公司的策略也指向更廣泛的轉變:跨產業創新。醫療保健領域的領導者可開創基於人工智慧的語音詐騙偵測技術,正如太空科技創新者可能協助緊急應變系統,或遊戲架構可能影響都市規劃。
至於張女士,她致力於建立透過語音互動確認真實人類存在——最終確認真實意圖——的標準。
「正如HTTPS成為網路信任標準,我們相信『人類存在驗證』將成為語音系統的必要環節。訊號處理正是此框架的起點。」她如是說。
隨著生成式人工智慧的進步,最強大的防護或許來自於理解何謂真正的「人性」。
螞蟻集團推出開源版 Ling-2.6-flash,為 Baoling 模型系列增添新成員
螞蟻集團的「寶靈」大型模型系列今日迎來重大更新,Ling-2.6-flash現已正式向全球開發者開放。為適應不同的硬體環境並降低部署門檻,該模型同時推出了包含 BF16、FP8 和 INT4 在內的多種精度版本,為開發者提供更靈活的推論選項。作為一款擁有 1040 億總參數與 74 億激活參數的 Instruct 模型,Ling-2.6-flash先前曾以「Elephant Alpha」的代號在
Conntour 從 General Catalyst 和 YC 獲得 700 萬美元資金,用於開發人工智慧驅動的監控影像搜尋技術
監控技術產業目前正受到密切關注,但原因卻並非令人樂見。 隨著美國移民及海關執法局據報曾存取 Flock 的攝影機網路進行監控,以及家用攝影機製造商 Ring 因開發允許執法機關向屋主索取鄰里影像的功能而面臨批評,相關爭議隨之爆發。這些發展已引發關於安全、隱私及監控倫理的廣泛辯論。然而,爭議並未削弱市場需求。視覺語言模型的持續進步,正推動著那些協助企業更有效管理場地的公司持續成長。視訊監控新創公司
蘋果首款 AI 硬體曝光:配備相機的 AirPods 進入 DVT 階段
蘋果在人工智慧硬體領域的野心正逐漸明朗。 知名科技記者馬克·古爾曼(Mark Gurman)報導指出,眾所期待的內建相機 AirPods 已進入關鍵的最終開發階段:設計驗證測試(DVT)。這意味著產品的工業設計與核心功能已大致定案,使這款耳機成為蘋果首款真正的 AI 穿戴式裝置。並非用於拍照:相機是 Siri 的「眼睛」儘管許多人可能有所誤解,但嵌入這些 AirPods 中的低解析度相機並非用於日





首頁






