人工智能心理健康工具意外发现有效深度伪造检测方法

随着科技巨头OpenAI于2025年9月发布其旗舰产品Sora 2视频音频生成模型,深度伪造视频已席卷社交媒体,使观众对潜在有害的超现实内容日益习以为常。
尽管OpenAI强调将负责任地部署Sora 2作为核心目标——承诺为用户提供"管理信息流内容的工具与选择"并确保其肖像权的完全控制权——但2025年10月的研究显示该模型80%的时间都在生成误导性视频。
从伪造摩尔多瓦选举官员销毁选票的新闻片段,到虚构幼儿遭移民当局拘留的影像,乃至可口可乐发言人宣布公司将不赞助超级碗的假新闻——在这个互联世界中,虚假信息的危害性已达到空前程度。
超越Sora:语音钓鱼的崛起
早在OpenAI工具问世前,深度伪造内容的制造与传播已呈加速态势。网络安全公司DeepStrike的2025年9月报告指出,此类内容从2023年的50万例激增至2025年的800万例,其中大量用于诈骗。
这一趋势未见减缓迹象:美国AI相关欺诈案预计到2027年将造成400亿美元损失。
增长不仅体现在数量上。得益于Sora 2和谷歌Veo 3等工具,AI生成的面部、声音及全身表演效果比以往更具说服力。计算机科学家兼深度伪造专家吕思伟指出,当前模型能生成稳定无失真的面部图像,而声音克隆技术已达到"难以辨别"的水平。
现实情况是,深度伪造技术的演进速度远超检测手段。科技公司宣传的奥运体操动作创作工具或丰富音频背景功能,正被犯罪分子用于针对企业和个人的诈骗。仅2025年上半年,深度伪造诈骗就造成企业损失3.56亿美元,个人损失5.41亿美元。
传统深度伪造检测手段——如检查水印、修饰过的面部及元数据——已显力不从心。与此同时,语音深度伪造已成为第二大常见的人工智能欺诈手段,2025年语音钓鱼攻击激增442%,其影响已遍及各领域。
吕博士指出:"如今仅需几秒钟的音频,就能生成具有自然语调、节奏、重音、情感、停顿甚至呼吸声的逼真克隆体。"
倾听人类声音
健康科技初创企业Kintsugi开发了基于人工智能的语音生物标志物技术,用于识别临床抑郁和焦虑的征兆。他们的研究始于一个简单理念:我们需要真正倾听人们的声音。
"创立Kintsugi源于亲身经历。我耗费近五个月反复致电医疗机构才预约上首次治疗,期间无人回电。我坚持尝试——但当时就意识到,若是父亲或兄弟遭遇此境,他们早就会放弃了。"首席执行官Grace Chang向Unite.AI透露。
这家加州公司于2019年成立,旨在解决张所说的"分诊瓶颈"。她认为通过早期被动检测病情严重程度,能更快引导患者获得适当治疗。Kintsugi Voice技术利用语音生物标志物识别临床抑郁和焦虑症状。
多项研究证实人工智能语音分析可作为心理健康生物标志物。例如2025年5月发表的论文表明,声学生物标志物能识别心理健康问题及神经多样性的早期征兆,并倡导在临床环境中运用歌唱分析评估潜在认知衰退。
美国精神病学协会数据显示,语音分析技术对抑郁症患者的识别准确率达78%至96%。另有研究采用一分钟语言流畅性测试(要求受试者尽可能多地列举某类词汇),在检测抑郁与焦虑共病方面的准确率达到70%至83%。
为评估心理健康状况,Kintsugi仅需采集简短语音样本。其声学生物标记技术通过分析音高、语调、声线及停顿等特征——这些特征与抑郁症、焦虑症、双相情感障碍及痴呆症密切相关。
张博士未曾预料的是,这项技术还解决了安全领域的一个关键难题:精准识别声音是否真正源自人类。
从心理健康到网络安全
2025年末纽约峰会期间,张女士向一位网络安全界的朋友提及,其团队对合成语音的测试效果令人失望。
"我们尝试用合成数据增强心理健康模型的训练,但生成的声音与真人语音差异巨大,几乎每次都能被识破,"她解释道。
"他突然打断我说:'格蕾丝——这可是安全领域未解的难题。'那一刻我豁然开朗。此后与安全、金融、电信企业的交流中,我们发现深度伪造语音攻击正呈爆发式增长——在实时通话中区分真人与合成声音至关重要。"这位CEO补充道。
去年四月,联邦调查局曾警示公众:有不法分子冒充美国高官,针对前政府雇员及其联系人实施恶意短信和语音诈骗。美国大型银行平均每天遭遇5.5次语音欺诈企图,范德堡大学医学中心员工也报告遭遇冒充朋友、上司和同事的语音钓鱼攻击。
最初,深度伪造技术并非Kintsugi的关注重点。尽管团队使用Cartesia、Sesame和ElevenLabs等模型为呼叫中心代理和工作流程模拟合成语音,但在充斥着Sora等易用工具的市场中,深度伪造欺诈并非优先事项。
然而,验证语音真实性的关键线索恰是定义人类语言的生物标志物。无论语言或语义如何,Kintsugi Voice通过分析信号处理与物理发声延迟,捕捉微妙的时间差、韵律变化、认知负荷及生理特征——关注发声机制而非内容本身。
"合成语音或许流畅,却缺乏生物与认知层面的细微差别,"Chang指出。该公司的模型检测准确率位列前10%,仅需3至5秒音频即可完成识别。
金继创新技术为心理健康困境群体带来希望,尤其在专业医疗资源匮乏地区。该技术还能通过验证真实性而非识别伪造内容,彻底改变深度伪造检测与网络安全领域。
以人为本的技术展望
传统网络安全聚焦恶意用途或攻击者。而金继的突破性创新却立足于人性本质。
"我们开辟了全新领域:人类真实性验证。大型语言模型无法稳定识别自身生成的内容,而基于特征的技术又脆弱不堪。收集涵盖真实人类差异的大型临床标注数据集成本高昂、耗时漫长,更超出多数安全公司的专业能力——这使得我们的方法难以被复制,"张解释道。
该初创企业的战略还指向更广泛的变革趋势:跨行业创新。医疗领域的领军者可率先开发基于AI的语音钓鱼检测技术,正如航天科技创新者可能助力应急响应系统,游戏架构设计或将影响城市规划。
至于张女士,她致力于通过语音交互确立验证真实人类存在——进而验证真实意图——的行业标准。
"正如HTTPS成为网络信任基准,我们相信'人类存在证明'将成为语音系统的核心要素。信号处理正是构建该框架的起点。"她如是说。
随着生成式人工智能的进步,最强大的防护或许源于对人类本质的深刻理解。
相关文章
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业
相关专题推荐
评论 (1)
0/500

随着科技巨头OpenAI于2025年9月发布其旗舰产品Sora 2视频音频生成模型,深度伪造视频已席卷社交媒体,使观众对潜在有害的超现实内容日益习以为常。
尽管OpenAI强调将负责任地部署Sora 2作为核心目标——承诺为用户提供"管理信息流内容的工具与选择"并确保其肖像权的完全控制权——但2025年10月的研究显示该模型80%的时间都在生成误导性视频。
从伪造摩尔多瓦选举官员销毁选票的新闻片段,到虚构幼儿遭移民当局拘留的影像,乃至可口可乐发言人宣布公司将不赞助超级碗的假新闻——在这个互联世界中,虚假信息的危害性已达到空前程度。
超越Sora:语音钓鱼的崛起
早在OpenAI工具问世前,深度伪造内容的制造与传播已呈加速态势。网络安全公司DeepStrike的2025年9月报告指出,此类内容从2023年的50万例激增至2025年的800万例,其中大量用于诈骗。
这一趋势未见减缓迹象:美国AI相关欺诈案预计到2027年将造成400亿美元损失。
增长不仅体现在数量上。得益于Sora 2和谷歌Veo 3等工具,AI生成的面部、声音及全身表演效果比以往更具说服力。计算机科学家兼深度伪造专家吕思伟指出,当前模型能生成稳定无失真的面部图像,而声音克隆技术已达到"难以辨别"的水平。
现实情况是,深度伪造技术的演进速度远超检测手段。科技公司宣传的奥运体操动作创作工具或丰富音频背景功能,正被犯罪分子用于针对企业和个人的诈骗。仅2025年上半年,深度伪造诈骗就造成企业损失3.56亿美元,个人损失5.41亿美元。
传统深度伪造检测手段——如检查水印、修饰过的面部及元数据——已显力不从心。与此同时,语音深度伪造已成为第二大常见的人工智能欺诈手段,2025年语音钓鱼攻击激增442%,其影响已遍及各领域。
吕博士指出:"如今仅需几秒钟的音频,就能生成具有自然语调、节奏、重音、情感、停顿甚至呼吸声的逼真克隆体。"
倾听人类声音
健康科技初创企业Kintsugi开发了基于人工智能的语音生物标志物技术,用于识别临床抑郁和焦虑的征兆。他们的研究始于一个简单理念:我们需要真正倾听人们的声音。
"创立Kintsugi源于亲身经历。我耗费近五个月反复致电医疗机构才预约上首次治疗,期间无人回电。我坚持尝试——但当时就意识到,若是父亲或兄弟遭遇此境,他们早就会放弃了。"首席执行官Grace Chang向Unite.AI透露。
这家加州公司于2019年成立,旨在解决张所说的"分诊瓶颈"。她认为通过早期被动检测病情严重程度,能更快引导患者获得适当治疗。Kintsugi Voice技术利用语音生物标志物识别临床抑郁和焦虑症状。
多项研究证实人工智能语音分析可作为心理健康生物标志物。例如2025年5月发表的论文表明,声学生物标志物能识别心理健康问题及神经多样性的早期征兆,并倡导在临床环境中运用歌唱分析评估潜在认知衰退。
美国精神病学协会数据显示,语音分析技术对抑郁症患者的识别准确率达78%至96%。另有研究采用一分钟语言流畅性测试(要求受试者尽可能多地列举某类词汇),在检测抑郁与焦虑共病方面的准确率达到70%至83%。
为评估心理健康状况,Kintsugi仅需采集简短语音样本。其声学生物标记技术通过分析音高、语调、声线及停顿等特征——这些特征与抑郁症、焦虑症、双相情感障碍及痴呆症密切相关。
张博士未曾预料的是,这项技术还解决了安全领域的一个关键难题:精准识别声音是否真正源自人类。
从心理健康到网络安全
2025年末纽约峰会期间,张女士向一位网络安全界的朋友提及,其团队对合成语音的测试效果令人失望。
"我们尝试用合成数据增强心理健康模型的训练,但生成的声音与真人语音差异巨大,几乎每次都能被识破,"她解释道。
"他突然打断我说:'格蕾丝——这可是安全领域未解的难题。'那一刻我豁然开朗。此后与安全、金融、电信企业的交流中,我们发现深度伪造语音攻击正呈爆发式增长——在实时通话中区分真人与合成声音至关重要。"这位CEO补充道。
去年四月,联邦调查局曾警示公众:有不法分子冒充美国高官,针对前政府雇员及其联系人实施恶意短信和语音诈骗。美国大型银行平均每天遭遇5.5次语音欺诈企图,范德堡大学医学中心员工也报告遭遇冒充朋友、上司和同事的语音钓鱼攻击。
最初,深度伪造技术并非Kintsugi的关注重点。尽管团队使用Cartesia、Sesame和ElevenLabs等模型为呼叫中心代理和工作流程模拟合成语音,但在充斥着Sora等易用工具的市场中,深度伪造欺诈并非优先事项。
然而,验证语音真实性的关键线索恰是定义人类语言的生物标志物。无论语言或语义如何,Kintsugi Voice通过分析信号处理与物理发声延迟,捕捉微妙的时间差、韵律变化、认知负荷及生理特征——关注发声机制而非内容本身。
"合成语音或许流畅,却缺乏生物与认知层面的细微差别,"Chang指出。该公司的模型检测准确率位列前10%,仅需3至5秒音频即可完成识别。
金继创新技术为心理健康困境群体带来希望,尤其在专业医疗资源匮乏地区。该技术还能通过验证真实性而非识别伪造内容,彻底改变深度伪造检测与网络安全领域。
以人为本的技术展望
传统网络安全聚焦恶意用途或攻击者。而金继的突破性创新却立足于人性本质。
"我们开辟了全新领域:人类真实性验证。大型语言模型无法稳定识别自身生成的内容,而基于特征的技术又脆弱不堪。收集涵盖真实人类差异的大型临床标注数据集成本高昂、耗时漫长,更超出多数安全公司的专业能力——这使得我们的方法难以被复制,"张解释道。
该初创企业的战略还指向更广泛的变革趋势:跨行业创新。医疗领域的领军者可率先开发基于AI的语音钓鱼检测技术,正如航天科技创新者可能助力应急响应系统,游戏架构设计或将影响城市规划。
至于张女士,她致力于通过语音交互确立验证真实人类存在——进而验证真实意图——的行业标准。
"正如HTTPS成为网络信任基准,我们相信'人类存在证明'将成为语音系统的核心要素。信号处理正是构建该框架的起点。"她如是说。
随着生成式人工智能的进步,最强大的防护或许源于对人类本质的深刻理解。
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业





首页






