AIメンタルヘルスツールが効果的なディープフェイク検出法を偶然発見

2025年9月、テック大手OpenAIが主力製品である動画・音声生成モデル「Sora 2」を発表すると、ディープフェイク動画がソーシャルメディアを席巻し、視聴者は潜在的に有害な超リアルなコンテンツに次第に慣れ親しむようになった。
OpenAIはSora 2の責任ある展開を主要目標として強調し、ユーザーに「フィードコンテンツを管理するツールと選択肢」を提供し、自身の肖像権を完全に制御することを約束した。しかし2025年10月の研究では、このモデルが生成する動画の80%が誤解を招く内容であることが明らかになった。
モルドバの選挙担当者が投票用紙を破棄する偽ニュース映像から、移民当局に拘束される幼児の捏造映像、コカ・コーラの広報担当者がスーパーボウルスポンサーを辞退すると発表する動画まで、つながった世界における誤情報のリスクはかつてないほど高まっている。
ソラを超えて:フィッシング詐欺の台頭
OpenAIのツールが登場する以前から、ディープフェイク素材の作成と拡散は加速していた。サイバーセキュリティ企業DeepStrikeの2025年9月報告書によれば、ディープフェイクコンテンツは2023年の50万件から2025年には800万件に急増し、その多くが詐欺に利用されている。
この傾向に減速は見られず、米国におけるAI関連詐欺被害額は2027年までに400億ドルに達すると予測されている。
増加は量だけではない。Sora 2やGoogleのVeo 3といったツールのおかげで、AI生成の顔・声・全身パフォーマンスはかつてないほど説得力を持つようになった。コンピューター科学者でディープフェイク専門家のSiwei Lyuが指摘するように、現行モデルは安定した歪みのない顔を生成でき、音声クローン技術は「区別がつかない」レベルに達している。
現実には、ディープフェイクは検知手法よりも急速に進化している。テック企業がオリンピック体操演技の創作や豊かな音響背景作成の娯楽ツールとして販売する技術が、企業や個人を狙う犯罪者にも悪用されている。2025年前半だけで、ディープフェイク詐欺による企業損失は3億5600万ドル、個人損失は5億4100万ドルに上った。
従来のディープフェイク検出手法(透かし・エアブラシ加工された顔・メタデータの確認など)は不十分だ。一方、音声ディープフェイクはAI詐欺で2番目に多い手口となり、音声フィッシング(ヴィッシング)攻撃は2025年に442%急増し、その影響は広範囲に及んでいる。
「わずか数秒の音声を基に、自然な抑揚・リズム・強調・感情・間、さらには呼吸音まで再現した、本物そっくりのクローン音声が作成可能になった」とリュウ氏は述べた。
人間の声を聴く
ヘルスケアテックスタートアップのKintsugiは、臨床的うつ病や不安の兆候を特定するAI音声バイオマーカー技術を開発している。彼らの取り組みは単純な発想から始まった——私たちは人々の声に真に耳を傾ける必要がある、と。
「自身の経験からキンツギを設立しました。最初のセラピー予約を取るだけで医療提供者に5ヶ月近く電話をかけ続け、誰からも折り返し連絡がありませんでした。諦めずに試みましたが、もしこれが父や兄だったら、ずっと前に諦めていたはずだと感じたことを覚えています」とCEOグレース・チャンはUnite.AIに語った。
カリフォルニア州に拠点を置く同社は2019年、チャン氏が「トリアージのボトルネック」と呼ぶ課題解決のために設立された。彼女は、重症度を早期かつ受動的に検知することで、適切なケアへ迅速に導けると確信していた。Kintsugi Voiceでは、音声バイオマーカーが臨床的うつ病や不安障害の特定を支援する。
複数の研究が、精神健康のバイオマーカーとしてのAI音声分析の有用性を裏付けている。例えば2025年5月の論文では、音響バイオマーカーが精神健康問題や神経多様性の初期兆候を検出可能と示し、認知機能低下の評価に臨床現場での歌唱分析導入を提唱した。
米国精神医学会によれば、音声分析はうつ病患者と非患者を78%から96%の精度で正確に区別できる。別の研究では、1分間の言語流暢性テスト(特定のカテゴリーで可能な限り多くの単語を挙げる)を用い、併存するうつ病と不安障害の検出精度を70%から83%達成した。
メンタルヘルス評価のため、Kintsugiは短い音声サンプルを収集する。その後、同社の音声バイオマーカー技術が、抑うつ・不安・双極性障害・認知症に関連する特徴であるピッチ、イントネーション、トーン、間(ま)を分析する。
チャンが予想していなかったのは、この技術がセキュリティ分野の重大な課題——音声が真に人間のものだと特定する——にも対処できる点だった。
メンタルヘルスからサイバーセキュリティへ
2025年末のニューヨークサミットで、チャンはサイバーセキュリティ分野の知人に、合成音声を用いたチームのテストが期待外れだったと語った。
「メンタルヘルスモデルの訓練強化に合成データを活用しようとしたのですが、生成された音声は実際の人の話し声とはあまりにもかけ離れていて、ほぼ毎回見抜けてしまったんです」と彼女は説明した。
「彼は私の話を遮り、『グレース、それはセキュリティ分野の未解決問題だ』と言った。その瞬間、全てがつながった。それ以来、セキュリティ、金融、通信企業との議論で、ディープフェイク音声攻撃が急速に拡大していること、そして生音声通話で人間と合成音声を区別することがいかに重要かが浮き彫りになった」とCEOは付け加えた。
昨年4月、FBIは米政府高官を装い元政府職員とその知人を標的とした悪意あるテキスト・音声キャンペーンについて警告を発した。米大手銀行では1日平均5.5件の音声詐欺被害が発生し、ヴァンダービルト大学医療センターの職員は友人・上司・同僚を装ったフィッシング攻撃を報告している。
当初、キンツギはディープフェイクを重点領域としていなかった。コールセンター担当者やワークフロー向けにCartesia、Sesame、ElevenLabsなどのモデルで合成音声をシミュレートしていたものの、Soraのようなツールが普及する市場ではディープフェイク詐欺対策は優先課題ではなかった。
しかし、音声の真正性を確認する手がかりは、人間の言語を定義する生体マーカーと同一である。言語や意味に関わらず、Kintsugi Voiceは信号処理と物理的な発話遅延を分析し、微妙なタイミング、韻律変動、認知負荷、生理的特徴を捕捉する——発話内容ではなく、発話形成プロセスに焦点を当てる。
「合成音声は流暢に聞こえるかもしれないが、生物学的・認知的なニュアンスが欠けている」とチャン氏は指摘する。同社のモデルは検出精度で上位10%に位置し、わずか3~5秒の音声を必要とする。
金継ぎの革新技術は、特に専門的なケアへのアクセスが困難な状況にあるメンタルヘルス課題に直面する人々にとって有望だ。同様に、その技術はディープフェイクの検出ではなく真正性を検証することで、ディープフェイク検知とサイバーセキュリティを変革する可能性がある。
未来を拓く人間中心の技術
サイバーセキュリティは従来、悪意ある用途や加害者に焦点を当ててきた。しかしキンツギの予想外の突破口は、人間の本質そのものに依拠している。
「我々は全く異なる領域、つまり人間の真正性に注力しています。LLMはLLM生成コンテンツを一貫して識別できず、アーティファクトベースの手法は脆弱です。真の人間の多様性を捉えた大規模な臨床注釈付きデータセットの収集は、コストがかかり時間がかかり、ほとんどのセキュリティ企業の専門知識を超えています。そのため、我々の手法は模倣が困難なのです」とチャンは説明した。
このスタートアップの戦略は、より広範な変化——業界横断的なイノベーション——も示唆している。医療分野のリーダーがAIベースのフィッシング詐欺検知を開拓し、宇宙技術革新者が緊急対応システムを支援し、ゲームアーキテクチャが都市計画に影響を与える可能性があるように。
チャン氏は、音声インタラクションを通じて「人間の存在」を確認する基準を確立し、最終的には「真の意図」まで確認する基準を確立することを目指している。
「HTTPSがウェブの信頼基準となったように、『人間の証明』は音声ベースシステムに不可欠になると確信しています。信号処理はその基盤の始まりです」と彼女は語った。
生成AIが進化する中、最も強力な防御策は、人間らしさの真髄を理解することから生まれるかもしれない。
関連記事
OpenAI、o3およびGPT-4.5の大型モデルを廃止
人工知能分野の先駆者であるOpenAIの技術的な動きは、そのひとつひとつが業界に大きな波紋を広げています。最近、同社は重大な発表を行いました。ChatGPTプラットフォームから、2つの従来型モデル「o3」と「GPT-4.5」を廃止するというものです。 「人文科学の天才」とも称されるGPT-4.5は6月27日に、高度な推論能力で知られるo3は8月26日に、それぞれサービス終了となる。旧モデルの終了に
AIGCPanel 2.0.0 メジャーアップデート:ワークフローエンジンが、デジタルヒューマンの自動生成に新時代を切り拓く
ローカル環境でのデジタルヒューマン制作に最適な強力なツール「AIGCPanel」が、バージョン2.0.0をリリースしました。これは「これまでで最も重要なアップデート」と称されています。 今回のコア機能の全面刷新により、ワークフローエンジンとCLI(コマンドラインインターフェース)ツールを通じて、デジタルヒューマン合成、ボイスクローニング、音声・映像処理を連携させ、手作業による組み立てから自動生産へ
BuzzFeed、AI搭載のジャンクアプリ専門子会社を設立
深刻な経営危機に直面する中、かつてのデジタルメディア大手バズフィードは、人工知能(AI)を活用した野心的な自力再生の実験に乗り出している。 先ごろ開催されたSXSWカンファレンスで、共同創業者兼CEOのジョナ・ペレッティ氏は、「Branch Office」という子会社を設立すると発表した。同社は、AIを活用した一連の消費者向けアプリケーションを通じて、「ソフトウェア・アズ・コンテンツ(SaaS)」
関連特集おすすめ
コメント (1)
0/500

2025年9月、テック大手OpenAIが主力製品である動画・音声生成モデル「Sora 2」を発表すると、ディープフェイク動画がソーシャルメディアを席巻し、視聴者は潜在的に有害な超リアルなコンテンツに次第に慣れ親しむようになった。
OpenAIはSora 2の責任ある展開を主要目標として強調し、ユーザーに「フィードコンテンツを管理するツールと選択肢」を提供し、自身の肖像権を完全に制御することを約束した。しかし2025年10月の研究では、このモデルが生成する動画の80%が誤解を招く内容であることが明らかになった。
モルドバの選挙担当者が投票用紙を破棄する偽ニュース映像から、移民当局に拘束される幼児の捏造映像、コカ・コーラの広報担当者がスーパーボウルスポンサーを辞退すると発表する動画まで、つながった世界における誤情報のリスクはかつてないほど高まっている。
ソラを超えて:フィッシング詐欺の台頭
OpenAIのツールが登場する以前から、ディープフェイク素材の作成と拡散は加速していた。サイバーセキュリティ企業DeepStrikeの2025年9月報告書によれば、ディープフェイクコンテンツは2023年の50万件から2025年には800万件に急増し、その多くが詐欺に利用されている。
この傾向に減速は見られず、米国におけるAI関連詐欺被害額は2027年までに400億ドルに達すると予測されている。
増加は量だけではない。Sora 2やGoogleのVeo 3といったツールのおかげで、AI生成の顔・声・全身パフォーマンスはかつてないほど説得力を持つようになった。コンピューター科学者でディープフェイク専門家のSiwei Lyuが指摘するように、現行モデルは安定した歪みのない顔を生成でき、音声クローン技術は「区別がつかない」レベルに達している。
現実には、ディープフェイクは検知手法よりも急速に進化している。テック企業がオリンピック体操演技の創作や豊かな音響背景作成の娯楽ツールとして販売する技術が、企業や個人を狙う犯罪者にも悪用されている。2025年前半だけで、ディープフェイク詐欺による企業損失は3億5600万ドル、個人損失は5億4100万ドルに上った。
従来のディープフェイク検出手法(透かし・エアブラシ加工された顔・メタデータの確認など)は不十分だ。一方、音声ディープフェイクはAI詐欺で2番目に多い手口となり、音声フィッシング(ヴィッシング)攻撃は2025年に442%急増し、その影響は広範囲に及んでいる。
「わずか数秒の音声を基に、自然な抑揚・リズム・強調・感情・間、さらには呼吸音まで再現した、本物そっくりのクローン音声が作成可能になった」とリュウ氏は述べた。
人間の声を聴く
ヘルスケアテックスタートアップのKintsugiは、臨床的うつ病や不安の兆候を特定するAI音声バイオマーカー技術を開発している。彼らの取り組みは単純な発想から始まった——私たちは人々の声に真に耳を傾ける必要がある、と。
「自身の経験からキンツギを設立しました。最初のセラピー予約を取るだけで医療提供者に5ヶ月近く電話をかけ続け、誰からも折り返し連絡がありませんでした。諦めずに試みましたが、もしこれが父や兄だったら、ずっと前に諦めていたはずだと感じたことを覚えています」とCEOグレース・チャンはUnite.AIに語った。
カリフォルニア州に拠点を置く同社は2019年、チャン氏が「トリアージのボトルネック」と呼ぶ課題解決のために設立された。彼女は、重症度を早期かつ受動的に検知することで、適切なケアへ迅速に導けると確信していた。Kintsugi Voiceでは、音声バイオマーカーが臨床的うつ病や不安障害の特定を支援する。
複数の研究が、精神健康のバイオマーカーとしてのAI音声分析の有用性を裏付けている。例えば2025年5月の論文では、音響バイオマーカーが精神健康問題や神経多様性の初期兆候を検出可能と示し、認知機能低下の評価に臨床現場での歌唱分析導入を提唱した。
米国精神医学会によれば、音声分析はうつ病患者と非患者を78%から96%の精度で正確に区別できる。別の研究では、1分間の言語流暢性テスト(特定のカテゴリーで可能な限り多くの単語を挙げる)を用い、併存するうつ病と不安障害の検出精度を70%から83%達成した。
メンタルヘルス評価のため、Kintsugiは短い音声サンプルを収集する。その後、同社の音声バイオマーカー技術が、抑うつ・不安・双極性障害・認知症に関連する特徴であるピッチ、イントネーション、トーン、間(ま)を分析する。
チャンが予想していなかったのは、この技術がセキュリティ分野の重大な課題——音声が真に人間のものだと特定する——にも対処できる点だった。
メンタルヘルスからサイバーセキュリティへ
2025年末のニューヨークサミットで、チャンはサイバーセキュリティ分野の知人に、合成音声を用いたチームのテストが期待外れだったと語った。
「メンタルヘルスモデルの訓練強化に合成データを活用しようとしたのですが、生成された音声は実際の人の話し声とはあまりにもかけ離れていて、ほぼ毎回見抜けてしまったんです」と彼女は説明した。
「彼は私の話を遮り、『グレース、それはセキュリティ分野の未解決問題だ』と言った。その瞬間、全てがつながった。それ以来、セキュリティ、金融、通信企業との議論で、ディープフェイク音声攻撃が急速に拡大していること、そして生音声通話で人間と合成音声を区別することがいかに重要かが浮き彫りになった」とCEOは付け加えた。
昨年4月、FBIは米政府高官を装い元政府職員とその知人を標的とした悪意あるテキスト・音声キャンペーンについて警告を発した。米大手銀行では1日平均5.5件の音声詐欺被害が発生し、ヴァンダービルト大学医療センターの職員は友人・上司・同僚を装ったフィッシング攻撃を報告している。
当初、キンツギはディープフェイクを重点領域としていなかった。コールセンター担当者やワークフロー向けにCartesia、Sesame、ElevenLabsなどのモデルで合成音声をシミュレートしていたものの、Soraのようなツールが普及する市場ではディープフェイク詐欺対策は優先課題ではなかった。
しかし、音声の真正性を確認する手がかりは、人間の言語を定義する生体マーカーと同一である。言語や意味に関わらず、Kintsugi Voiceは信号処理と物理的な発話遅延を分析し、微妙なタイミング、韻律変動、認知負荷、生理的特徴を捕捉する——発話内容ではなく、発話形成プロセスに焦点を当てる。
「合成音声は流暢に聞こえるかもしれないが、生物学的・認知的なニュアンスが欠けている」とチャン氏は指摘する。同社のモデルは検出精度で上位10%に位置し、わずか3~5秒の音声を必要とする。
金継ぎの革新技術は、特に専門的なケアへのアクセスが困難な状況にあるメンタルヘルス課題に直面する人々にとって有望だ。同様に、その技術はディープフェイクの検出ではなく真正性を検証することで、ディープフェイク検知とサイバーセキュリティを変革する可能性がある。
未来を拓く人間中心の技術
サイバーセキュリティは従来、悪意ある用途や加害者に焦点を当ててきた。しかしキンツギの予想外の突破口は、人間の本質そのものに依拠している。
「我々は全く異なる領域、つまり人間の真正性に注力しています。LLMはLLM生成コンテンツを一貫して識別できず、アーティファクトベースの手法は脆弱です。真の人間の多様性を捉えた大規模な臨床注釈付きデータセットの収集は、コストがかかり時間がかかり、ほとんどのセキュリティ企業の専門知識を超えています。そのため、我々の手法は模倣が困難なのです」とチャンは説明した。
このスタートアップの戦略は、より広範な変化——業界横断的なイノベーション——も示唆している。医療分野のリーダーがAIベースのフィッシング詐欺検知を開拓し、宇宙技術革新者が緊急対応システムを支援し、ゲームアーキテクチャが都市計画に影響を与える可能性があるように。
チャン氏は、音声インタラクションを通じて「人間の存在」を確認する基準を確立し、最終的には「真の意図」まで確認する基準を確立することを目指している。
「HTTPSがウェブの信頼基準となったように、『人間の証明』は音声ベースシステムに不可欠になると確信しています。信号処理はその基盤の始まりです」と彼女は語った。
生成AIが進化する中、最も強力な防御策は、人間らしさの真髄を理解することから生まれるかもしれない。
OpenAI、o3およびGPT-4.5の大型モデルを廃止
人工知能分野の先駆者であるOpenAIの技術的な動きは、そのひとつひとつが業界に大きな波紋を広げています。最近、同社は重大な発表を行いました。ChatGPTプラットフォームから、2つの従来型モデル「o3」と「GPT-4.5」を廃止するというものです。 「人文科学の天才」とも称されるGPT-4.5は6月27日に、高度な推論能力で知られるo3は8月26日に、それぞれサービス終了となる。旧モデルの終了に
AIGCPanel 2.0.0 メジャーアップデート:ワークフローエンジンが、デジタルヒューマンの自動生成に新時代を切り拓く
ローカル環境でのデジタルヒューマン制作に最適な強力なツール「AIGCPanel」が、バージョン2.0.0をリリースしました。これは「これまでで最も重要なアップデート」と称されています。 今回のコア機能の全面刷新により、ワークフローエンジンとCLI(コマンドラインインターフェース)ツールを通じて、デジタルヒューマン合成、ボイスクローニング、音声・映像処理を連携させ、手作業による組み立てから自動生産へ
BuzzFeed、AI搭載のジャンクアプリ専門子会社を設立
深刻な経営危機に直面する中、かつてのデジタルメディア大手バズフィードは、人工知能(AI)を活用した野心的な自力再生の実験に乗り出している。 先ごろ開催されたSXSWカンファレンスで、共同創業者兼CEOのジョナ・ペレッティ氏は、「Branch Office」という子会社を設立すると発表した。同社は、AIを活用した一連の消費者向けアプリケーションを通じて、「ソフトウェア・アズ・コンテンツ(SaaS)」





家






