Maison
Un outil d'IA dédié à la santé mentale découvre une méthode efficace pour détecter les deepfakes

Avec la sortie en septembre 2025 du modèle phare de génération vidéo et audio Sora 2 par le géant technologique OpenAI, les vidéos deepfake ont envahi les réseaux sociaux, habituant les spectateurs à des contenus hyperréalistes potentiellement dangereux.
Alors qu'OpenAI a mis l'accent sur le déploiement responsable de Sora 2 comme objectif clé, s'engageant à fournir aux utilisateurs « des outils et des choix pour gérer le contenu de leur flux » et un contrôle total sur leur image, une étude réalisée en octobre 2025 a révélé que le modèle générait des vidéos trompeuses dans 80 % des cas.
Des segments d'informations falsifiées montrant un responsable électoral moldave détruisant des bulletins de vote aux images fabriquées d'un enfant en bas âge détenu par les autorités d'immigration ou d'un porte-parole de Coca-Cola annonçant que la société ne sponsoriserait pas le Super Bowl, les risques de désinformation dans notre monde connecté n'ont jamais été aussi grands.
Au-delà de Sora : l'essor du vishing
Même avant le lancement de l'outil d'OpenAI, la création et la diffusion de contenus deepfake s'accéléraient. Un rapport publié en septembre 2025 par la société de cybersécurité DeepStrike a révélé que les contenus deepfake étaient passés de 500 000 cas en 2023 à 8 millions en 2025, la plupart étant utilisés à des fins frauduleuses.
Cette tendance ne montre aucun signe de ralentissement ; les fraudes liées à l'IA aux États-Unis devraient atteindre 40 milliards de dollars d'ici 2027.
Cette augmentation ne concerne pas seulement le volume. Grâce à des outils tels que Sora 2 et Veo 3 de Google, les visages, les voix et les performances corporelles générés par l'IA semblent plus convaincants que jamais. Comme l'a fait remarquer Siwei Lyu, informaticien et expert en deepfakes, les modèles actuels peuvent générer des visages stables et sans distorsion, tandis que le clonage vocal a atteint un niveau « indiscernable ».
En réalité, les deepfakes évoluent plus rapidement que les méthodes de détection. Ce que les entreprises technologiques commercialisent comme des outils divertissants pour créer des routines de gymnastique olympique ou des fonds sonores riches est également exploité par des criminels qui ciblent les entreprises et les particuliers. Rien qu'au cours du premier semestre 2025, les escroqueries par deepfake ont causé 356 millions de dollars de pertes pour les entreprises et 541 millions de dollars de pertes pour les particuliers.
Les méthodes conventionnelles de détection des deepfakes, telles que la vérification des filigranes, des visages retouchés et des métadonnées, ne sont plus suffisantes. Parallèlement, les deepfakes vocaux se classent au deuxième rang des types de fraude les plus courants utilisant l'IA, les attaques de phishing vocal (vishing) ayant augmenté de 442 % en 2025, ce qui a eu un impact considérable.
« Quelques secondes d'audio suffisent désormais pour produire un clone crédible, avec une intonation, un rythme, des accents, des émotions, des pauses et même des sons de respiration naturels », a déclaré M. Lyu.
Écouter la voix humaine
Kintsugi, une start-up spécialisée dans les technologies de la santé, développe une technologie de biomarqueurs vocaux basée sur l'IA pour identifier les signes de dépression clinique et d'anxiété. Leur travail a commencé par une idée simple : nous devons vraiment écouter les gens.
« J'ai fondé Kintsugi en m'appuyant sur ma propre expérience. Il m'a fallu près de cinq mois d'appels à mon prestataire pour obtenir un premier rendez-vous thérapeutique, et personne ne m'a rappelée. J'ai persévéré, mais je me souviens avoir pensé que si cela avait été mon père ou mon frère, ils auraient abandonné bien plus tôt », a déclaré la PDG Grace Chang à Unite.AI.
La société californienne a été lancée en 2019 pour remédier à ce que Mme Chang appelait un « goulot d'étranglement dans le triage ». Elle était convaincue qu'une détection précoce et passive de la gravité pouvait aider à orienter plus rapidement les personnes vers les soins appropriés. Grâce à Kintsugi Voice, les biomarqueurs vocaux permettent d'identifier la dépression clinique et l'anxiété.
De nombreuses études soutiennent l'utilisation de l'analyse vocale basée sur l'IA comme biomarqueur de la santé mentale. Un article publié en mai 2025, par exemple, a montré que les biomarqueurs acoustiques peuvent détecter les premiers signes de troubles mentaux et de neurodivergence, et a préconisé l'analyse du chant en milieu clinique pour évaluer un éventuel déclin cognitif.
Selon l'American Psychiatric Association, l'analyse vocale permet de distinguer avec précision les personnes souffrant de dépression de celles qui n'en souffrent pas dans 78 % à 96 % des cas. Une autre étude a utilisé un test de fluidité verbale d'une minute, dans lequel une personne doit nommer autant de mots que possible dans une catégorie, et a atteint une précision de 70 % à 83 % dans la détection de la dépression et de l'anxiété cooccurantes.
Pour évaluer la santé mentale, Kintsugi recueille un bref échantillon vocal. Sa technologie de biomarqueurs vocaux examine ensuite la hauteur, l'intonation, le ton et les pauses, des caractéristiques liées à la dépression, à l'anxiété, au trouble bipolaire et à la démence.
Ce que Chang n'avait pas prévu, c'est que cette technologie répondait également à un défi crucial en matière de sécurité : identifier ce qui rend une voix véritablement humaine.
De la santé mentale à la cybersécurité
Lors d'un sommet à New York fin 2025, Chang a mentionné à un ami spécialiste de la cybersécurité que les tests de son équipe avec des voix synthétiques avaient été décevants.
« Nous essayions d'utiliser des données synthétiques pour améliorer la formation de nos modèles de santé mentale, mais les voix générées étaient tellement différentes de la parole humaine réelle que nous pouvions les repérer presque à chaque fois », a-t-elle expliqué.
« Il m'a interrompue et m'a dit : "Grace, c'est un problème non résolu en matière de sécurité." C'est là que tout s'est mis en place. Depuis lors, les discussions avec des entreprises de sécurité, de finance et de télécommunications ont mis en évidence la rapidité avec laquelle les attaques vocales deepfake se développent et à quel point il est essentiel de distinguer les voix humaines des voix synthétiques lors des appels en direct », a ajouté la PDG.
En avril dernier, le FBI a alerté le public sur une campagne malveillante de SMS et d'appels vocaux usurpant l'identité de hauts fonctionnaires américains et ciblant d'anciens employés du gouvernement et leurs contacts. Les grandes banques américaines ont été confrontées à une moyenne de 5,5 tentatives quotidiennes de fraude vocale, et le personnel du centre médical de l'université Vanderbilt a signalé des attaques de vishing provenant d'imposteurs se faisant passer pour des amis, des superviseurs et des collègues.
Au départ, les deepfakes n'étaient pas une priorité pour Kintsugi. Bien que l'équipe ait utilisé des modèles tels que Cartesia, Sesame et ElevenLabs pour simuler des voix synthétiques pour les agents des centres d'appels et les flux de travail, la fraude par deepfake n'était pas une priorité sur un marché regorgeant d'outils accessibles tels que Sora.
Pourtant, les indices qui confirment l'authenticité de la voix sont les mêmes biomarqueurs qui définissent la parole humaine. Indépendamment de la langue ou du sens, Kintsugi Voice analyse le traitement du signal et la latence physique de la parole, en capturant les subtilités du timing, les variations prosodiques, la charge cognitive et les traits physiologiques, en se concentrant sur la façon dont la parole est formée, et non sur ce qui est dit.
« Les voix synthétiques peuvent sembler fluides, mais elles ne possèdent pas les mêmes nuances biologiques et cognitives », a fait remarquer M. Chang. Le modèle de l'entreprise se classe dans les 10 % les plus performants en termes de précision de détection, ne nécessitant que 3 à 5 secondes d'audio.
L'innovation de Kintsugi est prometteuse pour les personnes confrontées à des problèmes de santé mentale, en particulier lorsqu'il est difficile d'accéder à des soins professionnels. De même, sa technologie pourrait transformer la détection des deepfakes et la cybersécurité en vérifiant l'authenticité plutôt qu'en repérant les deepfakes.
Une technologie centrée sur l'humain pour l'avenir
La cybersécurité s'est traditionnellement concentrée sur les utilisations malveillantes ou les auteurs d'actes malveillants. La percée inattendue de Kintsugi repose cependant sur la nature humaine elle-même.
« Nous travaillons sur un front totalement différent : l'authenticité humaine. Les LLM ne peuvent pas identifier de manière cohérente le contenu généré par les LLM, et les techniques basées sur les artefacts sont fragiles. La collecte de grands ensembles de données annotées cliniquement qui capturent les variations humaines réelles est coûteuse, lente et dépasse l'expertise de la plupart des entreprises de sécurité, ce qui rend notre méthode difficile à copier », explique M. Chang.
La stratégie de la start-up indique également un changement plus large : l'innovation intersectorielle. Les leaders du secteur de la santé pourraient être les pionniers de la détection des hameçonnages vocaux basée sur l'IA, tout comme les innovateurs en technologie spatiale pourraient aider les systèmes d'intervention d'urgence, ou l'architecture des jeux vidéo pourrait influencer l'urbanisme.
Quant à Mme Chang, elle vise à établir une norme pour confirmer la présence réelle d'un être humain, et à terme, son intention réelle, par le biais d'interactions vocales.
« Tout comme le protocole HTTPS est devenu la norme de confiance sur le web, nous pensons que la « preuve de l'humanité » deviendra essentielle pour les systèmes vocaux. Le traitement du signal est le point de départ de ce cadre », a-t-elle déclaré.
À mesure que l'IA générative progresse, les protections les plus efficaces pourraient provenir de la compréhension de ce qui nous rend véritablement humains.
Article connexe
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref
Recommandations de sujets spéciaux liés
commentaires (1)

Avec la sortie en septembre 2025 du modèle phare de génération vidéo et audio Sora 2 par le géant technologique OpenAI, les vidéos deepfake ont envahi les réseaux sociaux, habituant les spectateurs à des contenus hyperréalistes potentiellement dangereux.
Alors qu'OpenAI a mis l'accent sur le déploiement responsable de Sora 2 comme objectif clé, s'engageant à fournir aux utilisateurs « des outils et des choix pour gérer le contenu de leur flux » et un contrôle total sur leur image, une étude réalisée en octobre 2025 a révélé que le modèle générait des vidéos trompeuses dans 80 % des cas.
Des segments d'informations falsifiées montrant un responsable électoral moldave détruisant des bulletins de vote aux images fabriquées d'un enfant en bas âge détenu par les autorités d'immigration ou d'un porte-parole de Coca-Cola annonçant que la société ne sponsoriserait pas le Super Bowl, les risques de désinformation dans notre monde connecté n'ont jamais été aussi grands.
Au-delà de Sora : l'essor du vishing
Même avant le lancement de l'outil d'OpenAI, la création et la diffusion de contenus deepfake s'accéléraient. Un rapport publié en septembre 2025 par la société de cybersécurité DeepStrike a révélé que les contenus deepfake étaient passés de 500 000 cas en 2023 à 8 millions en 2025, la plupart étant utilisés à des fins frauduleuses.
Cette tendance ne montre aucun signe de ralentissement ; les fraudes liées à l'IA aux États-Unis devraient atteindre 40 milliards de dollars d'ici 2027.
Cette augmentation ne concerne pas seulement le volume. Grâce à des outils tels que Sora 2 et Veo 3 de Google, les visages, les voix et les performances corporelles générés par l'IA semblent plus convaincants que jamais. Comme l'a fait remarquer Siwei Lyu, informaticien et expert en deepfakes, les modèles actuels peuvent générer des visages stables et sans distorsion, tandis que le clonage vocal a atteint un niveau « indiscernable ».
En réalité, les deepfakes évoluent plus rapidement que les méthodes de détection. Ce que les entreprises technologiques commercialisent comme des outils divertissants pour créer des routines de gymnastique olympique ou des fonds sonores riches est également exploité par des criminels qui ciblent les entreprises et les particuliers. Rien qu'au cours du premier semestre 2025, les escroqueries par deepfake ont causé 356 millions de dollars de pertes pour les entreprises et 541 millions de dollars de pertes pour les particuliers.
Les méthodes conventionnelles de détection des deepfakes, telles que la vérification des filigranes, des visages retouchés et des métadonnées, ne sont plus suffisantes. Parallèlement, les deepfakes vocaux se classent au deuxième rang des types de fraude les plus courants utilisant l'IA, les attaques de phishing vocal (vishing) ayant augmenté de 442 % en 2025, ce qui a eu un impact considérable.
« Quelques secondes d'audio suffisent désormais pour produire un clone crédible, avec une intonation, un rythme, des accents, des émotions, des pauses et même des sons de respiration naturels », a déclaré M. Lyu.
Écouter la voix humaine
Kintsugi, une start-up spécialisée dans les technologies de la santé, développe une technologie de biomarqueurs vocaux basée sur l'IA pour identifier les signes de dépression clinique et d'anxiété. Leur travail a commencé par une idée simple : nous devons vraiment écouter les gens.
« J'ai fondé Kintsugi en m'appuyant sur ma propre expérience. Il m'a fallu près de cinq mois d'appels à mon prestataire pour obtenir un premier rendez-vous thérapeutique, et personne ne m'a rappelée. J'ai persévéré, mais je me souviens avoir pensé que si cela avait été mon père ou mon frère, ils auraient abandonné bien plus tôt », a déclaré la PDG Grace Chang à Unite.AI.
La société californienne a été lancée en 2019 pour remédier à ce que Mme Chang appelait un « goulot d'étranglement dans le triage ». Elle était convaincue qu'une détection précoce et passive de la gravité pouvait aider à orienter plus rapidement les personnes vers les soins appropriés. Grâce à Kintsugi Voice, les biomarqueurs vocaux permettent d'identifier la dépression clinique et l'anxiété.
De nombreuses études soutiennent l'utilisation de l'analyse vocale basée sur l'IA comme biomarqueur de la santé mentale. Un article publié en mai 2025, par exemple, a montré que les biomarqueurs acoustiques peuvent détecter les premiers signes de troubles mentaux et de neurodivergence, et a préconisé l'analyse du chant en milieu clinique pour évaluer un éventuel déclin cognitif.
Selon l'American Psychiatric Association, l'analyse vocale permet de distinguer avec précision les personnes souffrant de dépression de celles qui n'en souffrent pas dans 78 % à 96 % des cas. Une autre étude a utilisé un test de fluidité verbale d'une minute, dans lequel une personne doit nommer autant de mots que possible dans une catégorie, et a atteint une précision de 70 % à 83 % dans la détection de la dépression et de l'anxiété cooccurantes.
Pour évaluer la santé mentale, Kintsugi recueille un bref échantillon vocal. Sa technologie de biomarqueurs vocaux examine ensuite la hauteur, l'intonation, le ton et les pauses, des caractéristiques liées à la dépression, à l'anxiété, au trouble bipolaire et à la démence.
Ce que Chang n'avait pas prévu, c'est que cette technologie répondait également à un défi crucial en matière de sécurité : identifier ce qui rend une voix véritablement humaine.
De la santé mentale à la cybersécurité
Lors d'un sommet à New York fin 2025, Chang a mentionné à un ami spécialiste de la cybersécurité que les tests de son équipe avec des voix synthétiques avaient été décevants.
« Nous essayions d'utiliser des données synthétiques pour améliorer la formation de nos modèles de santé mentale, mais les voix générées étaient tellement différentes de la parole humaine réelle que nous pouvions les repérer presque à chaque fois », a-t-elle expliqué.
« Il m'a interrompue et m'a dit : "Grace, c'est un problème non résolu en matière de sécurité." C'est là que tout s'est mis en place. Depuis lors, les discussions avec des entreprises de sécurité, de finance et de télécommunications ont mis en évidence la rapidité avec laquelle les attaques vocales deepfake se développent et à quel point il est essentiel de distinguer les voix humaines des voix synthétiques lors des appels en direct », a ajouté la PDG.
En avril dernier, le FBI a alerté le public sur une campagne malveillante de SMS et d'appels vocaux usurpant l'identité de hauts fonctionnaires américains et ciblant d'anciens employés du gouvernement et leurs contacts. Les grandes banques américaines ont été confrontées à une moyenne de 5,5 tentatives quotidiennes de fraude vocale, et le personnel du centre médical de l'université Vanderbilt a signalé des attaques de vishing provenant d'imposteurs se faisant passer pour des amis, des superviseurs et des collègues.
Au départ, les deepfakes n'étaient pas une priorité pour Kintsugi. Bien que l'équipe ait utilisé des modèles tels que Cartesia, Sesame et ElevenLabs pour simuler des voix synthétiques pour les agents des centres d'appels et les flux de travail, la fraude par deepfake n'était pas une priorité sur un marché regorgeant d'outils accessibles tels que Sora.
Pourtant, les indices qui confirment l'authenticité de la voix sont les mêmes biomarqueurs qui définissent la parole humaine. Indépendamment de la langue ou du sens, Kintsugi Voice analyse le traitement du signal et la latence physique de la parole, en capturant les subtilités du timing, les variations prosodiques, la charge cognitive et les traits physiologiques, en se concentrant sur la façon dont la parole est formée, et non sur ce qui est dit.
« Les voix synthétiques peuvent sembler fluides, mais elles ne possèdent pas les mêmes nuances biologiques et cognitives », a fait remarquer M. Chang. Le modèle de l'entreprise se classe dans les 10 % les plus performants en termes de précision de détection, ne nécessitant que 3 à 5 secondes d'audio.
L'innovation de Kintsugi est prometteuse pour les personnes confrontées à des problèmes de santé mentale, en particulier lorsqu'il est difficile d'accéder à des soins professionnels. De même, sa technologie pourrait transformer la détection des deepfakes et la cybersécurité en vérifiant l'authenticité plutôt qu'en repérant les deepfakes.
Une technologie centrée sur l'humain pour l'avenir
La cybersécurité s'est traditionnellement concentrée sur les utilisations malveillantes ou les auteurs d'actes malveillants. La percée inattendue de Kintsugi repose cependant sur la nature humaine elle-même.
« Nous travaillons sur un front totalement différent : l'authenticité humaine. Les LLM ne peuvent pas identifier de manière cohérente le contenu généré par les LLM, et les techniques basées sur les artefacts sont fragiles. La collecte de grands ensembles de données annotées cliniquement qui capturent les variations humaines réelles est coûteuse, lente et dépasse l'expertise de la plupart des entreprises de sécurité, ce qui rend notre méthode difficile à copier », explique M. Chang.
La stratégie de la start-up indique également un changement plus large : l'innovation intersectorielle. Les leaders du secteur de la santé pourraient être les pionniers de la détection des hameçonnages vocaux basée sur l'IA, tout comme les innovateurs en technologie spatiale pourraient aider les systèmes d'intervention d'urgence, ou l'architecture des jeux vidéo pourrait influencer l'urbanisme.
Quant à Mme Chang, elle vise à établir une norme pour confirmer la présence réelle d'un être humain, et à terme, son intention réelle, par le biais d'interactions vocales.
« Tout comme le protocole HTTPS est devenu la norme de confiance sur le web, nous pensons que la « preuve de l'humanité » deviendra essentielle pour les systèmes vocaux. Le traitement du signal est le point de départ de ce cadre », a-t-elle déclaré.
À mesure que l'IA générative progresse, les protections les plus efficaces pourraient provenir de la compréhension de ce qui nous rend véritablement humains.
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref











