KI-Tool für psychische Gesundheit stößt auf effektive Deepfake-Erkennung

Mit der Veröffentlichung des Flaggschiff-Modells Sora 2 zur Video- und Audiogenerierung durch den Technologieriesen OpenAI im September 2025 haben Deepfake-Videos die sozialen Medien überschwemmt und die Zuschauer an potenziell schädliche hyperrealistische Inhalte gewöhnt.
Während OpenAI den verantwortungsvollen Einsatz von Sora 2 als wichtiges Ziel betonte und versprach, den Nutzern „Werkzeuge und Auswahlmöglichkeiten zur Verwaltung ihrer Feed-Inhalte” sowie die vollständige Kontrolle über ihre Ähnlichkeit zu bieten, ergab eine Studie vom Oktober 2025, dass das Modell in 80 % der Fälle irreführende Videos generierte.
Von Fake-News-Beiträgen, in denen ein moldawischer Wahlbeamter Stimmzettel vernichtet, über gefälschte Aufnahmen eines Kleinkindes, das von Einwanderungsbehörden festgenommen wird, bis hin zu einem Coca-Cola-Sprecher, der verkündet, dass das Unternehmen den Super Bowl nicht sponsern werde – die Risiken von Fehlinformationen in unserer vernetzten Welt waren noch nie so groß wie heute.
Jenseits von Sora: Der Aufstieg von Vishing
Schon vor der Einführung des Tools von OpenAI beschleunigte sich die Erstellung und Verbreitung von Deepfake-Material. Ein Bericht des Cybersicherheitsunternehmens DeepStrike vom September 2025 stellte fest, dass Deepfake-Inhalte von 500.000 Fällen im Jahr 2023 auf 8 Millionen im Jahr 2025 gestiegen sind, wobei ein Großteil davon für Betrugsdelikte verwendet wurde.
Dieser Trend zeigt keine Verlangsamung; KI-bezogene Betrugsfälle in den Vereinigten Staaten werden bis 2027 voraussichtlich 40 Milliarden US-Dollar erreichen.
Der Anstieg betrifft nicht nur das Volumen. Dank Tools wie Sora 2 und Veo 3 von Google wirken KI-generierte Gesichter, Stimmen und Ganzkörperdarstellungen überzeugender denn je. Wie der Informatiker und Deepfake-Experte Siwei Lyu feststellt, können aktuelle Modelle stabile, verzerrungsfreie Gesichter generieren, während das Klonen von Stimmen ein „nicht mehr unterscheidbares” Niveau erreicht hat.
Die Realität ist, dass Deepfakes sich schneller entwickeln als die Methoden zu ihrer Erkennung. Was Tech-Firmen als unterhaltsame Tools zur Erstellung von olympischen Turnübungen oder reichhaltigen Audio-Hintergründen vermarkten, wird auch von Kriminellen ausgenutzt, die es auf Unternehmen und Privatpersonen abgesehen haben. Allein in der ersten Hälfte des Jahres 2025 verursachten Deepfake-Betrügereien Unternehmensverluste in Höhe von 356 Millionen Dollar und persönliche Verluste in Höhe von 541 Millionen Dollar.
Herkömmliche Deepfake-Erkennungsmethoden – wie die Überprüfung von Wasserzeichen, retuschierten Gesichtern und Metadaten – reichen nicht aus. Unterdessen rangieren Sprach-Deepfakes an zweiter Stelle der häufigsten Arten von KI-gestütztem Betrug, wobei Voice-Phishing-Angriffe (Vishing) im Jahr 2025 um 442 % zugenommen haben, was weitreichende Auswirkungen hat.
„Mit nur wenigen Sekunden Audioaufzeichnung lässt sich heute ein glaubwürdiger Klon erstellen – komplett mit natürlicher Intonation, Rhythmus, Betonung, Emotionen, Pausen und sogar Atemgeräuschen“, erklärte Lyu.
Der menschlichen Stimme lauschen
Kintsugi, ein Healthtech-Startup, entwickelt eine KI-Sprachbiomarker-Technologie, um Anzeichen von klinischer Depression und Angstzuständen zu erkennen. Ihre Arbeit begann mit einer einfachen Idee: Wir müssen den Menschen wirklich zuhören.
„Ich habe Kintsugi aufgrund meiner eigenen Erfahrungen gegründet. Ich habe fast fünf Monate lang meinen Anbieter angerufen, nur um einen ersten Termin für eine Therapie zu vereinbaren, und niemand hat zurückgerufen. Ich habe es immer wieder versucht – aber ich erinnere mich, dass ich dachte, wenn es mein Vater oder mein Bruder gewesen wäre, hätten sie viel früher aufgegeben“, erzählte CEO Grace Chang gegenüber Unite.AI.
Das in Kalifornien ansässige Unternehmen wurde 2019 gegründet, um das zu bekämpfen, was Chang als „Triage-Engpass“ bezeichnete. Sie war überzeugt, dass eine frühzeitige, passive Erkennung des Schweregrads dazu beitragen könnte, Menschen schneller an die richtige Stelle zu verweisen. Mit Kintsugi Voice helfen Stimm-Biomarker dabei, klinische Depressionen und Angstzustände zu erkennen.
Mehrere Studien unterstützen den Einsatz von KI-gestützter Sprachanalyse als Biomarker für die psychische Gesundheit. Eine Studie aus dem Mai 2025 zeigte beispielsweise, dass akustische Biomarker frühe Anzeichen für psychische Probleme und Neurodiversität erkennen können, und sprach sich für die Analyse des Gesangs in klinischen Umgebungen aus, um einen möglichen kognitiven Verfall zu bewerten.
Laut der American Psychiatric Association unterscheidet die Sprachanalyse in 78 % bis 96 % der Fälle Menschen mit Depressionen genau von Menschen ohne Depressionen. Eine andere Studie verwendete einen einminütigen Sprachflüssigkeitstest, bei dem eine Person so viele Wörter wie möglich aus einer Kategorie nennen muss, und erreichte eine Genauigkeit von 70 % bis 83 % bei der Erkennung von gleichzeitig auftretenden Depressionen und Angstzuständen.
Um die psychische Gesundheit zu bewerten, sammelt Kintsugi eine kurze Sprachprobe. Seine Stimm-Biomarker-Technologie untersucht dann Tonhöhe, Intonation, Tonfall und Pausen – Merkmale, die mit Depressionen, Angstzuständen, bipolaren Störungen und Demenz in Verbindung stehen.
Was Chang nicht erwartet hatte, war, dass diese Technologie auch eine entscheidende Herausforderung im Bereich der Sicherheit löste: die Identifizierung dessen, was eine Stimme wirklich menschlich macht.
Von der psychischen Gesundheit zur Cybersicherheit
Während eines Gipfeltreffens in New York Ende 2025 erwähnte Chang gegenüber einem Freund aus dem Bereich Cybersicherheit, dass die Tests ihres Teams mit synthetischen Stimmen enttäuschend ausgefallen seien.
„Wir haben synthetische Daten ausprobiert, um das Training für unsere Modelle zur psychischen Gesundheit zu verbessern, aber die generierten Stimmen unterschieden sich so sehr von echter menschlicher Sprache, dass wir sie fast jedes Mal erkennen konnten“, erklärte sie.
„Er unterbrach mich und sagte: ‚Grace, das ist ein ungelöstes Problem in der Sicherheit.‘ Da ging mir ein Licht auf. Seitdem haben Gespräche mit Sicherheits-, Finanz- und Telekommunikationsunternehmen gezeigt, wie schnell Deepfake-Stimmenangriffe zunehmen – und wie wichtig es ist, in Live-Anrufen menschliche von synthetischen Stimmen zu unterscheiden“, fügte die CEO hinzu.
Im April letzten Jahres warnte das FBI die Öffentlichkeit vor einer böswilligen Text- und Sprachkampagne, bei der sich die Betrüger als hochrangige US-Beamte ausgaben und ehemalige Regierungsmitarbeiter und deren Kontakte ins Visier nahmen. Große US-Banken waren täglich durchschnittlich 5,5 Versuchen von Sprachbetrug ausgesetzt, und Mitarbeiter des Vanderbilt University Medical Center berichteten von Vishing-Angriffen durch Betrüger, die sich als Freunde, Vorgesetzte und Kollegen ausgaben.
Anfangs standen Deepfakes für Kintsugi nicht im Fokus. Obwohl das Team Modelle wie Cartesia, Sesame und ElevenLabs verwendete, um synthetische Stimmen für Callcenter-Agenten und Workflows zu simulieren, hatte Deepfake-Betrug in einem Markt voller zugänglicher Tools wie Sora keine Priorität.
Die Hinweise, die die Authentizität einer Stimme bestätigen, sind jedoch dieselben Biomarker, die auch die menschliche Sprache definieren. Unabhängig von Sprache oder Bedeutung analysiert Kintsugi Voice die Signalverarbeitung und die physische Sprachlatenz und erfasst dabei subtile Zeitabläufe, prosodische Variationen, kognitive Belastungen und physiologische Merkmale – wobei der Fokus darauf liegt, wie Sprache gebildet wird, und nicht darauf, was gesagt wird.
„Synthetische Stimmen mögen flüssig klingen, aber ihnen fehlen die gleichen biologischen und kognitiven Nuancen”, bemerkte Chang. Das Modell des Unternehmens rangiert unter den besten 10 % hinsichtlich der Erkennungsgenauigkeit und benötigt nur 3 bis 5 Sekunden Audio.
Die Innovation von Kintsugi ist vielversprechend für Menschen mit psychischen Problemen, insbesondere wenn der Zugang zu professioneller Hilfe schwierig ist. Ebenso könnte diese Technologie die Deepfake-Erkennung und Cybersicherheit revolutionieren, indem sie die Authentizität überprüft, anstatt Deepfakes zu erkennen.
Menschenzentrierte Technologie als Zukunft
Die Cybersicherheit hat sich traditionell auf böswillige Anwendungen oder Täter konzentriert. Der unerwartete Durchbruch von Kintsugi basiert jedoch auf der menschlichen Natur selbst.
„Wir arbeiten an einer ganz anderen Front: der menschlichen Authentizität. LLMs können von LLMs generierte Inhalte nicht konsistent identifizieren, und artefaktbasierte Techniken sind anfällig. Das Sammeln großer, klinisch annotierter Datensätze, die echte menschliche Variationen erfassen, ist kostspielig, langsam und übersteigt das Fachwissen der meisten Sicherheitsfirmen – was unsere Methode schwer kopierbar macht“, erklärte Chang.
Die Strategie des Startups weist auch auf einen umfassenderen Wandel hin: branchenübergreifende Innovation. Führende Unternehmen im Gesundheitswesen könnten Pioniere bei der KI-basierten Erkennung von Vishing sein, genauso wie Innovatoren im Bereich der Weltraumtechnologie Notfallreaktionssysteme unterstützen oder die Architektur von Spielen die Stadtplanung beeinflussen könnten.
Chang hat sich zum Ziel gesetzt, einen Standard für die Bestätigung der tatsächlichen Anwesenheit eines Menschen – und letztendlich seiner echten Absicht – durch Sprachinteraktionen zu etablieren.
„So wie HTTPS zum Vertrauensstandard im Internet geworden ist, glauben wir, dass der ‚Nachweis der Menschlichkeit‘ für sprachbasierte Systeme unverzichtbar werden wird. Die Signalverarbeitung ist der Anfang dieses Rahmens“, sagte sie.
Mit dem Fortschritt der generativen KI könnte der stärkste Schutz darin bestehen, zu verstehen, was uns wirklich menschlich macht.
Verwandter Artikel
StrictlyVC San Francisco versammelt Führungskräfte von TDK Ventures, Replit und anderen Unternehmen
Die erste StrictlyVC-Veranstaltung des Jahres findet schon früher in San Francisco statt, als Sie denken. Es sind noch Tickets für unser Treffen am 30. April im Sentro Filipino Cultural Center erhältl
Notion verwandelt seinen Arbeitsbereich in eine Drehscheibe für KI-Agenten
Notion, der Anbieter von Produktivitätssoftware, tritt in das Zeitalter der agentenbasierten Lösungen ein.Während einer live gestreamten Produktankündigung am Mittwoch stellte Notion – bekannt für sei
Könnten Sie mir bitte den Titel des Artikels für die Überarbeitung nennen?
Früher bedeutete das Erstellen eines professionellen Porträtfotos, einen Fotografen zu engagieren, ein Studio zu mieten und mindestens eine Stunde Zeit einzuplanen. Heute versprechen immer mehr KI-ges
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)

Mit der Veröffentlichung des Flaggschiff-Modells Sora 2 zur Video- und Audiogenerierung durch den Technologieriesen OpenAI im September 2025 haben Deepfake-Videos die sozialen Medien überschwemmt und die Zuschauer an potenziell schädliche hyperrealistische Inhalte gewöhnt.
Während OpenAI den verantwortungsvollen Einsatz von Sora 2 als wichtiges Ziel betonte und versprach, den Nutzern „Werkzeuge und Auswahlmöglichkeiten zur Verwaltung ihrer Feed-Inhalte” sowie die vollständige Kontrolle über ihre Ähnlichkeit zu bieten, ergab eine Studie vom Oktober 2025, dass das Modell in 80 % der Fälle irreführende Videos generierte.
Von Fake-News-Beiträgen, in denen ein moldawischer Wahlbeamter Stimmzettel vernichtet, über gefälschte Aufnahmen eines Kleinkindes, das von Einwanderungsbehörden festgenommen wird, bis hin zu einem Coca-Cola-Sprecher, der verkündet, dass das Unternehmen den Super Bowl nicht sponsern werde – die Risiken von Fehlinformationen in unserer vernetzten Welt waren noch nie so groß wie heute.
Jenseits von Sora: Der Aufstieg von Vishing
Schon vor der Einführung des Tools von OpenAI beschleunigte sich die Erstellung und Verbreitung von Deepfake-Material. Ein Bericht des Cybersicherheitsunternehmens DeepStrike vom September 2025 stellte fest, dass Deepfake-Inhalte von 500.000 Fällen im Jahr 2023 auf 8 Millionen im Jahr 2025 gestiegen sind, wobei ein Großteil davon für Betrugsdelikte verwendet wurde.
Dieser Trend zeigt keine Verlangsamung; KI-bezogene Betrugsfälle in den Vereinigten Staaten werden bis 2027 voraussichtlich 40 Milliarden US-Dollar erreichen.
Der Anstieg betrifft nicht nur das Volumen. Dank Tools wie Sora 2 und Veo 3 von Google wirken KI-generierte Gesichter, Stimmen und Ganzkörperdarstellungen überzeugender denn je. Wie der Informatiker und Deepfake-Experte Siwei Lyu feststellt, können aktuelle Modelle stabile, verzerrungsfreie Gesichter generieren, während das Klonen von Stimmen ein „nicht mehr unterscheidbares” Niveau erreicht hat.
Die Realität ist, dass Deepfakes sich schneller entwickeln als die Methoden zu ihrer Erkennung. Was Tech-Firmen als unterhaltsame Tools zur Erstellung von olympischen Turnübungen oder reichhaltigen Audio-Hintergründen vermarkten, wird auch von Kriminellen ausgenutzt, die es auf Unternehmen und Privatpersonen abgesehen haben. Allein in der ersten Hälfte des Jahres 2025 verursachten Deepfake-Betrügereien Unternehmensverluste in Höhe von 356 Millionen Dollar und persönliche Verluste in Höhe von 541 Millionen Dollar.
Herkömmliche Deepfake-Erkennungsmethoden – wie die Überprüfung von Wasserzeichen, retuschierten Gesichtern und Metadaten – reichen nicht aus. Unterdessen rangieren Sprach-Deepfakes an zweiter Stelle der häufigsten Arten von KI-gestütztem Betrug, wobei Voice-Phishing-Angriffe (Vishing) im Jahr 2025 um 442 % zugenommen haben, was weitreichende Auswirkungen hat.
„Mit nur wenigen Sekunden Audioaufzeichnung lässt sich heute ein glaubwürdiger Klon erstellen – komplett mit natürlicher Intonation, Rhythmus, Betonung, Emotionen, Pausen und sogar Atemgeräuschen“, erklärte Lyu.
Der menschlichen Stimme lauschen
Kintsugi, ein Healthtech-Startup, entwickelt eine KI-Sprachbiomarker-Technologie, um Anzeichen von klinischer Depression und Angstzuständen zu erkennen. Ihre Arbeit begann mit einer einfachen Idee: Wir müssen den Menschen wirklich zuhören.
„Ich habe Kintsugi aufgrund meiner eigenen Erfahrungen gegründet. Ich habe fast fünf Monate lang meinen Anbieter angerufen, nur um einen ersten Termin für eine Therapie zu vereinbaren, und niemand hat zurückgerufen. Ich habe es immer wieder versucht – aber ich erinnere mich, dass ich dachte, wenn es mein Vater oder mein Bruder gewesen wäre, hätten sie viel früher aufgegeben“, erzählte CEO Grace Chang gegenüber Unite.AI.
Das in Kalifornien ansässige Unternehmen wurde 2019 gegründet, um das zu bekämpfen, was Chang als „Triage-Engpass“ bezeichnete. Sie war überzeugt, dass eine frühzeitige, passive Erkennung des Schweregrads dazu beitragen könnte, Menschen schneller an die richtige Stelle zu verweisen. Mit Kintsugi Voice helfen Stimm-Biomarker dabei, klinische Depressionen und Angstzustände zu erkennen.
Mehrere Studien unterstützen den Einsatz von KI-gestützter Sprachanalyse als Biomarker für die psychische Gesundheit. Eine Studie aus dem Mai 2025 zeigte beispielsweise, dass akustische Biomarker frühe Anzeichen für psychische Probleme und Neurodiversität erkennen können, und sprach sich für die Analyse des Gesangs in klinischen Umgebungen aus, um einen möglichen kognitiven Verfall zu bewerten.
Laut der American Psychiatric Association unterscheidet die Sprachanalyse in 78 % bis 96 % der Fälle Menschen mit Depressionen genau von Menschen ohne Depressionen. Eine andere Studie verwendete einen einminütigen Sprachflüssigkeitstest, bei dem eine Person so viele Wörter wie möglich aus einer Kategorie nennen muss, und erreichte eine Genauigkeit von 70 % bis 83 % bei der Erkennung von gleichzeitig auftretenden Depressionen und Angstzuständen.
Um die psychische Gesundheit zu bewerten, sammelt Kintsugi eine kurze Sprachprobe. Seine Stimm-Biomarker-Technologie untersucht dann Tonhöhe, Intonation, Tonfall und Pausen – Merkmale, die mit Depressionen, Angstzuständen, bipolaren Störungen und Demenz in Verbindung stehen.
Was Chang nicht erwartet hatte, war, dass diese Technologie auch eine entscheidende Herausforderung im Bereich der Sicherheit löste: die Identifizierung dessen, was eine Stimme wirklich menschlich macht.
Von der psychischen Gesundheit zur Cybersicherheit
Während eines Gipfeltreffens in New York Ende 2025 erwähnte Chang gegenüber einem Freund aus dem Bereich Cybersicherheit, dass die Tests ihres Teams mit synthetischen Stimmen enttäuschend ausgefallen seien.
„Wir haben synthetische Daten ausprobiert, um das Training für unsere Modelle zur psychischen Gesundheit zu verbessern, aber die generierten Stimmen unterschieden sich so sehr von echter menschlicher Sprache, dass wir sie fast jedes Mal erkennen konnten“, erklärte sie.
„Er unterbrach mich und sagte: ‚Grace, das ist ein ungelöstes Problem in der Sicherheit.‘ Da ging mir ein Licht auf. Seitdem haben Gespräche mit Sicherheits-, Finanz- und Telekommunikationsunternehmen gezeigt, wie schnell Deepfake-Stimmenangriffe zunehmen – und wie wichtig es ist, in Live-Anrufen menschliche von synthetischen Stimmen zu unterscheiden“, fügte die CEO hinzu.
Im April letzten Jahres warnte das FBI die Öffentlichkeit vor einer böswilligen Text- und Sprachkampagne, bei der sich die Betrüger als hochrangige US-Beamte ausgaben und ehemalige Regierungsmitarbeiter und deren Kontakte ins Visier nahmen. Große US-Banken waren täglich durchschnittlich 5,5 Versuchen von Sprachbetrug ausgesetzt, und Mitarbeiter des Vanderbilt University Medical Center berichteten von Vishing-Angriffen durch Betrüger, die sich als Freunde, Vorgesetzte und Kollegen ausgaben.
Anfangs standen Deepfakes für Kintsugi nicht im Fokus. Obwohl das Team Modelle wie Cartesia, Sesame und ElevenLabs verwendete, um synthetische Stimmen für Callcenter-Agenten und Workflows zu simulieren, hatte Deepfake-Betrug in einem Markt voller zugänglicher Tools wie Sora keine Priorität.
Die Hinweise, die die Authentizität einer Stimme bestätigen, sind jedoch dieselben Biomarker, die auch die menschliche Sprache definieren. Unabhängig von Sprache oder Bedeutung analysiert Kintsugi Voice die Signalverarbeitung und die physische Sprachlatenz und erfasst dabei subtile Zeitabläufe, prosodische Variationen, kognitive Belastungen und physiologische Merkmale – wobei der Fokus darauf liegt, wie Sprache gebildet wird, und nicht darauf, was gesagt wird.
„Synthetische Stimmen mögen flüssig klingen, aber ihnen fehlen die gleichen biologischen und kognitiven Nuancen”, bemerkte Chang. Das Modell des Unternehmens rangiert unter den besten 10 % hinsichtlich der Erkennungsgenauigkeit und benötigt nur 3 bis 5 Sekunden Audio.
Die Innovation von Kintsugi ist vielversprechend für Menschen mit psychischen Problemen, insbesondere wenn der Zugang zu professioneller Hilfe schwierig ist. Ebenso könnte diese Technologie die Deepfake-Erkennung und Cybersicherheit revolutionieren, indem sie die Authentizität überprüft, anstatt Deepfakes zu erkennen.
Menschenzentrierte Technologie als Zukunft
Die Cybersicherheit hat sich traditionell auf böswillige Anwendungen oder Täter konzentriert. Der unerwartete Durchbruch von Kintsugi basiert jedoch auf der menschlichen Natur selbst.
„Wir arbeiten an einer ganz anderen Front: der menschlichen Authentizität. LLMs können von LLMs generierte Inhalte nicht konsistent identifizieren, und artefaktbasierte Techniken sind anfällig. Das Sammeln großer, klinisch annotierter Datensätze, die echte menschliche Variationen erfassen, ist kostspielig, langsam und übersteigt das Fachwissen der meisten Sicherheitsfirmen – was unsere Methode schwer kopierbar macht“, erklärte Chang.
Die Strategie des Startups weist auch auf einen umfassenderen Wandel hin: branchenübergreifende Innovation. Führende Unternehmen im Gesundheitswesen könnten Pioniere bei der KI-basierten Erkennung von Vishing sein, genauso wie Innovatoren im Bereich der Weltraumtechnologie Notfallreaktionssysteme unterstützen oder die Architektur von Spielen die Stadtplanung beeinflussen könnten.
Chang hat sich zum Ziel gesetzt, einen Standard für die Bestätigung der tatsächlichen Anwesenheit eines Menschen – und letztendlich seiner echten Absicht – durch Sprachinteraktionen zu etablieren.
„So wie HTTPS zum Vertrauensstandard im Internet geworden ist, glauben wir, dass der ‚Nachweis der Menschlichkeit‘ für sprachbasierte Systeme unverzichtbar werden wird. Die Signalverarbeitung ist der Anfang dieses Rahmens“, sagte sie.
Mit dem Fortschritt der generativen KI könnte der stärkste Schutz darin bestehen, zu verstehen, was uns wirklich menschlich macht.
StrictlyVC San Francisco versammelt Führungskräfte von TDK Ventures, Replit und anderen Unternehmen
Die erste StrictlyVC-Veranstaltung des Jahres findet schon früher in San Francisco statt, als Sie denken. Es sind noch Tickets für unser Treffen am 30. April im Sentro Filipino Cultural Center erhältl
Notion verwandelt seinen Arbeitsbereich in eine Drehscheibe für KI-Agenten
Notion, der Anbieter von Produktivitätssoftware, tritt in das Zeitalter der agentenbasierten Lösungen ein.Während einer live gestreamten Produktankündigung am Mittwoch stellte Notion – bekannt für sei
Könnten Sie mir bitte den Titel des Artikels für die Überarbeitung nennen?
Früher bedeutete das Erstellen eines professionellen Porträtfotos, einen Fotografen zu engagieren, ein Studio zu mieten und mindestens eine Stunde Zeit einzuplanen. Heute versprechen immer mehr KI-ges





Heim






