Hogar
Una herramienta de IA para la salud mental descubre una forma eficaz de detectar deepfakes

Con el lanzamiento por parte del gigante tecnológico OpenAI de su modelo insignia de generación de vídeo y audio Sora 2 en septiembre de 2025, los vídeos deepfake han inundado las redes sociales, lo que ha hecho que los espectadores se acostumbren a contenidos hiperrealistas potencialmente dañinos.
Aunque OpenAI hizo hincapié en el uso responsable de Sora 2 como objetivo clave, comprometiéndose a proporcionar a los usuarios «herramientas y opciones para gestionar el contenido de sus feeds» y un control total sobre su imagen, un estudio de octubre de 2025 reveló que el modelo generaba vídeos engañosos en el 80 % de los casos.
Desde segmentos de noticias falsas que mostraban a un funcionario electoral moldavo destruyendo papeletas hasta imágenes falsas de un niño pequeño detenido por las autoridades de inmigración o un portavoz de Coca-Cola anunciando que la empresa no patrocinaría la Super Bowl, los riesgos de la desinformación en nuestro mundo conectado nunca han sido tan grandes.
Más allá de Sora: el auge del vishing
Incluso antes de que se estrenara la herramienta de OpenAI, la creación y difusión de material deepfake se estaba acelerando. Un informe de septiembre de 2025 de la empresa de ciberseguridad DeepStrike señaló que el contenido deepfake pasó de 500 000 casos en 2023 a 8 millones en 2025, y que gran parte de él se utilizaba para cometer fraudes.
Esta tendencia no muestra signos de ralentización; se prevé que el fraude relacionado con la IA en Estados Unidos alcance los 40 000 millones de dólares en 2027.
El aumento no es solo en volumen. Gracias a herramientas como Sora 2 y Veo 3 de Google, los rostros, las voces y las actuaciones de cuerpo entero generados por IA parecen más convincentes que nunca. Como señala el informático y experto en deepfakes Siwei Lyu, los modelos actuales pueden generar rostros estables y sin distorsiones, mientras que la clonación de voces ha alcanzado un nivel «indistinguible».
La realidad es que los deepfakes están evolucionando más rápido que los métodos de detección. Lo que las empresas tecnológicas comercializan como herramientas de entretenimiento para crear rutinas de gimnasia olímpica o ricos fondos de audio también está siendo explotado por delincuentes que se dirigen a empresas y particulares. Solo en la primera mitad de 2025, las estafas con deepfakes causaron 356 millones de dólares en pérdidas corporativas y 541 millones de dólares en pérdidas personales.
La detección convencional de deepfakes, como la comprobación de marcas de agua, rostros retocados y metadatos, se está quedando corta. Mientras tanto, los deepfakes de voz ocupan el segundo lugar entre los tipos de fraude más comunes habilitados por la IA, con un aumento del 442 % en los ataques de phishing de voz (vishing) en 2025, lo que ha tenido un impacto generalizado.
«Ahora, con solo unos segundos de audio se puede producir un clon creíble, con entonación, ritmo, énfasis, emoción, pausas e incluso sonidos de respiración naturales», afirmó Lyu.
Escuchar la voz humana
Kintsugi, una startup de tecnología sanitaria, desarrolla tecnología de biomarcadores de voz con IA para identificar signos de depresión clínica y ansiedad. Su trabajo comenzó con una idea sencilla: tenemos que escuchar de verdad a las personas.
«Fundé Kintsugi basándome en mi propia experiencia. Tardé casi cinco meses en llamar a mi proveedor solo para concertar una primera cita terapéutica, y nadie me devolvió la llamada. Seguí intentándolo, pero recuerdo que pensé que si se tratara de mi padre o mi hermano, habrían desistido mucho antes», explicó la directora ejecutiva Grace Chang a Unite.AI.
La empresa, con sede en California, se fundó en 2019 para abordar lo que Chang denominó un «cuello de botella en la clasificación». Ella creía que la detección temprana y pasiva de la gravedad podría ayudar a dirigir a las personas a la atención adecuada más rápidamente. A través de Kintsugi Voice, los biomarcadores vocales ayudan a identificar la depresión clínica y la ansiedad.
Múltiples estudios respaldan el uso del análisis del habla basado en la inteligencia artificial como biomarcador de la salud mental. Por ejemplo, un artículo de mayo de 2025 demostró que los biomarcadores acústicos pueden detectar los primeros signos de problemas de salud mental y neurodiversidad, y abogó por el análisis del canto en entornos clínicos para evaluar un posible deterioro cognitivo.
Según la Asociación Americana de Psiquiatría, el análisis de la voz distingue con precisión a las personas con depresión de las que no la padecen entre el 78 % y el 96 % de las veces. Otro estudio utilizó una prueba de fluidez verbal de un minuto de duración, en la que una persona nombra tantas palabras como puede de una categoría, y logró una precisión del 70 % al 83 % en la detección de la depresión y la ansiedad concurrentes.
Para evaluar la salud mental, Kintsugi recoge una breve muestra de voz. A continuación, su tecnología de biomarcadores vocales examina el tono, la entonación, el timbre y las pausas, características relacionadas con la depresión, la ansiedad, el trastorno bipolar y la demencia.
Lo que Chang no previó fue que esta tecnología también abordaba un reto crítico en materia de seguridad: identificar qué es lo que hace que una voz sea genuinamente humana.
De la salud mental a la ciberseguridad
Durante una cumbre celebrada en Nueva York a finales de 2025, Chang comentó a un amigo experto en ciberseguridad que las pruebas de su equipo con voces sintéticas habían sido decepcionantes.
«Estábamos probando datos sintéticos para mejorar el entrenamiento de nuestros modelos de salud mental, pero las voces generadas eran tan diferentes del habla humana real que podíamos detectarlas casi siempre», explicó.
«Me interrumpió y me dijo: "Grace, ese es un problema sin resolver en materia de seguridad". Fue entonces cuando todo cobró sentido. Desde entonces, las conversaciones con empresas de seguridad, finanzas y telecomunicaciones han puesto de relieve la rapidez con la que están aumentando los ataques de voces deepfake y lo importante que es distinguir las voces humanas de las sintéticas en las llamadas en directo», añadió la directora ejecutiva.
En abril del año pasado, el FBI alertó al público sobre una campaña maliciosa de mensajes de texto y voz que suplantaba la identidad de altos funcionarios estadounidenses y tenía como objetivo a antiguos empleados del Gobierno y sus contactos. Los principales bancos estadounidenses se enfrentaban a una media de 5,5 intentos diarios de fraude de voz, y el personal del Centro Médico de la Universidad de Vanderbilt denunció ataques de vishing por parte de impostores que se hacían pasar por amigos, supervisores y compañeros de trabajo.
Inicialmente, los deepfakes no eran un tema central para Kintsugi. Aunque el equipo utilizaba modelos como Cartesia, Sesame y ElevenLabs para simular voces sintéticas para los agentes de los centros de llamadas y los flujos de trabajo, el fraude con deepfakes no era una prioridad en un mercado repleto de herramientas accesibles como Sora.
Sin embargo, las señales que confirman la autenticidad de la voz son los mismos biomarcadores que definen el habla humana. Independientemente del idioma o el significado, Kintsugi Voice analiza el procesamiento de la señal y la latencia física del habla, captando sutiles variaciones temporales, prosódicas, cognitivas y fisiológicas, centrándose en cómo se forma el habla, no en lo que se dice.
«Las voces sintéticas pueden sonar fluidas, pero carecen de los mismos matices biológicos y cognitivos», señaló Chang. El modelo de la empresa se encuentra entre el 10 % más preciso en cuanto a detección, y solo necesita entre 3 y 5 segundos de audio.
La innovación de Kintsugi ofrece una promesa para quienes se enfrentan a problemas de salud mental, especialmente cuando es difícil acceder a atención profesional. Del mismo modo, su tecnología podría transformar la detección de deepfakes y la ciberseguridad al verificar la autenticidad en lugar de detectar los deepfakes.
La tecnología centrada en el ser humano como futuro
La ciberseguridad se ha centrado tradicionalmente en los usos maliciosos o en los autores de los delitos. Sin embargo, el inesperado avance de Kintsugi se basa en la propia naturaleza humana.
«Estamos trabajando en un frente totalmente diferente: la autenticidad humana. Los LLM no pueden identificar de forma consistente el contenido generado por LLM, y las técnicas basadas en artefactos son frágiles. Recopilar grandes conjuntos de datos con anotaciones clínicas que capturen la variación humana genuina es costoso, lento y está más allá de la experiencia de la mayoría de las empresas de seguridad, lo que hace que nuestro método sea difícil de copiar», explicó Chang.
La estrategia de la startup también apunta a un cambio más amplio: la innovación intersectorial. Los líderes del sector sanitario podrían ser pioneros en la detección de vishing basada en la IA, al igual que los innovadores en tecnología espacial pueden ayudar a los sistemas de respuesta a emergencias, o la arquitectura de los videojuegos puede influir en la planificación urbana.
En cuanto a Chang, su objetivo es establecer un estándar para confirmar la presencia humana real —y, en última instancia, la intención genuina— a través de las interacciones de voz.
«Al igual que el HTTPS se convirtió en el estándar de confianza de la web, creemos que la "prueba de humanidad" será esencial para los sistemas basados en la voz. El procesamiento de señales es el comienzo de ese marco», afirmó.
A medida que avanza la IA generativa, las protecciones más sólidas pueden provenir de comprender lo que realmente nos hace humanos.
Artículo relacionado
OpenAI retira los modelos a gran escala o3 y GPT-4.5
Como líder en inteligencia artificial, cada movimiento técnico de OpenAI tiene un gran impacto en el sector. Recientemente, la empresa hizo un importante anuncio: retirará dos modelos clásicos —o3 y G
Actualización importante de AIGCPanel 2.0.0: el motor de flujos de trabajo abre una nueva era en la creación automatizada de seres humanos digitales
AIGCPanel, una potente herramienta para la creación de humanos digitales a nivel local, acaba de lanzar la versión 2.0.0, considerada «la actualización más importante hasta la fecha». Esta revisión pr
BuzzFeed lanza una filial dedicada a aplicaciones basura basadas en IA
En medio de una grave crisis empresarial, el antiguo gigante de los medios digitales BuzzFeed está poniendo en marcha un ambicioso proyecto de autorrescate basado en la inteligencia artificial. En la
Recomendaciones de temas especiales relacionados
comentario (1)
0/500

Con el lanzamiento por parte del gigante tecnológico OpenAI de su modelo insignia de generación de vídeo y audio Sora 2 en septiembre de 2025, los vídeos deepfake han inundado las redes sociales, lo que ha hecho que los espectadores se acostumbren a contenidos hiperrealistas potencialmente dañinos.
Aunque OpenAI hizo hincapié en el uso responsable de Sora 2 como objetivo clave, comprometiéndose a proporcionar a los usuarios «herramientas y opciones para gestionar el contenido de sus feeds» y un control total sobre su imagen, un estudio de octubre de 2025 reveló que el modelo generaba vídeos engañosos en el 80 % de los casos.
Desde segmentos de noticias falsas que mostraban a un funcionario electoral moldavo destruyendo papeletas hasta imágenes falsas de un niño pequeño detenido por las autoridades de inmigración o un portavoz de Coca-Cola anunciando que la empresa no patrocinaría la Super Bowl, los riesgos de la desinformación en nuestro mundo conectado nunca han sido tan grandes.
Más allá de Sora: el auge del vishing
Incluso antes de que se estrenara la herramienta de OpenAI, la creación y difusión de material deepfake se estaba acelerando. Un informe de septiembre de 2025 de la empresa de ciberseguridad DeepStrike señaló que el contenido deepfake pasó de 500 000 casos en 2023 a 8 millones en 2025, y que gran parte de él se utilizaba para cometer fraudes.
Esta tendencia no muestra signos de ralentización; se prevé que el fraude relacionado con la IA en Estados Unidos alcance los 40 000 millones de dólares en 2027.
El aumento no es solo en volumen. Gracias a herramientas como Sora 2 y Veo 3 de Google, los rostros, las voces y las actuaciones de cuerpo entero generados por IA parecen más convincentes que nunca. Como señala el informático y experto en deepfakes Siwei Lyu, los modelos actuales pueden generar rostros estables y sin distorsiones, mientras que la clonación de voces ha alcanzado un nivel «indistinguible».
La realidad es que los deepfakes están evolucionando más rápido que los métodos de detección. Lo que las empresas tecnológicas comercializan como herramientas de entretenimiento para crear rutinas de gimnasia olímpica o ricos fondos de audio también está siendo explotado por delincuentes que se dirigen a empresas y particulares. Solo en la primera mitad de 2025, las estafas con deepfakes causaron 356 millones de dólares en pérdidas corporativas y 541 millones de dólares en pérdidas personales.
La detección convencional de deepfakes, como la comprobación de marcas de agua, rostros retocados y metadatos, se está quedando corta. Mientras tanto, los deepfakes de voz ocupan el segundo lugar entre los tipos de fraude más comunes habilitados por la IA, con un aumento del 442 % en los ataques de phishing de voz (vishing) en 2025, lo que ha tenido un impacto generalizado.
«Ahora, con solo unos segundos de audio se puede producir un clon creíble, con entonación, ritmo, énfasis, emoción, pausas e incluso sonidos de respiración naturales», afirmó Lyu.
Escuchar la voz humana
Kintsugi, una startup de tecnología sanitaria, desarrolla tecnología de biomarcadores de voz con IA para identificar signos de depresión clínica y ansiedad. Su trabajo comenzó con una idea sencilla: tenemos que escuchar de verdad a las personas.
«Fundé Kintsugi basándome en mi propia experiencia. Tardé casi cinco meses en llamar a mi proveedor solo para concertar una primera cita terapéutica, y nadie me devolvió la llamada. Seguí intentándolo, pero recuerdo que pensé que si se tratara de mi padre o mi hermano, habrían desistido mucho antes», explicó la directora ejecutiva Grace Chang a Unite.AI.
La empresa, con sede en California, se fundó en 2019 para abordar lo que Chang denominó un «cuello de botella en la clasificación». Ella creía que la detección temprana y pasiva de la gravedad podría ayudar a dirigir a las personas a la atención adecuada más rápidamente. A través de Kintsugi Voice, los biomarcadores vocales ayudan a identificar la depresión clínica y la ansiedad.
Múltiples estudios respaldan el uso del análisis del habla basado en la inteligencia artificial como biomarcador de la salud mental. Por ejemplo, un artículo de mayo de 2025 demostró que los biomarcadores acústicos pueden detectar los primeros signos de problemas de salud mental y neurodiversidad, y abogó por el análisis del canto en entornos clínicos para evaluar un posible deterioro cognitivo.
Según la Asociación Americana de Psiquiatría, el análisis de la voz distingue con precisión a las personas con depresión de las que no la padecen entre el 78 % y el 96 % de las veces. Otro estudio utilizó una prueba de fluidez verbal de un minuto de duración, en la que una persona nombra tantas palabras como puede de una categoría, y logró una precisión del 70 % al 83 % en la detección de la depresión y la ansiedad concurrentes.
Para evaluar la salud mental, Kintsugi recoge una breve muestra de voz. A continuación, su tecnología de biomarcadores vocales examina el tono, la entonación, el timbre y las pausas, características relacionadas con la depresión, la ansiedad, el trastorno bipolar y la demencia.
Lo que Chang no previó fue que esta tecnología también abordaba un reto crítico en materia de seguridad: identificar qué es lo que hace que una voz sea genuinamente humana.
De la salud mental a la ciberseguridad
Durante una cumbre celebrada en Nueva York a finales de 2025, Chang comentó a un amigo experto en ciberseguridad que las pruebas de su equipo con voces sintéticas habían sido decepcionantes.
«Estábamos probando datos sintéticos para mejorar el entrenamiento de nuestros modelos de salud mental, pero las voces generadas eran tan diferentes del habla humana real que podíamos detectarlas casi siempre», explicó.
«Me interrumpió y me dijo: "Grace, ese es un problema sin resolver en materia de seguridad". Fue entonces cuando todo cobró sentido. Desde entonces, las conversaciones con empresas de seguridad, finanzas y telecomunicaciones han puesto de relieve la rapidez con la que están aumentando los ataques de voces deepfake y lo importante que es distinguir las voces humanas de las sintéticas en las llamadas en directo», añadió la directora ejecutiva.
En abril del año pasado, el FBI alertó al público sobre una campaña maliciosa de mensajes de texto y voz que suplantaba la identidad de altos funcionarios estadounidenses y tenía como objetivo a antiguos empleados del Gobierno y sus contactos. Los principales bancos estadounidenses se enfrentaban a una media de 5,5 intentos diarios de fraude de voz, y el personal del Centro Médico de la Universidad de Vanderbilt denunció ataques de vishing por parte de impostores que se hacían pasar por amigos, supervisores y compañeros de trabajo.
Inicialmente, los deepfakes no eran un tema central para Kintsugi. Aunque el equipo utilizaba modelos como Cartesia, Sesame y ElevenLabs para simular voces sintéticas para los agentes de los centros de llamadas y los flujos de trabajo, el fraude con deepfakes no era una prioridad en un mercado repleto de herramientas accesibles como Sora.
Sin embargo, las señales que confirman la autenticidad de la voz son los mismos biomarcadores que definen el habla humana. Independientemente del idioma o el significado, Kintsugi Voice analiza el procesamiento de la señal y la latencia física del habla, captando sutiles variaciones temporales, prosódicas, cognitivas y fisiológicas, centrándose en cómo se forma el habla, no en lo que se dice.
«Las voces sintéticas pueden sonar fluidas, pero carecen de los mismos matices biológicos y cognitivos», señaló Chang. El modelo de la empresa se encuentra entre el 10 % más preciso en cuanto a detección, y solo necesita entre 3 y 5 segundos de audio.
La innovación de Kintsugi ofrece una promesa para quienes se enfrentan a problemas de salud mental, especialmente cuando es difícil acceder a atención profesional. Del mismo modo, su tecnología podría transformar la detección de deepfakes y la ciberseguridad al verificar la autenticidad en lugar de detectar los deepfakes.
La tecnología centrada en el ser humano como futuro
La ciberseguridad se ha centrado tradicionalmente en los usos maliciosos o en los autores de los delitos. Sin embargo, el inesperado avance de Kintsugi se basa en la propia naturaleza humana.
«Estamos trabajando en un frente totalmente diferente: la autenticidad humana. Los LLM no pueden identificar de forma consistente el contenido generado por LLM, y las técnicas basadas en artefactos son frágiles. Recopilar grandes conjuntos de datos con anotaciones clínicas que capturen la variación humana genuina es costoso, lento y está más allá de la experiencia de la mayoría de las empresas de seguridad, lo que hace que nuestro método sea difícil de copiar», explicó Chang.
La estrategia de la startup también apunta a un cambio más amplio: la innovación intersectorial. Los líderes del sector sanitario podrían ser pioneros en la detección de vishing basada en la IA, al igual que los innovadores en tecnología espacial pueden ayudar a los sistemas de respuesta a emergencias, o la arquitectura de los videojuegos puede influir en la planificación urbana.
En cuanto a Chang, su objetivo es establecer un estándar para confirmar la presencia humana real —y, en última instancia, la intención genuina— a través de las interacciones de voz.
«Al igual que el HTTPS se convirtió en el estándar de confianza de la web, creemos que la "prueba de humanidad" será esencial para los sistemas basados en la voz. El procesamiento de señales es el comienzo de ese marco», afirmó.
A medida que avanza la IA generativa, las protecciones más sólidas pueden provenir de comprender lo que realmente nos hace humanos.
OpenAI retira los modelos a gran escala o3 y GPT-4.5
Como líder en inteligencia artificial, cada movimiento técnico de OpenAI tiene un gran impacto en el sector. Recientemente, la empresa hizo un importante anuncio: retirará dos modelos clásicos —o3 y G
Actualización importante de AIGCPanel 2.0.0: el motor de flujos de trabajo abre una nueva era en la creación automatizada de seres humanos digitales
AIGCPanel, una potente herramienta para la creación de humanos digitales a nivel local, acaba de lanzar la versión 2.0.0, considerada «la actualización más importante hasta la fecha». Esta revisión pr
BuzzFeed lanza una filial dedicada a aplicaciones basura basadas en IA
En medio de una grave crisis empresarial, el antiguo gigante de los medios digitales BuzzFeed está poniendo en marcha un ambicioso proyecto de autorrescate basado en la inteligencia artificial. En la











