Ferramenta de saúde mental com IA descobre detecção eficaz de deepfakes

Com a gigante tecnológica OpenAI lançando seu modelo emblemático de geração de vídeo e áudio Sora 2 em setembro de 2025, os vídeos deepfake inundaram as redes sociais, tornando os espectadores mais acostumados a conteúdos hiper-realistas potencialmente prejudiciais.
Embora a OpenAI tenha enfatizado a implantação responsável do Sora 2 como um objetivo fundamental — comprometendo-se a fornecer aos usuários “ferramentas e opções para gerenciar o conteúdo de seus feeds” e controle total sobre sua imagem —, um estudo de outubro de 2025 revelou que o modelo gerou vídeos enganosos em 80% das vezes.
De segmentos de notícias falsas mostrando um funcionário eleitoral moldavo destruindo cédulas eleitorais a imagens fabricadas de uma criança detida pelas autoridades de imigração ou um porta-voz da Coca-Cola anunciando que a empresa não patrocinaria o Super Bowl, os riscos da desinformação em nosso mundo conectado nunca foram tão grandes.
Além do Sora: a ascensão do vishing
Mesmo antes do lançamento da ferramenta da OpenAI, a criação e a disseminação de material deepfake já estavam se acelerando. Um relatório de setembro de 2025 da empresa de segurança cibernética DeepStrike observou que o conteúdo deepfake saltou de 500.000 ocorrências em 2023 para 8 milhões em 2025, com grande parte sendo usada para fraudes.
Essa tendência não mostra sinais de desaceleração; as fraudes relacionadas à IA nos Estados Unidos devem atingir US$ 40 bilhões até 2027.
O aumento não é apenas em volume. Graças a ferramentas como Sora 2 e Veo 3 do Google, rostos, vozes e performances de corpo inteiro gerados por IA parecem mais convincentes do que nunca. Conforme observado pelo cientista da computação e especialista em deepfake Siwei Lyu, os modelos atuais podem gerar rostos estáveis e sem distorção, enquanto a clonagem de voz atingiu um nível “indistinguível”.
A realidade é que os deepfakes estão evoluindo mais rapidamente do que os métodos de detecção. O que as empresas de tecnologia comercializam como ferramentas divertidas para criar rotinas de ginástica olímpica ou ricos cenários de áudio também está sendo explorado por criminosos que têm como alvo empresas e indivíduos. Somente no primeiro semestre de 2025, os golpes com deepfakes causaram US$ 356 milhões em perdas corporativas e US$ 541 milhões em perdas pessoais.
A detecção convencional de deepfakes — como verificar marcas d'água, rostos retocados e metadados — está ficando aquém. Enquanto isso, os deepfakes de voz são o segundo tipo mais comum de fraude habilitada por IA, com ataques de phishing de voz (vishing) aumentando 442% em 2025, causando um impacto amplamente sentido.
“Agora, apenas alguns segundos de áudio podem produzir um clone crível — completo com entonação natural, ritmo, ênfase, emoção, pausas e até mesmo sons de respiração”, afirmou Lyu.
Ouvindo a voz humana
A Kintsugi, uma startup de tecnologia da saúde, desenvolve tecnologia de biomarcadores de voz com IA para identificar sinais de depressão clínica e ansiedade. Seu trabalho começou com uma ideia simples: precisamos realmente ouvir as pessoas.
“Fundei a Kintsugi com base na minha própria experiência. Levei quase cinco meses ligando para meu provedor apenas para marcar a primeira consulta terapêutica, e ninguém retornou minhas ligações. Continuei tentando, mas lembro de pensar que, se fosse meu pai ou meu irmão, eles teriam desistido muito antes”, disse a CEO Grace Chang à Unite.AI.
A empresa sediada na Califórnia foi lançada em 2019 para resolver o que Chang chamou de “gargalo de triagem”. Ela acreditava que a detecção precoce e passiva da gravidade poderia ajudar a encaminhar as pessoas para o tratamento adequado mais rapidamente. Por meio do Kintsugi Voice, biomarcadores vocais ajudam a identificar depressão clínica e ansiedade.
Vários estudos apoiam o uso da análise de fala com inteligência artificial como biomarcador para a saúde mental. Um artigo de maio de 2025, por exemplo, mostrou que biomarcadores acústicos podem detectar sinais precoces de problemas de saúde mental e neurodiversidade, e defendeu a análise do canto em ambientes clínicos para avaliar um possível declínio cognitivo.
De acordo com a Associação Americana de Psiquiatria, a análise da voz distingue com precisão as pessoas com depressão daquelas sem depressão em 78% a 96% das vezes. Outro estudo utilizou um teste de fluência verbal de um minuto — no qual uma pessoa nomeia o máximo possível de palavras em uma categoria — e alcançou 70% a 83% de precisão na detecção de depressão e ansiedade coocorrentes.
Para avaliar a saúde mental, a Kintsugi coleta uma breve amostra de voz. Sua tecnologia de biomarcadores vocais examina então o tom, a entonação, o timbre e as pausas — características associadas à depressão, ansiedade, transtorno bipolar e demência.
O que Chang não previu foi que essa tecnologia também abordava um desafio crítico em segurança: identificar o que torna uma voz genuinamente humana.
Da saúde mental à segurança cibernética
Durante uma cúpula em Nova York no final de 2025, Chang mencionou a um amigo especialista em segurança cibernética que os testes de sua equipe com vozes sintéticas haviam sido decepcionantes.
“Estávamos tentando usar dados sintéticos para aprimorar o treinamento de nossos modelos de saúde mental, mas as vozes geradas eram tão diferentes da fala humana real que conseguíamos identificá-las quase sempre”, explicou ela.
“Ele me interrompeu e disse: ‘Grace, esse é um problema não resolvido na segurança’. Foi aí que tudo se conectou. Desde então, discussões com empresas de segurança, financeiras e de telecomunicações destacaram o quão rápido os ataques de voz deepfake estão crescendo — e como é crítico distinguir vozes humanas de sintéticas em chamadas ao vivo”, acrescentou a CEO.
Em abril do ano passado, o FBI alertou o público sobre uma campanha maliciosa de mensagens de texto e voz que se passava por altos funcionários dos EUA e tinha como alvo ex-funcionários do governo e seus contatos. Os principais bancos dos EUA enfrentaram uma média de 5,5 tentativas diárias de fraude de voz, e a equipe do Centro Médico da Universidade Vanderbilt relatou ataques de vishing por impostores que se passavam por amigos, supervisores e colegas de trabalho.
Inicialmente, os deepfakes não eram o foco da Kintsugi. Embora a equipe usasse modelos como Cartesia, Sesame e ElevenLabs para simular vozes sintéticas para agentes de call center e fluxos de trabalho, a fraude com deepfakes não era uma prioridade em um mercado repleto de ferramentas acessíveis como o Sora.
No entanto, as pistas que confirmam a autenticidade da voz são os mesmos biomarcadores que definem a fala humana. Independentemente do idioma ou significado, o Kintsugi Voice analisa o processamento do sinal e a latência física da fala, capturando sincronização sutil, variação prosódica, carga cognitiva e traços fisiológicos — com foco em como a fala é formada, não no que é dito.
“As vozes sintéticas podem soar fluentes, mas carecem das mesmas nuances biológicas e cognitivas”, observou Chang. O modelo da empresa está entre os 10% melhores em precisão de detecção, precisando de apenas 3 a 5 segundos de áudio.
A inovação da Kintsugi é promissora para aqueles que enfrentam desafios de saúde mental, especialmente quando o acesso a cuidados profissionais é difícil. Da mesma forma, sua tecnologia pode transformar a detecção de deepfakes e a segurança cibernética, verificando a autenticidade em vez de identificar deepfakes.
Tecnologia centrada no ser humano como o futuro
A segurança cibernética tradicionalmente se concentra em usos maliciosos ou perpetradores. A inovação inesperada da Kintsugi, no entanto, depende da própria natureza humana.
“Estamos trabalhando em uma frente totalmente diferente: a autenticidade humana. Os LLMs não conseguem identificar consistentemente o conteúdo gerado por LLMs, e as técnicas baseadas em artefatos são frágeis. Reunir grandes conjuntos de dados clinicamente anotados que capturem a variação humana genuína é caro, lento e está além da expertise da maioria das empresas de segurança — tornando nosso método difícil de copiar”, explicou Chang.
A estratégia da startup também aponta para uma mudança mais ampla: a inovação entre setores. Os líderes na área da saúde poderiam ser pioneiros na detecção de vishing baseada em IA, assim como os inovadores em tecnologia espacial podem ajudar os sistemas de resposta a emergências, ou a arquitetura de jogos pode influenciar o planejamento urbano.
Quanto a Chang, ela pretende estabelecer um padrão para confirmar a presença humana real — e, eventualmente, a intenção genuína — por meio de interações de voz.
“Assim como o HTTPS se tornou o padrão de confiança da web, acreditamos que a ‘prova de humanidade’ se tornará essencial para sistemas baseados em voz. O processamento de sinais é o início dessa estrutura”, disse ela.
À medida que a IA generativa avança, as proteções mais fortes podem vir da compreensão do que realmente nos torna humanos.
Artigo relacionado
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa
BuzzFeed lança subsidiária de aplicativos inúteis baseados em IA
Em meio a uma grave crise empresarial, a antiga gigante da mídia digital BuzzFeed está lançando uma ambiciosa iniciativa de recuperação impulsionada pela inteligência artificial. Na recente conferênci
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te
Recomendações de tópicos especiais relacionados
Comentários (1)

Com a gigante tecnológica OpenAI lançando seu modelo emblemático de geração de vídeo e áudio Sora 2 em setembro de 2025, os vídeos deepfake inundaram as redes sociais, tornando os espectadores mais acostumados a conteúdos hiper-realistas potencialmente prejudiciais.
Embora a OpenAI tenha enfatizado a implantação responsável do Sora 2 como um objetivo fundamental — comprometendo-se a fornecer aos usuários “ferramentas e opções para gerenciar o conteúdo de seus feeds” e controle total sobre sua imagem —, um estudo de outubro de 2025 revelou que o modelo gerou vídeos enganosos em 80% das vezes.
De segmentos de notícias falsas mostrando um funcionário eleitoral moldavo destruindo cédulas eleitorais a imagens fabricadas de uma criança detida pelas autoridades de imigração ou um porta-voz da Coca-Cola anunciando que a empresa não patrocinaria o Super Bowl, os riscos da desinformação em nosso mundo conectado nunca foram tão grandes.
Além do Sora: a ascensão do vishing
Mesmo antes do lançamento da ferramenta da OpenAI, a criação e a disseminação de material deepfake já estavam se acelerando. Um relatório de setembro de 2025 da empresa de segurança cibernética DeepStrike observou que o conteúdo deepfake saltou de 500.000 ocorrências em 2023 para 8 milhões em 2025, com grande parte sendo usada para fraudes.
Essa tendência não mostra sinais de desaceleração; as fraudes relacionadas à IA nos Estados Unidos devem atingir US$ 40 bilhões até 2027.
O aumento não é apenas em volume. Graças a ferramentas como Sora 2 e Veo 3 do Google, rostos, vozes e performances de corpo inteiro gerados por IA parecem mais convincentes do que nunca. Conforme observado pelo cientista da computação e especialista em deepfake Siwei Lyu, os modelos atuais podem gerar rostos estáveis e sem distorção, enquanto a clonagem de voz atingiu um nível “indistinguível”.
A realidade é que os deepfakes estão evoluindo mais rapidamente do que os métodos de detecção. O que as empresas de tecnologia comercializam como ferramentas divertidas para criar rotinas de ginástica olímpica ou ricos cenários de áudio também está sendo explorado por criminosos que têm como alvo empresas e indivíduos. Somente no primeiro semestre de 2025, os golpes com deepfakes causaram US$ 356 milhões em perdas corporativas e US$ 541 milhões em perdas pessoais.
A detecção convencional de deepfakes — como verificar marcas d'água, rostos retocados e metadados — está ficando aquém. Enquanto isso, os deepfakes de voz são o segundo tipo mais comum de fraude habilitada por IA, com ataques de phishing de voz (vishing) aumentando 442% em 2025, causando um impacto amplamente sentido.
“Agora, apenas alguns segundos de áudio podem produzir um clone crível — completo com entonação natural, ritmo, ênfase, emoção, pausas e até mesmo sons de respiração”, afirmou Lyu.
Ouvindo a voz humana
A Kintsugi, uma startup de tecnologia da saúde, desenvolve tecnologia de biomarcadores de voz com IA para identificar sinais de depressão clínica e ansiedade. Seu trabalho começou com uma ideia simples: precisamos realmente ouvir as pessoas.
“Fundei a Kintsugi com base na minha própria experiência. Levei quase cinco meses ligando para meu provedor apenas para marcar a primeira consulta terapêutica, e ninguém retornou minhas ligações. Continuei tentando, mas lembro de pensar que, se fosse meu pai ou meu irmão, eles teriam desistido muito antes”, disse a CEO Grace Chang à Unite.AI.
A empresa sediada na Califórnia foi lançada em 2019 para resolver o que Chang chamou de “gargalo de triagem”. Ela acreditava que a detecção precoce e passiva da gravidade poderia ajudar a encaminhar as pessoas para o tratamento adequado mais rapidamente. Por meio do Kintsugi Voice, biomarcadores vocais ajudam a identificar depressão clínica e ansiedade.
Vários estudos apoiam o uso da análise de fala com inteligência artificial como biomarcador para a saúde mental. Um artigo de maio de 2025, por exemplo, mostrou que biomarcadores acústicos podem detectar sinais precoces de problemas de saúde mental e neurodiversidade, e defendeu a análise do canto em ambientes clínicos para avaliar um possível declínio cognitivo.
De acordo com a Associação Americana de Psiquiatria, a análise da voz distingue com precisão as pessoas com depressão daquelas sem depressão em 78% a 96% das vezes. Outro estudo utilizou um teste de fluência verbal de um minuto — no qual uma pessoa nomeia o máximo possível de palavras em uma categoria — e alcançou 70% a 83% de precisão na detecção de depressão e ansiedade coocorrentes.
Para avaliar a saúde mental, a Kintsugi coleta uma breve amostra de voz. Sua tecnologia de biomarcadores vocais examina então o tom, a entonação, o timbre e as pausas — características associadas à depressão, ansiedade, transtorno bipolar e demência.
O que Chang não previu foi que essa tecnologia também abordava um desafio crítico em segurança: identificar o que torna uma voz genuinamente humana.
Da saúde mental à segurança cibernética
Durante uma cúpula em Nova York no final de 2025, Chang mencionou a um amigo especialista em segurança cibernética que os testes de sua equipe com vozes sintéticas haviam sido decepcionantes.
“Estávamos tentando usar dados sintéticos para aprimorar o treinamento de nossos modelos de saúde mental, mas as vozes geradas eram tão diferentes da fala humana real que conseguíamos identificá-las quase sempre”, explicou ela.
“Ele me interrompeu e disse: ‘Grace, esse é um problema não resolvido na segurança’. Foi aí que tudo se conectou. Desde então, discussões com empresas de segurança, financeiras e de telecomunicações destacaram o quão rápido os ataques de voz deepfake estão crescendo — e como é crítico distinguir vozes humanas de sintéticas em chamadas ao vivo”, acrescentou a CEO.
Em abril do ano passado, o FBI alertou o público sobre uma campanha maliciosa de mensagens de texto e voz que se passava por altos funcionários dos EUA e tinha como alvo ex-funcionários do governo e seus contatos. Os principais bancos dos EUA enfrentaram uma média de 5,5 tentativas diárias de fraude de voz, e a equipe do Centro Médico da Universidade Vanderbilt relatou ataques de vishing por impostores que se passavam por amigos, supervisores e colegas de trabalho.
Inicialmente, os deepfakes não eram o foco da Kintsugi. Embora a equipe usasse modelos como Cartesia, Sesame e ElevenLabs para simular vozes sintéticas para agentes de call center e fluxos de trabalho, a fraude com deepfakes não era uma prioridade em um mercado repleto de ferramentas acessíveis como o Sora.
No entanto, as pistas que confirmam a autenticidade da voz são os mesmos biomarcadores que definem a fala humana. Independentemente do idioma ou significado, o Kintsugi Voice analisa o processamento do sinal e a latência física da fala, capturando sincronização sutil, variação prosódica, carga cognitiva e traços fisiológicos — com foco em como a fala é formada, não no que é dito.
“As vozes sintéticas podem soar fluentes, mas carecem das mesmas nuances biológicas e cognitivas”, observou Chang. O modelo da empresa está entre os 10% melhores em precisão de detecção, precisando de apenas 3 a 5 segundos de áudio.
A inovação da Kintsugi é promissora para aqueles que enfrentam desafios de saúde mental, especialmente quando o acesso a cuidados profissionais é difícil. Da mesma forma, sua tecnologia pode transformar a detecção de deepfakes e a segurança cibernética, verificando a autenticidade em vez de identificar deepfakes.
Tecnologia centrada no ser humano como o futuro
A segurança cibernética tradicionalmente se concentra em usos maliciosos ou perpetradores. A inovação inesperada da Kintsugi, no entanto, depende da própria natureza humana.
“Estamos trabalhando em uma frente totalmente diferente: a autenticidade humana. Os LLMs não conseguem identificar consistentemente o conteúdo gerado por LLMs, e as técnicas baseadas em artefatos são frágeis. Reunir grandes conjuntos de dados clinicamente anotados que capturem a variação humana genuína é caro, lento e está além da expertise da maioria das empresas de segurança — tornando nosso método difícil de copiar”, explicou Chang.
A estratégia da startup também aponta para uma mudança mais ampla: a inovação entre setores. Os líderes na área da saúde poderiam ser pioneiros na detecção de vishing baseada em IA, assim como os inovadores em tecnologia espacial podem ajudar os sistemas de resposta a emergências, ou a arquitetura de jogos pode influenciar o planejamento urbano.
Quanto a Chang, ela pretende estabelecer um padrão para confirmar a presença humana real — e, eventualmente, a intenção genuína — por meio de interações de voz.
“Assim como o HTTPS se tornou o padrão de confiança da web, acreditamos que a ‘prova de humanidade’ se tornará essencial para sistemas baseados em voz. O processamento de sinais é o início dessa estrutura”, disse ela.
À medida que a IA generativa avança, as proteções mais fortes podem vir da compreensão do que realmente nos torna humanos.
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa
BuzzFeed lança subsidiária de aplicativos inúteis baseados em IA
Em meio a uma grave crise empresarial, a antiga gigante da mídia digital BuzzFeed está lançando uma ambiciosa iniciativa de recuperação impulsionada pela inteligência artificial. Na recente conferênci
Modo para adultos do ChatGPT é adiado novamente; Ultraman: priorize a inteligência em primeiro lugar
OpenAI adia novamente recurso polêmico e se concentra na personalização e na interação proativaA questão de saber se “conteúdo impróprio” deve fazer parte de uma ferramenta de IA produtiva há muito te





Lar






