Дом
Инструмент искусственного интеллекта для оценки психического здоровья натыкается на эффективное средство обнаружения дипфейков

После того как в сентябре 2025 года технологический гигант OpenAI выпустил свою флагманскую модель генерации видео и аудио Sora 2, видео с глубокой подделкой заполонили социальные сети, приучив зрителей к потенциально вредному гиперреалистичному контенту.
Хотя OpenAI подчеркнула, что ответственное использование Sora 2 является ключевой целью, пообещав предоставить пользователям «инструменты и возможности для управления контентом в своих лентах» и полный контроль над своим изображением, исследование, проведенное в октябре 2025 года, показало, что модель генерировала вводящие в заблуждение видео в 80% случаев.
От фейковых новостей, показывающих молдавского избирательного чиновника, уничтожающего бюллетени, до сфабрикованных кадров, на которых иммиграционные власти задерживают малыша, или представителя Coca-Cola, объявляющего, что компания не будет спонсировать Суперкубок, — риски дезинформации в нашем взаимосвязанном мире никогда не были так велики.
За пределами Sora: рост вишинга
Еще до появления инструмента OpenAI создание и распространение материалов с использованием технологии deepfake ускорилось. В отчете компании DeepStrike, занимающейся кибербезопасностью, за сентябрь 2025 года отмечается, что количество контента с использованием технологии deepfake выросло с 500 000 случаев в 2023 году до 8 миллионов в 2025 году, причем большая часть этого контента использовалась для мошенничества.
Эта тенденция не показывает признаков замедления; по прогнозам, к 2027 году объем мошенничества, связанного с ИИ, в США достигнет 40 миллиардов долларов.
Рост наблюдается не только в объемах. Благодаря таким инструментам, как Sora 2 и Veo 3 от Google, лица, голоса и движения всего тела, сгенерированные с помощью ИИ, выглядят более убедительно, чем когда-либо. Как отмечает компьютерный ученый и эксперт по дипфейкам Сивей Лю, современные модели могут генерировать стабильные лица без искажений, а клонирование голоса достигло «неотличимого» уровня.
Реальность такова, что дипфейки развиваются быстрее, чем методы их обнаружения. То, что технологические компании продвигают как развлекательные инструменты для создания олимпийских гимнастических программ или богатых звуковых фонов, также используется преступниками, нацеленными на компании и частных лиц. Только в первой половине 2025 года мошенничество с дипфейками привело к убыткам компаний в размере 356 миллионов долларов и убыткам частных лиц в размере 541 миллиона долларов.
Обычные методы обнаружения дипфейков, такие как проверка водяных знаков, ретушированных лиц и метаданных, не справляются с задачей. Между тем, голосовые дипфейки занимают второе место среди наиболее распространенных видов мошенничества с использованием ИИ, а количество атак с использованием голосового фишинга (vishing) в 2025 году выросло на 442%, что привело к широкомасштабным последствиям.
«Сейчас всего несколько секунд аудиозаписи могут создать правдоподобный клон — с естественной интонацией, ритмом, ударением, эмоциями, паузами и даже звуками дыхания», — заявил Лю.
Слушать человеческий голос
Kintsugi, стартап в области медицинских технологий, разрабатывает технологию голосовых биомаркеров на основе искусственного интеллекта для выявления признаков клинической депрессии и тревоги. Их работа началась с простой идеи: нам нужно действительно слушать людей.
«Я основала Kintsugi, основываясь на собственном опыте. Мне потребовалось почти пять месяцев, чтобы дозвониться до своего поставщика медицинских услуг и записаться на первый сеанс терапии, и никто не перезвонил. Я продолжала пытаться, но помню, что думала: если бы это был мой отец или брат, они бы сдались гораздо раньше», — рассказала Unite.AI генеральный директор Грейс Чанг.
Компания из Калифорнии была основана в 2019 году для решения проблемы, которую Чанг назвала «проблемой сортировки». Она считала, что раннее пассивное выявление степени тяжести заболевания может помочь быстрее направить людей к соответствующему лечению. С помощью Kintsugi Voice голосовые биомаркеры помогают выявлять клиническую депрессию и тревожность.
Многие исследования подтверждают эффективность использования анализа речи на основе искусственного интеллекта в качестве биомаркера психического здоровья. Например, в одной статье, опубликованной в мае 2025 года, было показано, что акустические биомаркеры могут выявлять ранние признаки психических проблем и нейродивергенции, и было рекомендовано использовать анализ пения в клинических условиях для оценки возможного когнитивного спада.
По данным Американской психиатрической ассоциации, анализ голоса с точностью от 78% до 96% позволяет отличить людей с депрессией от тех, кто ею не страдает. В другом исследовании использовался одноминутный тест на беглость речи, в котором человек называет как можно больше слов из определенной категории, и была достигнута точность от 70% до 83% в выявлении сопутствующих депрессии и тревоги.
Для оценки психического здоровья Kintsugi собирает краткий образец голоса. Затем его технология голосовых биомаркеров анализирует высоту, интонацию, тон и паузы — характеристики, связанные с депрессией, тревожностью, биполярным расстройством и деменцией.
Чанг не предполагал, что эта технология также решит важную проблему в области безопасности: определение того, что делает голос по-настоящему человеческим.
От психического здоровья к кибербезопасности
Во время саммита в Нью-Йорке в конце 2025 года Чанг упомянула своему другу, специалисту по кибербезопасности, что тесты ее команды с синтетическими голосами дали неутешительные результаты.
«Мы пробовали синтетические данные, чтобы улучшить обучение наших моделей психического здоровья, но сгенерированные голоса были настолько непохожи на реальную человеческую речь, что мы могли их распознать почти каждый раз», — пояснила она.
«Он остановил меня и сказал: «Грейс, это нерешенная проблема в сфере безопасности». Тогда все стало на свои места. С тех пор в ходе обсуждений с компаниями, занимающимися безопасностью, финансами и телекоммуникациями, было отмечено, как быстро растет число атак с использованием глубоких подделок голоса и насколько важно отличать человеческий голос от синтетического в живых разговорах», — добавила генеральный директор.
В апреле прошлого года ФБР предупредило общественность о злонамеренной текстовой и голосовой кампании, в которой злоумышленники выдавали себя за высокопоставленных должностных лиц США и нацеливались на бывших государственных служащих и их контакты. Крупные банки США сталкивались в среднем с 5,5 попытками голосового мошенничества в день, а сотрудники Медицинского центра Университета Вандербильта сообщали о вишинговых атаках со стороны мошенников, выдававших себя за друзей, начальников и коллег.
Изначально deepfakes не были в центре внимания Kintsugi. Хотя команда использовала такие модели, как Cartesia, Sesame и ElevenLabs, для имитации синтетических голосов для операторов колл-центров и рабочих процессов, мошенничество с deepfake не было приоритетом на рынке, наполненном доступными инструментами, такими как Sora.
Однако признаки, подтверждающие подлинность голоса, являются теми же биомаркерами, которые определяют человеческую речь. Независимо от языка или значения, Kintsugi Voice анализирует обработку сигнала и физическую задержку речи, улавливая тонкие временные особенности, просодические вариации, когнитивную нагрузку и физиологические особенности, сосредоточиваясь на том, как формируется речь, а не на том, что говорится.
«Синтетические голоса могут звучать бегло, но им не хватает тех же биологических и когнитивных нюансов», — отметил Чанг. Модель компании входит в топ-10% по точности обнаружения, требуя всего от 3 до 5 секунд аудиозаписи.
Инновации Kintsugi открывают перспективы для людей с проблемами психического здоровья, особенно в тех случаях, когда доступ к профессиональной помощи затруднен. Аналогичным образом, эта технология может преобразовать обнаружение дипфейков и кибербезопасность, проверяя подлинность, а не выявляя дипфейки.
Человекоцентричная технология как будущее
Кибербезопасность традиционно сосредоточена на злонамеренном использовании или злоумышленниках. Однако неожиданный прорыв Kintsugi основан на самой человеческой природе.
«Мы работаем в совершенно другой области: подлинности человека. LLM не могут последовательно идентифицировать контент, сгенерированный LLM, а методы, основанные на артефактах, являются нестабильными. Сбор больших наборов данных с клиническими аннотациями, которые отражают подлинные человеческие различия, является дорогостоящим, медленным и выходит за рамки компетенции большинства компаний, занимающихся безопасностью, что делает наш метод трудно скопируемым», — пояснил Чанг.
Стратегия стартапа также указывает на более широкий сдвиг: межотраслевые инновации. Лидеры в области здравоохранения могут стать пионерами в области обнаружения вишинга на основе ИИ, так же как инноваторы в области космических технологий могут помочь системам реагирования на чрезвычайные ситуации, а архитектура игр может повлиять на городское планирование.
Что касается Чанг, то она стремится установить стандарт для подтверждения реального присутствия человека — и, в конечном итоге, его подлинных намерений — посредством голосового взаимодействия.
«Так же как HTTPS стал стандартом доверия в Интернете, мы считаем, что «доказательство человеческого присутствия» станет необходимым для голосовых систем. Обработка сигналов — это начало этой структуры», — сказала она.
По мере развития генеративного ИИ, самая надежная защита может заключаться в понимании того, что действительно делает нас людьми.
Связанная статья
Бум венчурных инвестиций в сферу искусственного интеллекта привел к тому, что выручка за один квартал превысила триллион юаней, что дало старт новой волне инноваций
Объем глобальных венчурных инвестиций в сферу искусственного интеллекта стремительно растет. В первом квартале этого года было завершено почти 600 раундов финансирования, связанных с ИИ, на общую сумм
OpenAI прекращает поддержку крупных моделей o3 и GPT-4.5
Будучи лидером в области искусственного интеллекта, каждый технический шаг OpenAI вызывает значительный резонанс в отрасли. Недавно компания сделала важное заявление: она выведет из эксплуатации две к
AIGCPanel 2.0.0 — крупное обновление: движок рабочих процессов открывает новую эру автоматизированного создания цифровых персонажей
AIGCPanel, мощный инструмент для создания локальных цифровых персонажей, только что выпустил версию 2.0.0, которую называют «самым значительным обновлением на сегодняшний день». Эта радикальная перера
Рекомендации по связанным специальным темам
Комментарии (1)

После того как в сентябре 2025 года технологический гигант OpenAI выпустил свою флагманскую модель генерации видео и аудио Sora 2, видео с глубокой подделкой заполонили социальные сети, приучив зрителей к потенциально вредному гиперреалистичному контенту.
Хотя OpenAI подчеркнула, что ответственное использование Sora 2 является ключевой целью, пообещав предоставить пользователям «инструменты и возможности для управления контентом в своих лентах» и полный контроль над своим изображением, исследование, проведенное в октябре 2025 года, показало, что модель генерировала вводящие в заблуждение видео в 80% случаев.
От фейковых новостей, показывающих молдавского избирательного чиновника, уничтожающего бюллетени, до сфабрикованных кадров, на которых иммиграционные власти задерживают малыша, или представителя Coca-Cola, объявляющего, что компания не будет спонсировать Суперкубок, — риски дезинформации в нашем взаимосвязанном мире никогда не были так велики.
За пределами Sora: рост вишинга
Еще до появления инструмента OpenAI создание и распространение материалов с использованием технологии deepfake ускорилось. В отчете компании DeepStrike, занимающейся кибербезопасностью, за сентябрь 2025 года отмечается, что количество контента с использованием технологии deepfake выросло с 500 000 случаев в 2023 году до 8 миллионов в 2025 году, причем большая часть этого контента использовалась для мошенничества.
Эта тенденция не показывает признаков замедления; по прогнозам, к 2027 году объем мошенничества, связанного с ИИ, в США достигнет 40 миллиардов долларов.
Рост наблюдается не только в объемах. Благодаря таким инструментам, как Sora 2 и Veo 3 от Google, лица, голоса и движения всего тела, сгенерированные с помощью ИИ, выглядят более убедительно, чем когда-либо. Как отмечает компьютерный ученый и эксперт по дипфейкам Сивей Лю, современные модели могут генерировать стабильные лица без искажений, а клонирование голоса достигло «неотличимого» уровня.
Реальность такова, что дипфейки развиваются быстрее, чем методы их обнаружения. То, что технологические компании продвигают как развлекательные инструменты для создания олимпийских гимнастических программ или богатых звуковых фонов, также используется преступниками, нацеленными на компании и частных лиц. Только в первой половине 2025 года мошенничество с дипфейками привело к убыткам компаний в размере 356 миллионов долларов и убыткам частных лиц в размере 541 миллиона долларов.
Обычные методы обнаружения дипфейков, такие как проверка водяных знаков, ретушированных лиц и метаданных, не справляются с задачей. Между тем, голосовые дипфейки занимают второе место среди наиболее распространенных видов мошенничества с использованием ИИ, а количество атак с использованием голосового фишинга (vishing) в 2025 году выросло на 442%, что привело к широкомасштабным последствиям.
«Сейчас всего несколько секунд аудиозаписи могут создать правдоподобный клон — с естественной интонацией, ритмом, ударением, эмоциями, паузами и даже звуками дыхания», — заявил Лю.
Слушать человеческий голос
Kintsugi, стартап в области медицинских технологий, разрабатывает технологию голосовых биомаркеров на основе искусственного интеллекта для выявления признаков клинической депрессии и тревоги. Их работа началась с простой идеи: нам нужно действительно слушать людей.
«Я основала Kintsugi, основываясь на собственном опыте. Мне потребовалось почти пять месяцев, чтобы дозвониться до своего поставщика медицинских услуг и записаться на первый сеанс терапии, и никто не перезвонил. Я продолжала пытаться, но помню, что думала: если бы это был мой отец или брат, они бы сдались гораздо раньше», — рассказала Unite.AI генеральный директор Грейс Чанг.
Компания из Калифорнии была основана в 2019 году для решения проблемы, которую Чанг назвала «проблемой сортировки». Она считала, что раннее пассивное выявление степени тяжести заболевания может помочь быстрее направить людей к соответствующему лечению. С помощью Kintsugi Voice голосовые биомаркеры помогают выявлять клиническую депрессию и тревожность.
Многие исследования подтверждают эффективность использования анализа речи на основе искусственного интеллекта в качестве биомаркера психического здоровья. Например, в одной статье, опубликованной в мае 2025 года, было показано, что акустические биомаркеры могут выявлять ранние признаки психических проблем и нейродивергенции, и было рекомендовано использовать анализ пения в клинических условиях для оценки возможного когнитивного спада.
По данным Американской психиатрической ассоциации, анализ голоса с точностью от 78% до 96% позволяет отличить людей с депрессией от тех, кто ею не страдает. В другом исследовании использовался одноминутный тест на беглость речи, в котором человек называет как можно больше слов из определенной категории, и была достигнута точность от 70% до 83% в выявлении сопутствующих депрессии и тревоги.
Для оценки психического здоровья Kintsugi собирает краткий образец голоса. Затем его технология голосовых биомаркеров анализирует высоту, интонацию, тон и паузы — характеристики, связанные с депрессией, тревожностью, биполярным расстройством и деменцией.
Чанг не предполагал, что эта технология также решит важную проблему в области безопасности: определение того, что делает голос по-настоящему человеческим.
От психического здоровья к кибербезопасности
Во время саммита в Нью-Йорке в конце 2025 года Чанг упомянула своему другу, специалисту по кибербезопасности, что тесты ее команды с синтетическими голосами дали неутешительные результаты.
«Мы пробовали синтетические данные, чтобы улучшить обучение наших моделей психического здоровья, но сгенерированные голоса были настолько непохожи на реальную человеческую речь, что мы могли их распознать почти каждый раз», — пояснила она.
«Он остановил меня и сказал: «Грейс, это нерешенная проблема в сфере безопасности». Тогда все стало на свои места. С тех пор в ходе обсуждений с компаниями, занимающимися безопасностью, финансами и телекоммуникациями, было отмечено, как быстро растет число атак с использованием глубоких подделок голоса и насколько важно отличать человеческий голос от синтетического в живых разговорах», — добавила генеральный директор.
В апреле прошлого года ФБР предупредило общественность о злонамеренной текстовой и голосовой кампании, в которой злоумышленники выдавали себя за высокопоставленных должностных лиц США и нацеливались на бывших государственных служащих и их контакты. Крупные банки США сталкивались в среднем с 5,5 попытками голосового мошенничества в день, а сотрудники Медицинского центра Университета Вандербильта сообщали о вишинговых атаках со стороны мошенников, выдававших себя за друзей, начальников и коллег.
Изначально deepfakes не были в центре внимания Kintsugi. Хотя команда использовала такие модели, как Cartesia, Sesame и ElevenLabs, для имитации синтетических голосов для операторов колл-центров и рабочих процессов, мошенничество с deepfake не было приоритетом на рынке, наполненном доступными инструментами, такими как Sora.
Однако признаки, подтверждающие подлинность голоса, являются теми же биомаркерами, которые определяют человеческую речь. Независимо от языка или значения, Kintsugi Voice анализирует обработку сигнала и физическую задержку речи, улавливая тонкие временные особенности, просодические вариации, когнитивную нагрузку и физиологические особенности, сосредоточиваясь на том, как формируется речь, а не на том, что говорится.
«Синтетические голоса могут звучать бегло, но им не хватает тех же биологических и когнитивных нюансов», — отметил Чанг. Модель компании входит в топ-10% по точности обнаружения, требуя всего от 3 до 5 секунд аудиозаписи.
Инновации Kintsugi открывают перспективы для людей с проблемами психического здоровья, особенно в тех случаях, когда доступ к профессиональной помощи затруднен. Аналогичным образом, эта технология может преобразовать обнаружение дипфейков и кибербезопасность, проверяя подлинность, а не выявляя дипфейки.
Человекоцентричная технология как будущее
Кибербезопасность традиционно сосредоточена на злонамеренном использовании или злоумышленниках. Однако неожиданный прорыв Kintsugi основан на самой человеческой природе.
«Мы работаем в совершенно другой области: подлинности человека. LLM не могут последовательно идентифицировать контент, сгенерированный LLM, а методы, основанные на артефактах, являются нестабильными. Сбор больших наборов данных с клиническими аннотациями, которые отражают подлинные человеческие различия, является дорогостоящим, медленным и выходит за рамки компетенции большинства компаний, занимающихся безопасностью, что делает наш метод трудно скопируемым», — пояснил Чанг.
Стратегия стартапа также указывает на более широкий сдвиг: межотраслевые инновации. Лидеры в области здравоохранения могут стать пионерами в области обнаружения вишинга на основе ИИ, так же как инноваторы в области космических технологий могут помочь системам реагирования на чрезвычайные ситуации, а архитектура игр может повлиять на городское планирование.
Что касается Чанг, то она стремится установить стандарт для подтверждения реального присутствия человека — и, в конечном итоге, его подлинных намерений — посредством голосового взаимодействия.
«Так же как HTTPS стал стандартом доверия в Интернете, мы считаем, что «доказательство человеческого присутствия» станет необходимым для голосовых систем. Обработка сигналов — это начало этой структуры», — сказала она.
По мере развития генеративного ИИ, самая надежная защита может заключаться в понимании того, что действительно делает нас людьми.
Бум венчурных инвестиций в сферу искусственного интеллекта привел к тому, что выручка за один квартал превысила триллион юаней, что дало старт новой волне инноваций
Объем глобальных венчурных инвестиций в сферу искусственного интеллекта стремительно растет. В первом квартале этого года было завершено почти 600 раундов финансирования, связанных с ИИ, на общую сумм
OpenAI прекращает поддержку крупных моделей o3 и GPT-4.5
Будучи лидером в области искусственного интеллекта, каждый технический шаг OpenAI вызывает значительный резонанс в отрасли. Недавно компания сделала важное заявление: она выведет из эксплуатации две к
AIGCPanel 2.0.0 — крупное обновление: движок рабочих процессов открывает новую эру автоматизированного создания цифровых персонажей
AIGCPanel, мощный инструмент для создания локальных цифровых персонажей, только что выпустил версию 2.0.0, которую называют «самым значительным обновлением на сегодняшний день». Эта радикальная перера











