Open еще, чтобы выпустить инструмент голосового клонирования год спустя

Дом

Новости

21 апреля 2025 г.

AnthonyHernández

# openai

Голосовой движок OpenAI: долгожданный релиз?

В конце марта прошлого года OpenAI представила "ограниченную предварительную версию" своего сервиса ИИ, Voice Engine, который обещал клонировать голос человека всего за 15 секунд речи. Спустя год инструмент всё ещё находится в режиме предварительного просмотра, без чётких сроков полноценного запуска — или даже подтверждения, что он когда-либо будет выпущен.

Сдержанность в широком внедрении Voice Engine может быть связана с опасениями по поводу злоупотреблений или попыткой избежать регуляторного контроля. OpenAI ранее подвергалась критике за приоритет ярких продуктов над безопасностью и за спешку с выходом на рынок в обход конкурентов.

Представитель OpenAI сообщил TechCrunch, что компания продолжает тестировать Voice Engine с избранной группой "доверенных партнёров". "Мы изучаем, как наши партнёры используют технологию, чтобы улучшить её полезность и безопасность", — пояснил представитель. "Было увлекательно наблюдать за её применением: от логопедической терапии и изучения языков до поддержки клиентов, персонажей видеоигр и ИИ-аватаров."

Voice Engine: путь к настоящему

Voice Engine, который управляет голосами в API преобразования текста в речь OpenAI и режиме голосового общения ChatGPT, создаёт удивительно естественную речь, близко имитирующую оригинального спикера. Он преобразует текст в речь, ограниченный только определёнными правилами содержания. Однако запуск сопровождался задержками и изменением дат выпуска с самого начала.

В блоге за июнь 2024 года OpenAI подробно описала, как модель Voice Engine учится предсказывать звуки, которые спикер, вероятно, издаст для заданного текста, учитывая различные голоса, акценты и стили речи. Это позволяет модели не только генерировать речь из текста, но и создавать "произнесённые высказывания", отражающие, как разные спикеры озвучили бы текст.

Изначально Voice Engine, тогда называвшийся Custom Voices, должен был появиться в API OpenAI 7 марта 2024 года, согласно черновику поста в блоге, который видел TechCrunch. План состоял в том, чтобы сначала предоставить доступ до 100 "доверенным разработчикам", отдавая приоритет тем, кто создаёт приложения с социальной пользой или демонстрирует инновационное и ответственное использование технологии. OpenAI уже зарегистрировала торговую марку сервиса и установила цены: $15 за миллион символов для "стандартных" голосов и $30 за миллион символов для голосов "HD качества".

Но в последний момент анонс был отложен. Спустя несколько недель OpenAI представила Voice Engine без возможности регистрации, ограничив доступ небольшой группой разработчиков, с которыми они работали с конца 2023 года.

"Мы надеемся начать диалог о ответственном внедрении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям", — заявили в OpenAI в блоге анонса в конце марта 2024 года. "На основе этих обсуждений и результатов этих небольших тестов мы примем более обоснованное решение о том, внедрять ли эту технологию в широком масштабе и как это сделать."

Долгий путь разработки

Voice Engine находится в разработке с 2022 года, и летом 2023 года OpenAI продемонстрировала его потенциал — и риски — мировым политикам. Сегодня несколько партнёров имеют доступ к Voice Engine, включая стартап Livox, который стремится помочь людям с ограниченными возможностями общаться более естественно. Однако генеральный директор Livox Карлос Перейра отметил, что они не смогли интегрировать Voice Engine в свои продукты, поскольку он требует подключения к интернету, которого у многих их клиентов нет. "Качество голоса и способность воспроизводить голоса на разных языках уникальны — особенно для наших клиентов с ограниченными возможностями", — сообщил Перейра TechCrunch по электронной почте. "Это действительно самый впечатляющий и простой в использовании инструмент для создания голосов, который я видел... Мы надеемся, что OpenAI скоро разработает оффлайн-версию."

Перейра не получил от OpenAI никаких указаний на возможную дату запуска или планы по взиманию платы за сервис, и пока Livox не пришлось платить за его использование.

В посте за июнь 2024 года OpenAI предположила, что одной из причин задержки Voice Engine был потенциал злоупотреблений во время избирательного цикла в США. Компания внедрила меры безопасности, включая водяные знаки для отслеживания происхождения сгенерированного аудио. Разработчики должны получить "явное согласие" от оригинального спикера и сделать "чёткие заявления" для своей аудитории о том, что голоса созданы ИИ. Однако OpenAI не уточнила, как эти правила будут применяться в широком масштабе, что может стать серьёзной проблемой.

OpenAI также намекнула на создание "опыта аутентификации голоса" для проверки спикеров и списка "запрещённых" голосов, чтобы предотвратить создание голосов, напоминающих известных личностей. Это амбициозные проекты, и любой промах может ещё больше навредить репутации OpenAI в области инициатив по безопасности.

Эффективная фильтрация и проверка личности становятся необходимыми для ответственного выпуска технологии клонирования голоса. Клонирование голоса ИИ стало третьим по скорости роста видом мошенничества в 2024 году, приводя к мошенничеству и обходу банковских проверок безопасности, в то время как законы о конфиденциальности и авторском праве не успевают за развитием. Злоумышленники использовали клонирование голоса для создания дипфейков знаменитостей и политиков, которые быстро распространялись в социальных сетях.

OpenAI может выпустить Voice Engine на следующей неделе, а может никогда этого не сделать. Компания упомянула возможность сохранения ограниченного масштаба сервиса. Но одно точно: будь то из соображений имиджа, безопасности или и того, и другого, ограниченная предварительная версия Voice Engine стала одной из самых длительных в истории OpenAI.

Связанная статья

ИИ-гиперы Nvidia столкнулись с реальностью: 70-процентная маржа вызывает сомнения на фоне битв за умозаключения Войны за чипы искусственного интеллекта разгораются на VB Transform 2025Линии сражения были очерчены во время жаркой панельной дискуссии на VB Transform 2025, где растущие претенденты взяли под прице

OpenAI обновляет ChatGPT Pro до версии o3, повышая ценность ежемесячной подписки стоимостью $200 На этой неделе технологические гиганты, включая Microsoft, Google и Anthropic, представили значительные разработки в области ИИ. OpenAI завершает шквал анонсов собственными революционными обновлениями

Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот

Комментарии (11)

0/200

Представлять на рассмотрение

FredLewis

2 августа 2025 г., 18:07:14 GMT+03:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬