вариант
Дом
Новости
Open еще, чтобы выпустить инструмент голосового клонирования год спустя

Open еще, чтобы выпустить инструмент голосового клонирования год спустя

21 апреля 2025 г.
93

Голосовой движок OpenAI: долгожданный релиз?

В конце марта прошлого года OpenAI представила "ограниченную предварительную версию" своего сервиса ИИ, Voice Engine, который обещал клонировать голос человека всего за 15 секунд речи. Спустя год инструмент всё ещё находится в режиме предварительного просмотра, без чётких сроков полноценного запуска — или даже подтверждения, что он когда-либо будет выпущен.

Сдержанность в широком внедрении Voice Engine может быть связана с опасениями по поводу злоупотреблений или попыткой избежать регуляторного контроля. OpenAI ранее подвергалась критике за приоритет ярких продуктов над безопасностью и за спешку с выходом на рынок в обход конкурентов.

Представитель OpenAI сообщил TechCrunch, что компания продолжает тестировать Voice Engine с избранной группой "доверенных партнёров". "Мы изучаем, как наши партнёры используют технологию, чтобы улучшить её полезность и безопасность", — пояснил представитель. "Было увлекательно наблюдать за её применением: от логопедической терапии и изучения языков до поддержки клиентов, персонажей видеоигр и ИИ-аватаров."

Voice Engine: путь к настоящему

Voice Engine, который управляет голосами в API преобразования текста в речь OpenAI и режиме голосового общения ChatGPT, создаёт удивительно естественную речь, близко имитирующую оригинального спикера. Он преобразует текст в речь, ограниченный только определёнными правилами содержания. Однако запуск сопровождался задержками и изменением дат выпуска с самого начала.

В блоге за июнь 2024 года OpenAI подробно описала, как модель Voice Engine учится предсказывать звуки, которые спикер, вероятно, издаст для заданного текста, учитывая различные голоса, акценты и стили речи. Это позволяет модели не только генерировать речь из текста, но и создавать "произнесённые высказывания", отражающие, как разные спикеры озвучили бы текст.

Изначально Voice Engine, тогда называвшийся Custom Voices, должен был появиться в API OpenAI 7 марта 2024 года, согласно черновику поста в блоге, который видел TechCrunch. План состоял в том, чтобы сначала предоставить доступ до 100 "доверенным разработчикам", отдавая приоритет тем, кто создаёт приложения с социальной пользой или демонстрирует инновационное и ответственное использование технологии. OpenAI уже зарегистрировала торговую марку сервиса и установила цены: $15 за миллион символов для "стандартных" голосов и $30 за миллион символов для голосов "HD качества".

Но в последний момент анонс был отложен. Спустя несколько недель OpenAI представила Voice Engine без возможности регистрации, ограничив доступ небольшой группой разработчиков, с которыми они работали с конца 2023 года.

"Мы надеемся начать диалог о ответственном внедрении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям", — заявили в OpenAI в блоге анонса в конце марта 2024 года. "На основе этих обсуждений и результатов этих небольших тестов мы примем более обоснованное решение о том, внедрять ли эту технологию в широком масштабе и как это сделать."

Долгий путь разработки

Voice Engine находится в разработке с 2022 года, и летом 2023 года OpenAI продемонстрировала его потенциал — и риски — мировым политикам. Сегодня несколько партнёров имеют доступ к Voice Engine, включая стартап Livox, который стремится помочь людям с ограниченными возможностями общаться более естественно. Однако генеральный директор Livox Карлос Перейра отметил, что они не смогли интегрировать Voice Engine в свои продукты, поскольку он требует подключения к интернету, которого у многих их клиентов нет. "Качество голоса и способность воспроизводить голоса на разных языках уникальны — особенно для наших клиентов с ограниченными возможностями", — сообщил Перейра TechCrunch по электронной почте. "Это действительно самый впечатляющий и простой в использовании инструмент для создания голосов, который я видел... Мы надеемся, что OpenAI скоро разработает оффлайн-версию."

Перейра не получил от OpenAI никаких указаний на возможную дату запуска или планы по взиманию платы за сервис, и пока Livox не пришлось платить за его использование.

В посте за июнь 2024 года OpenAI предположила, что одной из причин задержки Voice Engine был потенциал злоупотреблений во время избирательного цикла в США. Компания внедрила меры безопасности, включая водяные знаки для отслеживания происхождения сгенерированного аудио. Разработчики должны получить "явное согласие" от оригинального спикера и сделать "чёткие заявления" для своей аудитории о том, что голоса созданы ИИ. Однако OpenAI не уточнила, как эти правила будут применяться в широком масштабе, что может стать серьёзной проблемой.

OpenAI также намекнула на создание "опыта аутентификации голоса" для проверки спикеров и списка "запрещённых" голосов, чтобы предотвратить создание голосов, напоминающих известных личностей. Это амбициозные проекты, и любой промах может ещё больше навредить репутации OpenAI в области инициатив по безопасности.

Эффективная фильтрация и проверка личности становятся необходимыми для ответственного выпуска технологии клонирования голоса. Клонирование голоса ИИ стало третьим по скорости роста видом мошенничества в 2024 году, приводя к мошенничеству и обходу банковских проверок безопасности, в то время как законы о конфиденциальности и авторском праве не успевают за развитием. Злоумышленники использовали клонирование голоса для создания дипфейков знаменитостей и политиков, которые быстро распространялись в социальных сетях.

OpenAI может выпустить Voice Engine на следующей неделе, а может никогда этого не сделать. Компания упомянула возможность сохранения ограниченного масштаба сервиса. Но одно точно: будь то из соображений имиджа, безопасности или и того, и другого, ограниченная предварительная версия Voice Engine стала одной из самых длительных в истории OpenAI.

Связанная статья
ИИ-гиперы Nvidia столкнулись с реальностью: 70-процентная маржа вызывает сомнения на фоне битв за умозаключения ИИ-гиперы Nvidia столкнулись с реальностью: 70-процентная маржа вызывает сомнения на фоне битв за умозаключения Войны за чипы искусственного интеллекта разгораются на VB Transform 2025Линии сражения были очерчены во время жаркой панельной дискуссии на VB Transform 2025, где растущие претенденты взяли под прице
OpenAI обновляет ChatGPT Pro до версии o3, повышая ценность ежемесячной подписки стоимостью $200 OpenAI обновляет ChatGPT Pro до версии o3, повышая ценность ежемесячной подписки стоимостью $200 На этой неделе технологические гиганты, включая Microsoft, Google и Anthropic, представили значительные разработки в области ИИ. OpenAI завершает шквал анонсов собственными революционными обновлениями
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Комментарии (11)
FredLewis
FredLewis 2 августа 2025 г., 18:07:14 GMT+03:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬

PaulBrown
PaulBrown 23 апреля 2025 г., 12:20:58 GMT+03:00

1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。

TimothyMiller
TimothyMiller 23 апреля 2025 г., 9:50:47 GMT+03:00

等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。

SamuelRoberts
SamuelRoberts 23 апреля 2025 г., 4:46:04 GMT+03:00

Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.

WillMitchell
WillMitchell 22 апреля 2025 г., 9:48:14 GMT+03:00

Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.

JamesWilliams
JamesWilliams 22 апреля 2025 г., 5:55:40 GMT+03:00

A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.

Вернуться к вершине
OR