вариант
Дом
Новости
Open еще, чтобы выпустить инструмент голосового клонирования год спустя

Open еще, чтобы выпустить инструмент голосового клонирования год спустя

21 апреля 2025 г.
93

Голосовой движок OpenAI: долгожданный релиз?

В конце марта прошлого года OpenAI представила "ограниченную предварительную версию" своего сервиса ИИ, Voice Engine, который обещал клонировать голос человека всего за 15 секунд речи. Спустя год инструмент всё ещё находится в режиме предварительного просмотра, без чётких сроков полноценного запуска — или даже подтверждения, что он когда-либо будет выпущен.

Сдержанность в широком внедрении Voice Engine может быть связана с опасениями по поводу злоупотреблений или попыткой избежать регуляторного контроля. OpenAI ранее подвергалась критике за приоритет ярких продуктов над безопасностью и за спешку с выходом на рынок в обход конкурентов.

Представитель OpenAI сообщил TechCrunch, что компания продолжает тестировать Voice Engine с избранной группой "доверенных партнёров". "Мы изучаем, как наши партнёры используют технологию, чтобы улучшить её полезность и безопасность", — пояснил представитель. "Было увлекательно наблюдать за её применением: от логопедической терапии и изучения языков до поддержки клиентов, персонажей видеоигр и ИИ-аватаров."

Voice Engine: путь к настоящему

Voice Engine, который управляет голосами в API преобразования текста в речь OpenAI и режиме голосового общения ChatGPT, создаёт удивительно естественную речь, близко имитирующую оригинального спикера. Он преобразует текст в речь, ограниченный только определёнными правилами содержания. Однако запуск сопровождался задержками и изменением дат выпуска с самого начала.

В блоге за июнь 2024 года OpenAI подробно описала, как модель Voice Engine учится предсказывать звуки, которые спикер, вероятно, издаст для заданного текста, учитывая различные голоса, акценты и стили речи. Это позволяет модели не только генерировать речь из текста, но и создавать "произнесённые высказывания", отражающие, как разные спикеры озвучили бы текст.

Изначально Voice Engine, тогда называвшийся Custom Voices, должен был появиться в API OpenAI 7 марта 2024 года, согласно черновику поста в блоге, который видел TechCrunch. План состоял в том, чтобы сначала предоставить доступ до 100 "доверенным разработчикам", отдавая приоритет тем, кто создаёт приложения с социальной пользой или демонстрирует инновационное и ответственное использование технологии. OpenAI уже зарегистрировала торговую марку сервиса и установила цены: $15 за миллион символов для "стандартных" голосов и $30 за миллион символов для голосов "HD качества".

Но в последний момент анонс был отложен. Спустя несколько недель OpenAI представила Voice Engine без возможности регистрации, ограничив доступ небольшой группой разработчиков, с которыми они работали с конца 2023 года.

"Мы надеемся начать диалог о ответственном внедрении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям", — заявили в OpenAI в блоге анонса в конце марта 2024 года. "На основе этих обсуждений и результатов этих небольших тестов мы примем более обоснованное решение о том, внедрять ли эту технологию в широком масштабе и как это сделать."

Долгий путь разработки

Voice Engine находится в разработке с 2022 года, и летом 2023 года OpenAI продемонстрировала его потенциал — и риски — мировым политикам. Сегодня несколько партнёров имеют доступ к Voice Engine, включая стартап Livox, который стремится помочь людям с ограниченными возможностями общаться более естественно. Однако генеральный директор Livox Карлос Перейра отметил, что они не смогли интегрировать Voice Engine в свои продукты, поскольку он требует подключения к интернету, которого у многих их клиентов нет. "Качество голоса и способность воспроизводить голоса на разных языках уникальны — особенно для наших клиентов с ограниченными возможностями", — сообщил Перейра TechCrunch по электронной почте. "Это действительно самый впечатляющий и простой в использовании инструмент для создания голосов, который я видел... Мы надеемся, что OpenAI скоро разработает оффлайн-версию."

Перейра не получил от OpenAI никаких указаний на возможную дату запуска или планы по взиманию платы за сервис, и пока Livox не пришлось платить за его использование.

В посте за июнь 2024 года OpenAI предположила, что одной из причин задержки Voice Engine был потенциал злоупотреблений во время избирательного цикла в США. Компания внедрила меры безопасности, включая водяные знаки для отслеживания происхождения сгенерированного аудио. Разработчики должны получить "явное согласие" от оригинального спикера и сделать "чёткие заявления" для своей аудитории о том, что голоса созданы ИИ. Однако OpenAI не уточнила, как эти правила будут применяться в широком масштабе, что может стать серьёзной проблемой.

OpenAI также намекнула на создание "опыта аутентификации голоса" для проверки спикеров и списка "запрещённых" голосов, чтобы предотвратить создание голосов, напоминающих известных личностей. Это амбициозные проекты, и любой промах может ещё больше навредить репутации OpenAI в области инициатив по безопасности.

Эффективная фильтрация и проверка личности становятся необходимыми для ответственного выпуска технологии клонирования голоса. Клонирование голоса ИИ стало третьим по скорости роста видом мошенничества в 2024 году, приводя к мошенничеству и обходу банковских проверок безопасности, в то время как законы о конфиденциальности и авторском праве не успевают за развитием. Злоумышленники использовали клонирование голоса для создания дипфейков знаменитостей и политиков, которые быстро распространялись в социальных сетях.

OpenAI может выпустить Voice Engine на следующей неделе, а может никогда этого не сделать. Компания упомянула возможность сохранения ограниченного масштаба сервиса. Но одно точно: будь то из соображений имиджа, безопасности или и того, и другого, ограниченная предварительная версия Voice Engine стала одной из самых длительных в истории OpenAI.

Связанная статья
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank приобретает завод Sharp за $676 млн для центра данных ИИ в Японии SoftBank продвигает свою цель создания крупного центра ИИ в Японии, как самостоятельно, так и через партнерства, такие как OpenAI. Технический гигант подтвердил в пятницу, что инвестирует $676 миллион
Adobe и Figma интегрируют продвинутую модель генерации изображений OpenAI Adobe и Figma интегрируют продвинутую модель генерации изображений OpenAI Улучшенная генерация изображений в ChatGPT от OpenAI вызвала всплеск интереса пользователей благодаря способности создавать визуальные образы в стиле Studio Ghibli и уникальные дизайны, и теперь эта ф
Комментарии (11)
FredLewis
FredLewis 2 августа 2025 г., 18:07:14 GMT+03:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬

PaulBrown
PaulBrown 23 апреля 2025 г., 12:20:58 GMT+03:00

1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。

TimothyMiller
TimothyMiller 23 апреля 2025 г., 9:50:47 GMT+03:00

等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。

SamuelRoberts
SamuelRoberts 23 апреля 2025 г., 4:46:04 GMT+03:00

Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.

WillMitchell
WillMitchell 22 апреля 2025 г., 9:48:14 GMT+03:00

Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.

JamesWilliams
JamesWilliams 22 апреля 2025 г., 5:55:40 GMT+03:00

A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.

Вернуться к вершине
OR