вариант
Дом Новости Open еще, чтобы выпустить инструмент голосового клонирования год спустя

Open еще, чтобы выпустить инструмент голосового клонирования год спустя

Дата выпуска Дата выпуска 21 апреля 2025 г.
Автор Автор AnthonyHernández
виды виды 25

Голосовый двигатель Openai: долгожданный релиз?

В конце марта прошлого года Openai представила «небольшой предварительный просмотр» своего услуги искусственного интеллекта, голосового двигателя, который обещал клонировать голос человека, используя всего 15 секунд речи. Перенесемся на год, и инструмент все еще находится в режиме предварительного просмотра, без четкого срока для полного запуска - или даже подтверждения, что он когда -либо увидит свет.

Нерешительность, чтобы развернуть голосовой двигатель, широко может быть связано с опасениями по поводу неправильного использования или, возможно, попытки обойти регулирование регулирования. В прошлом OpenAI сталкивался с критикой за то, что они определили приоритеты в ярких продуктах по безопасности и за то, что они бросались на рынок перед конкурентами.

Представитель OpenAI сказал TechCrunch, что компания все еще тестирует голосовой двигатель с избранной группой «доверенных партнеров». «Мы учимся на том, как наши партнеры используют технологию для повышения полезности и безопасности модели», - пояснил представитель. «Было интересно видеть его приложения, от речевой терапии и изучения языка до поддержки клиентов, персонажей видеоигр и аватаров ИИ».

Голосовый двигатель: путешествие до сих пор

Голосовый двигатель, который управляет голосами в API Text-To Speek API Openai и голосовой режиме Chatgpt, создает удивительно естественную речь, которая внимательно имитирует оригинальный динамик. Он преобразует текст в речь, ограниченный только определенными рекомендациями по содержанию. Тем не менее, развертывание страдало от задержек и сдвигающих дат выпуска с самого начала.

В блоге в июне 2024 года Openai подробно описал, как модель голосового двигателя учится предсказать звуки, которые динамик, вероятно, сделает для данного текста, учитывая различные голоса, акценты и стили выступлений. Это позволяет модели не только генерировать речь из текста, но и создавать «разговорные высказывания», которые отражают, как разные ораторы будут выражать текст вслух.

Первоначально, голосовой двигатель, который затем назывался Custom Voices, должен был присоединиться к API Openai 7 марта 2024 года, согласно проекту блога, проведенного TechCrunch. План состоял в том, чтобы первоначально предложить доступ до 100 «доверенных разработчиков», что приоритет этим развивающимся приложениям с социальными преимуществами или демонстрации инновационного и ответственного использования этой технологии. OpenAI уже торговал услугами и установил цены на 15 долларов за миллион персонажей для «стандартных» голосов и 30 долларов за миллион персонажей за голоса «качества HD».

Но в последний момент объявление было отложено. Несколько недель спустя Openai обнародовал голосовой двигатель без опции регистрации, ограничивая доступ к небольшой группе разработчиков, с которыми они работали с конца 2023 года.

«Мы надеемся начать диалог о ответственном развертывании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям», - заявил Openai в блоге в конце марта 2024 года. «Основываясь на этих разговорах и результатах этих мелких тестов, мы примем более осознанное решение о том, как и как развернуть эту технологию в масштабе».

Долгое развитие дороги

Голосовый двигатель находится в разработке с 2022 года, когда OpenAI демонстрирует свой потенциал - и риски - для глобальных политиков летом 2023 года. Сегодня несколько партнеров имеют доступ к голосовому двигателю, включая стартап Livox, который направлен на то, чтобы помочь людям с ограниченными возможностями общаться более естественно. Тем не менее, генеральный директор Livox Карлос Перейра отметил, что они не могут интегрировать голосовой двигатель в свои продукты, потому что для этого требуется подключение к Интернету, чего не хватает многим из их клиентов. «Качество голоса и способность заставить голоса говорить на разных языках уникальны, особенно для наших клиентов с ограниченными возможностями», - сказал Перейра TechCrunch по электронной почте. «Это действительно самый впечатляющий и простой в использовании инструмент для создания голосов, которые я видел ... Мы надеемся, что Openai скоро разработает автономную версию».

Pereira не получила никаких указаний от Openai о потенциальной дате запуска или планах по сбору услуг, и до сих пор Livox не пришлось платить за его использование.

В июне 2024 года Openai предположил, что одной из причин задержки голосового двигателя была потенциал для злоупотреблений во время избирательного цикла США. Компания внедрила меры безопасности, в том числе водяные знаки, чтобы отследить происхождение генерируемого звука. Разработчики должны получить «явное согласие» от оригинального динамика и сделать «четкое раскрытие» для своей аудитории, что голоса создаются с ИИ. Тем не менее, OpenAI не подробно описал, как эти политики будут применяться в масштабе, что может быть серьезной проблемой.

OpenAI также намекнул на создание «опыта голосовой аутентификации», чтобы проверить динамиков и список «бездей», чтобы предотвратить создание голосов, напоминающих выдающихся фигур. Это амбициозные проекты, и любые ошибки могут еще больше повредить репутации Openai в отношении инициатив безопасности.

Эффективная фильтрация и проверка удостоверения личности становятся важными для ответственного выпуска технологии голосового клонирования. Клонирование голоса ИИ было третьей наиболее быстрорастущей аферой 2024 года, что привело к мошенничеству и обходу чеков банковской безопасности, поскольку законы о конфиденциальности и авторском праве борются за то, чтобы идти в ногу. Злоусовеченные актеры использовали голосовой клонирование, чтобы создать глубокие знаменитости и политиков, которые быстро распространились в социальных сетях.

OpenAI может выпустить голосовой двигатель на следующей неделе, или этого никогда не произойдет. Компания упомянула, учитывая поддержание обслуживания небольшим в сфере масштаба. Но одна вещь наверняка: для оптики, безопасности или обоих, ограниченный предварительный просмотр голосового двигателя стал одним из самых длинных в истории Openai.

Связанная статья
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
StephenScott
StephenScott 21 апреля 2025 г., 23:54:47 GMT

It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞

WillieHernández
WillieHernández 21 апреля 2025 г., 23:54:47 GMT

オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞

BillyWilson
BillyWilson 21 апреля 2025 г., 23:54:47 GMT

오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞

KennethKing
KennethKing 21 апреля 2025 г., 23:54:47 GMT

Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞

JeffreyThomas
JeffreyThomas 21 апреля 2025 г., 23:54:47 GMT

¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞

Вернуться к вершине
OR