OpeniAI ainda para liberar a ferramenta de clonagem de voz um ano depois
21 de Abril de 2025
AnthonyHernández
25
Motor de voz do Openai: um lançamento tão esperado?
No final de março passado, o Openai introduziu uma "prévia em pequena escala" de seu serviço de IA, o mecanismo de voz, que prometeu clonar a voz de uma pessoa usando apenas 15 segundos de fala. Avanço rápido por ano, e a ferramenta ainda está no modo de visualização, sem linha do tempo clara para um lançamento completo - ou mesmo confirmação de que ela verá a luz do dia.
A hesitação em lançar amplamente o motor de voz pode resultar de preocupações sobre uso indevido, ou talvez uma tentativa de evitar o escrutínio regulatório. O Openai enfrentou críticas no passado por priorizar produtos chamativos em vez de segurança e correr para o mercado antes dos concorrentes.
Um porta -voz do Openai disse ao TechCrunch que a empresa ainda está testando mecanismo de voz com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo com a forma como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta -voz. "Foi emocionante ver seus aplicativos, desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares da AI".
Motor de voz: a jornada até agora
O Voice Engine, que leva as vozes na API de texto em fala do OpenAI e no modo de voz do ChatGPT, cria discursos notavelmente naturais que imitam de perto o orador original. Ele converte texto em fala, restringido apenas por determinadas diretrizes de conteúdo. No entanto, o lançamento foi atormentado por atrasos e datas de liberação desde o início.
Em uma postagem no blog de junho de 2024, o OpenAI detalhou como o modelo de mecanismo de voz aprende a prever os sons que um alto -falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir do texto, mas também para produzir "enunciados falados" que refletem como diferentes falantes expressariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado de Vozes Custom, estava programado para ingressar na API do Openai em 7 de março de 2024, de acordo com um projeto de post do Blog visto pela TechCrunch. O plano era oferecer inicialmente acesso a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolvem aplicativos com benefícios sociais ou mostrando uso inovador e responsável da tecnologia. O OpenAI já havia registrado o serviço e estabeleceu preços a US $ 15 por milhão de caracteres para vozes "padrão" e US $ 30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, o Openai revelou o motor de voz sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com quem trabalhava desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a esses novos recursos", afirmou o OpenAI no final de março de 2024, postagem do blog. "Com base nessas conversas e nos resultados desses testes de pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em escala".
Uma longa estrada de desenvolvimento
O mecanismo de voz está em desenvolvimento desde 2022, com o Openai mostrando seu potencial - e riscos - para os formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao mecanismo de voz, incluindo o Startup Livox, que visa ajudar as pessoas com deficiência a se comunicarem mais naturalmente. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não podiam integrar o mecanismo de voz em seus produtos porque requer uma conexão com a Internet, que muitos de seus clientes não têm. "A qualidade da voz e a capacidade de que as vozes falem em diferentes idiomas são únicas - especialmente para nossos clientes com deficiência", disse Pereira ao TechCrunch por e -mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que eu já vi ... Esperamos que o Openai desenvolva uma versão offline em breve".
A Pereira não recebeu nenhuma indicação do OpenAI sobre uma possível data de lançamento ou planos de cobrar pelo serviço e, até agora, o Livox não teve que pagar por seu uso.
Em um post de junho de 2024, o Openai sugeriu que um motivo para atrasar o mecanismo de voz era o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo a marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do orador original e fazer "divulgações claras" para o público de que as vozes são geradas pela IA. No entanto, o OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
O OpenAI também sugeriu a construção de uma "experiência de autenticação por voz" para verificar os alto-falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelham a figuras proeminentes. Esses são projetos ambiciosos, e quaisquer erros podem danificar ainda mais a reputação do OpenAI em relação às iniciativas de segurança.
A filtragem eficaz e a verificação de ID estão se tornando essenciais para liberar com responsabilidade a tecnologia de clonagem de voz. A clonagem de voz da AI foi o terceiro golpe de crescimento mais rápido de 2024, levando a fraude e contornando as verificações de segurança bancária, pois as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Os atores maliciosos usaram a clonagem de voz para criar flakes profundos de celebridades e políticos, que se espalharam rapidamente nas mídias sociais.
O Openai pode lançar o motor de voz na próxima semana, ou isso pode nunca acontecer. A empresa mencionou considerar manter o serviço pequeno em escopo. Mas uma coisa é certa: seja para óptica, segurança ou ambos, a prévia limitada do mecanismo de voz se tornou uma das mais longas da história do Openai.
Artigo relacionado
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Comentários (5)
0/200
StephenScott
21 de Abril de 2025 à47 23:54:47 GMT
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
21 de Abril de 2025 à47 23:54:47 GMT
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
21 de Abril de 2025 à47 23:54:47 GMT
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
21 de Abril de 2025 à47 23:54:47 GMT
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
21 de Abril de 2025 à47 23:54:47 GMT
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Motor de voz do Openai: um lançamento tão esperado?
No final de março passado, o Openai introduziu uma "prévia em pequena escala" de seu serviço de IA, o mecanismo de voz, que prometeu clonar a voz de uma pessoa usando apenas 15 segundos de fala. Avanço rápido por ano, e a ferramenta ainda está no modo de visualização, sem linha do tempo clara para um lançamento completo - ou mesmo confirmação de que ela verá a luz do dia.
A hesitação em lançar amplamente o motor de voz pode resultar de preocupações sobre uso indevido, ou talvez uma tentativa de evitar o escrutínio regulatório. O Openai enfrentou críticas no passado por priorizar produtos chamativos em vez de segurança e correr para o mercado antes dos concorrentes.
Um porta -voz do Openai disse ao TechCrunch que a empresa ainda está testando mecanismo de voz com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo com a forma como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta -voz. "Foi emocionante ver seus aplicativos, desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares da AI".
Motor de voz: a jornada até agora
O Voice Engine, que leva as vozes na API de texto em fala do OpenAI e no modo de voz do ChatGPT, cria discursos notavelmente naturais que imitam de perto o orador original. Ele converte texto em fala, restringido apenas por determinadas diretrizes de conteúdo. No entanto, o lançamento foi atormentado por atrasos e datas de liberação desde o início.
Em uma postagem no blog de junho de 2024, o OpenAI detalhou como o modelo de mecanismo de voz aprende a prever os sons que um alto -falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir do texto, mas também para produzir "enunciados falados" que refletem como diferentes falantes expressariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado de Vozes Custom, estava programado para ingressar na API do Openai em 7 de março de 2024, de acordo com um projeto de post do Blog visto pela TechCrunch. O plano era oferecer inicialmente acesso a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolvem aplicativos com benefícios sociais ou mostrando uso inovador e responsável da tecnologia. O OpenAI já havia registrado o serviço e estabeleceu preços a US $ 15 por milhão de caracteres para vozes "padrão" e US $ 30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, o Openai revelou o motor de voz sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com quem trabalhava desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a esses novos recursos", afirmou o OpenAI no final de março de 2024, postagem do blog. "Com base nessas conversas e nos resultados desses testes de pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em escala".
Uma longa estrada de desenvolvimento
O mecanismo de voz está em desenvolvimento desde 2022, com o Openai mostrando seu potencial - e riscos - para os formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao mecanismo de voz, incluindo o Startup Livox, que visa ajudar as pessoas com deficiência a se comunicarem mais naturalmente. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não podiam integrar o mecanismo de voz em seus produtos porque requer uma conexão com a Internet, que muitos de seus clientes não têm. "A qualidade da voz e a capacidade de que as vozes falem em diferentes idiomas são únicas - especialmente para nossos clientes com deficiência", disse Pereira ao TechCrunch por e -mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que eu já vi ... Esperamos que o Openai desenvolva uma versão offline em breve".
A Pereira não recebeu nenhuma indicação do OpenAI sobre uma possível data de lançamento ou planos de cobrar pelo serviço e, até agora, o Livox não teve que pagar por seu uso.
Em um post de junho de 2024, o Openai sugeriu que um motivo para atrasar o mecanismo de voz era o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo a marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do orador original e fazer "divulgações claras" para o público de que as vozes são geradas pela IA. No entanto, o OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
O OpenAI também sugeriu a construção de uma "experiência de autenticação por voz" para verificar os alto-falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelham a figuras proeminentes. Esses são projetos ambiciosos, e quaisquer erros podem danificar ainda mais a reputação do OpenAI em relação às iniciativas de segurança.
A filtragem eficaz e a verificação de ID estão se tornando essenciais para liberar com responsabilidade a tecnologia de clonagem de voz. A clonagem de voz da AI foi o terceiro golpe de crescimento mais rápido de 2024, levando a fraude e contornando as verificações de segurança bancária, pois as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Os atores maliciosos usaram a clonagem de voz para criar flakes profundos de celebridades e políticos, que se espalharam rapidamente nas mídias sociais.
O Openai pode lançar o motor de voz na próxima semana, ou isso pode nunca acontecer. A empresa mencionou considerar manter o serviço pequeno em escopo. Mas uma coisa é certa: seja para óptica, segurança ou ambos, a prévia limitada do mecanismo de voz se tornou uma das mais longas da história do Openai.




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












