OpeniAI ainda para liberar a ferramenta de clonagem de voz um ano depois
Motor de Voz da OpenAI: Um Lançamento Muito Aguardado?
No final de março passado, a OpenAI apresentou uma "prévia em pequena escala" de seu serviço de IA, Voice Engine, que prometia clonar a voz de uma pessoa usando apenas 15 segundos de fala. Um ano depois, a ferramenta ainda está em modo de prévia, sem um cronograma claro para um lançamento completo — ou mesmo confirmação de que algum dia verá a luz do dia.
A hesitação em lançar o Voice Engine amplamente pode decorrer de preocupações com o uso indevido, ou talvez uma tentativa de evitar escrutínio regulatório. A OpenAI enfrentou críticas no passado por priorizar produtos chamativos em detrimento da segurança e por correr para o mercado à frente dos concorrentes.
Um porta-voz da OpenAI disse à TechCrunch que a empresa ainda está testando o Voice Engine com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta-voz. "Tem sido empolgante ver suas aplicações, que vão desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares de IA."
Voice Engine: A Jornada Até Agora
O Voice Engine, que alimenta as vozes na API de texto para fala da OpenAI e no Modo de Voz do ChatGPT, cria uma fala notavelmente natural que imita de perto o falante original. Ele converte texto em fala, restrito apenas por certas diretrizes de conteúdo. No entanto, o lançamento foi marcado por atrasos e mudanças nas datas de lançamento desde o início.
Em um post de blog de junho de 2024, a OpenAI detalhou como o modelo Voice Engine aprende a prever os sons que um falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir de texto, mas também produza "enunciados falados" que refletem como diferentes falantes vocalizariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado Custom Voices, estava programado para integrar a API da OpenAI em 7 de março de 2024, de acordo com um rascunho de post de blog visto pela TechCrunch. O plano era oferecer acesso inicial a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolviam aplicativos com benefícios sociais ou que demonstrassem uso inovador e responsável da tecnologia. A OpenAI já havia registrado a marca do serviço e definido preços de $15 por milhão de caracteres para vozes "padrão" e $30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, a OpenAI revelou o Voice Engine sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com os quais vinha trabalhando desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades", afirmou a OpenAI no post de anúncio de final de março de 2024. "Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em larga escala."
Uma Longa Estrada de Desenvolvimento
O Voice Engine está em desenvolvimento desde 2022, com a OpenAI exibindo seu potencial — e riscos — para formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao Voice Engine, incluindo a startup Livox, que visa ajudar pessoas com deficiências a se comunicarem de forma mais natural. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não conseguiram integrar o Voice Engine em seus produtos porque ele requer uma conexão com a internet, algo que muitos de seus clientes não possuem. "A qualidade da voz e a capacidade de fazer as vozes falarem em diferentes idiomas é única — especialmente para nossos clientes com deficiências", disse Pereira à TechCrunch por e-mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que já vi... Esperamos que a OpenAI desenvolva uma versão offline em breve."
Pereira não recebeu nenhuma indicação da OpenAI sobre uma possível data de lançamento ou planos de cobrança pelo serviço, e até agora, a Livox não precisou pagar pelo uso.
Em um post de junho de 2024, a OpenAI sugeriu que um dos motivos para adiar o Voice Engine foi o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do falante original e fazer "divulgações claras" ao seu público de que as vozes são geradas por IA. No entanto, a OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
A OpenAI também sugeriu estar construindo uma "experiência de autenticação de voz" para verificar falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelhem a figuras proeminentes. Esses são projetos ambiciosos, e qualquer erro pode prejudicar ainda mais a reputação da OpenAI em relação às iniciativas de segurança.
Filtragem eficaz e verificação de identidade estão se tornando essenciais para a liberação responsável da tecnologia de clonagem de voz. A clonagem de voz por IA foi o terceiro golpe de crescimento mais rápido em 2024, levando a fraudes e contornando verificações de segurança bancária, enquanto as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Atores maliciosos usaram a clonagem de voz para criar deepfakes de celebridades e políticos, que se espalharam rapidamente nas redes sociais.
A OpenAI pode lançar o Voice Engine na próxima semana, ou talvez isso nunca aconteça. A empresa mencionou considerar manter o serviço em pequena escala. Mas uma coisa é certa: seja por questões de imagem, segurança ou ambos, a prévia limitada do Voice Engine se tornou uma das mais longas da história da OpenAI.
Artigo relacionado
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
Recomendações de tópicos especiais relacionados
Comentários (15)
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
Motor de Voz da OpenAI: Um Lançamento Muito Aguardado?
No final de março passado, a OpenAI apresentou uma "prévia em pequena escala" de seu serviço de IA, Voice Engine, que prometia clonar a voz de uma pessoa usando apenas 15 segundos de fala. Um ano depois, a ferramenta ainda está em modo de prévia, sem um cronograma claro para um lançamento completo — ou mesmo confirmação de que algum dia verá a luz do dia.
A hesitação em lançar o Voice Engine amplamente pode decorrer de preocupações com o uso indevido, ou talvez uma tentativa de evitar escrutínio regulatório. A OpenAI enfrentou críticas no passado por priorizar produtos chamativos em detrimento da segurança e por correr para o mercado à frente dos concorrentes.
Um porta-voz da OpenAI disse à TechCrunch que a empresa ainda está testando o Voice Engine com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta-voz. "Tem sido empolgante ver suas aplicações, que vão desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares de IA."
Voice Engine: A Jornada Até Agora
O Voice Engine, que alimenta as vozes na API de texto para fala da OpenAI e no Modo de Voz do ChatGPT, cria uma fala notavelmente natural que imita de perto o falante original. Ele converte texto em fala, restrito apenas por certas diretrizes de conteúdo. No entanto, o lançamento foi marcado por atrasos e mudanças nas datas de lançamento desde o início.
Em um post de blog de junho de 2024, a OpenAI detalhou como o modelo Voice Engine aprende a prever os sons que um falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir de texto, mas também produza "enunciados falados" que refletem como diferentes falantes vocalizariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado Custom Voices, estava programado para integrar a API da OpenAI em 7 de março de 2024, de acordo com um rascunho de post de blog visto pela TechCrunch. O plano era oferecer acesso inicial a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolviam aplicativos com benefícios sociais ou que demonstrassem uso inovador e responsável da tecnologia. A OpenAI já havia registrado a marca do serviço e definido preços de $15 por milhão de caracteres para vozes "padrão" e $30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, a OpenAI revelou o Voice Engine sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com os quais vinha trabalhando desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades", afirmou a OpenAI no post de anúncio de final de março de 2024. "Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em larga escala."
Uma Longa Estrada de Desenvolvimento
O Voice Engine está em desenvolvimento desde 2022, com a OpenAI exibindo seu potencial — e riscos — para formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao Voice Engine, incluindo a startup Livox, que visa ajudar pessoas com deficiências a se comunicarem de forma mais natural. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não conseguiram integrar o Voice Engine em seus produtos porque ele requer uma conexão com a internet, algo que muitos de seus clientes não possuem. "A qualidade da voz e a capacidade de fazer as vozes falarem em diferentes idiomas é única — especialmente para nossos clientes com deficiências", disse Pereira à TechCrunch por e-mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que já vi... Esperamos que a OpenAI desenvolva uma versão offline em breve."
Pereira não recebeu nenhuma indicação da OpenAI sobre uma possível data de lançamento ou planos de cobrança pelo serviço, e até agora, a Livox não precisou pagar pelo uso.
Em um post de junho de 2024, a OpenAI sugeriu que um dos motivos para adiar o Voice Engine foi o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do falante original e fazer "divulgações claras" ao seu público de que as vozes são geradas por IA. No entanto, a OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
A OpenAI também sugeriu estar construindo uma "experiência de autenticação de voz" para verificar falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelhem a figuras proeminentes. Esses são projetos ambiciosos, e qualquer erro pode prejudicar ainda mais a reputação da OpenAI em relação às iniciativas de segurança.
Filtragem eficaz e verificação de identidade estão se tornando essenciais para a liberação responsável da tecnologia de clonagem de voz. A clonagem de voz por IA foi o terceiro golpe de crescimento mais rápido em 2024, levando a fraudes e contornando verificações de segurança bancária, enquanto as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Atores maliciosos usaram a clonagem de voz para criar deepfakes de celebridades e políticos, que se espalharam rapidamente nas redes sociais.
A OpenAI pode lançar o Voice Engine na próxima semana, ou talvez isso nunca aconteça. A empresa mencionou considerar manter o serviço em pequena escala. Mas uma coisa é certa: seja por questões de imagem, segurança ou ambos, a prévia limitada do Voice Engine se tornou uma das mais longas da história da OpenAI.
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
O Pentágono assinou acordos com a Nvidia, a Microsoft e a AWS para implementar inteligência artificial em redes confidenciais.
Após alcançar acordos anteriores com a Google, a SpaceX e a OpenAI, o Departamento de Defesa dos EUA anunciou na sexta-feira que assinou contratos com a Nvidia, a Microsoft, a Amazon Web Services e a Reflection AI para utilizar suas tecnologias e mod
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬





Lar






