OpeniAI ainda para liberar a ferramenta de clonagem de voz um ano depois
Motor de Voz da OpenAI: Um Lançamento Muito Aguardado?
No final de março passado, a OpenAI apresentou uma "prévia em pequena escala" de seu serviço de IA, Voice Engine, que prometia clonar a voz de uma pessoa usando apenas 15 segundos de fala. Um ano depois, a ferramenta ainda está em modo de prévia, sem um cronograma claro para um lançamento completo — ou mesmo confirmação de que algum dia verá a luz do dia.
A hesitação em lançar o Voice Engine amplamente pode decorrer de preocupações com o uso indevido, ou talvez uma tentativa de evitar escrutínio regulatório. A OpenAI enfrentou críticas no passado por priorizar produtos chamativos em detrimento da segurança e por correr para o mercado à frente dos concorrentes.
Um porta-voz da OpenAI disse à TechCrunch que a empresa ainda está testando o Voice Engine com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta-voz. "Tem sido empolgante ver suas aplicações, que vão desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares de IA."
Voice Engine: A Jornada Até Agora
O Voice Engine, que alimenta as vozes na API de texto para fala da OpenAI e no Modo de Voz do ChatGPT, cria uma fala notavelmente natural que imita de perto o falante original. Ele converte texto em fala, restrito apenas por certas diretrizes de conteúdo. No entanto, o lançamento foi marcado por atrasos e mudanças nas datas de lançamento desde o início.
Em um post de blog de junho de 2024, a OpenAI detalhou como o modelo Voice Engine aprende a prever os sons que um falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir de texto, mas também produza "enunciados falados" que refletem como diferentes falantes vocalizariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado Custom Voices, estava programado para integrar a API da OpenAI em 7 de março de 2024, de acordo com um rascunho de post de blog visto pela TechCrunch. O plano era oferecer acesso inicial a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolviam aplicativos com benefícios sociais ou que demonstrassem uso inovador e responsável da tecnologia. A OpenAI já havia registrado a marca do serviço e definido preços de $15 por milhão de caracteres para vozes "padrão" e $30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, a OpenAI revelou o Voice Engine sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com os quais vinha trabalhando desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades", afirmou a OpenAI no post de anúncio de final de março de 2024. "Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em larga escala."
Uma Longa Estrada de Desenvolvimento
O Voice Engine está em desenvolvimento desde 2022, com a OpenAI exibindo seu potencial — e riscos — para formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao Voice Engine, incluindo a startup Livox, que visa ajudar pessoas com deficiências a se comunicarem de forma mais natural. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não conseguiram integrar o Voice Engine em seus produtos porque ele requer uma conexão com a internet, algo que muitos de seus clientes não possuem. "A qualidade da voz e a capacidade de fazer as vozes falarem em diferentes idiomas é única — especialmente para nossos clientes com deficiências", disse Pereira à TechCrunch por e-mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que já vi... Esperamos que a OpenAI desenvolva uma versão offline em breve."
Pereira não recebeu nenhuma indicação da OpenAI sobre uma possível data de lançamento ou planos de cobrança pelo serviço, e até agora, a Livox não precisou pagar pelo uso.
Em um post de junho de 2024, a OpenAI sugeriu que um dos motivos para adiar o Voice Engine foi o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do falante original e fazer "divulgações claras" ao seu público de que as vozes são geradas por IA. No entanto, a OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
A OpenAI também sugeriu estar construindo uma "experiência de autenticação de voz" para verificar falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelhem a figuras proeminentes. Esses são projetos ambiciosos, e qualquer erro pode prejudicar ainda mais a reputação da OpenAI em relação às iniciativas de segurança.
Filtragem eficaz e verificação de identidade estão se tornando essenciais para a liberação responsável da tecnologia de clonagem de voz. A clonagem de voz por IA foi o terceiro golpe de crescimento mais rápido em 2024, levando a fraudes e contornando verificações de segurança bancária, enquanto as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Atores maliciosos usaram a clonagem de voz para criar deepfakes de celebridades e políticos, que se espalharam rapidamente nas redes sociais.
A OpenAI pode lançar o Voice Engine na próxima semana, ou talvez isso nunca aconteça. A empresa mencionou considerar manter o serviço em pequena escala. Mas uma coisa é certa: seja por questões de imagem, segurança ou ambos, a prévia limitada do Voice Engine se tornou uma das mais longas da história da OpenAI.
Artigo relacionado
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas
A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
SoftBank Adquire Fábrica da Sharp por $676M para Centro de Dados de IA no Japão
A SoftBank está avançando em seu objetivo de estabelecer um grande centro de IA no Japão, tanto de forma independente quanto por meio de parcerias como a OpenAI. A gigante da tecnologia confirmou na s
Adobe e Figma Integram o Modelo Avançado de Geração de Imagens da OpenAI
A geração de imagens aprimorada da OpenAI no ChatGPT impulsionou um aumento de usuários, alimentado por sua capacidade de produzir visuais no estilo Studio Ghibli e designs únicos, e agora está se exp
Comentários (11)
0/200
FredLewis
2 de Agosto de 2025 à14 16:07:14 WEST
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
PaulBrown
23 de Abril de 2025 à58 10:20:58 WEST
1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。
0
TimothyMiller
23 de Abril de 2025 à47 07:50:47 WEST
等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。
0
SamuelRoberts
23 de Abril de 2025 à4 02:46:04 WEST
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
22 de Abril de 2025 à14 07:48:14 WEST
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
22 de Abril de 2025 à40 03:55:40 WEST
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
Motor de Voz da OpenAI: Um Lançamento Muito Aguardado?
No final de março passado, a OpenAI apresentou uma "prévia em pequena escala" de seu serviço de IA, Voice Engine, que prometia clonar a voz de uma pessoa usando apenas 15 segundos de fala. Um ano depois, a ferramenta ainda está em modo de prévia, sem um cronograma claro para um lançamento completo — ou mesmo confirmação de que algum dia verá a luz do dia.
A hesitação em lançar o Voice Engine amplamente pode decorrer de preocupações com o uso indevido, ou talvez uma tentativa de evitar escrutínio regulatório. A OpenAI enfrentou críticas no passado por priorizar produtos chamativos em detrimento da segurança e por correr para o mercado à frente dos concorrentes.
Um porta-voz da OpenAI disse à TechCrunch que a empresa ainda está testando o Voice Engine com um grupo seleto de "parceiros confiáveis". "Estamos aprendendo como nossos parceiros estão usando a tecnologia para aprimorar a utilidade e a segurança do modelo", explicou o porta-voz. "Tem sido empolgante ver suas aplicações, que vão desde terapia de fala e aprendizado de idiomas até suporte ao cliente, personagens de videogame e avatares de IA."
Voice Engine: A Jornada Até Agora
O Voice Engine, que alimenta as vozes na API de texto para fala da OpenAI e no Modo de Voz do ChatGPT, cria uma fala notavelmente natural que imita de perto o falante original. Ele converte texto em fala, restrito apenas por certas diretrizes de conteúdo. No entanto, o lançamento foi marcado por atrasos e mudanças nas datas de lançamento desde o início.
Em um post de blog de junho de 2024, a OpenAI detalhou como o modelo Voice Engine aprende a prever os sons que um falante provavelmente faria para um determinado texto, considerando várias vozes, sotaques e estilos de fala. Isso permite que o modelo não apenas gere fala a partir de texto, mas também produza "enunciados falados" que refletem como diferentes falantes vocalizariam o texto em voz alta.
Originalmente, o Voice Engine, então chamado Custom Voices, estava programado para integrar a API da OpenAI em 7 de março de 2024, de acordo com um rascunho de post de blog visto pela TechCrunch. O plano era oferecer acesso inicial a até 100 "desenvolvedores confiáveis", priorizando aqueles que desenvolviam aplicativos com benefícios sociais ou que demonstrassem uso inovador e responsável da tecnologia. A OpenAI já havia registrado a marca do serviço e definido preços de $15 por milhão de caracteres para vozes "padrão" e $30 por milhão de caracteres para vozes de "qualidade HD".
Mas no último momento, o anúncio foi adiado. Algumas semanas depois, a OpenAI revelou o Voice Engine sem uma opção de inscrição, limitando o acesso a um pequeno grupo de desenvolvedores com os quais vinha trabalhando desde o final de 2023.
"Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades", afirmou a OpenAI no post de anúncio de final de março de 2024. "Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em larga escala."
Uma Longa Estrada de Desenvolvimento
O Voice Engine está em desenvolvimento desde 2022, com a OpenAI exibindo seu potencial — e riscos — para formuladores de políticas globais no verão de 2023. Hoje, vários parceiros têm acesso ao Voice Engine, incluindo a startup Livox, que visa ajudar pessoas com deficiências a se comunicarem de forma mais natural. No entanto, o CEO da Livox, Carlos Pereira, observou que eles não conseguiram integrar o Voice Engine em seus produtos porque ele requer uma conexão com a internet, algo que muitos de seus clientes não possuem. "A qualidade da voz e a capacidade de fazer as vozes falarem em diferentes idiomas é única — especialmente para nossos clientes com deficiências", disse Pereira à TechCrunch por e-mail. "É realmente a ferramenta mais impressionante e fácil de usar para criar vozes que já vi... Esperamos que a OpenAI desenvolva uma versão offline em breve."
Pereira não recebeu nenhuma indicação da OpenAI sobre uma possível data de lançamento ou planos de cobrança pelo serviço, e até agora, a Livox não precisou pagar pelo uso.
Em um post de junho de 2024, a OpenAI sugeriu que um dos motivos para adiar o Voice Engine foi o potencial de abuso durante o ciclo eleitoral dos EUA. A empresa implementou medidas de segurança, incluindo marca d'água para rastrear a origem do áudio gerado. Os desenvolvedores devem obter "consentimento explícito" do falante original e fazer "divulgações claras" ao seu público de que as vozes são geradas por IA. No entanto, a OpenAI não detalhou como essas políticas serão aplicadas em escala, o que pode ser um desafio significativo.
A OpenAI também sugeriu estar construindo uma "experiência de autenticação de voz" para verificar falantes e uma lista de "proibições" para impedir a criação de vozes que se assemelhem a figuras proeminentes. Esses são projetos ambiciosos, e qualquer erro pode prejudicar ainda mais a reputação da OpenAI em relação às iniciativas de segurança.
Filtragem eficaz e verificação de identidade estão se tornando essenciais para a liberação responsável da tecnologia de clonagem de voz. A clonagem de voz por IA foi o terceiro golpe de crescimento mais rápido em 2024, levando a fraudes e contornando verificações de segurança bancária, enquanto as leis de privacidade e direitos autorais lutam para acompanhar o ritmo. Atores maliciosos usaram a clonagem de voz para criar deepfakes de celebridades e políticos, que se espalharam rapidamente nas redes sociais.
A OpenAI pode lançar o Voice Engine na próxima semana, ou talvez isso nunca aconteça. A empresa mencionou considerar manter o serviço em pequena escala. Mas uma coisa é certa: seja por questões de imagem, segurança ou ambos, a prévia limitada do Voice Engine se tornou uma das mais longas da história da OpenAI.


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。




等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












