OpenAi aún para lanzar la herramienta de clonación de voz un año después
21 de abril de 2025
AnthonyHernández
25
Motor de voz de OpenAI: ¿Un lanzamiento tan esperado?
A fines de marzo pasado, OpenAI presentó una "vista previa a pequeña escala" de su servicio de IA, Voice Engine, que prometió clonar la voz de una persona utilizando solo 15 segundos de discurso. Avance rápido un año, y la herramienta todavía está en modo de vista previa, sin una línea de tiempo clara para un lanzamiento completo, o incluso confirmación de que alguna vez verá la luz del día.
La duda de implementar el motor de voz podría provenir ampliamente de las preocupaciones sobre el mal uso, o tal vez un intento de evitar el escrutinio regulatorio. Operai ha enfrentado críticas en el pasado por priorizar productos llamativos sobre la seguridad y por apresurarse al mercado antes de los competidores.
Un portavoz de OpenAI le dijo a TechCrunch que la compañía todavía está probando el motor de voz con un grupo selecto de "socios de confianza". "Estamos aprendiendo cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y la seguridad del modelo", explicó el portavoz. "Ha sido emocionante ver sus aplicaciones, que van desde la terapia del habla y el aprendizaje de idiomas hasta la atención al cliente, los personajes de videojuegos y los avatares de IA".
Motor de voz: el viaje hasta ahora
Voice Engine, que impulsa las voces en la API de texto a voz de OpenAI y el modo de voz de ChatGPT, crea un discurso notablemente natural que imita de cerca al altavoz original. Convierte el texto en discurso, limitado solo por ciertas pautas de contenido. Sin embargo, el despliegue ha estado plagado de retrasos y fechas de lanzamiento cambiantes desde el principio.
En una publicación de blog de junio de 2024, OpenAI detalló cómo el modelo de motor de voz aprende a predecir los sonidos que un altavoz probablemente haría un texto determinado, considerando varias voces, acentos y estilos de habla. Esto permite que el modelo no solo genere el habla del texto, sino que también produzca "expresiones habladas" que reflejen cómo diferentes altavoces expresarían el texto en voz alta.
Originalmente, Voice Engine, luego llamado Custom Voices, se unirá a la API de OpenAI el 7 de marzo de 2024, según un borrador de blogs vistos por TechCrunch. El plan era inicialmente ofrecer acceso a hasta 100 "desarrolladores de confianza", priorizando a aquellos que desarrollan aplicaciones con beneficios sociales o muestran un uso innovador y responsable de la tecnología. Operai ya había marcado el servicio y estableció precios de $ 15 por millón de caracteres para voces "estándar" y $ 30 por millón de caracteres para voces de "calidad HD".
Pero en el último momento, el anuncio se retrasó. Unas semanas más tarde, Operai presentó un motor de voz sin una opción de registro, lo que limita el acceso a un pequeño grupo de desarrolladores con los que habían estado trabajando desde finales de 2023.
"Esperamos comenzar un diálogo sobre el despliegue responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", declaró OpenAI en la publicación del blog de anuncios de finales de marzo de 2024. "Según estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala".
Un largo camino de desarrollo
El motor de voz ha estado en desarrollo desde 2022, con OpenAi que muestra su potencial y sus riesgos para los responsables políticos globales en el verano de 2023. Hoy, varios socios tienen acceso al motor de voz, incluida la inicio de Livox, cuyo objetivo es ayudar a las personas con discapacidades a comunicarse de manera más natural. Sin embargo, el CEO de Livox, Carlos Pereira, señaló que no podían integrar el motor de voz en sus productos porque requiere una conexión a Internet, que carecen de muchos de sus clientes. "La calidad de la voz y la capacidad de que las voces hablen en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades", dijo Pereira a TechCrunch por correo electrónico. "Es realmente la herramienta más impresionante y fácil de usar para crear voces que he visto ... Esperamos que Operai desarrolle una versión fuera de línea pronto".
Pereira no ha recibido ninguna indicación de Openai sobre una fecha de lanzamiento potencial o planea cobrar por el servicio, y hasta ahora, Livox no ha tenido que pagar por su uso.
En un puesto de junio de 2024, Openai sugirió que una razón para retrasar el motor de voz era el potencial de abuso durante el ciclo electoral de los Estados Unidos. La compañía ha implementado medidas de seguridad, incluida la marca de agua para rastrear el origen del audio generado. Los desarrolladores deben obtener "consentimiento explícito" del orador original y hacer que las "revelaciones claras" a su audiencia sean generadas por las voces. Sin embargo, Openai no ha detallado cómo se aplicarán estas políticas a escala, lo que podría ser un desafío significativo.
Operai también insinuó construir una "experiencia de autenticación de voz" para verificar los altavoces y una lista de "no ir" para evitar la creación de voces que se asemejan a figuras prominentes. Estos son proyectos ambiciosos, y cualquier paso en falso podría dañar aún más la reputación de OpenAi con respecto a las iniciativas de seguridad.
El filtrado efectivo y la verificación de identificación se están volviendo esenciales para liberar de manera responsable la tecnología de clonación de voz. La clonación de voz de IA fue la tercera estafa de más rápido crecimiento de 2024, lo que llevó a fraude y evitó los cheques de seguridad bancarios a medida que las leyes de privacidad y derechos de autor luchan para mantener el ritmo. Los actores maliciosos han utilizado la clonación de voz para crear profundos de celebridades y políticos, que se han extendido rápidamente en las redes sociales.
OpenAi podría lanzar Voice Engine la próxima semana, o puede que nunca suceda. La compañía ha mencionado considerar mantener el servicio pequeño en alcance. Pero una cosa es segura: ya sea para la óptica, la seguridad o ambos, la vista previa limitada del motor de voz se ha convertido en uno de los más largos en la historia de Openai.
Artículo relacionado
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
comentario (5)
0/200
StephenScott
21 de abril de 2025 23:54:47 GMT
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
21 de abril de 2025 23:54:47 GMT
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
21 de abril de 2025 23:54:47 GMT
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
21 de abril de 2025 23:54:47 GMT
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
21 de abril de 2025 23:54:47 GMT
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Motor de voz de OpenAI: ¿Un lanzamiento tan esperado?
A fines de marzo pasado, OpenAI presentó una "vista previa a pequeña escala" de su servicio de IA, Voice Engine, que prometió clonar la voz de una persona utilizando solo 15 segundos de discurso. Avance rápido un año, y la herramienta todavía está en modo de vista previa, sin una línea de tiempo clara para un lanzamiento completo, o incluso confirmación de que alguna vez verá la luz del día.
La duda de implementar el motor de voz podría provenir ampliamente de las preocupaciones sobre el mal uso, o tal vez un intento de evitar el escrutinio regulatorio. Operai ha enfrentado críticas en el pasado por priorizar productos llamativos sobre la seguridad y por apresurarse al mercado antes de los competidores.
Un portavoz de OpenAI le dijo a TechCrunch que la compañía todavía está probando el motor de voz con un grupo selecto de "socios de confianza". "Estamos aprendiendo cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y la seguridad del modelo", explicó el portavoz. "Ha sido emocionante ver sus aplicaciones, que van desde la terapia del habla y el aprendizaje de idiomas hasta la atención al cliente, los personajes de videojuegos y los avatares de IA".
Motor de voz: el viaje hasta ahora
Voice Engine, que impulsa las voces en la API de texto a voz de OpenAI y el modo de voz de ChatGPT, crea un discurso notablemente natural que imita de cerca al altavoz original. Convierte el texto en discurso, limitado solo por ciertas pautas de contenido. Sin embargo, el despliegue ha estado plagado de retrasos y fechas de lanzamiento cambiantes desde el principio.
En una publicación de blog de junio de 2024, OpenAI detalló cómo el modelo de motor de voz aprende a predecir los sonidos que un altavoz probablemente haría un texto determinado, considerando varias voces, acentos y estilos de habla. Esto permite que el modelo no solo genere el habla del texto, sino que también produzca "expresiones habladas" que reflejen cómo diferentes altavoces expresarían el texto en voz alta.
Originalmente, Voice Engine, luego llamado Custom Voices, se unirá a la API de OpenAI el 7 de marzo de 2024, según un borrador de blogs vistos por TechCrunch. El plan era inicialmente ofrecer acceso a hasta 100 "desarrolladores de confianza", priorizando a aquellos que desarrollan aplicaciones con beneficios sociales o muestran un uso innovador y responsable de la tecnología. Operai ya había marcado el servicio y estableció precios de $ 15 por millón de caracteres para voces "estándar" y $ 30 por millón de caracteres para voces de "calidad HD".
Pero en el último momento, el anuncio se retrasó. Unas semanas más tarde, Operai presentó un motor de voz sin una opción de registro, lo que limita el acceso a un pequeño grupo de desarrolladores con los que habían estado trabajando desde finales de 2023.
"Esperamos comenzar un diálogo sobre el despliegue responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", declaró OpenAI en la publicación del blog de anuncios de finales de marzo de 2024. "Según estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala".
Un largo camino de desarrollo
El motor de voz ha estado en desarrollo desde 2022, con OpenAi que muestra su potencial y sus riesgos para los responsables políticos globales en el verano de 2023. Hoy, varios socios tienen acceso al motor de voz, incluida la inicio de Livox, cuyo objetivo es ayudar a las personas con discapacidades a comunicarse de manera más natural. Sin embargo, el CEO de Livox, Carlos Pereira, señaló que no podían integrar el motor de voz en sus productos porque requiere una conexión a Internet, que carecen de muchos de sus clientes. "La calidad de la voz y la capacidad de que las voces hablen en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades", dijo Pereira a TechCrunch por correo electrónico. "Es realmente la herramienta más impresionante y fácil de usar para crear voces que he visto ... Esperamos que Operai desarrolle una versión fuera de línea pronto".
Pereira no ha recibido ninguna indicación de Openai sobre una fecha de lanzamiento potencial o planea cobrar por el servicio, y hasta ahora, Livox no ha tenido que pagar por su uso.
En un puesto de junio de 2024, Openai sugirió que una razón para retrasar el motor de voz era el potencial de abuso durante el ciclo electoral de los Estados Unidos. La compañía ha implementado medidas de seguridad, incluida la marca de agua para rastrear el origen del audio generado. Los desarrolladores deben obtener "consentimiento explícito" del orador original y hacer que las "revelaciones claras" a su audiencia sean generadas por las voces. Sin embargo, Openai no ha detallado cómo se aplicarán estas políticas a escala, lo que podría ser un desafío significativo.
Operai también insinuó construir una "experiencia de autenticación de voz" para verificar los altavoces y una lista de "no ir" para evitar la creación de voces que se asemejan a figuras prominentes. Estos son proyectos ambiciosos, y cualquier paso en falso podría dañar aún más la reputación de OpenAi con respecto a las iniciativas de seguridad.
El filtrado efectivo y la verificación de identificación se están volviendo esenciales para liberar de manera responsable la tecnología de clonación de voz. La clonación de voz de IA fue la tercera estafa de más rápido crecimiento de 2024, lo que llevó a fraude y evitó los cheques de seguridad bancarios a medida que las leyes de privacidad y derechos de autor luchan para mantener el ritmo. Los actores maliciosos han utilizado la clonación de voz para crear profundos de celebridades y políticos, que se han extendido rápidamente en las redes sociales.
OpenAi podría lanzar Voice Engine la próxima semana, o puede que nunca suceda. La compañía ha mencionado considerar mantener el servicio pequeño en alcance. Pero una cosa es segura: ya sea para la óptica, la seguridad o ambos, la vista previa limitada del motor de voz se ha convertido en uno de los más largos en la historia de Openai.




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












