OpenAi aún para lanzar la herramienta de clonación de voz un año después
El Motor de Voz de OpenAI: ¿Un Lanzamiento Muy Esperado?
A finales de marzo pasado, OpenAI presentó una "vista previa a pequeña escala" de su servicio de IA, Voice Engine, que prometía clonar la voz de una persona utilizando solo 15 segundos de habla. Un año después, la herramienta sigue en modo de vista previa, sin un cronograma claro para un lanzamiento completo, ni siquiera confirmación de que alguna vez verá la luz del día.
La vacilación para implementar Voice Engine ampliamente podría provenir de preocupaciones por el mal uso, o tal vez un intento de evitar el escrutinio regulatorio. OpenAI ha enfrentado críticas en el pasado por priorizar productos llamativos sobre la seguridad y por apresurarse a llegar al mercado antes que sus competidores.
Un portavoz de OpenAI dijo a TechCrunch que la empresa aún está probando Voice Engine con un grupo selecto de "socios confiables". "Estamos aprendiendo de cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y la seguridad del modelo", explicó el portavoz. "Ha sido emocionante ver sus aplicaciones, que van desde terapia del habla y aprendizaje de idiomas hasta soporte al cliente, personajes de videojuegos y avatares de IA."
Voice Engine: El Camino Hasta Ahora
Voice Engine, que impulsa las voces en la API de texto a voz de OpenAI y el Modo de Voz de ChatGPT, crea un discurso notablemente natural que imita de cerca al hablante original. Convierte texto en voz, restringido solo por ciertas directrices de contenido. Sin embargo, el lanzamiento ha estado plagado de retrasos y fechas de lanzamiento cambiantes desde el principio.
En una publicación de blog de junio de 2024, OpenAI detalló cómo el modelo Voice Engine aprende a predecir los sonidos que un hablante probablemente haría para un texto dado, considerando diversas voces, acentos y estilos de habla. Esto permite al modelo no solo generar voz a partir de texto, sino también producir "expresiones habladas" que reflejan cómo diferentes hablantes expresarían el texto en voz alta.
Originalmente, Voice Engine, entonces llamado Custom Voices, estaba programado para unirse a la API de OpenAI el 7 de marzo de 2024, según un borrador de publicación de blog visto por TechCrunch. El plan era ofrecer inicialmente acceso a hasta 100 "desarrolladores confiables", priorizando aquellos que desarrollaban aplicaciones con beneficios sociales o que mostraban un uso innovador y responsable de la tecnología. OpenAI ya había registrado la marca del servicio y establecido precios de $15 por millón de caracteres para voces "estándar" y $30 por millón de caracteres para voces de "calidad HD".
Pero en el último momento, el anuncio se retrasó. Unas semanas después, OpenAI presentó Voice Engine sin una opción de registro, limitando el acceso a un pequeño grupo de desarrolladores con los que habían estado trabajando desde finales de 2023.
"Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", afirmó OpenAI en la publicación de blog del anuncio de finales de marzo de 2024. "Basados en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo."
Un Largo Camino de Desarrollo
Voice Engine ha estado en desarrollo desde 2022, con OpenAI mostrando su potencial —y riesgos— a legisladores globales en el verano de 2023. Hoy, varios socios tienen acceso a Voice Engine, incluyendo la startup Livox, que busca ayudar a personas con discapacidades a comunicarse de manera más natural. Sin embargo, el CEO de Livox, Carlos Pereira, señaló que no podían integrar Voice Engine en sus productos porque requiere una conexión a internet, algo que muchos de sus clientes no tienen. "La calidad de la voz y la capacidad de hacer que las voces hablen en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades", dijo Pereira a TechCrunch por correo electrónico. "Realmente es la herramienta más impresionante y fácil de usar para crear voces que he visto... Esperamos que OpenAI desarrolle una versión sin conexión pronto."
Pereira no ha recibido ninguna indicación de OpenAI sobre una posible fecha de lanzamiento o planes para cobrar por el servicio, y hasta ahora, Livox no ha tenido que pagar por su uso.
En una publicación de junio de 2024, OpenAI sugirió que una razón para retrasar Voice Engine fue el potencial de abuso durante el ciclo electoral de EE. UU. La empresa ha implementado medidas de seguridad, incluyendo marcas de agua para rastrear el origen del audio generado. Los desarrolladores deben obtener el "consentimiento explícito" del hablante original y hacer "divulgaciones claras" a su audiencia de que las voces son generadas por IA. Sin embargo, OpenAI no ha detallado cómo se aplicarán estas políticas a gran escala, lo que podría ser un desafío significativo.
OpenAI también insinuó que está construyendo una "experiencia de autenticación de voz" para verificar a los hablantes y una lista de "prohibidos" para evitar la creación de voces que se asemejen a figuras prominentes. Estos son proyectos ambiciosos, y cualquier error podría dañar aún más la reputación de OpenAI en cuanto a iniciativas de seguridad.
El filtrado efectivo y la verificación de identidad se están volviendo esenciales para liberar responsablemente la tecnología de clonación de voz. La clonación de voz por IA fue la tercera estafa de más rápido crecimiento en 2024, provocando fraudes y superando controles de seguridad bancaria mientras las leyes de privacidad y derechos de autor luchan por mantenerse al día. Actores maliciosos han utilizado la clonación de voz para crear deepfakes de celebridades y políticos, que se han propagado rápidamente en las redes sociales.
OpenAI podría lanzar Voice Engine la próxima semana, o tal vez nunca ocurra. La empresa ha mencionado que considera mantener el servicio en un ámbito reducido. Pero una cosa es segura: ya sea por imagen, seguridad o ambas, la vista previa limitada de Voice Engine se ha convertido en una de las más largas en la historia de OpenAI.
Artículo relacionado
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas.
Después de haber alcanzado acuerdos previamente con Google, SpaceX y OpenAI, el Departamento de Defensa de los Estados Unidos anunció el viernes que ha firmado contratos con Nvidia, Microsoft, Amazon Web Services y Reflection AI para utilizar sus tec
Recomendaciones de temas especiales relacionados
comentario (15)
0/500
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
El Motor de Voz de OpenAI: ¿Un Lanzamiento Muy Esperado?
A finales de marzo pasado, OpenAI presentó una "vista previa a pequeña escala" de su servicio de IA, Voice Engine, que prometía clonar la voz de una persona utilizando solo 15 segundos de habla. Un año después, la herramienta sigue en modo de vista previa, sin un cronograma claro para un lanzamiento completo, ni siquiera confirmación de que alguna vez verá la luz del día.
La vacilación para implementar Voice Engine ampliamente podría provenir de preocupaciones por el mal uso, o tal vez un intento de evitar el escrutinio regulatorio. OpenAI ha enfrentado críticas en el pasado por priorizar productos llamativos sobre la seguridad y por apresurarse a llegar al mercado antes que sus competidores.
Un portavoz de OpenAI dijo a TechCrunch que la empresa aún está probando Voice Engine con un grupo selecto de "socios confiables". "Estamos aprendiendo de cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y la seguridad del modelo", explicó el portavoz. "Ha sido emocionante ver sus aplicaciones, que van desde terapia del habla y aprendizaje de idiomas hasta soporte al cliente, personajes de videojuegos y avatares de IA."
Voice Engine: El Camino Hasta Ahora
Voice Engine, que impulsa las voces en la API de texto a voz de OpenAI y el Modo de Voz de ChatGPT, crea un discurso notablemente natural que imita de cerca al hablante original. Convierte texto en voz, restringido solo por ciertas directrices de contenido. Sin embargo, el lanzamiento ha estado plagado de retrasos y fechas de lanzamiento cambiantes desde el principio.
En una publicación de blog de junio de 2024, OpenAI detalló cómo el modelo Voice Engine aprende a predecir los sonidos que un hablante probablemente haría para un texto dado, considerando diversas voces, acentos y estilos de habla. Esto permite al modelo no solo generar voz a partir de texto, sino también producir "expresiones habladas" que reflejan cómo diferentes hablantes expresarían el texto en voz alta.
Originalmente, Voice Engine, entonces llamado Custom Voices, estaba programado para unirse a la API de OpenAI el 7 de marzo de 2024, según un borrador de publicación de blog visto por TechCrunch. El plan era ofrecer inicialmente acceso a hasta 100 "desarrolladores confiables", priorizando aquellos que desarrollaban aplicaciones con beneficios sociales o que mostraban un uso innovador y responsable de la tecnología. OpenAI ya había registrado la marca del servicio y establecido precios de $15 por millón de caracteres para voces "estándar" y $30 por millón de caracteres para voces de "calidad HD".
Pero en el último momento, el anuncio se retrasó. Unas semanas después, OpenAI presentó Voice Engine sin una opción de registro, limitando el acceso a un pequeño grupo de desarrolladores con los que habían estado trabajando desde finales de 2023.
"Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", afirmó OpenAI en la publicación de blog del anuncio de finales de marzo de 2024. "Basados en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo."
Un Largo Camino de Desarrollo
Voice Engine ha estado en desarrollo desde 2022, con OpenAI mostrando su potencial —y riesgos— a legisladores globales en el verano de 2023. Hoy, varios socios tienen acceso a Voice Engine, incluyendo la startup Livox, que busca ayudar a personas con discapacidades a comunicarse de manera más natural. Sin embargo, el CEO de Livox, Carlos Pereira, señaló que no podían integrar Voice Engine en sus productos porque requiere una conexión a internet, algo que muchos de sus clientes no tienen. "La calidad de la voz y la capacidad de hacer que las voces hablen en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades", dijo Pereira a TechCrunch por correo electrónico. "Realmente es la herramienta más impresionante y fácil de usar para crear voces que he visto... Esperamos que OpenAI desarrolle una versión sin conexión pronto."
Pereira no ha recibido ninguna indicación de OpenAI sobre una posible fecha de lanzamiento o planes para cobrar por el servicio, y hasta ahora, Livox no ha tenido que pagar por su uso.
En una publicación de junio de 2024, OpenAI sugirió que una razón para retrasar Voice Engine fue el potencial de abuso durante el ciclo electoral de EE. UU. La empresa ha implementado medidas de seguridad, incluyendo marcas de agua para rastrear el origen del audio generado. Los desarrolladores deben obtener el "consentimiento explícito" del hablante original y hacer "divulgaciones claras" a su audiencia de que las voces son generadas por IA. Sin embargo, OpenAI no ha detallado cómo se aplicarán estas políticas a gran escala, lo que podría ser un desafío significativo.
OpenAI también insinuó que está construyendo una "experiencia de autenticación de voz" para verificar a los hablantes y una lista de "prohibidos" para evitar la creación de voces que se asemejen a figuras prominentes. Estos son proyectos ambiciosos, y cualquier error podría dañar aún más la reputación de OpenAI en cuanto a iniciativas de seguridad.
El filtrado efectivo y la verificación de identidad se están volviendo esenciales para liberar responsablemente la tecnología de clonación de voz. La clonación de voz por IA fue la tercera estafa de más rápido crecimiento en 2024, provocando fraudes y superando controles de seguridad bancaria mientras las leyes de privacidad y derechos de autor luchan por mantenerse al día. Actores maliciosos han utilizado la clonación de voz para crear deepfakes de celebridades y políticos, que se han propagado rápidamente en las redes sociales.
OpenAI podría lanzar Voice Engine la próxima semana, o tal vez nunca ocurra. La empresa ha mencionado que considera mantener el servicio en un ámbito reducido. Pero una cosa es segura: ya sea por imagen, seguridad o ambas, la vista previa limitada de Voice Engine se ha convertido en una de las más largas en la historia de OpenAI.
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas.
Después de haber alcanzado acuerdos previamente con Google, SpaceX y OpenAI, el Departamento de Defensa de los Estados Unidos anunció el viernes que ha firmado contratos con Nvidia, Microsoft, Amazon Web Services y Reflection AI para utilizar sus tec
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬





Hogar






