opción
Hogar
Noticias
OpenAi aún para lanzar la herramienta de clonación de voz un año después

OpenAi aún para lanzar la herramienta de clonación de voz un año después

21 de abril de 2025
93

El Motor de Voz de OpenAI: ¿Un Lanzamiento Muy Esperado?

A finales de marzo pasado, OpenAI presentó una "vista previa a pequeña escala" de su servicio de IA, Voice Engine, que prometía clonar la voz de una persona utilizando solo 15 segundos de habla. Un año después, la herramienta sigue en modo de vista previa, sin un cronograma claro para un lanzamiento completo, ni siquiera confirmación de que alguna vez verá la luz del día.

La vacilación para implementar Voice Engine ampliamente podría provenir de preocupaciones por el mal uso, o tal vez un intento de evitar el escrutinio regulatorio. OpenAI ha enfrentado críticas en el pasado por priorizar productos llamativos sobre la seguridad y por apresurarse a llegar al mercado antes que sus competidores.

Un portavoz de OpenAI dijo a TechCrunch que la empresa aún está probando Voice Engine con un grupo selecto de "socios confiables". "Estamos aprendiendo de cómo nuestros socios están utilizando la tecnología para mejorar la utilidad y la seguridad del modelo", explicó el portavoz. "Ha sido emocionante ver sus aplicaciones, que van desde terapia del habla y aprendizaje de idiomas hasta soporte al cliente, personajes de videojuegos y avatares de IA."

Voice Engine: El Camino Hasta Ahora

Voice Engine, que impulsa las voces en la API de texto a voz de OpenAI y el Modo de Voz de ChatGPT, crea un discurso notablemente natural que imita de cerca al hablante original. Convierte texto en voz, restringido solo por ciertas directrices de contenido. Sin embargo, el lanzamiento ha estado plagado de retrasos y fechas de lanzamiento cambiantes desde el principio.

En una publicación de blog de junio de 2024, OpenAI detalló cómo el modelo Voice Engine aprende a predecir los sonidos que un hablante probablemente haría para un texto dado, considerando diversas voces, acentos y estilos de habla. Esto permite al modelo no solo generar voz a partir de texto, sino también producir "expresiones habladas" que reflejan cómo diferentes hablantes expresarían el texto en voz alta.

Originalmente, Voice Engine, entonces llamado Custom Voices, estaba programado para unirse a la API de OpenAI el 7 de marzo de 2024, según un borrador de publicación de blog visto por TechCrunch. El plan era ofrecer inicialmente acceso a hasta 100 "desarrolladores confiables", priorizando aquellos que desarrollaban aplicaciones con beneficios sociales o que mostraban un uso innovador y responsable de la tecnología. OpenAI ya había registrado la marca del servicio y establecido precios de $15 por millón de caracteres para voces "estándar" y $30 por millón de caracteres para voces de "calidad HD".

Pero en el último momento, el anuncio se retrasó. Unas semanas después, OpenAI presentó Voice Engine sin una opción de registro, limitando el acceso a un pequeño grupo de desarrolladores con los que habían estado trabajando desde finales de 2023.

"Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", afirmó OpenAI en la publicación de blog del anuncio de finales de marzo de 2024. "Basados en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo."

Un Largo Camino de Desarrollo

Voice Engine ha estado en desarrollo desde 2022, con OpenAI mostrando su potencial —y riesgos— a legisladores globales en el verano de 2023. Hoy, varios socios tienen acceso a Voice Engine, incluyendo la startup Livox, que busca ayudar a personas con discapacidades a comunicarse de manera más natural. Sin embargo, el CEO de Livox, Carlos Pereira, señaló que no podían integrar Voice Engine en sus productos porque requiere una conexión a internet, algo que muchos de sus clientes no tienen. "La calidad de la voz y la capacidad de hacer que las voces hablen en diferentes idiomas es única, especialmente para nuestros clientes con discapacidades", dijo Pereira a TechCrunch por correo electrónico. "Realmente es la herramienta más impresionante y fácil de usar para crear voces que he visto... Esperamos que OpenAI desarrolle una versión sin conexión pronto."

Pereira no ha recibido ninguna indicación de OpenAI sobre una posible fecha de lanzamiento o planes para cobrar por el servicio, y hasta ahora, Livox no ha tenido que pagar por su uso.

En una publicación de junio de 2024, OpenAI sugirió que una razón para retrasar Voice Engine fue el potencial de abuso durante el ciclo electoral de EE. UU. La empresa ha implementado medidas de seguridad, incluyendo marcas de agua para rastrear el origen del audio generado. Los desarrolladores deben obtener el "consentimiento explícito" del hablante original y hacer "divulgaciones claras" a su audiencia de que las voces son generadas por IA. Sin embargo, OpenAI no ha detallado cómo se aplicarán estas políticas a gran escala, lo que podría ser un desafío significativo.

OpenAI también insinuó que está construyendo una "experiencia de autenticación de voz" para verificar a los hablantes y una lista de "prohibidos" para evitar la creación de voces que se asemejen a figuras prominentes. Estos son proyectos ambiciosos, y cualquier error podría dañar aún más la reputación de OpenAI en cuanto a iniciativas de seguridad.

El filtrado efectivo y la verificación de identidad se están volviendo esenciales para liberar responsablemente la tecnología de clonación de voz. La clonación de voz por IA fue la tercera estafa de más rápido crecimiento en 2024, provocando fraudes y superando controles de seguridad bancaria mientras las leyes de privacidad y derechos de autor luchan por mantenerse al día. Actores maliciosos han utilizado la clonación de voz para crear deepfakes de celebridades y políticos, que se han propagado rápidamente en las redes sociales.

OpenAI podría lanzar Voice Engine la próxima semana, o tal vez nunca ocurra. La empresa ha mencionado que considera mantener el servicio en un ámbito reducido. Pero una cosa es segura: ya sea por imagen, seguridad o ambas, la vista previa limitada de Voice Engine se ha convertido en una de las más largas en la historia de OpenAI.

Artículo relacionado
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
SoftBank Adquiere Fábrica de Sharp por $676M para Centro de Datos de IA en Japón SoftBank Adquiere Fábrica de Sharp por $676M para Centro de Datos de IA en Japón SoftBank avanza en su objetivo de establecer un gran centro de IA en Japón, tanto de forma independiente como a través de asociaciones como OpenAI. El gigante tecnológico confirmó el viernes que inver
Adobe y Figma Integran el Modelo Avanzado de Generación de Imágenes de OpenAI Adobe y Figma Integran el Modelo Avanzado de Generación de Imágenes de OpenAI La generación de imágenes mejorada de OpenAI en ChatGPT ha impulsado un aumento en los usuarios, impulsado por su capacidad para producir visuales al estilo Studio Ghibli y diseños únicos, y ahora se
comentario (11)
0/200
FredLewis
FredLewis 2 de agosto de 2025 17:07:14 GMT+02:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬

PaulBrown
PaulBrown 23 de abril de 2025 11:20:58 GMT+02:00

1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。

TimothyMiller
TimothyMiller 23 de abril de 2025 08:50:47 GMT+02:00

等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。

SamuelRoberts
SamuelRoberts 23 de abril de 2025 03:46:04 GMT+02:00

Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.

WillMitchell
WillMitchell 22 de abril de 2025 08:48:14 GMT+02:00

Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.

JamesWilliams
JamesWilliams 22 de abril de 2025 04:55:40 GMT+02:00

A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.

Volver arriba
OR