OpenAI presenta sus capacidades de inteligencia vocal a través de su API

OpenAI anunció el jueves que su API ahora incluye varias nuevas funciones de inteligencia vocal, diseñadas para ayudar a los desarrolladores a crear aplicaciones capaces de hablar, transcribir y traducir conversaciones.
El nuevo modelo de voz de la empresa, GPT-Realtime-2, es otro ejemplo de esta tecnología; está diseñado para generar una simulación vocal realista que pueda interactuar con los usuarios en conversaciones. Sin embargo, a diferencia de su predecesor (GPT-Realtime-1.5), esta versión incorpora el razonamiento del nivel GPT-5, algo que OpenAI afirma fue desarrollado para manejar solicitudes de usuario más complejas.
La empresa también está lanzando GPT-Realtime-Translate, que, como su nombre indica, ofrece servicios de traducción en tiempo real que se mantienen al ritmo de la conversación. Esta función soporta más de 70 idiomas de entrada y 13 idiomas de salida.
Finalmente, OpenAI ha introducido una nueva capacidad de transcripción llamada GPT-Realtime-Whisper, que proporciona funcionalidad de conversión de voz a texto en tiempo real, capturando las palabras a medida que ocurren las interacciones.
“Juntos, los modelos que estamos lanzando llevan el audio en tiempo real desde interfaces simples de pregunta y respuesta hacia interfaces vocales que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y tomar acciones a medida que avanza la conversación”, dijo la empresa.
¿Quién se beneficiará de estas actualizaciones? Las empresas que busquen expandir sus capacidades de servicio al cliente son un público obvio. No obstante, OpenAI también señala que las nuevas funciones serán útiles en una amplia gama de áreas, incluyendo la educación, los medios, los eventos y las plataformas para creadores.
Aunque estas herramientas sean muy útiles desde el punto de vista empresarial, también existe el potencial de su uso indebido. La empresa afirma haber establecido medidas de protección para evitar que sus nuevas funciones se utilicen con fines de spam, fraude u otros tipos de abuso en línea. Se han incorporado mecanismos específicos en el sistema para que “las conversaciones puedan ser interrumpidas si se detecta que violan nuestras directrices contra contenido dañino”, según OpenAI.
Todos los nuevos modelos de voz están incluidos en la API en tiempo real de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura según el consumo de tokens.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

OpenAI anunció el jueves que su API ahora incluye varias nuevas funciones de inteligencia vocal, diseñadas para ayudar a los desarrolladores a crear aplicaciones capaces de hablar, transcribir y traducir conversaciones.
El nuevo modelo de voz de la empresa, GPT-Realtime-2, es otro ejemplo de esta tecnología; está diseñado para generar una simulación vocal realista que pueda interactuar con los usuarios en conversaciones. Sin embargo, a diferencia de su predecesor (GPT-Realtime-1.5), esta versión incorpora el razonamiento del nivel GPT-5, algo que OpenAI afirma fue desarrollado para manejar solicitudes de usuario más complejas.
La empresa también está lanzando GPT-Realtime-Translate, que, como su nombre indica, ofrece servicios de traducción en tiempo real que se mantienen al ritmo de la conversación. Esta función soporta más de 70 idiomas de entrada y 13 idiomas de salida.
Finalmente, OpenAI ha introducido una nueva capacidad de transcripción llamada GPT-Realtime-Whisper, que proporciona funcionalidad de conversión de voz a texto en tiempo real, capturando las palabras a medida que ocurren las interacciones.
“Juntos, los modelos que estamos lanzando llevan el audio en tiempo real desde interfaces simples de pregunta y respuesta hacia interfaces vocales que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y tomar acciones a medida que avanza la conversación”, dijo la empresa.
¿Quién se beneficiará de estas actualizaciones? Las empresas que busquen expandir sus capacidades de servicio al cliente son un público obvio. No obstante, OpenAI también señala que las nuevas funciones serán útiles en una amplia gama de áreas, incluyendo la educación, los medios, los eventos y las plataformas para creadores.
Aunque estas herramientas sean muy útiles desde el punto de vista empresarial, también existe el potencial de su uso indebido. La empresa afirma haber establecido medidas de protección para evitar que sus nuevas funciones se utilicen con fines de spam, fraude u otros tipos de abuso en línea. Se han incorporado mecanismos específicos en el sistema para que “las conversaciones puedan ser interrumpidas si se detecta que violan nuestras directrices contra contenido dañino”, según OpenAI.
Todos los nuevos modelos de voz están incluidos en la API en tiempo real de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura según el consumo de tokens.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati





Hogar






