OpenAI actualiza sus modelos de transcripción y generación de voz de voz
Operai está implementando nuevos modelos de IA para la transcripción y la generación de voz a través de su API, prometiendo mejoras significativas sobre sus versiones anteriores. Estas actualizaciones son parte de la visión "agente" más grande de OpenAI, que se centra en la creación de sistemas autónomos capaces de realizar tareas de forma independiente para los usuarios. Si bien se puede debatir el término "agente", el jefe de producto de Operai, Olivier Godement, lo ve como un chatbot que puede interactuar con los clientes de una empresa.
"Vamos a ver que cada vez más agentes emergen en los próximos meses", compartió el Dios con TechCrunch durante una sesión informativa. "El objetivo general es ayudar a los clientes y desarrolladores a utilizar agentes que sean útiles, accesibles y precisos".
El último modelo de texto a voz de OpenAI, denominado "GPT-4O-Mini-TTS", no solo tiene como objetivo producir un habla más realista y matizada, sino que también es más adaptable que sus predecesores. Los desarrolladores ahora pueden guiar el modelo utilizando comandos de lenguaje natural, como "hablar como un científico loco" o "usar una voz serena, como un maestro de atención plena". Este nivel de control permite una experiencia de voz más personalizada.
Aquí hay una muestra de un "verdadero estilo del crimen", la voz desgastada:
Y aquí hay un ejemplo de una voz "profesional" femenina:
Jeff Harris, miembro del equipo de productos de Operai, enfatizó a TechCrunch que el objetivo es permitir a los desarrolladores personalizar tanto la "experiencia" de la voz y el "contexto". "En varios escenarios, no quieres una voz monótona", explicó Harris. "Por ejemplo, en un entorno de atención al cliente donde la voz debe parecer disculpada por un error, puede infundir esa emoción en la voz. Creemos firmemente que los desarrolladores y usuarios desean controlar no solo el contenido, sino también la forma del habla".
Mudándose a las nuevas ofertas de voz a texto de OpenAi, "GPT-4O-TRANSCRIE" y "GPT-4O-Mini-Transcribe", estos modelos están configurados para reemplazar el modelo de transcripción Whisper obsoleto. Entrenados en una variedad diversa de datos de audio de alta calidad, afirman manejar mejor el habla acentuada y variada, incluso en entornos ruidosos. Además, estos modelos son menos propensos a "alucinaciones", un problema en el que Whisper a veces inventaba palabras o pasajes completos, agregando inexactitudes como comentarios raciales o tratamientos médicos ficticios a las transcripciones.
"Estos modelos muestran una mejora significativa sobre Whisper a este respecto", señaló Harris. "Asegurar la precisión del modelo es crucial para una experiencia de voz confiable, y con precisión, nos referimos a los modelos que capturan correctamente las palabras habladas sin agregar contenido sin voz".
Sin embargo, el rendimiento puede variar en todos los idiomas. Los puntos de referencia internos de OpenAI indican que GPT-4O-transcribe, cuanto más preciso de los dos, tiene una "tasa de error de palabras" que se acerca al 30% para los idiomas IND y Dravidian como Tamil, Telugu, Malayalam y Kannada. Esto sugiere que aproximadamente tres de cada diez palabras pueden diferir de una transcripción humana en estos idiomas.

Los resultados de la evaluación comparativa de transcripción de OpenAI. Créditos de imagen: OpenAI
En una desviación de su práctica habitual, OpenAI no hará estos nuevos modelos de transcripción disponibles gratuitamente. Históricamente, publicaron nuevas versiones Whisper bajo una licencia MIT para uso comercial. Harris señaló que GPT-4O-Transcribe y GPT-4O-Mini-Transcribe son significativamente más grandes que Whisper, lo que los hace inadecuados para el lanzamiento abierto.
"Estos modelos son demasiado grandes para ejecutar en una computadora portátil típica como Whisper podría", agregó Harris. "Cuando lanzamos modelos abiertamente, queremos hacerlo cuidadosamente, asegurando que estén adaptados a necesidades específicas. Vemos dispositivos de usuario final como un área principal para modelos de código abierto".
Actualizado el 20 de marzo de 2025, 11:54 a.m. PT para aclarar el idioma en torno a la tasa de error de palabras y actualizar la tabla de resultados de referencia con una versión más reciente.
Artículo relacionado
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
comentario (30)
0/200
ThomasBaker
12 de abril de 2025 00:00:00 GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
12 de abril de 2025 00:00:00 GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
11 de abril de 2025 00:00:00 GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
15 de abril de 2025 00:00:00 GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
10 de abril de 2025 00:00:00 GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
12 de abril de 2025 00:00:00 GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0
Operai está implementando nuevos modelos de IA para la transcripción y la generación de voz a través de su API, prometiendo mejoras significativas sobre sus versiones anteriores. Estas actualizaciones son parte de la visión "agente" más grande de OpenAI, que se centra en la creación de sistemas autónomos capaces de realizar tareas de forma independiente para los usuarios. Si bien se puede debatir el término "agente", el jefe de producto de Operai, Olivier Godement, lo ve como un chatbot que puede interactuar con los clientes de una empresa.
"Vamos a ver que cada vez más agentes emergen en los próximos meses", compartió el Dios con TechCrunch durante una sesión informativa. "El objetivo general es ayudar a los clientes y desarrolladores a utilizar agentes que sean útiles, accesibles y precisos".
El último modelo de texto a voz de OpenAI, denominado "GPT-4O-Mini-TTS", no solo tiene como objetivo producir un habla más realista y matizada, sino que también es más adaptable que sus predecesores. Los desarrolladores ahora pueden guiar el modelo utilizando comandos de lenguaje natural, como "hablar como un científico loco" o "usar una voz serena, como un maestro de atención plena". Este nivel de control permite una experiencia de voz más personalizada.
Aquí hay una muestra de un "verdadero estilo del crimen", la voz desgastada:
Y aquí hay un ejemplo de una voz "profesional" femenina:
Jeff Harris, miembro del equipo de productos de Operai, enfatizó a TechCrunch que el objetivo es permitir a los desarrolladores personalizar tanto la "experiencia" de la voz y el "contexto". "En varios escenarios, no quieres una voz monótona", explicó Harris. "Por ejemplo, en un entorno de atención al cliente donde la voz debe parecer disculpada por un error, puede infundir esa emoción en la voz. Creemos firmemente que los desarrolladores y usuarios desean controlar no solo el contenido, sino también la forma del habla".
Mudándose a las nuevas ofertas de voz a texto de OpenAi, "GPT-4O-TRANSCRIE" y "GPT-4O-Mini-Transcribe", estos modelos están configurados para reemplazar el modelo de transcripción Whisper obsoleto. Entrenados en una variedad diversa de datos de audio de alta calidad, afirman manejar mejor el habla acentuada y variada, incluso en entornos ruidosos. Además, estos modelos son menos propensos a "alucinaciones", un problema en el que Whisper a veces inventaba palabras o pasajes completos, agregando inexactitudes como comentarios raciales o tratamientos médicos ficticios a las transcripciones.
"Estos modelos muestran una mejora significativa sobre Whisper a este respecto", señaló Harris. "Asegurar la precisión del modelo es crucial para una experiencia de voz confiable, y con precisión, nos referimos a los modelos que capturan correctamente las palabras habladas sin agregar contenido sin voz".
Sin embargo, el rendimiento puede variar en todos los idiomas. Los puntos de referencia internos de OpenAI indican que GPT-4O-transcribe, cuanto más preciso de los dos, tiene una "tasa de error de palabras" que se acerca al 30% para los idiomas IND y Dravidian como Tamil, Telugu, Malayalam y Kannada. Esto sugiere que aproximadamente tres de cada diez palabras pueden diferir de una transcripción humana en estos idiomas.
En una desviación de su práctica habitual, OpenAI no hará estos nuevos modelos de transcripción disponibles gratuitamente. Históricamente, publicaron nuevas versiones Whisper bajo una licencia MIT para uso comercial. Harris señaló que GPT-4O-Transcribe y GPT-4O-Mini-Transcribe son significativamente más grandes que Whisper, lo que los hace inadecuados para el lanzamiento abierto.
"Estos modelos son demasiado grandes para ejecutar en una computadora portátil típica como Whisper podría", agregó Harris. "Cuando lanzamos modelos abiertamente, queremos hacerlo cuidadosamente, asegurando que estén adaptados a necesidades específicas. Vemos dispositivos de usuario final como un área principal para modelos de código abierto".
Actualizado el 20 de marzo de 2025, 11:54 a.m. PT para aclarar el idioma en torno a la tasa de error de palabras y actualizar la tabla de resultados de referencia con una versión más reciente.




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












