OpenAai atualiza seus modelos de AI de transcrição e geração de voz
10 de Abril de 2025
CharlesWhite
6
O OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da maior visão "Agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de executar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da Openai, Olivier Godemement, o vê como um chatbot que pode interagir com os clientes de uma empresa.
"Vamos ver mais e mais agentes emergir nos próximos meses", compartilhou Godemement com o TechCrunch durante um briefing. "O objetivo abrangente é ajudar clientes e desenvolvedores a utilizar agentes úteis, acessíveis e precisos".
O mais recente modelo de texto em fala da OpenAI, apelidado de "GPT-4O-Mini-TTS", não pretende apenas produzir mais fala real e diferenciada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem orientar o modelo usando comandos de linguagem natural, como "falar como um cientista louco" ou "usar uma voz serena, como um professor de atenção plena". Esse nível de controle permite uma experiência de voz mais personalizada.
Aqui está uma amostra de uma voz "verdadeira de estilo criminal", desgastada:
E aqui está um exemplo de uma voz "profissional" feminina:
Jeff Harris, membro da equipe de produtos da Openai, enfatizou a TechCrunch que o objetivo é permitir que os desenvolvedores personalizem a voz "experiência" e "contexto". "Em vários cenários, você não quer uma voz monótona", explicou Harris. "Por exemplo, em uma configuração de suporte ao cliente em que a voz precisa parecer apologética por um erro, você pode infundir essa emoção na voz. Acreditamos firmemente que desenvolvedores e usuários desejam controlar não apenas o conteúdo, mas a maneira da fala".
Movendo-se para as novas ofertas de fala para texto do OpenAI, "GPT-4O-Transcrib" e "GPT-4O-Mini-transcribe", esses modelos estão configurados para substituir o modelo de transcrição sussurro desatualizado. Treinados em uma variedade diversificada de dados de áudio de alta qualidade, eles afirmam melhor lidar com uma fala acentuada e variada, mesmo em configurações barulhentas. Além disso, esses modelos são menos propensos a "alucinações", um problema em que o sussurro às vezes inventa palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.
"Esses modelos mostram melhorias significativas em relação ao sussurro a esse respeito", observou Harris. "Garantir que a precisão do modelo seja crucial para uma experiência de voz confiável e, com precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não anulado".
No entanto, o desempenho pode variar entre os idiomas. Os benchmarks internos do OpenAI indicam que o GPT-4O-Transcribil, mais preciso dos dois, tem uma "taxa de erro de palavra" quase 30% para idiomas indic e dravidianos como Tamil, Telugu, Malayalam e Kannada. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nessas línguas.

Os resultados do benchmarking de transcrição do OpenAI. Créditos da imagem: OpenAI
Em um afastamento de sua prática habitual, o OpenAI não estará disponibilizando esses novos modelos de transcrição livremente. Historicamente, eles lançaram novas versões Whisper sob uma licença do MIT para uso comercial. Harris apontou que o GPT-4O-Transcribe e o GPT-4O-Mini-Transcribe são significativamente maiores que o sussurro, tornando-o inadequado para liberação aberta.
"Esses modelos são grandes demais para correr em um laptop típico como o Whisper", acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo com pensamento, garantindo que eles sejam adaptados para necessidades específicas. Vemos dispositivos do usuário final como uma área privilegiada para modelos de código aberto".
Atualizado em 20 de março de 2025, 11:54 PT para esclarecer o idioma em torno da taxa de erro de palavras e atualizar o gráfico de resultados de referência com uma versão mais recente.
Artigo relacionado
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations
OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
Comentários (20)
0/200
ThomasBaker
11 de Abril de 2025 à0 18:32:00 GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
11 de Abril de 2025 à15 21:05:15 GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
10 de Abril de 2025 à36 19:20:36 GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
14 de Abril de 2025 à18 21:30:18 GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
10 de Abril de 2025 à7 15:34:07 GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
11 de Abril de 2025 à16 17:06:16 GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0






O OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da maior visão "Agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de executar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da Openai, Olivier Godemement, o vê como um chatbot que pode interagir com os clientes de uma empresa.
"Vamos ver mais e mais agentes emergir nos próximos meses", compartilhou Godemement com o TechCrunch durante um briefing. "O objetivo abrangente é ajudar clientes e desenvolvedores a utilizar agentes úteis, acessíveis e precisos".
O mais recente modelo de texto em fala da OpenAI, apelidado de "GPT-4O-Mini-TTS", não pretende apenas produzir mais fala real e diferenciada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem orientar o modelo usando comandos de linguagem natural, como "falar como um cientista louco" ou "usar uma voz serena, como um professor de atenção plena". Esse nível de controle permite uma experiência de voz mais personalizada.
Aqui está uma amostra de uma voz "verdadeira de estilo criminal", desgastada:
E aqui está um exemplo de uma voz "profissional" feminina:
Jeff Harris, membro da equipe de produtos da Openai, enfatizou a TechCrunch que o objetivo é permitir que os desenvolvedores personalizem a voz "experiência" e "contexto". "Em vários cenários, você não quer uma voz monótona", explicou Harris. "Por exemplo, em uma configuração de suporte ao cliente em que a voz precisa parecer apologética por um erro, você pode infundir essa emoção na voz. Acreditamos firmemente que desenvolvedores e usuários desejam controlar não apenas o conteúdo, mas a maneira da fala".
Movendo-se para as novas ofertas de fala para texto do OpenAI, "GPT-4O-Transcrib" e "GPT-4O-Mini-transcribe", esses modelos estão configurados para substituir o modelo de transcrição sussurro desatualizado. Treinados em uma variedade diversificada de dados de áudio de alta qualidade, eles afirmam melhor lidar com uma fala acentuada e variada, mesmo em configurações barulhentas. Além disso, esses modelos são menos propensos a "alucinações", um problema em que o sussurro às vezes inventa palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.
"Esses modelos mostram melhorias significativas em relação ao sussurro a esse respeito", observou Harris. "Garantir que a precisão do modelo seja crucial para uma experiência de voz confiável e, com precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não anulado".
No entanto, o desempenho pode variar entre os idiomas. Os benchmarks internos do OpenAI indicam que o GPT-4O-Transcribil, mais preciso dos dois, tem uma "taxa de erro de palavra" quase 30% para idiomas indic e dravidianos como Tamil, Telugu, Malayalam e Kannada. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nessas línguas.
Em um afastamento de sua prática habitual, o OpenAI não estará disponibilizando esses novos modelos de transcrição livremente. Historicamente, eles lançaram novas versões Whisper sob uma licença do MIT para uso comercial. Harris apontou que o GPT-4O-Transcribe e o GPT-4O-Mini-Transcribe são significativamente maiores que o sussurro, tornando-o inadequado para liberação aberta.
"Esses modelos são grandes demais para correr em um laptop típico como o Whisper", acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo com pensamento, garantindo que eles sejam adaptados para necessidades específicas. Vemos dispositivos do usuário final como uma área privilegiada para modelos de código aberto".
Atualizado em 20 de março de 2025, 11:54 PT para esclarecer o idioma em torno da taxa de erro de palavras e atualizar o gráfico de resultados de referência com uma versão mais recente.




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












