OpenAai atualiza seus modelos de AI de transcrição e geração de voz
OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da visão mais ampla de "agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de realizar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da OpenAI, Olivier Godement, o enxerga como um chatbot que pode interagir com os clientes de uma empresa.
"Veremos cada vez mais agentes surgirem nos próximos meses," compartilhou Godement com a TechCrunch durante uma entrevista. "O objetivo principal é ajudar clientes e desenvolvedores a utilizarem agentes que sejam úteis, acessíveis e precisos."
O mais recente modelo de texto para fala da OpenAI, chamado "gpt-4o-mini-tts," não apenas busca produzir uma fala mais realista e matizada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem guiar o modelo usando comandos em linguagem natural, como "fale como um cientista louco" ou "use uma voz serena, como um professor de mindfulness." Esse nível de controle permite uma experiência de voz mais personalizada.
Aqui está uma amostra de uma voz "estilo true crime", envelhecida:
E aqui está um exemplo de uma voz feminina "profissional":
Jeff Harris, membro da equipe de produtos da OpenAI, enfatizou à TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a "experiência" quanto o "contexto" da voz. "Em vários cenários, você não quer uma voz monótona," explicou Harris. "Por exemplo, em um ambiente de suporte ao cliente, onde a voz precisa soar apologética por um erro, você pode infundir essa emoção na voz. Acreditamos fortemente que desenvolvedores e usuários querem controlar não apenas o conteúdo, mas também a maneira de falar."
Passando para as novas ofertas de fala para texto da OpenAI, "gpt-4o-transcribe" e "gpt-4o-mini-transcribe," esses modelos estão prontos para substituir o modelo de transcrição Whisper, já ultrapassado. Treinados em uma ampla gama de dados de áudio de alta qualidade, eles afirmam lidar melhor com fala acentuada e variada, mesmo em ambientes ruidosos. Além disso, esses modelos são menos propensos a "alucinações," um problema em que o Whisper às vezes inventava palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.
"Esses modelos mostram uma melhoria significativa em relação ao Whisper nesse aspecto," observou Harris. "Garantir a precisão do modelo é crucial para uma experiência de voz confiável, e por precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não expressado."
No entanto, o desempenho pode variar entre idiomas. Os benchmarks internos da OpenAI indicam que o gpt-4o-transcribe, o mais preciso dos dois, tem uma "taxa de erro de palavras" próxima de 30% para idiomas indianos e dravídicos como tâmil, telugu, malaiala e canarês. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nesses idiomas.

Os resultados do benchmarking de transcrição da OpenAI. Créditos da imagem: OpenAI Diferentemente da prática usual, a OpenAI não disponibilizará esses novos modelos de transcrição gratuitamente. Historicamente, eles lançaram novas versões do Whisper sob uma licença MIT para uso comercial. Harris destacou que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são significativamente maiores que o Whisper, tornando-os inadequados para um lançamento aberto.
"Esses modelos são muito grandes para rodar em um laptop comum como o Whisper podia," acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo de forma pensada, garantindo que sejam adaptados para necessidades específicas. Vemos dispositivos de usuários finais como uma área principal para modelos de código aberto."
Atualizado em 20 de março de 2025, às 11:54 da manhã PT para esclarecer a linguagem sobre a taxa de erro de palavras e atualizar o gráfico de resultados de benchmark com uma versão mais recente.
Artigo relacionado
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Comentários (33)
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da visão mais ampla de "agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de realizar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da OpenAI, Olivier Godement, o enxerga como um chatbot que pode interagir com os clientes de uma empresa.
"Veremos cada vez mais agentes surgirem nos próximos meses," compartilhou Godement com a TechCrunch durante uma entrevista. "O objetivo principal é ajudar clientes e desenvolvedores a utilizarem agentes que sejam úteis, acessíveis e precisos."
O mais recente modelo de texto para fala da OpenAI, chamado "gpt-4o-mini-tts," não apenas busca produzir uma fala mais realista e matizada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem guiar o modelo usando comandos em linguagem natural, como "fale como um cientista louco" ou "use uma voz serena, como um professor de mindfulness." Esse nível de controle permite uma experiência de voz mais personalizada.
Aqui está uma amostra de uma voz "estilo true crime", envelhecida:
E aqui está um exemplo de uma voz feminina "profissional":
Jeff Harris, membro da equipe de produtos da OpenAI, enfatizou à TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a "experiência" quanto o "contexto" da voz. "Em vários cenários, você não quer uma voz monótona," explicou Harris. "Por exemplo, em um ambiente de suporte ao cliente, onde a voz precisa soar apologética por um erro, você pode infundir essa emoção na voz. Acreditamos fortemente que desenvolvedores e usuários querem controlar não apenas o conteúdo, mas também a maneira de falar."
Passando para as novas ofertas de fala para texto da OpenAI, "gpt-4o-transcribe" e "gpt-4o-mini-transcribe," esses modelos estão prontos para substituir o modelo de transcrição Whisper, já ultrapassado. Treinados em uma ampla gama de dados de áudio de alta qualidade, eles afirmam lidar melhor com fala acentuada e variada, mesmo em ambientes ruidosos. Além disso, esses modelos são menos propensos a "alucinações," um problema em que o Whisper às vezes inventava palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.
"Esses modelos mostram uma melhoria significativa em relação ao Whisper nesse aspecto," observou Harris. "Garantir a precisão do modelo é crucial para uma experiência de voz confiável, e por precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não expressado."
No entanto, o desempenho pode variar entre idiomas. Os benchmarks internos da OpenAI indicam que o gpt-4o-transcribe, o mais preciso dos dois, tem uma "taxa de erro de palavras" próxima de 30% para idiomas indianos e dravídicos como tâmil, telugu, malaiala e canarês. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nesses idiomas.

Diferentemente da prática usual, a OpenAI não disponibilizará esses novos modelos de transcrição gratuitamente. Historicamente, eles lançaram novas versões do Whisper sob uma licença MIT para uso comercial. Harris destacou que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são significativamente maiores que o Whisper, tornando-os inadequados para um lançamento aberto.
"Esses modelos são muito grandes para rodar em um laptop comum como o Whisper podia," acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo de forma pensada, garantindo que sejam adaptados para necessidades específicas. Vemos dispositivos de usuários finais como uma área principal para modelos de código aberto."
Atualizado em 20 de março de 2025, às 11:54 da manhã PT para esclarecer a linguagem sobre a taxa de erro de palavras e atualizar o gráfico de resultados de benchmark com uma versão mais recente.
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸





Lar






