opção
Lar
Notícias
OpenAai atualiza seus modelos de AI de transcrição e geração de voz

OpenAai atualiza seus modelos de AI de transcrição e geração de voz

10 de Abril de 2025
227

OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da visão mais ampla de "agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de realizar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da OpenAI, Olivier Godement, o enxerga como um chatbot que pode interagir com os clientes de uma empresa.

"Veremos cada vez mais agentes surgirem nos próximos meses," compartilhou Godement com a TechCrunch durante uma entrevista. "O objetivo principal é ajudar clientes e desenvolvedores a utilizarem agentes que sejam úteis, acessíveis e precisos."

O mais recente modelo de texto para fala da OpenAI, chamado "gpt-4o-mini-tts," não apenas busca produzir uma fala mais realista e matizada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem guiar o modelo usando comandos em linguagem natural, como "fale como um cientista louco" ou "use uma voz serena, como um professor de mindfulness." Esse nível de controle permite uma experiência de voz mais personalizada.

Aqui está uma amostra de uma voz "estilo true crime", envelhecida:

E aqui está um exemplo de uma voz feminina "profissional":

Jeff Harris, membro da equipe de produtos da OpenAI, enfatizou à TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a "experiência" quanto o "contexto" da voz. "Em vários cenários, você não quer uma voz monótona," explicou Harris. "Por exemplo, em um ambiente de suporte ao cliente, onde a voz precisa soar apologética por um erro, você pode infundir essa emoção na voz. Acreditamos fortemente que desenvolvedores e usuários querem controlar não apenas o conteúdo, mas também a maneira de falar."

Passando para as novas ofertas de fala para texto da OpenAI, "gpt-4o-transcribe" e "gpt-4o-mini-transcribe," esses modelos estão prontos para substituir o modelo de transcrição Whisper, já ultrapassado. Treinados em uma ampla gama de dados de áudio de alta qualidade, eles afirmam lidar melhor com fala acentuada e variada, mesmo em ambientes ruidosos. Além disso, esses modelos são menos propensos a "alucinações," um problema em que o Whisper às vezes inventava palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.

"Esses modelos mostram uma melhoria significativa em relação ao Whisper nesse aspecto," observou Harris. "Garantir a precisão do modelo é crucial para uma experiência de voz confiável, e por precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não expressado."

No entanto, o desempenho pode variar entre idiomas. Os benchmarks internos da OpenAI indicam que o gpt-4o-transcribe, o mais preciso dos dois, tem uma "taxa de erro de palavras" próxima de 30% para idiomas indianos e dravídicos como tâmil, telugu, malaiala e canarês. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nesses idiomas.

Resultados de transcrição da OpenAI

Os resultados do benchmarking de transcrição da OpenAI. Créditos da imagem: OpenAI

Diferentemente da prática usual, a OpenAI não disponibilizará esses novos modelos de transcrição gratuitamente. Historicamente, eles lançaram novas versões do Whisper sob uma licença MIT para uso comercial. Harris destacou que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são significativamente maiores que o Whisper, tornando-os inadequados para um lançamento aberto.

"Esses modelos são muito grandes para rodar em um laptop comum como o Whisper podia," acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo de forma pensada, garantindo que sejam adaptados para necessidades específicas. Vemos dispositivos de usuários finais como uma área principal para modelos de código aberto."

Atualizado em 20 de março de 2025, às 11:54 da manhã PT para esclarecer a linguagem sobre a taxa de erro de palavras e atualizar o gráfico de resultados de benchmark com uma versão mais recente.

Artigo relacionado
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI Greg Brockman revela como Elon Musk deixou a OpenAI No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Criação de quadrinhos Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia
Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia

Descubra os melhores geradores de IA para mangás shonen de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas para criar sequências de ação cheias de adrenalina e efeitos dinâmicos de energia. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a criar mangás épicos hoje mesmo!

15 ferramentas
xix.ai
Negócios Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas
Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas
xix.ai
Negócios As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos
As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas
xix.ai
Produtividade Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental
Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas
xix.ai
chatbot Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes
Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas
xix.ai
Educação e Aprendizagem Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina
Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas
xix.ai
Comentários (33)
0/500
LeviKing
LeviKing 23 de Dezembro de 2025 à38 00:30:38 WET

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez
FrankMartínez 19 de Agosto de 2025 à39 09:01:39 WEST

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 23 de Julho de 2025 à48 09:50:48 WEST

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 20 de Abril de 2025 à7 20:57:07 WEST

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 17 de Abril de 2025 à37 05:50:37 WEST

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 17 de Abril de 2025 à26 05:38:26 WEST

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

OR