opção
Lar
Notícias
OpenAai atualiza seus modelos de AI de transcrição e geração de voz

OpenAai atualiza seus modelos de AI de transcrição e geração de voz

10 de Abril de 2025
115

OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da visão mais ampla de "agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de realizar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da OpenAI, Olivier Godement, o enxerga como um chatbot que pode interagir com os clientes de uma empresa.

"Veremos cada vez mais agentes surgirem nos próximos meses," compartilhou Godement com a TechCrunch durante uma entrevista. "O objetivo principal é ajudar clientes e desenvolvedores a utilizarem agentes que sejam úteis, acessíveis e precisos."

O mais recente modelo de texto para fala da OpenAI, chamado "gpt-4o-mini-tts," não apenas busca produzir uma fala mais realista e matizada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem guiar o modelo usando comandos em linguagem natural, como "fale como um cientista louco" ou "use uma voz serena, como um professor de mindfulness." Esse nível de controle permite uma experiência de voz mais personalizada.

Aqui está uma amostra de uma voz "estilo true crime", envelhecida:

E aqui está um exemplo de uma voz feminina "profissional":

Jeff Harris, membro da equipe de produtos da OpenAI, enfatizou à TechCrunch que o objetivo é permitir que os desenvolvedores personalizem tanto a "experiência" quanto o "contexto" da voz. "Em vários cenários, você não quer uma voz monótona," explicou Harris. "Por exemplo, em um ambiente de suporte ao cliente, onde a voz precisa soar apologética por um erro, você pode infundir essa emoção na voz. Acreditamos fortemente que desenvolvedores e usuários querem controlar não apenas o conteúdo, mas também a maneira de falar."

Passando para as novas ofertas de fala para texto da OpenAI, "gpt-4o-transcribe" e "gpt-4o-mini-transcribe," esses modelos estão prontos para substituir o modelo de transcrição Whisper, já ultrapassado. Treinados em uma ampla gama de dados de áudio de alta qualidade, eles afirmam lidar melhor com fala acentuada e variada, mesmo em ambientes ruidosos. Além disso, esses modelos são menos propensos a "alucinações," um problema em que o Whisper às vezes inventava palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.

"Esses modelos mostram uma melhoria significativa em relação ao Whisper nesse aspecto," observou Harris. "Garantir a precisão do modelo é crucial para uma experiência de voz confiável, e por precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não expressado."

No entanto, o desempenho pode variar entre idiomas. Os benchmarks internos da OpenAI indicam que o gpt-4o-transcribe, o mais preciso dos dois, tem uma "taxa de erro de palavras" próxima de 30% para idiomas indianos e dravídicos como tâmil, telugu, malaiala e canarês. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nesses idiomas.

Resultados de transcrição da OpenAI

Os resultados do benchmarking de transcrição da OpenAI. Créditos da imagem: OpenAI

Diferentemente da prática usual, a OpenAI não disponibilizará esses novos modelos de transcrição gratuitamente. Historicamente, eles lançaram novas versões do Whisper sob uma licença MIT para uso comercial. Harris destacou que o gpt-4o-transcribe e o gpt-4o-mini-transcribe são significativamente maiores que o Whisper, tornando-os inadequados para um lançamento aberto.

"Esses modelos são muito grandes para rodar em um laptop comum como o Whisper podia," acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo de forma pensada, garantindo que sejam adaptados para necessidades específicas. Vemos dispositivos de usuários finais como uma área principal para modelos de código aberto."

Atualizado em 20 de março de 2025, às 11:54 da manhã PT para esclarecer a linguagem sobre a taxa de erro de palavras e atualizar o gráfico de resultados de benchmark com uma versão mais recente.

Artigo relacionado
Ex-Engenheiro da OpenAI Compartilha Percepções sobre Cultura da Empresa e Crescimento Rápido Ex-Engenheiro da OpenAI Compartilha Percepções sobre Cultura da Empresa e Crescimento Rápido Há três semanas, Calvin French-Owen, um engenheiro que contribuiu para um produto chave da OpenAI, deixou a empresa.Ele recentemente compartilhou um post de blog cativante detalhando seu ano na OpenAI
Google Revela Modelos de IA Gemini 2.5 Prontos para Produção para Competir com a OpenAI no Mercado Empresarial Google Revela Modelos de IA Gemini 2.5 Prontos para Produção para Competir com a OpenAI no Mercado Empresarial A Google intensificou sua estratégia de IA na segunda-feira, lançando seus modelos avançados Gemini 2.5 para uso empresarial e introduzindo uma variante econômica para competir em preço e desempenho.A
Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta Oferece Alto Salário para Talentos em IA, Nega Bônus de Contratação de $100M Meta atrai pesquisadores de IA para seu novo laboratório de superinteligência com pacotes de compensação multimilionários. No entanto, alegações de bônus de contratação de $100 milhões são falsas, seg
Comentários (31)
0/200
BenHernández
BenHernández 23 de Julho de 2025 à48 09:50:48 WEST

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 20 de Abril de 2025 à7 20:57:07 WEST

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 17 de Abril de 2025 à37 05:50:37 WEST

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 17 de Abril de 2025 à26 05:38:26 WEST

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark
NicholasClark 16 de Abril de 2025 à41 06:54:41 WEST

OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸

SamuelRoberts
SamuelRoberts 15 de Abril de 2025 à36 22:24:36 WEST

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

De volta ao topo
OR