opção
Lar
Notícias
OpenAai atualiza seus modelos de AI de transcrição e geração de voz

OpenAai atualiza seus modelos de AI de transcrição e geração de voz

10 de Abril de 2025
100

O OpenAI está lançando novos modelos de IA para transcrição e geração de voz por meio de sua API, prometendo melhorias significativas em relação às versões anteriores. Essas atualizações fazem parte da maior visão "Agentic" da OpenAI, que se concentra na criação de sistemas autônomos capazes de executar tarefas de forma independente para os usuários. Embora o termo "agente" possa ser debatido, o chefe de produto da Openai, Olivier Godemement, o vê como um chatbot que pode interagir com os clientes de uma empresa.

"Vamos ver mais e mais agentes emergir nos próximos meses", compartilhou Godemement com o TechCrunch durante um briefing. "O objetivo abrangente é ajudar clientes e desenvolvedores a utilizar agentes úteis, acessíveis e precisos".

O mais recente modelo de texto em fala da OpenAI, apelidado de "GPT-4O-Mini-TTS", não pretende apenas produzir mais fala real e diferenciada, mas também é mais adaptável que seus antecessores. Os desenvolvedores agora podem orientar o modelo usando comandos de linguagem natural, como "falar como um cientista louco" ou "usar uma voz serena, como um professor de atenção plena". Esse nível de controle permite uma experiência de voz mais personalizada.

Aqui está uma amostra de uma voz "verdadeira de estilo criminal", desgastada:

E aqui está um exemplo de uma voz "profissional" feminina:

Jeff Harris, membro da equipe de produtos da Openai, enfatizou a TechCrunch que o objetivo é permitir que os desenvolvedores personalizem a voz "experiência" e "contexto". "Em vários cenários, você não quer uma voz monótona", explicou Harris. "Por exemplo, em uma configuração de suporte ao cliente em que a voz precisa parecer apologética por um erro, você pode infundir essa emoção na voz. Acreditamos firmemente que desenvolvedores e usuários desejam controlar não apenas o conteúdo, mas a maneira da fala".

Movendo-se para as novas ofertas de fala para texto do OpenAI, "GPT-4O-Transcrib" e "GPT-4O-Mini-transcribe", esses modelos estão configurados para substituir o modelo de transcrição sussurro desatualizado. Treinados em uma variedade diversificada de dados de áudio de alta qualidade, eles afirmam melhor lidar com uma fala acentuada e variada, mesmo em configurações barulhentas. Além disso, esses modelos são menos propensos a "alucinações", um problema em que o sussurro às vezes inventa palavras ou passagens inteiras, adicionando imprecisões como comentários raciais ou tratamentos médicos fictícios às transcrições.

"Esses modelos mostram melhorias significativas em relação ao sussurro a esse respeito", observou Harris. "Garantir que a precisão do modelo seja crucial para uma experiência de voz confiável e, com precisão, queremos dizer que os modelos capturam corretamente as palavras faladas sem adicionar conteúdo não anulado".

No entanto, o desempenho pode variar entre os idiomas. Os benchmarks internos do OpenAI indicam que o GPT-4O-Transcribil, mais preciso dos dois, tem uma "taxa de erro de palavra" quase 30% para idiomas indic e dravidianos como Tamil, Telugu, Malayalam e Kannada. Isso sugere que cerca de três em cada dez palavras podem diferir de uma transcrição humana nessas línguas.

Resultados da transcrição do OpenAI

Os resultados do benchmarking de transcrição do OpenAI. Créditos da imagem: OpenAI

Em um afastamento de sua prática habitual, o OpenAI não estará disponibilizando esses novos modelos de transcrição livremente. Historicamente, eles lançaram novas versões Whisper sob uma licença do MIT para uso comercial. Harris apontou que o GPT-4O-Transcribe e o GPT-4O-Mini-Transcribe são significativamente maiores que o sussurro, tornando-o inadequado para liberação aberta.

"Esses modelos são grandes demais para correr em um laptop típico como o Whisper", acrescentou Harris. "Quando lançamos modelos abertamente, queremos fazê-lo com pensamento, garantindo que eles sejam adaptados para necessidades específicas. Vemos dispositivos do usuário final como uma área privilegiada para modelos de código aberto".

Atualizado em 20 de março de 2025, 11:54 PT para esclarecer o idioma em torno da taxa de erro de palavras e atualizar o gráfico de resultados de referência com uma versão mais recente.

Artigo relacionado
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Comentários (30)
0/200
ThomasBaker
ThomasBaker 12 de Abril de 2025 à0 00:00:00 GMT

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 12 de Abril de 2025 à0 00:00:00 GMT

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 11 de Abril de 2025 à0 00:00:00 GMT

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 15 de Abril de 2025 à0 00:00:00 GMT

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 10 de Abril de 2025 à0 00:00:00 GMT

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 12 de Abril de 2025 à0 00:00:00 GMT

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

De volta ao topo
OR