A Mistral lança um modelo de geração de fala de código aberto
A empresa francesa de IA Mistral revelou na quinta-feira um novo modelo de conversão de texto em fala de código aberto, projetado para assistentes de voz com IA e aplicações empresariais, como atendimento ao cliente. O modelo permite que as empresas criem agentes de voz para vendas e interação com o cliente, posicionando a Mistral como concorrente direta da ElevenLabs, Deepgram e OpenAI.
Chamado de Voxtral TTS, o modelo suporta nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.
“Nossos clientes têm solicitado um modelo de fala. Por isso, criamos um modelo de fala de tamanho reduzido que cabe em um smartwatch, smartphone, laptop ou outros dispositivos de ponta. O custo é uma fração do preço de qualquer outro produto no mercado, mas oferece desempenho de ponta”, disse Pierre Stock, vice-presidente de operações científicas da Mistral AI, em entrevista por telefone ao TechCrunch.

Crédito da imagem: Mistral
A Mistral afirma que o novo modelo pode se adaptar a uma voz personalizada usando uma amostra com menos de cinco segundos, captando sotaques sutis, inflexões, entonações e irregularidades no fluxo da fala. Baseado no Mistral 3B, ele pode alternar entre idiomas com fluidez, preservando as características da voz, o que o torna ideal para dublagem ou tradução em tempo real. Stock observou que o objetivo da empresa era fazer com que o modelo soasse humano, não robótico.
De acordo com a empresa, o modelo foi desenvolvido para desempenho em tempo real. Seu tempo até o primeiro áudio (TTFA) — o tempo entre o recebimento da entrada e o início da “fala” — é de 90 ms para uma amostra de 10 segundos com 500 caracteres. O modelo também atinge um fator de tempo real (RTF) de 6x, o que significa que ele pode gerar um clipe de 10 segundos em aproximadamente 1,6 segundos.

Crédito da imagem: Mistral AI
No início deste ano, a Mistral lançou dois modelos de transcrição — um para processamento em lote em grande escala e outro para casos de uso em tempo real com baixa latência. Com o novo modelo de fala, a empresa parece estar construindo um conjunto abrangente de produtos de voz para empresas.
Stock acrescentou: “Planejamos criar uma plataforma de ponta a ponta capaz de lidar com fluxos de entrada multimodais — áudio, texto e imagem —, bem como com a saída. A principal vantagem é que um sistema agente de ponta a ponta que suporta entrada e saída de áudio fornece informações muito mais ricas.”
A Mistral posiciona sua natureza de código aberto e seus recursos de personalização como principais diferenciais, permitindo que as empresas ajustem o modelo às suas necessidades específicas, favorecendo-o assim em relação às soluções concorrentes.
Artigo relacionado
Spotify lança ferramenta de criação de audiolivros com IA desenvolvida pela ElevenLabs
Como parte de seus últimos anúncios, o Spotify apresentou uma nova ferramenta de IA desenvolvida pela ElevenLabs que permite aos autores autopublicarem audiolivros diretamente pela plataforma Spotify
Os melhores aplicativos de ditado por IA: análises de especialistas e rankings
Os aplicativos de ditado por IA alcançaram avanços notáveis em um período relativamente curto. Por muito tempo, eles eram lentos e propensos a erros, exigindo que os usuários falassem com um sotaque e
A Wispr Flow aposta no futuro da IA de voz na Índia, apesar dos desafios
O panorama digital da Índia está profundamente ligado à tecnologia de voz, desde notas de voz até mensagens multilíngues. Transformar esses hábitos generalizados em um negócio de IA escalável apresent
Recomendações de tópicos especiais relacionados
Comentários (0)
A empresa francesa de IA Mistral revelou na quinta-feira um novo modelo de conversão de texto em fala de código aberto, projetado para assistentes de voz com IA e aplicações empresariais, como atendimento ao cliente. O modelo permite que as empresas criem agentes de voz para vendas e interação com o cliente, posicionando a Mistral como concorrente direta da ElevenLabs, Deepgram e OpenAI.
Chamado de Voxtral TTS, o modelo suporta nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.
“Nossos clientes têm solicitado um modelo de fala. Por isso, criamos um modelo de fala de tamanho reduzido que cabe em um smartwatch, smartphone, laptop ou outros dispositivos de ponta. O custo é uma fração do preço de qualquer outro produto no mercado, mas oferece desempenho de ponta”, disse Pierre Stock, vice-presidente de operações científicas da Mistral AI, em entrevista por telefone ao TechCrunch.

Crédito da imagem: Mistral
A Mistral afirma que o novo modelo pode se adaptar a uma voz personalizada usando uma amostra com menos de cinco segundos, captando sotaques sutis, inflexões, entonações e irregularidades no fluxo da fala. Baseado no Mistral 3B, ele pode alternar entre idiomas com fluidez, preservando as características da voz, o que o torna ideal para dublagem ou tradução em tempo real. Stock observou que o objetivo da empresa era fazer com que o modelo soasse humano, não robótico.
De acordo com a empresa, o modelo foi desenvolvido para desempenho em tempo real. Seu tempo até o primeiro áudio (TTFA) — o tempo entre o recebimento da entrada e o início da “fala” — é de 90 ms para uma amostra de 10 segundos com 500 caracteres. O modelo também atinge um fator de tempo real (RTF) de 6x, o que significa que ele pode gerar um clipe de 10 segundos em aproximadamente 1,6 segundos.

Crédito da imagem: Mistral AI
No início deste ano, a Mistral lançou dois modelos de transcrição — um para processamento em lote em grande escala e outro para casos de uso em tempo real com baixa latência. Com o novo modelo de fala, a empresa parece estar construindo um conjunto abrangente de produtos de voz para empresas.
Stock acrescentou: “Planejamos criar uma plataforma de ponta a ponta capaz de lidar com fluxos de entrada multimodais — áudio, texto e imagem —, bem como com a saída. A principal vantagem é que um sistema agente de ponta a ponta que suporta entrada e saída de áudio fornece informações muito mais ricas.”
A Mistral posiciona sua natureza de código aberto e seus recursos de personalização como principais diferenciais, permitindo que as empresas ajustem o modelo às suas necessidades específicas, favorecendo-o assim em relação às soluções concorrentes.
Spotify lança ferramenta de criação de audiolivros com IA desenvolvida pela ElevenLabs
Como parte de seus últimos anúncios, o Spotify apresentou uma nova ferramenta de IA desenvolvida pela ElevenLabs que permite aos autores autopublicarem audiolivros diretamente pela plataforma Spotify
Os melhores aplicativos de ditado por IA: análises de especialistas e rankings
Os aplicativos de ditado por IA alcançaram avanços notáveis em um período relativamente curto. Por muito tempo, eles eram lentos e propensos a erros, exigindo que os usuários falassem com um sotaque e
A Wispr Flow aposta no futuro da IA de voz na Índia, apesar dos desafios
O panorama digital da Índia está profundamente ligado à tecnologia de voz, desde notas de voz até mensagens multilíngues. Transformar esses hábitos generalizados em um negócio de IA escalável apresent





Lar






