Mistral presenta un modelo de generación de voz de código abierto
La empresa francesa de IA Mistral presentó el jueves un nuevo modelo de código abierto de conversión de texto a voz, diseñado para asistentes de voz con IA y aplicaciones empresariales como la atención al cliente. El modelo permite a las empresas crear agentes de voz para ventas y la interacción con los clientes, lo que posiciona a Mistral como competidor directo de ElevenLabs, Deepgram y OpenAI.
Denominado Voxtral TTS, el modelo es compatible con nueve idiomas, entre los que se incluyen el inglés, el francés, el alemán, el español, el neerlandés, el portugués, el italiano, el hindi y el árabe.
«Nuestros clientes nos han estado pidiendo un modelo de voz. Así que hemos creado un modelo de voz de pequeño tamaño que cabe en un reloj inteligente, un smartphone, un portátil u otros dispositivos periféricos. Su coste es una fracción del de cualquier otro producto del mercado, pero ofrece un rendimiento de vanguardia», afirmó Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, en una entrevista telefónica con TechCrunch.

Crédito de la imagen: Mistral
Mistral afirma que el nuevo modelo puede adaptarse a una voz personalizada utilizando una muestra de menos de cinco segundos, captando acentos sutiles, inflexiones, entonaciones e irregularidades en el flujo del habla. Basado en Mistral 3B, puede cambiar de idioma con fluidez al tiempo que conserva las características de la voz, lo que lo hace ideal para el doblaje o la traducción en tiempo real. Stock señaló que el objetivo de la empresa era que el modelo sonara humano, no robótico.
Según la empresa, el modelo está diseñado para funcionar en tiempo real. Su tiempo hasta el primer audio (TTFA) —el tiempo que transcurre entre la recepción de la entrada y el inicio de la «voz»— es de 90 ms para una muestra de 10 segundos de 500 caracteres. El modelo también alcanza un factor de tiempo real (RTF) de 6x, lo que significa que puede generar un clip de 10 segundos en aproximadamente 1,6 segundos.

Crédito de la imagen: Mistral AI
A principios de este año, Mistral lanzó dos modelos de transcripción: uno para el procesamiento por lotes a gran escala y otro para casos de uso en tiempo real de baja latencia. Con el nuevo modelo de voz, la empresa parece estar creando una suite completa de productos de voz para empresas.
Stock añadió: «Tenemos previsto crear una plataforma integral capaz de gestionar flujos de entrada multimodales —audio, texto e imagen— así como de salida. La ventaja clave es que un sistema agente integral que admita entrada y salida de audio proporciona una información mucho más rica».
Mistral posiciona su naturaleza de código abierto y sus capacidades de personalización como diferenciadores clave, lo que permite a las empresas adaptar el modelo a sus necesidades específicas, lo que lo hace preferible frente a las soluciones de la competencia.
Artículo relacionado
Spotify presenta una herramienta de creación de audiolibros basada en inteligencia artificial y desarrollada por ElevenLabs
Como parte de sus últimos anuncios, Spotify ha presentado una nueva herramienta de IA desarrollada por ElevenLabs que permite a los autores autopublicar audiolibros directamente a través de la platafo
Las mejores aplicaciones de dictado con IA: opiniones de expertos y clasificaciones
Las aplicaciones de dictado por IA han logrado avances notables en un periodo relativamente corto. Durante mucho tiempo, eran lentas y propensas a cometer errores, y exigían a los usuarios hablar con
Wispr Flow apuesta por el futuro de la IA de voz en la India a pesar de los retos
El panorama digital de la India está profundamente arraigado en la tecnología de voz, desde las notas de voz hasta la mensajería multilingüe. Convertir estos hábitos tan extendidos en un negocio de IA
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
La empresa francesa de IA Mistral presentó el jueves un nuevo modelo de código abierto de conversión de texto a voz, diseñado para asistentes de voz con IA y aplicaciones empresariales como la atención al cliente. El modelo permite a las empresas crear agentes de voz para ventas y la interacción con los clientes, lo que posiciona a Mistral como competidor directo de ElevenLabs, Deepgram y OpenAI.
Denominado Voxtral TTS, el modelo es compatible con nueve idiomas, entre los que se incluyen el inglés, el francés, el alemán, el español, el neerlandés, el portugués, el italiano, el hindi y el árabe.
«Nuestros clientes nos han estado pidiendo un modelo de voz. Así que hemos creado un modelo de voz de pequeño tamaño que cabe en un reloj inteligente, un smartphone, un portátil u otros dispositivos periféricos. Su coste es una fracción del de cualquier otro producto del mercado, pero ofrece un rendimiento de vanguardia», afirmó Pierre Stock, vicepresidente de operaciones científicas de Mistral AI, en una entrevista telefónica con TechCrunch.

Crédito de la imagen: Mistral
Mistral afirma que el nuevo modelo puede adaptarse a una voz personalizada utilizando una muestra de menos de cinco segundos, captando acentos sutiles, inflexiones, entonaciones e irregularidades en el flujo del habla. Basado en Mistral 3B, puede cambiar de idioma con fluidez al tiempo que conserva las características de la voz, lo que lo hace ideal para el doblaje o la traducción en tiempo real. Stock señaló que el objetivo de la empresa era que el modelo sonara humano, no robótico.
Según la empresa, el modelo está diseñado para funcionar en tiempo real. Su tiempo hasta el primer audio (TTFA) —el tiempo que transcurre entre la recepción de la entrada y el inicio de la «voz»— es de 90 ms para una muestra de 10 segundos de 500 caracteres. El modelo también alcanza un factor de tiempo real (RTF) de 6x, lo que significa que puede generar un clip de 10 segundos en aproximadamente 1,6 segundos.

Crédito de la imagen: Mistral AI
A principios de este año, Mistral lanzó dos modelos de transcripción: uno para el procesamiento por lotes a gran escala y otro para casos de uso en tiempo real de baja latencia. Con el nuevo modelo de voz, la empresa parece estar creando una suite completa de productos de voz para empresas.
Stock añadió: «Tenemos previsto crear una plataforma integral capaz de gestionar flujos de entrada multimodales —audio, texto e imagen— así como de salida. La ventaja clave es que un sistema agente integral que admita entrada y salida de audio proporciona una información mucho más rica».
Mistral posiciona su naturaleza de código abierto y sus capacidades de personalización como diferenciadores clave, lo que permite a las empresas adaptar el modelo a sus necesidades específicas, lo que lo hace preferible frente a las soluciones de la competencia.
Spotify presenta una herramienta de creación de audiolibros basada en inteligencia artificial y desarrollada por ElevenLabs
Como parte de sus últimos anuncios, Spotify ha presentado una nueva herramienta de IA desarrollada por ElevenLabs que permite a los autores autopublicar audiolibros directamente a través de la platafo
Las mejores aplicaciones de dictado con IA: opiniones de expertos y clasificaciones
Las aplicaciones de dictado por IA han logrado avances notables en un periodo relativamente corto. Durante mucho tiempo, eran lentas y propensas a cometer errores, y exigían a los usuarios hablar con
Wispr Flow apuesta por el futuro de la IA de voz en la India a pesar de los retos
El panorama digital de la India está profundamente arraigado en la tecnología de voz, desde las notas de voz hasta la mensajería multilingüe. Convertir estos hábitos tan extendidos en un negocio de IA





Hogar






