Hogar
Hume AI lanza TADA: un sintetizador de voz móvil de código abierto cinco veces más rápido y sin alucinaciones

Hume AI ha publicado en código abierto su último modelo de generación de voz, TADA (Text-Acoustic Dual Alignment). Este sistema de conversión de texto a voz (TTS), basado en un modelo de lenguaje grande, utiliza una innovadora arquitectura de alineación dual para el texto y la acústica. Este enfoque mejora significativamente la eficiencia y la fiabilidad de la generación, y amplía su gama de aplicaciones prácticas.
Según se ha detallado oficialmente, TADA establece una sincronización estricta 1:1 entre los tokens de texto y las representaciones acústicas. Esta arquitectura resuelve por completo el problema habitual de la «alucinación de contenido» a nivel de token que se da en los sistemas TTS tradicionales basados en LLM. En evaluaciones con más de 1000 muestras de prueba, el modelo no mostró ningún caso de alucinación de contenido.
En cuanto al rendimiento, TADA genera audio más de cinco veces más rápido que los sistemas TTS LLM comparables. Además, funciona con una eficiencia de recursos notable, ya que solo requiere entre 2 y 3 fotogramas de recursos computacionales por segundo de audio. Por el contrario, las soluciones convencionales suelen necesitar entre 12,5 y 75 fotogramas. Esta eficiencia permite que el modelo ejecute inferencias locales en hardware de bajo consumo, como teléfonos inteligentes y dispositivos periféricos, eliminando la necesidad de servidores en la nube.
TADA ofrece soporte multilingüe, incluido el chino, con sus versiones multilingües basadas en la escala de parámetros Llama3.23B. El lanzamiento incluye modelos multilingües preentrenados de 1B (principalmente para inglés) y 3B. Con una ventana de contexto de 2048 tokens, el modelo puede generar aproximadamente 700 segundos de audio continuo en una sola pasada. Esta capacidad supera con creces a las soluciones tradicionales, que suelen estar limitadas a unos 70 segundos con las mismas restricciones de tokens.
Una innovación clave es su función de transcripción sincrónica. Mientras genera el habla, el modelo produce simultáneamente la transcripción textual correspondiente. Este proceso elimina la necesidad de un paso adicional y separado de reconocimiento automático del habla (ASR), lo que da como resultado una latencia añadida nula para la salida de texto. Esta funcionalidad es especialmente valiosa para los subtítulos en tiempo real, los sistemas de interacción por voz y las herramientas de creación de contenido.
En evaluaciones subjetivas realizadas por personas, TADA obtuvo el segundo puesto tanto en naturalidad como en similitud de voz. Superó a varios sistemas con un mayor número de parámetros y datos de entrenamiento más extensos, demostrando una calidad de audio altamente competitiva.
Enlace: https://huggingface.co/collections/HumeAI/tada
Artículo relacionado
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu
Recomendaciones de temas especiales relacionados
comentario (1)
0/500

Hume AI ha publicado en código abierto su último modelo de generación de voz, TADA (Text-Acoustic Dual Alignment). Este sistema de conversión de texto a voz (TTS), basado en un modelo de lenguaje grande, utiliza una innovadora arquitectura de alineación dual para el texto y la acústica. Este enfoque mejora significativamente la eficiencia y la fiabilidad de la generación, y amplía su gama de aplicaciones prácticas.
Según se ha detallado oficialmente, TADA establece una sincronización estricta 1:1 entre los tokens de texto y las representaciones acústicas. Esta arquitectura resuelve por completo el problema habitual de la «alucinación de contenido» a nivel de token que se da en los sistemas TTS tradicionales basados en LLM. En evaluaciones con más de 1000 muestras de prueba, el modelo no mostró ningún caso de alucinación de contenido.
En cuanto al rendimiento, TADA genera audio más de cinco veces más rápido que los sistemas TTS LLM comparables. Además, funciona con una eficiencia de recursos notable, ya que solo requiere entre 2 y 3 fotogramas de recursos computacionales por segundo de audio. Por el contrario, las soluciones convencionales suelen necesitar entre 12,5 y 75 fotogramas. Esta eficiencia permite que el modelo ejecute inferencias locales en hardware de bajo consumo, como teléfonos inteligentes y dispositivos periféricos, eliminando la necesidad de servidores en la nube.
TADA ofrece soporte multilingüe, incluido el chino, con sus versiones multilingües basadas en la escala de parámetros Llama3.23B. El lanzamiento incluye modelos multilingües preentrenados de 1B (principalmente para inglés) y 3B. Con una ventana de contexto de 2048 tokens, el modelo puede generar aproximadamente 700 segundos de audio continuo en una sola pasada. Esta capacidad supera con creces a las soluciones tradicionales, que suelen estar limitadas a unos 70 segundos con las mismas restricciones de tokens.
Una innovación clave es su función de transcripción sincrónica. Mientras genera el habla, el modelo produce simultáneamente la transcripción textual correspondiente. Este proceso elimina la necesidad de un paso adicional y separado de reconocimiento automático del habla (ASR), lo que da como resultado una latencia añadida nula para la salida de texto. Esta funcionalidad es especialmente valiosa para los subtítulos en tiempo real, los sistemas de interacción por voz y las herramientas de creación de contenido.
En evaluaciones subjetivas realizadas por personas, TADA obtuvo el segundo puesto tanto en naturalidad como en similitud de voz. Superó a varios sistemas con un mayor número de parámetros y datos de entrenamiento más extensos, demostrando una calidad de audio altamente competitiva.
Enlace: https://huggingface.co/collections/HumeAI/tada
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu











