Lar
A Hume AI lança o TADA: um sistema de síntese de voz para dispositivos móveis de código aberto com velocidade 5 vezes maior e sem erros de reprodução

A Hume AI disponibilizou em código aberto seu mais recente modelo de geração de fala, o TADA (Text-Acoustic Dual Alignment). Esse sistema de conversão de texto em fala (TTS), desenvolvido com base em um grande modelo de linguagem, utiliza uma arquitetura inovadora de alinhamento duplo para texto e acústica. Essa abordagem aumenta significativamente a eficiência e a confiabilidade da geração, além de ampliar seu leque de aplicações práticas.
Conforme detalhado oficialmente, o TADA estabelece uma sincronização rigorosa de 1:1 entre tokens de texto e representações acústicas. Essa arquitetura resolve completamente o problema comum de alucinação de conteúdo no nível do token encontrado em sistemas TTS tradicionais baseados em LLM. Em avaliações envolvendo mais de 1.000 amostras de teste, o modelo não apresentou nenhum caso de alucinação de conteúdo.
Em relação ao desempenho, o TADA gera áudio mais de cinco vezes mais rápido do que sistemas TTS LLM comparáveis. Ele também opera com notável eficiência de recursos, exigindo apenas 2 a 3 quadros de recursos computacionais por segundo de áudio. Em contraste, as soluções convencionais normalmente precisam de 12,5 a 75 quadros. Essa eficiência permite que o modelo execute inferência local em hardware de baixo consumo de energia, como smartphones e dispositivos de borda, eliminando a necessidade de servidores em nuvem.
O TADA oferece suporte multilíngue, incluindo chinês, com suas versões multilíngues baseadas na escala de parâmetros do Llama3.23B. O lançamento inclui modelos pré-treinados multilíngues de 1B (principalmente para inglês) e 3B. Com uma janela de contexto de 2.048 tokens, o modelo pode gerar aproximadamente 700 segundos de áudio contínuo em uma única passagem. Essa capacidade supera em muito as soluções tradicionais, que normalmente se limitam a cerca de 70 segundos sob as mesmas restrições de tokens.
Uma inovação fundamental é seu recurso de transcrição síncrona. Ao gerar fala, o modelo produz simultaneamente a transcrição de texto correspondente. Esse processo elimina a necessidade de uma etapa separada e adicional de reconhecimento automático de fala (ASR), resultando em latência zero para a saída de texto. Essa funcionalidade é particularmente valiosa para legendagem em tempo real, sistemas de interação por voz e ferramentas de criação de conteúdo.
Em avaliações subjetivas realizadas por humanos, o TADA alcançou o segundo lugar tanto em naturalidade quanto em similaridade de voz. Ele superou vários sistemas com maior número de parâmetros e dados de treinamento mais extensos, demonstrando uma qualidade de áudio altamente competitiva.
Link: https://huggingface.co/collections/HumeAI/tada
Artigo relacionado
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business
Recomendações de tópicos especiais relacionados
Comentários (1)

A Hume AI disponibilizou em código aberto seu mais recente modelo de geração de fala, o TADA (Text-Acoustic Dual Alignment). Esse sistema de conversão de texto em fala (TTS), desenvolvido com base em um grande modelo de linguagem, utiliza uma arquitetura inovadora de alinhamento duplo para texto e acústica. Essa abordagem aumenta significativamente a eficiência e a confiabilidade da geração, além de ampliar seu leque de aplicações práticas.
Conforme detalhado oficialmente, o TADA estabelece uma sincronização rigorosa de 1:1 entre tokens de texto e representações acústicas. Essa arquitetura resolve completamente o problema comum de alucinação de conteúdo no nível do token encontrado em sistemas TTS tradicionais baseados em LLM. Em avaliações envolvendo mais de 1.000 amostras de teste, o modelo não apresentou nenhum caso de alucinação de conteúdo.
Em relação ao desempenho, o TADA gera áudio mais de cinco vezes mais rápido do que sistemas TTS LLM comparáveis. Ele também opera com notável eficiência de recursos, exigindo apenas 2 a 3 quadros de recursos computacionais por segundo de áudio. Em contraste, as soluções convencionais normalmente precisam de 12,5 a 75 quadros. Essa eficiência permite que o modelo execute inferência local em hardware de baixo consumo de energia, como smartphones e dispositivos de borda, eliminando a necessidade de servidores em nuvem.
O TADA oferece suporte multilíngue, incluindo chinês, com suas versões multilíngues baseadas na escala de parâmetros do Llama3.23B. O lançamento inclui modelos pré-treinados multilíngues de 1B (principalmente para inglês) e 3B. Com uma janela de contexto de 2.048 tokens, o modelo pode gerar aproximadamente 700 segundos de áudio contínuo em uma única passagem. Essa capacidade supera em muito as soluções tradicionais, que normalmente se limitam a cerca de 70 segundos sob as mesmas restrições de tokens.
Uma inovação fundamental é seu recurso de transcrição síncrona. Ao gerar fala, o modelo produz simultaneamente a transcrição de texto correspondente. Esse processo elimina a necessidade de uma etapa separada e adicional de reconhecimento automático de fala (ASR), resultando em latência zero para a saída de texto. Essa funcionalidade é particularmente valiosa para legendagem em tempo real, sistemas de interação por voz e ferramentas de criação de conteúdo.
Em avaliações subjetivas realizadas por humanos, o TADA alcançou o segundo lugar tanto em naturalidade quanto em similaridade de voz. Ele superou vários sistemas com maior número de parâmetros e dados de treinamento mais extensos, demonstrando uma qualidade de áudio altamente competitiva.
Link: https://huggingface.co/collections/HumeAI/tada
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business











