Дом
Hume AI представляет TADA: мобильный синтезатор речи с открытым исходным кодом, работающий в 5 раз быстрее и без «галлюцинаций»

Компания Hume AI открыла исходный код своей новейшей модели генерации речи TADA (Text-Acoustic Dual Alignment). Эта система преобразования текста в речь (TTS), построенная на основе большой языковой модели, использует инновационную архитектуру двойного выравнивания текста и акустических данных. Такой подход значительно повышает эффективность и надежность генерации, а также расширяет спектр практических применений.
Как официально указано, TADA устанавливает строгую синхронизацию 1:1 между текстовыми токенами и акустическими представлениями. Эта архитектура полностью решает распространенную проблему галлюцинаций на уровне токенов, характерную для традиционных систем TTS на основе LLM. В ходе оценок с участием более 1000 тестовых образцов модель не продемонстрировала ни одного случая галлюцинаций.
Что касается производительности, TADA генерирует аудио более чем в пять раз быстрее, чем сопоставимые системы LLM TTS. Она также работает с замечательной эффективностью использования ресурсов, требуя всего 2–3 фрейма вычислительных ресурсов на секунду аудио. В отличие от этого, традиционные решения обычно требуют от 12,5 до 75 фреймов. Такая эффективность позволяет модели выполнять локальное вычисление на аппаратных средствах с низким энергопотреблением, таких как смартфоны и периферийные устройства, устраняя необходимость в облачных серверах.
TADA предлагает многоязычную поддержку, включая китайский язык, с многоязычными версиями, основанными на масштабе параметров Llama3.23B. В релиз включены предварительно обученные многоязычные модели объемом 1B (в основном для английского языка) и 3B. С окном контекста в 2048 токенов модель может генерировать примерно 700 секунд непрерывного аудио за один проход. Эта способность значительно превосходит традиционные решения, которые обычно ограничены примерно 70 секундами при тех же ограничениях по токенам.
Ключевой инновацией является функция синхронной транскрипции. Во время генерации речи модель одновременно выводит соответствующую текстовую транскрипцию. Этот процесс устраняет необходимость в отдельном, дополнительном этапе автоматического распознавания речи (ASR), что приводит к нулевой дополнительной задержке при выводе текста. Эта функциональность особенно ценна для субтитров в реальном времени, систем голосового взаимодействия и инструментов создания контента.
В ходе субъективной оценки людьми TADA заняла второе место как по естественности, так и по сходству голосов. Она превзошла несколько систем с большим количеством параметров и более обширными обучающими данными, продемонстрировав высококонкурентное качество звука.
Ссылка: https://huggingface.co/collections/HumeAI/tada
Связанная статья
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word
Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна
Рекомендации по связанным специальным темам
Комментарии (1)

Компания Hume AI открыла исходный код своей новейшей модели генерации речи TADA (Text-Acoustic Dual Alignment). Эта система преобразования текста в речь (TTS), построенная на основе большой языковой модели, использует инновационную архитектуру двойного выравнивания текста и акустических данных. Такой подход значительно повышает эффективность и надежность генерации, а также расширяет спектр практических применений.
Как официально указано, TADA устанавливает строгую синхронизацию 1:1 между текстовыми токенами и акустическими представлениями. Эта архитектура полностью решает распространенную проблему галлюцинаций на уровне токенов, характерную для традиционных систем TTS на основе LLM. В ходе оценок с участием более 1000 тестовых образцов модель не продемонстрировала ни одного случая галлюцинаций.
Что касается производительности, TADA генерирует аудио более чем в пять раз быстрее, чем сопоставимые системы LLM TTS. Она также работает с замечательной эффективностью использования ресурсов, требуя всего 2–3 фрейма вычислительных ресурсов на секунду аудио. В отличие от этого, традиционные решения обычно требуют от 12,5 до 75 фреймов. Такая эффективность позволяет модели выполнять локальное вычисление на аппаратных средствах с низким энергопотреблением, таких как смартфоны и периферийные устройства, устраняя необходимость в облачных серверах.
TADA предлагает многоязычную поддержку, включая китайский язык, с многоязычными версиями, основанными на масштабе параметров Llama3.23B. В релиз включены предварительно обученные многоязычные модели объемом 1B (в основном для английского языка) и 3B. С окном контекста в 2048 токенов модель может генерировать примерно 700 секунд непрерывного аудио за один проход. Эта способность значительно превосходит традиционные решения, которые обычно ограничены примерно 70 секундами при тех же ограничениях по токенам.
Ключевой инновацией является функция синхронной транскрипции. Во время генерации речи модель одновременно выводит соответствующую текстовую транскрипцию. Этот процесс устраняет необходимость в отдельном, дополнительном этапе автоматического распознавания речи (ASR), что приводит к нулевой дополнительной задержке при выводе текста. Эта функциональность особенно ценна для субтитров в реальном времени, систем голосового взаимодействия и инструментов создания контента.
В ходе субъективной оценки людьми TADA заняла второе место как по естественности, так и по сходству голосов. Она превзошла несколько систем с большим количеством параметров и более обширными обучающими данными, продемонстрировав высококонкурентное качество звука.
Ссылка: https://huggingface.co/collections/HumeAI/tada
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word
Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна











