Дом

Новости

Hume AI представляет TADA: мобильный синтезатор речи с открытым исходным кодом, работающий в 5 раз быстрее и без «галлюцинаций»

Hume AI представляет TADA: мобильный синтезатор речи с открытым исходным кодом, работающий в 5 раз быстрее и без «галлюцинаций»

18 марта 2026 г.

WilliamRamirez

111

Компания Hume AI открыла исходный код своей новейшей модели генерации речи TADA (Text-Acoustic Dual Alignment). Эта система преобразования текста в речь (TTS), построенная на основе большой языковой модели, использует инновационную архитектуру двойного выравнивания текста и акустических данных. Такой подход значительно повышает эффективность и надежность генерации, а также расширяет спектр практических применений.

Как официально указано, TADA устанавливает строгую синхронизацию 1:1 между текстовыми токенами и акустическими представлениями. Эта архитектура полностью решает распространенную проблему галлюцинаций на уровне токенов, характерную для традиционных систем TTS на основе LLM. В ходе оценок с участием более 1000 тестовых образцов модель не продемонстрировала ни одного случая галлюцинаций.

Что касается производительности, TADA генерирует аудио более чем в пять раз быстрее, чем сопоставимые системы LLM TTS. Она также работает с замечательной эффективностью использования ресурсов, требуя всего 2–3 фрейма вычислительных ресурсов на секунду аудио. В отличие от этого, традиционные решения обычно требуют от 12,5 до 75 фреймов. Такая эффективность позволяет модели выполнять локальное вычисление на аппаратных средствах с низким энергопотреблением, таких как смартфоны и периферийные устройства, устраняя необходимость в облачных серверах.

TADA предлагает многоязычную поддержку, включая китайский язык, с многоязычными версиями, основанными на масштабе параметров Llama3.23B. В релиз включены предварительно обученные многоязычные модели объемом 1B (в основном для английского языка) и 3B. С окном контекста в 2048 токенов модель может генерировать примерно 700 секунд непрерывного аудио за один проход. Эта способность значительно превосходит традиционные решения, которые обычно ограничены примерно 70 секундами при тех же ограничениях по токенам.

Ключевой инновацией является функция синхронной транскрипции. Во время генерации речи модель одновременно выводит соответствующую текстовую транскрипцию. Этот процесс устраняет необходимость в отдельном, дополнительном этапе автоматического распознавания речи (ASR), что приводит к нулевой дополнительной задержке при выводе текста. Эта функциональность особенно ценна для субтитров в реальном времени, систем голосового взаимодействия и инструментов создания контента.

В ходе субъективной оценки людьми TADA заняла второе место как по естественности, так и по сходству голосов. Она превзошла несколько систем с большим количеством параметров и более обширными обучающими данными, продемонстрировав высококонкурентное качество звука.

Ссылка: https://huggingface.co/collections/HumeAI/tada

Связанная статья

МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде

OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив

OpenAI запускает функцию «Сайты», положив конец эре «безкодового» программирования благодаря веб-сайтам на базе Word Компания OpenAI представила Sites — новую функцию для Codex, своего ИИ-решения для разработки программного обеспечения. В настоящее время функция находится в стадии предварительного доступа и доступна

Рекомендации по связанным специальным темам

Преобразование текста в речь

Лучшие инструменты искусственного интеллекта для независимых разработчиков игр: как сэкономить время на озвучке для RPG и визуальных новелл

Откройте для себя лучшие инструменты искусственного интеллекта для озвучивания в 2026 году, предназначенные для разработчиков игр! В тщательно составленном списке XIX.AI представлены самые популярные и революционные решения, которые помогут вам сэкономить время и деньги на озвучивании ролевых игр и визуальных новелл. Ознакомьтесь с сравнением бесплатных и платных версий, результатами реальных тестов и еженедельно обновляемыми рейтингами. Найдите свой идеальный инструмент для озвучивания уже сегодня!

10 инструментов

xix.ai

Образование и обучение

Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов

Откройте для себя лучшие инструменты для повторения материала с использованием технологий искусственного интеллекта в 2026 году, подобранные компанией XIX.AI. Наши самые популярные и революционные инструменты помогут студентам-медикам и юристам оптимизировать расписание занятий для лучшего запоминания информации. Сравните бесплатные и платные варианты с использованием реальных примеров и еженедельно обновляемых рейтингов. Раскройте для себя все возможности эффективного обучения уже сегодня.

10 инструментов

xix.ai

Создание видео

Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования

2026: лучшие платформы для преобразования текста в видео с помощью ИИ: самые популярные инструменты для написания сценариев и визуального повествования. Откройте для себя мощные, революционные решения, которые помогут превратить ваш текст в увлекательные видеоролики. Сравните бесплатные и платные варианты с помощью наших еженедельно обновляемых рейтингов и реальных тестов. Найдите идеальную платформу, которая поможет вам раскрыть свой творческий потенциал и повысить продуктивность. Ознакомьтесь с тщательно подобранной подборкой на сайте XIX.AI.

10 инструментов

xix.ai

чат-бот

АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка

2026 Год: Откройте для себя лучшие инструменты на основе искусственного интеллекта, предназначенные для создания сложных автоматизированных рабочих процессов с использованием естественного языка. Наш отобранный список включает наиболее популярные и мощные платформы, обеспечивающие бесшовную автоматизацию задач и интеллектуальное управление процессами. Сравните бесплатные и платные варианты с примерами реального использования. Получите преимущества, предоставляемые технологиями искусственного интеллекта, благодаря еженедельно обновляемым рейтингам от XIX.AI.

10 инструментов

xix.ai

Редактирование изображений

Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью

Откройте для себя лучшие программы по уменьшению шума на основе искусственного интеллекта в 2026 году, предназначенные для фотографии в условиях слабого освещения ночью. Наш список, составленный специально для вас, сравнивает бесплатные и платные инструменты, включает результаты реальных тестов и еженедельно обновляемые рейтинги. Избавьтесь от шума и других нежелательных эффектов без особых усилий. Откройте для себя преимущества искусственного интеллекта в сервисе XIX.AI.

10 инструментов

xix.ai

чат-бот

Лучшие генераторы индивидуальных ИИ-подруг: создавайте уникальные характеры, увлечения и истории

Откройте для себя 2026 лучших генераторов индивидуальных ИИ-подруг на сайте XIX.AI. Ознакомьтесь с нашим тщательно отобранным списком самых популярных сервисов, которые помогут вам создать уникальные личности, увлечения и глубокие предыстории. Сравните бесплатные и платные варианты с помощью реальных отзывов. Найдите своего идеального творческого спутника уже сегодня.

10 инструментов

xix.ai