Дом

Новости

Модель TTS с открытым исходным кодом OmniVoice от Xiaomi позволяет осуществлять клонирование без предварительного обучения на более чем 600 языках

Модель TTS с открытым исходным кодом OmniVoice от Xiaomi позволяет осуществлять клонирование без предварительного обучения на более чем 600 языках

8 мая 2026 г.

RobertSanchez

Недавно команда Kaldi нового поколения (k2-fsa) из компании Xiaomi официально открыла исходный код OmniVoice — масштабной многоязычной модели преобразования текста в речь без предварительного обучения, поддерживающей более 600 языков. Модель демонстрирует передовые результаты по нескольким ключевым тестам для синтеза речи на китайском, английском и в многоязычном режиме, что стало значительным прорывом в этой области.

Лидирующая производительность: WER для китайского языка составляет всего 0,84%, что превосходит показатели основных моделей в многоязычных тестах

На тестовом наборе Seed-TTS для китайского языка OmniVoice демонстрирует чрезвычайно низкий показатель ошибок на слова (WER) — всего 0,84%. В многоязычных оценках его показатели сходства (SIM-o) и WER превосходят известные коммерческие модели, такие как ElevenLabs v2 и MiniMax, демонстрируя исключительную естественность и четкость речи.

Сверхбыстрая инференция: RTF всего 0,025, что в 40 раз быстрее, чем в реальном времени

OmniVoice может похвастаться коэффициентом реального времени (RTF) всего 0,025, что означает, что его скорость синтеза намного превышает требования реального времени. Этот огромный прирост эффективности позволяет быстро генерировать длинные речевые фрагменты в практических приложениях, что значительно улучшает пользовательский опыт.

Инновационная архитектура: дискретная неавторегрессивная конструкция, вдохновленная диффузионными моделями

OmniVoice использует новую дискретную неавторегрессивную архитектуру, вдохновленную диффузионными языковыми моделями. Она генерирует речь из текста за один шаг, минуя традиционные промежуточные семантические токены. Эта оптимизированная конструкция упрощает конвейер, сохраняя при этом высокое качество вывода. Стратегия полного случайного маскирования кодовой книги в сочетании с инициализацией предварительно обученной LLM еще больше повышает эффективность обучения и улучшает четкость и разборчивость конечной речи.

Гибкое клонирование и настройка голоса: работает всего с 3–10 секундами аудио

Модель поддерживает высококачественное клонирование голоса без предварительного обучения, используя всего 3–10 секунд эталонного аудио. Пользователи также могут настраивать атрибуты голоса с помощью подсказок на естественном языке, указывая пол, возраст, высоту тона, акцент, диалект и даже специальные эффекты, такие как шепот.

Обработка нелингвистических символов и тонкое управление произношением

OmniVoice может обрабатывать нелингвистические символы, такие как [смех], и поддерживает коррекцию произношения с помощью пиньинь или фонетических символов. Это делает его особенно подходящим для точного синтеза на китайском языке и различных диалектах.

Поддержка более 600 языков: содействие цифровому сохранению языков меньшинств и исчезающих языков

Одной из ключевых особенностей OmniVoice является обширный языковой охват, обеспечивающий эффективную поддержку как основных, так и многочисленных языков с ограниченными ресурсами. Для языков меньшинств и исчезающих языков система может генерировать высококачественную речь с минимальным количеством данных, что открывает значительный потенциал для цифрового сохранения языков и защиты культуры.

Код OmniVoice и предварительно обученные модели теперь доступны в открытом доступе на GitHub и Hugging Face, что позволяет разработчикам развертывать их локально или интегрировать в приложения. AIbase будет продолжать отслеживать отзывы сообщества и реальные примеры использования. Разработчикам рекомендуется делиться своим опытом.

Ссылка на проект: https://github.com/k2-fsa/OmniVoice

Связанная статья

Claude использовался для создания вредоносных пакетов npm: более 670 скомпрометированных пакетов ставят под угрозу открытый исходный код Недавний инцидент в сфере кибербезопасности продемонстрировал, как крупные языковые модели (LLM) используются в качестве инструмента для разработки вредоносного ПО. Исследователь в области безопасност

Компания Reliance обнародовала план инвестиций в искусственный интеллект на сумму 110 млрд долларов на фоне ускорения технологического развития в Индии Мукеш Амбани, миллиардер и председатель правления индийского конгломерата Reliance, объявил в четверг о плане стоимостью 10 трлн рупий (около 110 млрд долларов) по созданию инфраструктуры для искусств

Компания Zhiyuan WITA завершила проект «Naked» по взаимодействию с роботами, подав первую отчетную документацию Сектор интеллектуальных роботов достиг важной вехи. Согласно последнему заявлению Управления киберпространства Шанхая, разработанная компанией Zhiyuan большая модель WITA успешно прошла процедуру реги

Рекомендации по связанным специальным темам

Создание анимации

Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов

Откройте для себя лучшие генераторы аниме на основе искусственного интеллекта 2026 года для создания донхуа. Наш список, составленный специально для вас, включает мощные инструменты, позволяющие создавать потрясающих персонажей для веб-новелл и комиксов. Сравните бесплатные и платные варианты на основе реальных тестов. Найдите идеального помощника в творчестве и превратите свои истории в жизнь сегодня на сайте XIX.AI.

10 инструментов

xix.ai

Создание комиксов

Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении

Откройте для себя лучшие инструменты для автоматической раскраски манги с помощью ИИ в 2026 году на сайте XIX.AI. В нашем тщательно составленном списке представлены самые популярные и революционные решения, которые наносят плоские цвета без единой ошибки в цветовом соответствии, что значительно повышает вашу продуктивность. Изучите сравнения бесплатных и платных версий, результаты реальных тестов и еженедельно обновляемые рейтинги, чтобы найти идеальный вариант для себя. Воспользуйтесь преимуществами ИИ уже сегодня.

10 инструментов

xix.ai

письмо

Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов

xix.ai

Бизнес

Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине

Откройте для себя лучшее программное обеспечение 2026 года для оптимизации цен с помощью ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены высокооцененные, революционные инструменты, которые отслеживают конкурентов и автоматически корректируют цены в вашем магазине для получения максимальной прибыли. Сравните бесплатные и платные варианты на основе реальных тестов. Получите преимущество в ценообразовании уже сейчас.

10 инструментов

xix.ai

код

Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях

Откройте для себя 20 лучших рецензентов кода на базе ИИ 2026 года на XIX.AI. В нашем тщательно составленном списке представлены высокооцененные, революционные инструменты для автоматизации проверки соответствия стандартам чистого кода и рефакторинга файлов в устаревших репозиториях. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Получите преимущество ИИ уже сегодня.

10 инструментов

xix.ai

Преобразование текста в речь

Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов

xix.ai