Дом
Модель TTS с открытым исходным кодом OmniVoice от Xiaomi позволяет осуществлять клонирование без предварительного обучения на более чем 600 языках
Недавно команда Kaldi нового поколения (k2-fsa) из компании Xiaomi официально открыла исходный код OmniVoice — масштабной многоязычной модели преобразования текста в речь без предварительного обучения, поддерживающей более 600 языков. Модель демонстрирует передовые результаты по нескольким ключевым тестам для синтеза речи на китайском, английском и в многоязычном режиме, что стало значительным прорывом в этой области.
Лидирующая производительность: WER для китайского языка составляет всего 0,84%, что превосходит показатели основных моделей в многоязычных тестах
На тестовом наборе Seed-TTS для китайского языка OmniVoice демонстрирует чрезвычайно низкий показатель ошибок на слова (WER) — всего 0,84%. В многоязычных оценках его показатели сходства (SIM-o) и WER превосходят известные коммерческие модели, такие как ElevenLabs v2 и MiniMax, демонстрируя исключительную естественность и четкость речи.

Сверхбыстрая инференция: RTF всего 0,025, что в 40 раз быстрее, чем в реальном времени
OmniVoice может похвастаться коэффициентом реального времени (RTF) всего 0,025, что означает, что его скорость синтеза намного превышает требования реального времени. Этот огромный прирост эффективности позволяет быстро генерировать длинные речевые фрагменты в практических приложениях, что значительно улучшает пользовательский опыт.
Инновационная архитектура: дискретная неавторегрессивная конструкция, вдохновленная диффузионными моделями
OmniVoice использует новую дискретную неавторегрессивную архитектуру, вдохновленную диффузионными языковыми моделями. Она генерирует речь из текста за один шаг, минуя традиционные промежуточные семантические токены. Эта оптимизированная конструкция упрощает конвейер, сохраняя при этом высокое качество вывода. Стратегия полного случайного маскирования кодовой книги в сочетании с инициализацией предварительно обученной LLM еще больше повышает эффективность обучения и улучшает четкость и разборчивость конечной речи.
Гибкое клонирование и настройка голоса: работает всего с 3–10 секундами аудио
Модель поддерживает высококачественное клонирование голоса без предварительного обучения, используя всего 3–10 секунд эталонного аудио. Пользователи также могут настраивать атрибуты голоса с помощью подсказок на естественном языке, указывая пол, возраст, высоту тона, акцент, диалект и даже специальные эффекты, такие как шепот.
Обработка нелингвистических символов и тонкое управление произношением
OmniVoice может обрабатывать нелингвистические символы, такие как [смех], и поддерживает коррекцию произношения с помощью пиньинь или фонетических символов. Это делает его особенно подходящим для точного синтеза на китайском языке и различных диалектах.
Поддержка более 600 языков: содействие цифровому сохранению языков меньшинств и исчезающих языков
Одной из ключевых особенностей OmniVoice является обширный языковой охват, обеспечивающий эффективную поддержку как основных, так и многочисленных языков с ограниченными ресурсами. Для языков меньшинств и исчезающих языков система может генерировать высококачественную речь с минимальным количеством данных, что открывает значительный потенциал для цифрового сохранения языков и защиты культуры.
Код OmniVoice и предварительно обученные модели теперь доступны в открытом доступе на GitHub и Hugging Face, что позволяет разработчикам развертывать их локально или интегрировать в приложения. AIbase будет продолжать отслеживать отзывы сообщества и реальные примеры использования. Разработчикам рекомендуется делиться своим опытом.
Ссылка на проект: https://github.com/k2-fsa/OmniVoice
Связанная статья
Claude использовался для создания вредоносных пакетов npm: более 670 скомпрометированных пакетов ставят под угрозу открытый исходный код
Недавний инцидент в сфере кибербезопасности продемонстрировал, как крупные языковые модели (LLM) используются в качестве инструмента для разработки вредоносного ПО. Исследователь в области безопасност
Компания Reliance обнародовала план инвестиций в искусственный интеллект на сумму 110 млрд долларов на фоне ускорения технологического развития в Индии
Мукеш Амбани, миллиардер и председатель правления индийского конгломерата Reliance, объявил в четверг о плане стоимостью 10 трлн рупий (около 110 млрд долларов) по созданию инфраструктуры для искусств
Компания Zhiyuan WITA завершила проект «Naked» по взаимодействию с роботами, подав первую отчетную документацию
Сектор интеллектуальных роботов достиг важной вехи. Согласно последнему заявлению Управления киберпространства Шанхая, разработанная компанией Zhiyuan большая модель WITA успешно прошла процедуру реги
Рекомендации по связанным специальным темам
Комментарии (0)
Недавно команда Kaldi нового поколения (k2-fsa) из компании Xiaomi официально открыла исходный код OmniVoice — масштабной многоязычной модели преобразования текста в речь без предварительного обучения, поддерживающей более 600 языков. Модель демонстрирует передовые результаты по нескольким ключевым тестам для синтеза речи на китайском, английском и в многоязычном режиме, что стало значительным прорывом в этой области.
Лидирующая производительность: WER для китайского языка составляет всего 0,84%, что превосходит показатели основных моделей в многоязычных тестах
На тестовом наборе Seed-TTS для китайского языка OmniVoice демонстрирует чрезвычайно низкий показатель ошибок на слова (WER) — всего 0,84%. В многоязычных оценках его показатели сходства (SIM-o) и WER превосходят известные коммерческие модели, такие как ElevenLabs v2 и MiniMax, демонстрируя исключительную естественность и четкость речи.

Сверхбыстрая инференция: RTF всего 0,025, что в 40 раз быстрее, чем в реальном времени
OmniVoice может похвастаться коэффициентом реального времени (RTF) всего 0,025, что означает, что его скорость синтеза намного превышает требования реального времени. Этот огромный прирост эффективности позволяет быстро генерировать длинные речевые фрагменты в практических приложениях, что значительно улучшает пользовательский опыт.
Инновационная архитектура: дискретная неавторегрессивная конструкция, вдохновленная диффузионными моделями
OmniVoice использует новую дискретную неавторегрессивную архитектуру, вдохновленную диффузионными языковыми моделями. Она генерирует речь из текста за один шаг, минуя традиционные промежуточные семантические токены. Эта оптимизированная конструкция упрощает конвейер, сохраняя при этом высокое качество вывода. Стратегия полного случайного маскирования кодовой книги в сочетании с инициализацией предварительно обученной LLM еще больше повышает эффективность обучения и улучшает четкость и разборчивость конечной речи.
Гибкое клонирование и настройка голоса: работает всего с 3–10 секундами аудио
Модель поддерживает высококачественное клонирование голоса без предварительного обучения, используя всего 3–10 секунд эталонного аудио. Пользователи также могут настраивать атрибуты голоса с помощью подсказок на естественном языке, указывая пол, возраст, высоту тона, акцент, диалект и даже специальные эффекты, такие как шепот.
Обработка нелингвистических символов и тонкое управление произношением
OmniVoice может обрабатывать нелингвистические символы, такие как [смех], и поддерживает коррекцию произношения с помощью пиньинь или фонетических символов. Это делает его особенно подходящим для точного синтеза на китайском языке и различных диалектах.
Поддержка более 600 языков: содействие цифровому сохранению языков меньшинств и исчезающих языков
Одной из ключевых особенностей OmniVoice является обширный языковой охват, обеспечивающий эффективную поддержку как основных, так и многочисленных языков с ограниченными ресурсами. Для языков меньшинств и исчезающих языков система может генерировать высококачественную речь с минимальным количеством данных, что открывает значительный потенциал для цифрового сохранения языков и защиты культуры.
Код OmniVoice и предварительно обученные модели теперь доступны в открытом доступе на GitHub и Hugging Face, что позволяет разработчикам развертывать их локально или интегрировать в приложения. AIbase будет продолжать отслеживать отзывы сообщества и реальные примеры использования. Разработчикам рекомендуется делиться своим опытом.
Ссылка на проект: https://github.com/k2-fsa/OmniVoice
Claude использовался для создания вредоносных пакетов npm: более 670 скомпрометированных пакетов ставят под угрозу открытый исходный код
Недавний инцидент в сфере кибербезопасности продемонстрировал, как крупные языковые модели (LLM) используются в качестве инструмента для разработки вредоносного ПО. Исследователь в области безопасност
Компания Reliance обнародовала план инвестиций в искусственный интеллект на сумму 110 млрд долларов на фоне ускорения технологического развития в Индии
Мукеш Амбани, миллиардер и председатель правления индийского конгломерата Reliance, объявил в четверг о плане стоимостью 10 трлн рупий (около 110 млрд долларов) по созданию инфраструктуры для искусств
Компания Zhiyuan WITA завершила проект «Naked» по взаимодействию с роботами, подав первую отчетную документацию
Сектор интеллектуальных роботов достиг важной вехи. Согласно последнему заявлению Управления киберпространства Шанхая, разработанная компанией Zhiyuan большая модель WITA успешно прошла процедуру реги











