Дом
Семейство ИИ-решений VibeVoice от Microsoft стало открытым исходным кодом, способно обрабатывать 90-минутные диалоги и набрало более 27 тысяч звезд на GitHub
Недавно компания Microsoft открыла исходный код передового семейства моделей искусственного интеллекта для обработки речи под названием VibeVoice, которое включает такие функции, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря надежной обработке длинных аудиозаписей, естественному генерации диалогов с участием нескольких говорящих и работе в режиме реального времени с низкой задержкой. Он уже набрал около 27 000 звезд на GitHub.
Выпущенная в качестве исследовательской платформы с открытым исходным кодом под лицензией MIT, VibeVoice поддерживает локальное развертывание без платы за подписку на облачные услуги, стремясь способствовать сотрудничеству и инновациям в области синтеза речи. Семейство моделей состоит из трех основных компонентов, каждый из которых решает конкретные проблемы традиционного голосового ИИ, такие как обработка длинных последовательностей, согласованность речи говорящих и естественная беглость речи.

VibeVoice-ASR-7B: мощный инструмент для структурированного преобразования речи в текст, обрабатывающий до 60 минут аудио
VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длительностью до 60 минут за один проход, напрямую выводя структурированные транскрипты. Результат идентифицирует говорящего, предоставляет точные временные метки и детализирует произнесенное содержание, одновременно поддерживая настраиваемые ключевые слова для повышения точности при распознавании собственных имен или технических терминов. Благодаря поддержке более 50 языков модель отлично подходит для сложных задач, таких как транскрипция длинных записей совещаний и подкастов.
Разработчики из сообщества уже создали на основе этой модели практические инструменты, такие как метод голосового ввода под названием Vibing для macOS и Windows. Отзывы пользователей свидетельствуют о высокой производительности в плане скорости и точности, что значительно повышает эффективность повседневного голосового ввода.
VibeVoice-TTS-1.5B: генерация выразительной речи продолжительностью до 90 минут с участием нескольких говорящих
VibeVoice-TTS-1.5B — это основная модель преобразования текста в речь, способная генерировать непрерывный аудиопоток длиной до 90 минут за один раз и поддерживающая до четырех разных говорящих для имитации естественного диалога. Синтезированная речь выразительна, звучит естественно и плавно с реалистичными паузами, ударениями и эмоциональными переходами, что делает ее идеальной для подкастов, длинных повествований, аудиокниг или диалогов с участием нескольких персонажей.
В отличие от многих традиционных моделей TTS, ограниченных 1–2 дикторами, VibeVoice-TTS достигает значительных прорывов в области длинных текстов и согласованности между несколькими дикторами. Ее архитектура сочетает токенизатор непрерывной речи (акустический и семантический) с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность для длинных последовательностей.
VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 миллисекунд
VibeVoice-Realtime-0.5B разработан для приложений реального времени, поддерживая потоковый ввод текста с задержкой первого звука примерно 300 миллисекунд, при этом оставаясь способным генерировать аудио длиной до 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих мгновенной обратной связи, таких как голосовые помощники в реальном времени или дубляж в прямом эфире.
Кроме того, в проекте была внедрена экспериментальная поддержка дикторов, включая многоязычную речь и различные варианты английского стиля, что предоставляет разработчикам более широкие возможности настройки.
Обзор AIbase: Переход Microsoft к открытому исходному коду VibeVoice не только снижает барьер для внедрения высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был на короткое время закрыт из-за потенциальных рисков злоупотребления, но был запущен заново после внедрения мер безопасности, таких как аудиоводяные знаки и звуковые предупреждения, что отражает принципы ответственной разработки ИИ. Теперь разработчики могут получить веса моделей с GitHub и Hugging Face и быстро протестировать их через такие платформы, как Colab.
Благодаря постоянному вкладу сообщества открытого исходного кода, включая оптимизацию для Apple Silicon, VibeVoice готов ускорить внедрение в области создания контента, инструментов доступности и голосового взаимодействия. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для более подробного ознакомления.
Адрес проекта: https://github.com/microsoft/VibeVoice
Связанная статья
В районе Шанчэн города Ханчжоу были введены первые в провинции Чжэцзян меры по развитию аудиовизуальных технологий в рамках программы AIGC; для этой цели был создан промышленный фонд в размере 5 миллиардов юаней.
16-го числа в районе Шанчэн города Ханчжоу состоялась конференция по инновациям в аудиовизуальной индустрии AIGC. В ходе мероприятия провинция представила свою первую специальную политику для развития аудиовизуальной индустрии AIGC – «Золотые десять
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
Рекомендации по связанным специальным темам
Комментарии (0)
Недавно компания Microsoft открыла исходный код передового семейства моделей искусственного интеллекта для обработки речи под названием VibeVoice, которое включает такие функции, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря надежной обработке длинных аудиозаписей, естественному генерации диалогов с участием нескольких говорящих и работе в режиме реального времени с низкой задержкой. Он уже набрал около 27 000 звезд на GitHub.
Выпущенная в качестве исследовательской платформы с открытым исходным кодом под лицензией MIT, VibeVoice поддерживает локальное развертывание без платы за подписку на облачные услуги, стремясь способствовать сотрудничеству и инновациям в области синтеза речи. Семейство моделей состоит из трех основных компонентов, каждый из которых решает конкретные проблемы традиционного голосового ИИ, такие как обработка длинных последовательностей, согласованность речи говорящих и естественная беглость речи.

VibeVoice-ASR-7B: мощный инструмент для структурированного преобразования речи в текст, обрабатывающий до 60 минут аудио
VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длительностью до 60 минут за один проход, напрямую выводя структурированные транскрипты. Результат идентифицирует говорящего, предоставляет точные временные метки и детализирует произнесенное содержание, одновременно поддерживая настраиваемые ключевые слова для повышения точности при распознавании собственных имен или технических терминов. Благодаря поддержке более 50 языков модель отлично подходит для сложных задач, таких как транскрипция длинных записей совещаний и подкастов.
Разработчики из сообщества уже создали на основе этой модели практические инструменты, такие как метод голосового ввода под названием Vibing для macOS и Windows. Отзывы пользователей свидетельствуют о высокой производительности в плане скорости и точности, что значительно повышает эффективность повседневного голосового ввода.
VibeVoice-TTS-1.5B: генерация выразительной речи продолжительностью до 90 минут с участием нескольких говорящих
VibeVoice-TTS-1.5B — это основная модель преобразования текста в речь, способная генерировать непрерывный аудиопоток длиной до 90 минут за один раз и поддерживающая до четырех разных говорящих для имитации естественного диалога. Синтезированная речь выразительна, звучит естественно и плавно с реалистичными паузами, ударениями и эмоциональными переходами, что делает ее идеальной для подкастов, длинных повествований, аудиокниг или диалогов с участием нескольких персонажей.
В отличие от многих традиционных моделей TTS, ограниченных 1–2 дикторами, VibeVoice-TTS достигает значительных прорывов в области длинных текстов и согласованности между несколькими дикторами. Ее архитектура сочетает токенизатор непрерывной речи (акустический и семантический) с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность для длинных последовательностей.
VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 миллисекунд
VibeVoice-Realtime-0.5B разработан для приложений реального времени, поддерживая потоковый ввод текста с задержкой первого звука примерно 300 миллисекунд, при этом оставаясь способным генерировать аудио длиной до 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих мгновенной обратной связи, таких как голосовые помощники в реальном времени или дубляж в прямом эфире.
Кроме того, в проекте была внедрена экспериментальная поддержка дикторов, включая многоязычную речь и различные варианты английского стиля, что предоставляет разработчикам более широкие возможности настройки.
Обзор AIbase: Переход Microsoft к открытому исходному коду VibeVoice не только снижает барьер для внедрения высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был на короткое время закрыт из-за потенциальных рисков злоупотребления, но был запущен заново после внедрения мер безопасности, таких как аудиоводяные знаки и звуковые предупреждения, что отражает принципы ответственной разработки ИИ. Теперь разработчики могут получить веса моделей с GitHub и Hugging Face и быстро протестировать их через такие платформы, как Colab.
Благодаря постоянному вкладу сообщества открытого исходного кода, включая оптимизацию для Apple Silicon, VibeVoice готов ускорить внедрение в области создания контента, инструментов доступности и голосового взаимодействия. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для более подробного ознакомления.
Адрес проекта: https://github.com/microsoft/VibeVoice
В районе Шанчэн города Ханчжоу были введены первые в провинции Чжэцзян меры по развитию аудиовизуальных технологий в рамках программы AIGC; для этой цели был создан промышленный фонд в размере 5 миллиардов юаней.
16-го числа в районе Шанчэн города Ханчжоу состоялась конференция по инновациям в аудиовизуальной индустрии AIGC. В ходе мероприятия провинция представила свою первую специальную политику для развития аудиовизуальной индустрии AIGC – «Золотые десять
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта
Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%.
Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив











