вариант
Дом
Новости
Семейство ИИ-решений VibeVoice от Microsoft стало открытым исходным кодом, способно обрабатывать 90-минутные диалоги и набрало более 27 тысяч звезд на GitHub

Семейство ИИ-решений VibeVoice от Microsoft стало открытым исходным кодом, способно обрабатывать 90-минутные диалоги и набрало более 27 тысяч звезд на GitHub

28 мая 2026 г.
51

Недавно компания Microsoft открыла исходный код передового семейства моделей искусственного интеллекта для обработки речи под названием VibeVoice, которое включает такие функции, как автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS). Проект быстро привлек внимание сообщества разработчиков благодаря надежной обработке длинных аудиозаписей, естественному генерации диалогов с участием нескольких говорящих и работе в режиме реального времени с низкой задержкой. Он уже набрал около 27 000 звезд на GitHub.

Выпущенная в качестве исследовательской платформы с открытым исходным кодом под лицензией MIT, VibeVoice поддерживает локальное развертывание без платы за подписку на облачные услуги, стремясь способствовать сотрудничеству и инновациям в области синтеза речи. Семейство моделей состоит из трех основных компонентов, каждый из которых решает конкретные проблемы традиционного голосового ИИ, такие как обработка длинных последовательностей, согласованность речи говорящих и естественная беглость речи.

image.png

VibeVoice-ASR-7B: мощный инструмент для структурированного преобразования речи в текст, обрабатывающий до 60 минут аудио

VibeVoice-ASR-7B — это унифицированная модель преобразования речи в текст, способная обрабатывать аудиофайлы длительностью до 60 минут за один проход, напрямую выводя структурированные транскрипты. Результат идентифицирует говорящего, предоставляет точные временные метки и детализирует произнесенное содержание, одновременно поддерживая настраиваемые ключевые слова для повышения точности при распознавании собственных имен или технических терминов. Благодаря поддержке более 50 языков модель отлично подходит для сложных задач, таких как транскрипция длинных записей совещаний и подкастов.

Разработчики из сообщества уже создали на основе этой модели практические инструменты, такие как метод голосового ввода под названием Vibing для macOS и Windows. Отзывы пользователей свидетельствуют о высокой производительности в плане скорости и точности, что значительно повышает эффективность повседневного голосового ввода.

VibeVoice-TTS-1.5B: генерация выразительной речи продолжительностью до 90 минут с участием нескольких говорящих

VibeVoice-TTS-1.5B — это основная модель преобразования текста в речь, способная генерировать непрерывный аудиопоток длиной до 90 минут за один раз и поддерживающая до четырех разных говорящих для имитации естественного диалога. Синтезированная речь выразительна, звучит естественно и плавно с реалистичными паузами, ударениями и эмоциональными переходами, что делает ее идеальной для подкастов, длинных повествований, аудиокниг или диалогов с участием нескольких персонажей.

В отличие от многих традиционных моделей TTS, ограниченных 1–2 дикторами, VibeVoice-TTS достигает значительных прорывов в области длинных текстов и согласованности между несколькими дикторами. Ее архитектура сочетает токенизатор непрерывной речи (акустический и семантический) с низкой частотой кадров (7,5 Гц), что значительно повышает вычислительную эффективность для длинных последовательностей.

VibeVoice-Realtime-0.5B: TTS в реальном времени с задержкой около 300 миллисекунд

VibeVoice-Realtime-0.5B разработан для приложений реального времени, поддерживая потоковый ввод текста с задержкой первого звука примерно 300 миллисекунд, при этом оставаясь способным генерировать аудио длиной до 10 минут. Эта модель особенно подходит для интерактивных приложений, требующих мгновенной обратной связи, таких как голосовые помощники в реальном времени или дубляж в прямом эфире.

Кроме того, в проекте была внедрена экспериментальная поддержка дикторов, включая многоязычную речь и различные варианты английского стиля, что предоставляет разработчикам более широкие возможности настройки.

Обзор AIbase: Переход Microsoft к открытому исходному коду VibeVoice не только снижает барьер для внедрения высокопроизводительного голосового ИИ, но и предоставляет комплексное решение для локального развертывания. Проект был на короткое время закрыт из-за потенциальных рисков злоупотребления, но был запущен заново после внедрения мер безопасности, таких как аудиоводяные знаки и звуковые предупреждения, что отражает принципы ответственной разработки ИИ. Теперь разработчики могут получить веса моделей с GitHub и Hugging Face и быстро протестировать их через такие платформы, как Colab.

Благодаря постоянному вкладу сообщества открытого исходного кода, включая оптимизацию для Apple Silicon, VibeVoice готов ускорить внедрение в области создания контента, инструментов доступности и голосового взаимодействия. Заинтересованные разработчики могут посетить официальную страницу проекта Microsoft для более подробного ознакомления.

Адрес проекта: https://github.com/microsoft/VibeVoice

Связанная статья
В районе Шанчэн города Ханчжоу были введены первые в провинции Чжэцзян меры по развитию аудиовизуальных технологий в рамках программы AIGC; для этой цели был создан промышленный фонд в размере 5 миллиардов юаней. В районе Шанчэн города Ханчжоу были введены первые в провинции Чжэцзян меры по развитию аудиовизуальных технологий в рамках программы AIGC; для этой цели был создан промышленный фонд в размере 5 миллиардов юаней. 16-го числа в районе Шанчэн города Ханчжоу состоялась конференция по инновациям в аудиовизуальной индустрии AIGC. В ходе мероприятия провинция представила свою первую специальную политику для развития аудиовизуальной индустрии AIGC – «Золотые десять
МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта МИИТ просит общественность дать отзывы по 121 отраслевому стандарту, включая Протокол контекста моделей искусственного интеллекта Министерство промышленности и информационных технологий Китая официально опубликовало уведомление с призывом к общественным отзывам по 121 проекту в области стандартизации промышленности, включая «Требования к безопасности приложений в контексте моде
OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. OpenAI сотрудничает с Министерством обороны США; количество случаев деинсталляции ChatGPT увеличилось на 295%. Общественный гнев: Военное сотрудничество OpenAI вызывает волну отзывов о необходимости удаления приложенияНедавно ведущая компания в области искусственного интеллекта OpenAI объявила о тесном сотрудничестве с Министерством обороны США, предусматрив
Рекомендации по связанным специальным темам
чат-бот Создайте свою собственную любовную историю с ИИ с помощью этих инструментов для ролевых игр
Создайте свою собственную любовную историю с ИИ с помощью этих инструментов для ролевых игр

Откройте для себя 2026 лучших инструментов для ролевых игр на базе ИИ, которые помогут вам создавать захватывающие истории. В тщательно подобранном списке XIX.AI представлены мощные, революционные помощники, которые раскроют ваш творческий потенциал в повествовании и придадут ему эмоциональную глубину. Сравните бесплатные и платные варианты на основе реальных тестов. Начните свое уникальное путешествие уже сегодня.

10 инструментов
xix.ai
Преобразование текста в речь Лучшие инструменты искусственного интеллекта для независимых разработчиков игр: как сэкономить время на озвучке для RPG и визуальных новелл
Лучшие инструменты искусственного интеллекта для независимых разработчиков игр: как сэкономить время на озвучке для RPG и визуальных новелл

Откройте для себя лучшие инструменты искусственного интеллекта для озвучивания в 2026 году, предназначенные для разработчиков игр! В тщательно составленном списке XIX.AI представлены самые популярные и революционные решения, которые помогут вам сэкономить время и деньги на озвучивании ролевых игр и визуальных новелл. Ознакомьтесь с сравнением бесплатных и платных версий, результатами реальных тестов и еженедельно обновляемыми рейтингами. Найдите свой идеальный инструмент для озвучивания уже сегодня!

10 инструментов
xix.ai
Образование и обучение Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов
Лучшие инструменты искусственного интеллекта для систематического повторения материала: оптимизация учебных планов студентов-медиков и юристов

Откройте для себя лучшие инструменты для повторения материала с использованием технологий искусственного интеллекта в 2026 году, подобранные компанией XIX.AI. Наши самые популярные и революционные инструменты помогут студентам-медикам и юристам оптимизировать расписание занятий для лучшего запоминания информации. Сравните бесплатные и платные варианты с использованием реальных примеров и еженедельно обновляемых рейтингов. Раскройте для себя все возможности эффективного обучения уже сегодня.

10 инструментов
xix.ai
Создание видео Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования
Лучшие платформы для преобразования текста в видео с помощью ИИ для написания сценариев и визуального повествования

2026: лучшие платформы для преобразования текста в видео с помощью ИИ: самые популярные инструменты для написания сценариев и визуального повествования. Откройте для себя мощные, революционные решения, которые помогут превратить ваш текст в увлекательные видеоролики. Сравните бесплатные и платные варианты с помощью наших еженедельно обновляемых рейтингов и реальных тестов. Найдите идеальную платформу, которая поможет вам раскрыть свой творческий потенциал и повысить продуктивность. Ознакомьтесь с тщательно подобранной подборкой на сайте XIX.AI.

10 инструментов
xix.ai
чат-бот АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка
АИ-оркестраторы множественных агентов: создание сложных автоматизированных рабочих процессов с использованием естественного языка

2026 Год: Откройте для себя лучшие инструменты на основе искусственного интеллекта, предназначенные для создания сложных автоматизированных рабочих процессов с использованием естественного языка. Наш отобранный список включает наиболее популярные и мощные платформы, обеспечивающие бесшовную автоматизацию задач и интеллектуальное управление процессами. Сравните бесплатные и платные варианты с примерами реального использования. Получите преимущества, предоставляемые технологиями искусственного интеллекта, благодаря еженедельно обновляемым рейтингам от XIX.AI.

10 инструментов
xix.ai
Редактирование изображений Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью
Лучшее программное обеспечение для снижения шума на основе искусственного интеллекта: устранение зерна и артефактов на снимках, сделанных в условиях слабого освещения ночью

Откройте для себя лучшие программы по уменьшению шума на основе искусственного интеллекта в 2026 году, предназначенные для фотографии в условиях слабого освещения ночью. Наш список, составленный специально для вас, сравнивает бесплатные и платные инструменты, включает результаты реальных тестов и еженедельно обновляемые рейтинги. Избавьтесь от шума и других нежелательных эффектов без особых усилий. Откройте для себя преимущества искусственного интеллекта в сервисе XIX.AI.

10 инструментов
xix.ai
Комментарии (0)
0/500
OR