Дом
Alibaba Tongyi представляет голосовую модель с управлением на естественном языке «FreeStyle»
Сегодня команда Alibaba Tongyi Lab по разработке речевых технологий представила две революционные модели генерации голоса: Fun-CosyVoice3.5 и Fun-AudioGen-VD. Отличительной особенностью этих моделей является поддержка команд «FreeStyle». Вместо сложной настройки параметров пользователи могут точно контролировать стили вокального выражения или создавать сложные аудиосцены с нуля, используя простые описания на естественном языке.

Каждая модель служит определенным целям:
Fun-CosyVoice3.5: многоязычное воспроизведение и тонкое управление
Эта усовершенствованная версия CosyVoice достигает прорыва в понимании нюансов речевой экспрессии.
Генерация на основе команд: пользователи могут вводить инструкции, такие как «говорить более уверенно» или «замедлить речь с эмоциональными колебаниями», для корректировки голоса в режиме реального времени.
Расширение языкового диапазона: добавлена поддержка тайского, индонезийского, португальского и вьетнамского языков, что позволяет сохранить лидирующие в отрасли показатели точности транскрипции (WER) и схожести голоса на 13 языках.
Оптимизация редких символов: специальное обучение снизило уровень ошибок для редких символов с 15,2% до 5,3%.
Повышение производительности: задержка первого пакета уменьшилась на 35%, что значительно улучшило плавность взаимодействия в реальном времени.
Fun-AudioGen-VD: комплексное звуковое проектирование
Эта модель действует как «аудиорежиссер», генерируя интегрированный звук, сочетающий «персонажей + окружение».
Настройка голоса: Укажите пол, возраст, акцент и подробные характеристики, такие как «хриплый, глубокий или низкий» голос.
Эмоции и ролевые игры: имитирует роли, включая агентов службы поддержки клиентов, дикторов и детей, даже передавая сложные состояния, такие как «внешнее спокойствие с внутренним напряжением».
Иммерсивные среды: добавляет фоновые звуки (хаос на поле боя, шум в кафе) и пространственные эффекты (реверберация собора, подводная акустика) для полной пространственной симуляции.
Tongyi Lab отмечает, что эти модели демократизируют создание высококачественного голоса, предлагая мощную поддержку ИИ для подкастинга, разработки игр и постпродакшна фильмов.
Связанная статья
Элон Маск проиграл иск против Сэма Альтмана и OpenAI
Утверждение Илона Маска о том, что сооснователи OpenAI обидели его, потерпело неудачу, когда девять присяжных из Калифорнии единогласно решили, что его иски были поданы слишком поздно.Маск заявил, что Сэм Альтман, Грег Брокман, OpenAI и Microsoft «у
Укажите название статьи, чтобы переформулировать его в виде вопроса.
В современном цифровом мире искусственный интеллект кардинально меняет все отрасли, и блогинг не является исключением. Блогеры постоянно ищут способы оптимизировать свои рабочие процессы, повысить кач
Ant Group представила Ling-2.6-flash с открытым исходным кодом — новую версию в семействе моделей Baoling
Сегодня серия крупных моделей Baoling от Ant Group получила значительное обновление: модель Ling-2.6-flash теперь официально доступна разработчикам по всему миру. Для обеспечения совместимости с разли
Рекомендации по связанным специальным темам
Комментарии (0)
Сегодня команда Alibaba Tongyi Lab по разработке речевых технологий представила две революционные модели генерации голоса: Fun-CosyVoice3.5 и Fun-AudioGen-VD. Отличительной особенностью этих моделей является поддержка команд «FreeStyle». Вместо сложной настройки параметров пользователи могут точно контролировать стили вокального выражения или создавать сложные аудиосцены с нуля, используя простые описания на естественном языке.

Каждая модель служит определенным целям:
Fun-CosyVoice3.5: многоязычное воспроизведение и тонкое управление
Эта усовершенствованная версия CosyVoice достигает прорыва в понимании нюансов речевой экспрессии.
Генерация на основе команд: пользователи могут вводить инструкции, такие как «говорить более уверенно» или «замедлить речь с эмоциональными колебаниями», для корректировки голоса в режиме реального времени.
Расширение языкового диапазона: добавлена поддержка тайского, индонезийского, португальского и вьетнамского языков, что позволяет сохранить лидирующие в отрасли показатели точности транскрипции (WER) и схожести голоса на 13 языках.
Оптимизация редких символов: специальное обучение снизило уровень ошибок для редких символов с 15,2% до 5,3%.
Повышение производительности: задержка первого пакета уменьшилась на 35%, что значительно улучшило плавность взаимодействия в реальном времени.
Fun-AudioGen-VD: комплексное звуковое проектирование
Эта модель действует как «аудиорежиссер», генерируя интегрированный звук, сочетающий «персонажей + окружение».
Настройка голоса: Укажите пол, возраст, акцент и подробные характеристики, такие как «хриплый, глубокий или низкий» голос.
Эмоции и ролевые игры: имитирует роли, включая агентов службы поддержки клиентов, дикторов и детей, даже передавая сложные состояния, такие как «внешнее спокойствие с внутренним напряжением».
Иммерсивные среды: добавляет фоновые звуки (хаос на поле боя, шум в кафе) и пространственные эффекты (реверберация собора, подводная акустика) для полной пространственной симуляции.
Tongyi Lab отмечает, что эти модели демократизируют создание высококачественного голоса, предлагая мощную поддержку ИИ для подкастинга, разработки игр и постпродакшна фильмов.
Элон Маск проиграл иск против Сэма Альтмана и OpenAI
Утверждение Илона Маска о том, что сооснователи OpenAI обидели его, потерпело неудачу, когда девять присяжных из Калифорнии единогласно решили, что его иски были поданы слишком поздно.Маск заявил, что Сэм Альтман, Грег Брокман, OpenAI и Microsoft «у
Укажите название статьи, чтобы переформулировать его в виде вопроса.
В современном цифровом мире искусственный интеллект кардинально меняет все отрасли, и блогинг не является исключением. Блогеры постоянно ищут способы оптимизировать свои рабочие процессы, повысить кач
Ant Group представила Ling-2.6-flash с открытым исходным кодом — новую версию в семействе моделей Baoling
Сегодня серия крупных моделей Baoling от Ant Group получила значительное обновление: модель Ling-2.6-flash теперь официально доступна разработчикам по всему миру. Для обеспечения совместимости с разли











