Mistral представляет модель генерации речи с открытым исходным кодом
Французская компания Mistral, специализирующаяся на искусственном интеллекте, представила в четверг новую модель преобразования текста в речь с открытым исходным кодом, предназначенную для голосовых ИИ-помощников и корпоративных приложений, таких как служба поддержки клиентов. Модель позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, что делает Mistral прямым конкурентом ElevenLabs, Deepgram и OpenAI.
Модель, получившая название Voxtral TTS, поддерживает девять языков, включая английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.
«Наши клиенты просили нас создать модель речи. Поэтому мы разработали компактную модель речи, которая может работать на смарт-часах, смартфонах, ноутбуках и других периферийных устройствах. Ее стоимость составляет лишь небольшую часть от стоимости других решений на рынке, но при этом она обеспечивает передовую производительность», — сказал Пьер Сток, вице-президент по научным операциям в Mistral AI, в телефонном интервью TechCrunch.

Источник изображения: Mistral
Mistral заявляет, что новая модель может адаптироваться к индивидуальному голосу с помощью образца длиной менее пяти секунд, улавливая тонкие акценты, интонации и неровности в потоке речи. Построенная на базе Ministral 3B, она может плавно переключаться между языками, сохраняя при этом характеристики голоса, что делает ее идеальной для дубляжа или перевода в реальном времени. Сток отметил, что компания стремилась сделать так, чтобы модель звучала по-человечески, а не по-роботически.
По данным компании, модель создана для работы в режиме реального времени. Ее время до первого звука (TTFA) — время между получением входных данных и началом «речи» — составляет 90 мс для 10-секундного образца из 500 символов. Модель также достигает коэффициента реального времени (RTF) 6x, что означает, что она может сгенерировать 10-секундный клип примерно за 1,6 секунды.

Изображение предоставлено: Mistral AI
Ранее в этом году Mistral запустила две модели транскрипции — одну для крупномасштабной пакетной обработки, другую — для сценариев использования в режиме реального времени с низкой задержкой. С новой речевой моделью компания, по-видимому, создает комплексный набор голосовых продуктов для предприятий.
Сток добавил: «Мы планируем создать сквозную платформу, способную обрабатывать мультимодальные входные потоки — аудио, текст и изображения — а также выходные данные. Ключевым преимуществом является то, что сквозная агентная система, поддерживающая аудиовход и аудиовыход, предоставляет гораздо более богатую информацию».
Mistral позиционирует свой открытый исходный код и возможности настройки как ключевые отличительные черты, позволяющие предприятиям адаптировать модель к своим конкретным потребностям, что делает ее более привлекательной по сравнению с решениями конкурентов.
Связанная статья
Spotify представляет инструмент для создания аудиокниг на базе искусственного интеллекта, разработанный ElevenLabs
В рамках своих последних анонсов Spotify представила новый инструмент на базе искусственного интеллекта от ElevenLabs, который позволяет авторам самостоятельно публиковать аудиокниги напрямую через пл
Лучшие приложения для диктовки с ИИ: обзоры экспертов и рейтинги
Приложения для диктовки на базе ИИ за относительно короткий срок добились впечатляющих успехов. Долгое время они работали медленно и часто допускали ошибки, требуя от пользователей говорить с определе
Wispr Flow делает ставку на будущее голосового ИИ в Индии, несмотря на трудности
Цифровое пространство Индии тесно связано с голосовыми технологиями — от голосовых заметок до многоязычного обмена сообщениями. Превращение этих широко распространенных привычек в масштабируемый бизне
Рекомендации по связанным специальным темам
Комментарии (0)
Французская компания Mistral, специализирующаяся на искусственном интеллекте, представила в четверг новую модель преобразования текста в речь с открытым исходным кодом, предназначенную для голосовых ИИ-помощников и корпоративных приложений, таких как служба поддержки клиентов. Модель позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, что делает Mistral прямым конкурентом ElevenLabs, Deepgram и OpenAI.
Модель, получившая название Voxtral TTS, поддерживает девять языков, включая английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.
«Наши клиенты просили нас создать модель речи. Поэтому мы разработали компактную модель речи, которая может работать на смарт-часах, смартфонах, ноутбуках и других периферийных устройствах. Ее стоимость составляет лишь небольшую часть от стоимости других решений на рынке, но при этом она обеспечивает передовую производительность», — сказал Пьер Сток, вице-президент по научным операциям в Mistral AI, в телефонном интервью TechCrunch.

Источник изображения: Mistral
Mistral заявляет, что новая модель может адаптироваться к индивидуальному голосу с помощью образца длиной менее пяти секунд, улавливая тонкие акценты, интонации и неровности в потоке речи. Построенная на базе Ministral 3B, она может плавно переключаться между языками, сохраняя при этом характеристики голоса, что делает ее идеальной для дубляжа или перевода в реальном времени. Сток отметил, что компания стремилась сделать так, чтобы модель звучала по-человечески, а не по-роботически.
По данным компании, модель создана для работы в режиме реального времени. Ее время до первого звука (TTFA) — время между получением входных данных и началом «речи» — составляет 90 мс для 10-секундного образца из 500 символов. Модель также достигает коэффициента реального времени (RTF) 6x, что означает, что она может сгенерировать 10-секундный клип примерно за 1,6 секунды.

Изображение предоставлено: Mistral AI
Ранее в этом году Mistral запустила две модели транскрипции — одну для крупномасштабной пакетной обработки, другую — для сценариев использования в режиме реального времени с низкой задержкой. С новой речевой моделью компания, по-видимому, создает комплексный набор голосовых продуктов для предприятий.
Сток добавил: «Мы планируем создать сквозную платформу, способную обрабатывать мультимодальные входные потоки — аудио, текст и изображения — а также выходные данные. Ключевым преимуществом является то, что сквозная агентная система, поддерживающая аудиовход и аудиовыход, предоставляет гораздо более богатую информацию».
Mistral позиционирует свой открытый исходный код и возможности настройки как ключевые отличительные черты, позволяющие предприятиям адаптировать модель к своим конкретным потребностям, что делает ее более привлекательной по сравнению с решениями конкурентов.
Spotify представляет инструмент для создания аудиокниг на базе искусственного интеллекта, разработанный ElevenLabs
В рамках своих последних анонсов Spotify представила новый инструмент на базе искусственного интеллекта от ElevenLabs, который позволяет авторам самостоятельно публиковать аудиокниги напрямую через пл
Лучшие приложения для диктовки с ИИ: обзоры экспертов и рейтинги
Приложения для диктовки на базе ИИ за относительно короткий срок добились впечатляющих успехов. Долгое время они работали медленно и часто допускали ошибки, требуя от пользователей говорить с определе
Wispr Flow делает ставку на будущее голосового ИИ в Индии, несмотря на трудности
Цифровое пространство Индии тесно связано с голосовыми технологиями — от голосовых заметок до многоязычного обмена сообщениями. Превращение этих широко распространенных привычек в масштабируемый бизне





Дом






