Дом
Qwen 3.5-Omni побил рекорд, достигнув 215 баллов по шкале SOTA, и положил начало эре искусственного интеллекта, охватывающего все чувства
Вчера вечером компания Tongyi Lab официально представила новую мультимодальную крупномасштабную модель Qwen3.5-Omni. По сравнению со своей предшественницей эта модель демонстрирует значительный скачок в области понимания, взаимодействия и выполнения задач, превращая ИИ из «ассистента, привязанного к экрану» в «интеллектуального агента, понимающего физический мир».
Основные усовершенствования: полная мультимодальность и 215 тестов SOTA
Qwen3.5-Omni обладает собственной архитектурой «Full Modality», позволяющей ей беспрепятственно обрабатывать текст, изображения, аудио и видео. В ходе оценок, охватывающих аудиовизуальный анализ, рассуждения, диалог и перевод, модель достигла 215 результатов, соответствующих современному уровню развития (SOTA). Примечательно, что ее общие возможности понимания и распознавания аудио превзошли такие модели, как Gemini-3.1Pro, в то время как ее визуальные и текстовые показатели остаются на высшем уровне, соответствуя аналогичной модели Qwen3.5 аналогичного масштаба.

Техническая архитектура: Hybrid-Attention MoE
Модель основана на классической архитектуре Thinker-Talker с фундаментальной переработкой архитектуры:
Thinker (Центр понимания): Модернизирован до Hybrid-Attention Mixture of Experts (MoE), поддерживающего сверхдлинный контекст из 256K токенов. Это позволяет ему обрабатывать до 10 часов аудио или 1 час видео, точно улавливая мельчайшие детали в длинных последовательностях с помощью технологии TMRoPE.
Talker (центр выражения): включает новую технологию ARIA и кодирование RVQ, заменяя вычислительно сложные процессы DiT. Это не только решает распространенные проблемы генерации аудио, такие как пропуск слов и неправильное произношение цифр, но и наделяет модель надежными возможностями управления голосом в реальном времени.
Реальные приложения: от кодирования настроения до клонирования голоса
Возможности Qwen3.5-Omni позволяют реализовать несколько революционных сценариев применения:
Естественное кодирование Vibe: модель демонстрирует впечатляющее понимание и генерацию кода без специального обучения, что позволяет ей создавать код Python или прототипы интерфейса непосредственно на основе логики видео.
Взаимодействие в реальном времени, подобное человеческому: поддерживает семантические прерывания. Может различать фоновый шум (например, кашель) и намеренные прерывания, а пользователи могут регулировать тон (например, «радостный») и громкость с помощью простых инструкций.
Детальный анализ видео: Может генерировать структурированные субтитры с отметками времени, точно идентифицируя действия, смену фоновой музыки и переходы камеры в видео.
Персонализированное клонирование голоса: пользователи могут создать очень естественный, персонализированный «цифровой голос», загрузив короткий аудиофрагмент; поддерживается 113 языков.
Qwen3.5-Omni теперь доступен на платформе Alibaba Cloud BaiLian в версиях Plus, Flash и Light. API для диалога в реальном времени (Realtime) и демо-версия также доступны через сообщество ModelScope.
Связанная статья
Компания Apple удалила приложение Cal AI из-за несанкционированных покупок внутри приложения и манипулятивных способов осуществления платежей.
Недавнее удаление Apple приложения Cal AI, популярного приложения для отслеживания потребления пищи на основе искусственного интеллекта в рамках сервиса MyFitnessPal, подчеркивает строгое соблюдение Apple политик App Store в отношении внешних платеже
Тарификация Github Copilot на основе токенов вызывает возмущение среди разработчиков
Золотой век сервиса GitHub Copilot от Microsoft, по-видимому, подходит к концу, особенно для частных пользователей. Компания переходит от фиксированной абонентской платы к модели оплаты на основе токенов, что может значительно увеличить затраты. Боль
Основные моменты документа SpaceX о публичном размещении акций: амбиции по расширению услуг спутникового Интернета и использованию искусственного интеллекта
В своем заявлении о регистрации типа S-1, представленном перед планируемым IPO, компания SpaceX представила ряд впечатляющих финансовых показателей, подчеркивающих ее прочные позиции в области аэрокосмической связи и искусственного интеллекта:Число
Рекомендации по связанным специальным темам
Комментарии (0)
Вчера вечером компания Tongyi Lab официально представила новую мультимодальную крупномасштабную модель Qwen3.5-Omni. По сравнению со своей предшественницей эта модель демонстрирует значительный скачок в области понимания, взаимодействия и выполнения задач, превращая ИИ из «ассистента, привязанного к экрану» в «интеллектуального агента, понимающего физический мир».
Основные усовершенствования: полная мультимодальность и 215 тестов SOTA
Qwen3.5-Omni обладает собственной архитектурой «Full Modality», позволяющей ей беспрепятственно обрабатывать текст, изображения, аудио и видео. В ходе оценок, охватывающих аудиовизуальный анализ, рассуждения, диалог и перевод, модель достигла 215 результатов, соответствующих современному уровню развития (SOTA). Примечательно, что ее общие возможности понимания и распознавания аудио превзошли такие модели, как Gemini-3.1Pro, в то время как ее визуальные и текстовые показатели остаются на высшем уровне, соответствуя аналогичной модели Qwen3.5 аналогичного масштаба.

Техническая архитектура: Hybrid-Attention MoE
Модель основана на классической архитектуре Thinker-Talker с фундаментальной переработкой архитектуры:
Thinker (Центр понимания): Модернизирован до Hybrid-Attention Mixture of Experts (MoE), поддерживающего сверхдлинный контекст из 256K токенов. Это позволяет ему обрабатывать до 10 часов аудио или 1 час видео, точно улавливая мельчайшие детали в длинных последовательностях с помощью технологии TMRoPE.
Talker (центр выражения): включает новую технологию ARIA и кодирование RVQ, заменяя вычислительно сложные процессы DiT. Это не только решает распространенные проблемы генерации аудио, такие как пропуск слов и неправильное произношение цифр, но и наделяет модель надежными возможностями управления голосом в реальном времени.
Реальные приложения: от кодирования настроения до клонирования голоса
Возможности Qwen3.5-Omni позволяют реализовать несколько революционных сценариев применения:
Естественное кодирование Vibe: модель демонстрирует впечатляющее понимание и генерацию кода без специального обучения, что позволяет ей создавать код Python или прототипы интерфейса непосредственно на основе логики видео.
Взаимодействие в реальном времени, подобное человеческому: поддерживает семантические прерывания. Может различать фоновый шум (например, кашель) и намеренные прерывания, а пользователи могут регулировать тон (например, «радостный») и громкость с помощью простых инструкций.
Детальный анализ видео: Может генерировать структурированные субтитры с отметками времени, точно идентифицируя действия, смену фоновой музыки и переходы камеры в видео.
Персонализированное клонирование голоса: пользователи могут создать очень естественный, персонализированный «цифровой голос», загрузив короткий аудиофрагмент; поддерживается 113 языков.
Qwen3.5-Omni теперь доступен на платформе Alibaba Cloud BaiLian в версиях Plus, Flash и Light. API для диалога в реальном времени (Realtime) и демо-версия также доступны через сообщество ModelScope.
Компания Apple удалила приложение Cal AI из-за несанкционированных покупок внутри приложения и манипулятивных способов осуществления платежей.
Недавнее удаление Apple приложения Cal AI, популярного приложения для отслеживания потребления пищи на основе искусственного интеллекта в рамках сервиса MyFitnessPal, подчеркивает строгое соблюдение Apple политик App Store в отношении внешних платеже
Тарификация Github Copilot на основе токенов вызывает возмущение среди разработчиков
Золотой век сервиса GitHub Copilot от Microsoft, по-видимому, подходит к концу, особенно для частных пользователей. Компания переходит от фиксированной абонентской платы к модели оплаты на основе токенов, что может значительно увеличить затраты. Боль
Основные моменты документа SpaceX о публичном размещении акций: амбиции по расширению услуг спутникового Интернета и использованию искусственного интеллекта
В своем заявлении о регистрации типа S-1, представленном перед планируемым IPO, компания SpaceX представила ряд впечатляющих финансовых показателей, подчеркивающих ее прочные позиции в области аэрокосмической связи и искусственного интеллекта:Число











