Дом
Плагин vLLM-ATOM от AMD повышает эффективность инференса для локальных крупномасштабных моделей искусственного интеллекта
Компания AMD официально представила плагин vLLM-ATOM, специально разработанный для развертывания крупных языковых моделей. Этот плагин призван значительно повысить производительность инференса популярных отечественных крупных моделей, таких как DeepSeek-R1 и Kimi-K2, на аппаратном обеспечении AMD, при этом не нарушая существующие рабочие процессы.
Как открытая среда инференса, созданная для сценариев с высокой степенью параллелизма, vLLM славится высокой эффективностью использования памяти. Новый плагин от AMD предоставляет более адаптированное решение по оптимизации для графических процессоров серии Instinct, позволяя разработчикам осуществлять техническую миграцию с минимальными затратами на освоение.

Беспроблемное повышение производительности
Основным преимуществом плагина vLLM-ATOM является его «бесплатное» развертывание. Пользователям не требуется модифицировать существующие API или сквозные рабочие процессы. Плагин автоматически управляет и оптимизирует планирование запросов и настройку ядра в фоновом режиме, позволяя текущим сервисам плавно переходить на аппаратную платформу AMD.
С архитектурной точки зрения плагин состоит из трех уровней: верхний уровень обеспечивает совместимость с интерфейсом OpenAI, средний уровень обрабатывает выполнение и маршрутизацию моделей, а нижний уровень предоставляет основные ядра графического процессора. Такая конструкция эффективно объединяет технологии смеси экспертов (MoE) и квантования, гарантируя надежную поддержку крупномасштабных развертываний.
Широкая совместимость с различными вычислительными экосистемами
Плагин предназначен для высокопроизводительных графических процессоров AMD серий Instinct MI350 и MI400. Он поддерживает не только ведущие китайские большие языковые модели, такие как Qwen3 и GLM, но и всесторонне охватывает разнообразные сценарии применения, включая плотные модели, модели смеси экспертов и модели «зрение-язык» (VLM).
Связанная статья
iFlytek представляет свои первые очки с искусственным интеллектом, оснащенные помощником GlassClaw, по цене 4299 юаней.
По мере того как крупные модели искусственного интеллекта все чаще используются в периферийном оборудовании, рынок умных носимых устройств получил нового значимого участника. 28 мая компания iFLYTEK официально представила свои «Очки iFLYTEK AI» на вы
Лэй Цзюнь подтвердил, что компания Xiaomi разрабатывает настольный ИИ-ассистент MiClaw, а MiMo-V2-Pro будет доступен на всех платформах
На Форуме высокого уровня по развитию Китая 2026 года глава Xiaomi Group Лэй Цзюнь подтвердил, что долгожданная настольная версия ИИ-агента «MiClaw» (краб) теперь включена в план разработки. 6 марта X
OpenAI возобновляет работу в сфере робототехники, а Automan ищет инженеров для исследований и разработок в области инфраструктуры
1 июня генеральный директор OpenAI Сэм Альтман объявил в социальных сетях, что компания вновь выходит на рынок робототехники, открыв вакансии в команде OpenAI Robotics. Компания ищет инженеров по аппа
Рекомендации по связанным специальным темам
Комментарии (0)
Компания AMD официально представила плагин vLLM-ATOM, специально разработанный для развертывания крупных языковых моделей. Этот плагин призван значительно повысить производительность инференса популярных отечественных крупных моделей, таких как DeepSeek-R1 и Kimi-K2, на аппаратном обеспечении AMD, при этом не нарушая существующие рабочие процессы.
Как открытая среда инференса, созданная для сценариев с высокой степенью параллелизма, vLLM славится высокой эффективностью использования памяти. Новый плагин от AMD предоставляет более адаптированное решение по оптимизации для графических процессоров серии Instinct, позволяя разработчикам осуществлять техническую миграцию с минимальными затратами на освоение.

Беспроблемное повышение производительности
Основным преимуществом плагина vLLM-ATOM является его «бесплатное» развертывание. Пользователям не требуется модифицировать существующие API или сквозные рабочие процессы. Плагин автоматически управляет и оптимизирует планирование запросов и настройку ядра в фоновом режиме, позволяя текущим сервисам плавно переходить на аппаратную платформу AMD.
С архитектурной точки зрения плагин состоит из трех уровней: верхний уровень обеспечивает совместимость с интерфейсом OpenAI, средний уровень обрабатывает выполнение и маршрутизацию моделей, а нижний уровень предоставляет основные ядра графического процессора. Такая конструкция эффективно объединяет технологии смеси экспертов (MoE) и квантования, гарантируя надежную поддержку крупномасштабных развертываний.
Широкая совместимость с различными вычислительными экосистемами
Плагин предназначен для высокопроизводительных графических процессоров AMD серий Instinct MI350 и MI400. Он поддерживает не только ведущие китайские большие языковые модели, такие как Qwen3 и GLM, но и всесторонне охватывает разнообразные сценарии применения, включая плотные модели, модели смеси экспертов и модели «зрение-язык» (VLM).
iFlytek представляет свои первые очки с искусственным интеллектом, оснащенные помощником GlassClaw, по цене 4299 юаней.
По мере того как крупные модели искусственного интеллекта все чаще используются в периферийном оборудовании, рынок умных носимых устройств получил нового значимого участника. 28 мая компания iFLYTEK официально представила свои «Очки iFLYTEK AI» на вы
Лэй Цзюнь подтвердил, что компания Xiaomi разрабатывает настольный ИИ-ассистент MiClaw, а MiMo-V2-Pro будет доступен на всех платформах
На Форуме высокого уровня по развитию Китая 2026 года глава Xiaomi Group Лэй Цзюнь подтвердил, что долгожданная настольная версия ИИ-агента «MiClaw» (краб) теперь включена в план разработки. 6 марта X
OpenAI возобновляет работу в сфере робототехники, а Automan ищет инженеров для исследований и разработок в области инфраструктуры
1 июня генеральный директор OpenAI Сэм Альтман объявил в социальных сетях, что компания вновь выходит на рынок робототехники, открыв вакансии в команде OpenAI Robotics. Компания ищет инженеров по аппа











