Новое исследование компании Microsoft демонстрирует, что передовые методы рассуждений в больших языковых моделях не дают одинаковых улучшений в разных системах ИИ. В их новаторском исследовании проанализировано, как девять ведущих базовых моделей реагируют на различные подходы к масштабированию в процессе вывода.
Оценка методов масштабирования времени вывода
Исследовательская группа применила строгую методологию тестирования трех различных методов масштабирования:
Традиционное побуждение к цепочке мыслей
Параллельная генерация ответов с агрегированием
Последовательное уточнение с помощью циклов обратной связи
Экспериментальная структура для оценки эффективности рассуждений
Восемь комплексных контрольных заданий представляли собой сложные тестовые сценарии по различным дисциплинам, включая математику, научные рассуждения, решение сложных задач и пространственный анализ. В ряде заданий использовалась градация уровней сложности, что позволило изучить, как производительность зависит от сложности задач.
Ключевые открытия в области рассуждений
Комплексная оценка позволила сделать несколько важных выводов для специалистов по ИИ:
Прирост производительности за счет использования методов масштабирования существенно зависит от архитектуры модели и области задач.
Более длинные ответы не всегда коррелируют с лучшими решениями
Вычислительные затраты непредсказуемо колеблются даже для одинаковых запросов
Традиционные модели иногда могут сравняться со специализированными моделями рассуждений благодаря широкому масштабированию
Соотношение производительности и вычислительных затрат для разных моделей и задач
Практические последствия для развития ИИ
Эти выводы имеют существенные последствия для внедрения ИИ в корпоративном секторе:
Предсказуемость затрат является одной из основных проблем, а использование токенов показывает высокую дисперсию даже для правильных ответов. "Разработчикам нужны модели с последовательными схемами вычислений", - отмечает исследователь Microsoft Бесмира Нуши.
Исследование также определяет длину ответа как потенциальный индикатор уверенности модели: слишком длинные ответы часто сигнализируют о неправильных решениях, превышающих определенные пороговые значения.
Закономерности масштабирования выводов в производительности GPT-4o
Будущее эффективных систем рассуждений
В исследовании выделено несколько перспективных направлений для дальнейшего развития:
"Механизмы верификации могут изменить наш подход к проблемам рассуждений", - объясняет Нуши, предполагая, что существующие системы проверки предприятий могут быть адаптированы для приложений ИИ. Такая интеграция позволит интерфейсам на естественном языке использовать специализированную логику проверки.
Исследование подчеркивает растущую потребность в решениях, обеспечивающих баланс между точностью рассуждений и предсказуемыми вычислительными затратами, поскольку системы ИИ берут на себя все более сложные задачи в реальном мире.
При нажатии на «Принять все файлы cookie» вы соглашаетесь на хранение файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа использования сайта и поддержки наших маркетинговых усилий.Политика конфиденциальности Уведомление
При посещении любого веб-сайта он может хранить или получать информацию в вашем браузере, главным образом в виде файлов cookie. Эта информация может относиться к вам, вашим предпочтениям или вашему устройству и в основном используется для того, чтобы сайт работал так, как вы ожидаете. Эта информация обычно не идентифицирует вас напрямую, но может предоставить вам более персонализированный веб-опыт. Поскольку мы уважаем ваше право на конфиденциальность, вы можете отказаться от разрешения определенных типов файлов cookie. Нажмите на разные заголовки категорий, чтобы узнать больше и изменить наши параметры по умолчанию. Однако блокировка некоторых типов файлов cookie может повлиять на ваше восприятие сайта и предоставляемые нами услуги. Политика конфиденциальностиЗаявление
Управление предпочтениями
Строго необходимые файлы cookie
Всегда активен
Эти файлы cookie необходимы для работы веб-сайта и не могут быть отключены в наших системах. Обычно они устанавливаются только в ответ на ваши действия, которые являются запросом на предоставление услуг, например, настройка предпочтений конфиденциальности, вход в систему или заполнение форм. Вы можете настроить браузер на блокировку этих файлов cookie или оповещение о них, но тогда некоторые части сайта не будут работать. Эти файлы cookie не хранят никакой персональной информации, позволяющей идентифицировать вас.