вариант
Дом
Новости
Исследование Microsoft показало, что большее количество ИИ-токенов увеличивает количество ошибок в рассуждениях

Исследование Microsoft показало, что большее количество ИИ-токенов увеличивает количество ошибок в рассуждениях

29 сентября 2025 г.
1

Новые сведения об эффективности рассуждений в LLM

Новое исследование компании Microsoft демонстрирует, что передовые методы рассуждений в больших языковых моделях не дают одинаковых улучшений в разных системах ИИ. В их новаторском исследовании проанализировано, как девять ведущих базовых моделей реагируют на различные подходы к масштабированию в процессе вывода.

Оценка методов масштабирования времени вывода

Исследовательская группа применила строгую методологию тестирования трех различных методов масштабирования:

  • Традиционное побуждение к цепочке мыслей
  • Параллельная генерация ответов с агрегированием
  • Последовательное уточнение с помощью циклов обратной связи
Экспериментальная структура для оценки эффективности рассуждений

Восемь комплексных контрольных заданий представляли собой сложные тестовые сценарии по различным дисциплинам, включая математику, научные рассуждения, решение сложных задач и пространственный анализ. В ряде заданий использовалась градация уровней сложности, что позволило изучить, как производительность зависит от сложности задач.

Ключевые открытия в области рассуждений

Комплексная оценка позволила сделать несколько важных выводов для специалистов по ИИ:

  • Прирост производительности за счет использования методов масштабирования существенно зависит от архитектуры модели и области задач.
  • Более длинные ответы не всегда коррелируют с лучшими решениями
  • Вычислительные затраты непредсказуемо колеблются даже для одинаковых запросов
  • Традиционные модели иногда могут сравняться со специализированными моделями рассуждений благодаря широкому масштабированию
  • Механизмы верификации обещают повысить эффективность
Соотношение производительности и вычислительных затрат для разных моделей и задач

Практические последствия для развития ИИ

Эти выводы имеют существенные последствия для внедрения ИИ в корпоративном секторе:

Предсказуемость затрат является одной из основных проблем, а использование токенов показывает высокую дисперсию даже для правильных ответов. "Разработчикам нужны модели с последовательными схемами вычислений", - отмечает исследователь Microsoft Бесмира Нуши.

Исследование также определяет длину ответа как потенциальный индикатор уверенности модели: слишком длинные ответы часто сигнализируют о неправильных решениях, превышающих определенные пороговые значения.

Закономерности масштабирования выводов в производительности GPT-4o

Будущее эффективных систем рассуждений

В исследовании выделено несколько перспективных направлений для дальнейшего развития:

"Механизмы верификации могут изменить наш подход к проблемам рассуждений", - объясняет Нуши, предполагая, что существующие системы проверки предприятий могут быть адаптированы для приложений ИИ. Такая интеграция позволит интерфейсам на естественном языке использовать специализированную логику проверки.

Исследование подчеркивает растущую потребность в решениях, обеспечивающих баланс между точностью рассуждений и предсказуемыми вычислительными затратами, поскольку системы ИИ берут на себя все более сложные задачи в реальном мире.

Связанная статья
Почему магистранты игнорируют инструкции и как это эффективно исправить Почему магистранты игнорируют инструкции и как это эффективно исправить Понимание того, почему большие языковые модели пропускают инструкцииБольшие языковые модели (БЯМ) изменили способы взаимодействия с искусственным интеллектом, позволяя создавать самые разнообразные п
Приложение Gemini от Google добавляет видео с искусственным интеллектом в реальном времени, Deep Research и новые функции (120 знаков) Приложение Gemini от Google добавляет видео с искусственным интеллектом в реальном времени, Deep Research и новые функции (120 знаков) На конференции для разработчиков I/O 2025 компания Google представила значительные усовершенствования ИИ Gemini, расширив мультимодальные возможности, представив модели ИИ нового поколения и укрепив и
Облако Google обеспечивает прорыв в научных исследованиях и открытиях Облако Google обеспечивает прорыв в научных исследованиях и открытиях Цифровая революция трансформирует научные методологии благодаря беспрецедентным вычислительным возможностям. Передовые технологии теперь дополняют теоретические основы и лабораторные эксперименты, спо
Вернуться к вершине
OR