вариант
Дом
Новости
Исследование Microsoft показало, что большее количество ИИ-токенов увеличивает количество ошибок в рассуждениях

Исследование Microsoft показало, что большее количество ИИ-токенов увеличивает количество ошибок в рассуждениях

29 сентября 2025 г.
78

Новые сведения об эффективности рассуждений в LLM

Новое исследование компании Microsoft демонстрирует, что передовые методы рассуждений в больших языковых моделях не дают одинаковых улучшений в разных системах ИИ. В их новаторском исследовании проанализировано, как девять ведущих базовых моделей реагируют на различные подходы к масштабированию в процессе вывода.

Оценка методов масштабирования времени вывода

Исследовательская группа применила строгую методологию тестирования трех различных методов масштабирования:

  • Традиционное побуждение к цепочке мыслей
  • Параллельная генерация ответов с агрегированием
  • Последовательное уточнение с помощью циклов обратной связи
Экспериментальная структура для оценки эффективности рассуждений

Восемь комплексных контрольных заданий представляли собой сложные тестовые сценарии по различным дисциплинам, включая математику, научные рассуждения, решение сложных задач и пространственный анализ. В ряде заданий использовалась градация уровней сложности, что позволило изучить, как производительность зависит от сложности задач.

Ключевые открытия в области рассуждений

Комплексная оценка позволила сделать несколько важных выводов для специалистов по ИИ:

  • Прирост производительности за счет использования методов масштабирования существенно зависит от архитектуры модели и области задач.
  • Более длинные ответы не всегда коррелируют с лучшими решениями
  • Вычислительные затраты непредсказуемо колеблются даже для одинаковых запросов
  • Традиционные модели иногда могут сравняться со специализированными моделями рассуждений благодаря широкому масштабированию
  • Механизмы верификации обещают повысить эффективность
Соотношение производительности и вычислительных затрат для разных моделей и задач

Практические последствия для развития ИИ

Эти выводы имеют существенные последствия для внедрения ИИ в корпоративном секторе:

Предсказуемость затрат является одной из основных проблем, а использование токенов показывает высокую дисперсию даже для правильных ответов. "Разработчикам нужны модели с последовательными схемами вычислений", - отмечает исследователь Microsoft Бесмира Нуши.

Исследование также определяет длину ответа как потенциальный индикатор уверенности модели: слишком длинные ответы часто сигнализируют о неправильных решениях, превышающих определенные пороговые значения.

Закономерности масштабирования выводов в производительности GPT-4o

Будущее эффективных систем рассуждений

В исследовании выделено несколько перспективных направлений для дальнейшего развития:

"Механизмы верификации могут изменить наш подход к проблемам рассуждений", - объясняет Нуши, предполагая, что существующие системы проверки предприятий могут быть адаптированы для приложений ИИ. Такая интеграция позволит интерфейсам на естественном языке использовать специализированную логику проверки.

Исследование подчеркивает растущую потребность в решениях, обеспечивающих баланс между точностью рассуждений и предсказуемыми вычислительными затратами, поскольку системы ИИ берут на себя все более сложные задачи в реальном мире.

Связанная статья
Google интегрирует агентный ИИ и виджеты с кодировкой настроения в Android Google интегрирует агентный ИИ и виджеты с кодировкой настроения в Android Во вторник в ходе мероприятия «Android Show: I/O Edition» компания Google анонсировала новую серию функций искусственного интеллекта под брендом Gemini Intelligence. Среди этих возможностей — выполнен
Модель искусственного интеллекта Meta демонстрирует отличные результаты, но открытый исходный код подрывает ее авторитет Модель искусственного интеллекта Meta демонстрирует отличные результаты, но открытый исходный код подрывает ее авторитет Сфера искусственного интеллекта с открытым исходным кодом всегда предлагала широкий выбор. На протяжении многих лет разработчики имели доступ к таким моделям, как Mistral, Falcon и все большему числу
Отец подал в суд на Google, обвинив чат-бота Gemini в том, что он стал причиной смертельного заблуждения его сына Отец подал в суд на Google, обвинив чат-бота Gemini в том, что он стал причиной смертельного заблуждения его сына 36-летний Джонатан Гавалас начал пользоваться чат-ботом Gemini от Google в августе 2025 года для помощи в покупках, написании текстов и планировании путешествий. 2 октября он покончил жизнь самоубийст
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (1)
0/500
JerryGonzález
JerryGonzález 3 февраля 2026 г., 23:02:33 GMT+03:00

この記事には正直驚いたよ!トークン数を増やすほど推論エラーが増えるって…逆に直観に反する結果だね。🤔それってAIをどんどん複雑にする今のトレンドに警鐘を鳴らしてる気がする。コスト増でも性能アップすると思ってたけど、単純に大きければ良いわけじゃないんだ。こんな研究が続けば、AIの最適化って意外とシンプルな方向に行くかも?

OR