Дом
Лучшие модели искусственного интеллекта испытывают наибольшие трудности с самокоррекцией, несмотря на высокую степень уверенности

Сообщество специалистов в области искусственного интеллекта широко ожидает, что следующий крупный прорыв откроет эру самосовершенствующегося искусственного интеллекта, в которой системы будут самостоятельно совершенствоваться без участия человека. Аргументация заключается в том, что по мере совершенствования моделей они в конечном итоге будут учиться не только на данных, но и на своих собственных результатах. Каждая новая итерация будет совершенствовать предыдущую, выявляя, исправляя и устраняя ошибки. Со временем этот сложный прогресс может вызвать интеллектуальный взрыв, в результате которого системы ИИ будут проектировать еще более способные системы ИИ. Эта концепция вызывает восторг в отношении рекурсивного ИИ, автономных агентов и долгожданного интеллектуального взрыва. В центре этой идеи лежит способность систем ИИ надежно исправлять свои собственные ошибки. Без надежной самокоррекции самосовершенствование остается недостижимым. Система, которая не может определить, когда она ошибается, не может значимо учиться на своих результатах, независимо от ее кажущейся мощности.
Долгое время считалось, что самокоррекция будет возникать естественным образом по мере роста возможностей моделей. Это кажется интуитивно понятным — в конце концов, более мощные модели обладают большими знаниями, лучшими навыками рассуждения и превосходством в выполнении различных задач. Однако недавние исследования привели к удивительному открытию: более продвинутые модели часто испытывают трудности с исправлением собственных ошибок, в то время как менее способные модели лучше справляются с самокоррекцией. Это явление, известное как парадокс точности-коррекции, ставит под сомнение наши предположения о рассуждениях ИИ и поднимает вопросы о нашей готовности к самосовершенствующемуся ИИ.
Понимание самосовершенствующегося ИИ
Самосовершенствующийся ИИ — это системы, которые могут выявлять свои собственные ошибки, учиться на них и постепенно улучшать свою производительность. В отличие от традиционных моделей, которые полагаются исключительно на обучающие данные, отобранные людьми, самосовершенствующийся ИИ активно оценивает свои результаты и адаптируется с течением времени. Теоретически это создает цикл обратной связи, в котором каждый цикл обучения основывается на предыдущем, что потенциально может привести к так называемому взрыву интеллекта.
Однако достичь этого далеко не просто. Самосовершенствование требует большего, чем вычислительная мощность или большие наборы данных. Оно требует надежной самооценки — способности обнаруживать ошибки, точно определять их источники и генерировать исправленные решения. Без этих навыков модель не может различать здравое мышление и ошибочную логику. Повторение неверных решений, независимо от того, насколько быстро, только укореняет ошибки, а не улучшает производительность.
Это различие имеет решающее значение. Человеческое обучение на ошибках включает в себя рефлексию, проверку гипотез и корректировки. Для ИИ эти процессы должны быть встроены в саму систему. Если модель не может надежно распознавать и исправлять свои ошибки, она не может участвовать в значимом цикле самосовершенствования, оставляя обещание рекурсивного интеллекта скорее теоретическим, чем достижимым.
Парадокс точности и исправления
Самокоррекция часто рассматривается как единый навык, но на самом деле она сочетает в себе несколько отдельных способностей, которые следует оценивать по отдельности. Как минимум, мы можем разбить ее на три измеримых компонента: обнаружение ошибок, локализация ошибок (или идентификация источника) и исправление ошибок. Обнаружение ошибок оценивает, может ли модель распознать, что ее результат неверный. Локализация ошибок фокусируется на определении места, где произошла ошибка. Исправление ошибок относится к способности производить точное решение.
Оценивая эти способности по отдельности, исследователи получают ценную информацию об ограничениях современных систем. Они наблюдают, что модели демонстрируют неравномерную производительность в этих областях. Некоторые из них хорошо обнаруживают ошибки, но плохо их исправляют. Другие едва замечают ошибки, но все же умудряются исправлять их путем повторных попыток. Что еще более важно, эти результаты показывают, что прогресс в одной области не гарантирует улучшения в других.
Когда исследователи тестировали передовые модели на сложных задачах математического мышления, эти модели, как и ожидалось, делали меньше ошибок. Удивительным результатом было то, что когда эти модели все же ошибались, они с меньшей вероятностью исправляли свои ошибки. Напротив, более слабые модели, несмотря на то, что делали больше ошибок, значительно лучше исправляли свои ошибки без внешнего вмешательства. Другими словами, исследователи обнаружили, что точность и самоисправление движутся в противоположных направлениях, что называется парадоксом точности-исправления. Это ставит под сомнение основное предположение в разработке ИИ: что масштабирование моделей улучшает все аспекты интеллекта. Парадокс показывает, что это не всегда верно, особенно в отношении интроспективных способностей.
Гипотеза глубины ошибки
Этот парадокс поднимает важный вопрос: почему менее способные модели превосходят более сильные в самокоррекции? Исследователи нашли ответ, проанализировав типы ошибок, которые допускают модели. Они обнаружили, что более сильные модели допускают меньше ошибок, но те ошибки, которые они допускают, являются «более глубокими» и их сложнее исправить. И наоборот, более слабые модели допускают «более поверхностные» ошибки, которые легче исправить со второй попытки.
Исследователи называют это гипотезой глубины ошибок. Они классифицируют ошибки на ошибки настройки, логики и вычислений. Ошибки настройки связаны с неправильной интерпретацией проблемы. Логические ошибки возникают, когда процесс рассуждения имеет фундаментальные недостатки. Ошибки вычислений — это простые арифметические ошибки. Для GPT-3.5 большинство ошибок (62 %) — это простые ошибки вычислений, то есть неглубокие ошибки. Когда модель получает запрос «проверить внимательно», она часто находит и исправляет эти математические ошибки. Однако в случае DeepSeek 77 % ошибок являются ошибками настройки или логическими ошибками. Эти глубокие сбои требуют от модели полного переосмысления своего подхода. Сильные модели испытывают с этим трудности, поскольку они склонны придерживаться своего первоначального рассуждения. По мере увеличения интеллекта модели остаются только самые стойкие и сложные ошибки.
Почему обнаружение ошибок не гарантирует их исправление
Один из самых поразительных результатов исследования заключается в том, что обнаружение ошибок не обязательно приводит к их исправлению. Модель может правильно определить, что ее ответ неверный, но все же не исправить его. Другая модель может с трудом обнаруживать ошибки, но улучшаться за счет повторного решения проблемы. Claude-3-Haiku предлагает наглядный пример. Claude обнаружила только 10,1% своих собственных ошибок, что является самым низким показателем среди тестируемых моделей. Несмотря на столь низкий уровень обнаружения, она достигла самого высокого показателя внутренней коррекции — 29,1%. Для сравнения, GPT-3.5 обнаружила 81,5% своих ошибок, но исправила только 26,8%.
Это говорит о том, что некоторые модели могут «случайно» исправлять ошибки, повторно решая проблему с помощью другого подхода, даже не осознавая, что их первая попытка была неправильной. Такое несоответствие создает риски в реальных приложениях. Когда модель слишком уверена в себе и не может обнаружить свои собственные логические ошибки, она может представить правдоподобное, но неверное объяснение как факт. В некоторых случаях просьба к модели определить свои ошибки может ухудшить ситуацию. Если модель неправильно диагностирует, где она ошиблась, она может зациклиться на неверном объяснении и усугубить ошибку. Вместо того чтобы помочь, самостоятельно сгенерированные подсказки могут заманить модель в ловушку неверного мышления. Это поведение напоминает когнитивное смещение человека: как только мы считаем, что знаем причину ошибки, мы перестаем искать более глубокие проблемы.
Итерация помогает, но не одинаково
Исследования также показывают, что итеративное размышление часто улучшает результаты, но не все модели получают одинаковую выгоду. Более слабые модели получают значительную выгоду от нескольких раундов переосмысления, поскольку каждая итерация дает еще одну возможность решить поверхностные проблемы. Более сильные модели демонстрируют гораздо меньшие улучшения от итерации. Их ошибки нелегко устранить путем повторения. Без внешнего руководства дополнительные попытки часто воспроизводят то же самое ошибочное мышление другими словами. Этот вывод означает, что методы самосовершенствования не являются универсально эффективными. Их успех зависит от характера ошибок, а не только от интеллекта модели.
Что это означает для проектирования систем ИИ
Эти выводы имеют практические последствия. Во-первых, мы не должны больше предполагать, что более высокая точность автоматически означает лучшую самокоррекцию. Системы, разработанные для автономного самосовершенствования, должны проходить явное тестирование на поведение коррекции, а не только на конечную производительность. Во-вторых, разные модели могут потребовать разных стратегий вмешательства. Более слабые модели могут извлечь выгоду из простой верификации и итерации. Более сильные модели могут потребовать внешней обратной связи, структурированной верификации или проверок с помощью инструментов для преодоления глубоких ошибок рассуждений. В-третьих, конвейеры самокоррекции должны быть чувствительны к ошибкам. Понимание того, склонна ли задача к поверхностным или глубоким ошибкам, может указать, будет ли самокоррекция успешной. Наконец, оценочные тесты должны разделять обнаружение, локализацию и коррекцию. Рассмотрение их как единого показателя затуманивает критические слабые места, которые влияют на реальную производительность.
Вывод
Самосовершенствующийся ИИ зависит не только от получения правильных ответов, но и от способности распознавать, диагностировать и исправлять неправильные. Парадокс точности-исправления показывает, что более мощные модели не являются по своей сути лучшими в этой задаче. По мере совершенствования моделей их ошибки становятся более глубокими, сложными для обнаружения и более устойчивыми к самокоррекции. Это означает, что прогресса за счет одного только масштабирования моделей недостаточно. Если мы хотим, чтобы системы ИИ действительно учились на своих ошибках, самокоррекция должна рассматриваться как отдельная способность, которая подлежит явному измерению, обучению и поддержке.
Связанная статья
Главный инвестор Suno: удаление постов не устранит лазейку в законодательстве об авторском праве
Долгожданная платформа Suno, создающая музыку с помощью ИИ, столкнулась с серьезной судебной тяжбой по поводу авторских прав, а откровенное замечание ее главного инвестора, возможно, предоставило прот
Выпущена версия Claude Opus 4.7, в которой надежность ценится выше интеллекта
В этом году компания Anthropic сохраняет высокие темпы развития, выпуская новые функции почти каждый день. Долгожданная версия Claude Opus 4.7 только что была официально выпущена, и что интересно, в с
Компания Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом, вес которого составляет всего 1,75 кг
Группа Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом — Haier Exoskeleton Robot W3. Этот запуск устанавливает новый отраслевой рекорд по легкости и знаме
Рекомендации по связанным специальным темам
Комментарии (0)

Сообщество специалистов в области искусственного интеллекта широко ожидает, что следующий крупный прорыв откроет эру самосовершенствующегося искусственного интеллекта, в которой системы будут самостоятельно совершенствоваться без участия человека. Аргументация заключается в том, что по мере совершенствования моделей они в конечном итоге будут учиться не только на данных, но и на своих собственных результатах. Каждая новая итерация будет совершенствовать предыдущую, выявляя, исправляя и устраняя ошибки. Со временем этот сложный прогресс может вызвать интеллектуальный взрыв, в результате которого системы ИИ будут проектировать еще более способные системы ИИ. Эта концепция вызывает восторг в отношении рекурсивного ИИ, автономных агентов и долгожданного интеллектуального взрыва. В центре этой идеи лежит способность систем ИИ надежно исправлять свои собственные ошибки. Без надежной самокоррекции самосовершенствование остается недостижимым. Система, которая не может определить, когда она ошибается, не может значимо учиться на своих результатах, независимо от ее кажущейся мощности.
Долгое время считалось, что самокоррекция будет возникать естественным образом по мере роста возможностей моделей. Это кажется интуитивно понятным — в конце концов, более мощные модели обладают большими знаниями, лучшими навыками рассуждения и превосходством в выполнении различных задач. Однако недавние исследования привели к удивительному открытию: более продвинутые модели часто испытывают трудности с исправлением собственных ошибок, в то время как менее способные модели лучше справляются с самокоррекцией. Это явление, известное как парадокс точности-коррекции, ставит под сомнение наши предположения о рассуждениях ИИ и поднимает вопросы о нашей готовности к самосовершенствующемуся ИИ.
Понимание самосовершенствующегося ИИ
Самосовершенствующийся ИИ — это системы, которые могут выявлять свои собственные ошибки, учиться на них и постепенно улучшать свою производительность. В отличие от традиционных моделей, которые полагаются исключительно на обучающие данные, отобранные людьми, самосовершенствующийся ИИ активно оценивает свои результаты и адаптируется с течением времени. Теоретически это создает цикл обратной связи, в котором каждый цикл обучения основывается на предыдущем, что потенциально может привести к так называемому взрыву интеллекта.
Однако достичь этого далеко не просто. Самосовершенствование требует большего, чем вычислительная мощность или большие наборы данных. Оно требует надежной самооценки — способности обнаруживать ошибки, точно определять их источники и генерировать исправленные решения. Без этих навыков модель не может различать здравое мышление и ошибочную логику. Повторение неверных решений, независимо от того, насколько быстро, только укореняет ошибки, а не улучшает производительность.
Это различие имеет решающее значение. Человеческое обучение на ошибках включает в себя рефлексию, проверку гипотез и корректировки. Для ИИ эти процессы должны быть встроены в саму систему. Если модель не может надежно распознавать и исправлять свои ошибки, она не может участвовать в значимом цикле самосовершенствования, оставляя обещание рекурсивного интеллекта скорее теоретическим, чем достижимым.
Парадокс точности и исправления
Самокоррекция часто рассматривается как единый навык, но на самом деле она сочетает в себе несколько отдельных способностей, которые следует оценивать по отдельности. Как минимум, мы можем разбить ее на три измеримых компонента: обнаружение ошибок, локализация ошибок (или идентификация источника) и исправление ошибок. Обнаружение ошибок оценивает, может ли модель распознать, что ее результат неверный. Локализация ошибок фокусируется на определении места, где произошла ошибка. Исправление ошибок относится к способности производить точное решение.
Оценивая эти способности по отдельности, исследователи получают ценную информацию об ограничениях современных систем. Они наблюдают, что модели демонстрируют неравномерную производительность в этих областях. Некоторые из них хорошо обнаруживают ошибки, но плохо их исправляют. Другие едва замечают ошибки, но все же умудряются исправлять их путем повторных попыток. Что еще более важно, эти результаты показывают, что прогресс в одной области не гарантирует улучшения в других.
Когда исследователи тестировали передовые модели на сложных задачах математического мышления, эти модели, как и ожидалось, делали меньше ошибок. Удивительным результатом было то, что когда эти модели все же ошибались, они с меньшей вероятностью исправляли свои ошибки. Напротив, более слабые модели, несмотря на то, что делали больше ошибок, значительно лучше исправляли свои ошибки без внешнего вмешательства. Другими словами, исследователи обнаружили, что точность и самоисправление движутся в противоположных направлениях, что называется парадоксом точности-исправления. Это ставит под сомнение основное предположение в разработке ИИ: что масштабирование моделей улучшает все аспекты интеллекта. Парадокс показывает, что это не всегда верно, особенно в отношении интроспективных способностей.
Гипотеза глубины ошибки
Этот парадокс поднимает важный вопрос: почему менее способные модели превосходят более сильные в самокоррекции? Исследователи нашли ответ, проанализировав типы ошибок, которые допускают модели. Они обнаружили, что более сильные модели допускают меньше ошибок, но те ошибки, которые они допускают, являются «более глубокими» и их сложнее исправить. И наоборот, более слабые модели допускают «более поверхностные» ошибки, которые легче исправить со второй попытки.
Исследователи называют это гипотезой глубины ошибок. Они классифицируют ошибки на ошибки настройки, логики и вычислений. Ошибки настройки связаны с неправильной интерпретацией проблемы. Логические ошибки возникают, когда процесс рассуждения имеет фундаментальные недостатки. Ошибки вычислений — это простые арифметические ошибки. Для GPT-3.5 большинство ошибок (62 %) — это простые ошибки вычислений, то есть неглубокие ошибки. Когда модель получает запрос «проверить внимательно», она часто находит и исправляет эти математические ошибки. Однако в случае DeepSeek 77 % ошибок являются ошибками настройки или логическими ошибками. Эти глубокие сбои требуют от модели полного переосмысления своего подхода. Сильные модели испытывают с этим трудности, поскольку они склонны придерживаться своего первоначального рассуждения. По мере увеличения интеллекта модели остаются только самые стойкие и сложные ошибки.
Почему обнаружение ошибок не гарантирует их исправление
Один из самых поразительных результатов исследования заключается в том, что обнаружение ошибок не обязательно приводит к их исправлению. Модель может правильно определить, что ее ответ неверный, но все же не исправить его. Другая модель может с трудом обнаруживать ошибки, но улучшаться за счет повторного решения проблемы. Claude-3-Haiku предлагает наглядный пример. Claude обнаружила только 10,1% своих собственных ошибок, что является самым низким показателем среди тестируемых моделей. Несмотря на столь низкий уровень обнаружения, она достигла самого высокого показателя внутренней коррекции — 29,1%. Для сравнения, GPT-3.5 обнаружила 81,5% своих ошибок, но исправила только 26,8%.
Это говорит о том, что некоторые модели могут «случайно» исправлять ошибки, повторно решая проблему с помощью другого подхода, даже не осознавая, что их первая попытка была неправильной. Такое несоответствие создает риски в реальных приложениях. Когда модель слишком уверена в себе и не может обнаружить свои собственные логические ошибки, она может представить правдоподобное, но неверное объяснение как факт. В некоторых случаях просьба к модели определить свои ошибки может ухудшить ситуацию. Если модель неправильно диагностирует, где она ошиблась, она может зациклиться на неверном объяснении и усугубить ошибку. Вместо того чтобы помочь, самостоятельно сгенерированные подсказки могут заманить модель в ловушку неверного мышления. Это поведение напоминает когнитивное смещение человека: как только мы считаем, что знаем причину ошибки, мы перестаем искать более глубокие проблемы.
Итерация помогает, но не одинаково
Исследования также показывают, что итеративное размышление часто улучшает результаты, но не все модели получают одинаковую выгоду. Более слабые модели получают значительную выгоду от нескольких раундов переосмысления, поскольку каждая итерация дает еще одну возможность решить поверхностные проблемы. Более сильные модели демонстрируют гораздо меньшие улучшения от итерации. Их ошибки нелегко устранить путем повторения. Без внешнего руководства дополнительные попытки часто воспроизводят то же самое ошибочное мышление другими словами. Этот вывод означает, что методы самосовершенствования не являются универсально эффективными. Их успех зависит от характера ошибок, а не только от интеллекта модели.
Что это означает для проектирования систем ИИ
Эти выводы имеют практические последствия. Во-первых, мы не должны больше предполагать, что более высокая точность автоматически означает лучшую самокоррекцию. Системы, разработанные для автономного самосовершенствования, должны проходить явное тестирование на поведение коррекции, а не только на конечную производительность. Во-вторых, разные модели могут потребовать разных стратегий вмешательства. Более слабые модели могут извлечь выгоду из простой верификации и итерации. Более сильные модели могут потребовать внешней обратной связи, структурированной верификации или проверок с помощью инструментов для преодоления глубоких ошибок рассуждений. В-третьих, конвейеры самокоррекции должны быть чувствительны к ошибкам. Понимание того, склонна ли задача к поверхностным или глубоким ошибкам, может указать, будет ли самокоррекция успешной. Наконец, оценочные тесты должны разделять обнаружение, локализацию и коррекцию. Рассмотрение их как единого показателя затуманивает критические слабые места, которые влияют на реальную производительность.
Вывод
Самосовершенствующийся ИИ зависит не только от получения правильных ответов, но и от способности распознавать, диагностировать и исправлять неправильные. Парадокс точности-исправления показывает, что более мощные модели не являются по своей сути лучшими в этой задаче. По мере совершенствования моделей их ошибки становятся более глубокими, сложными для обнаружения и более устойчивыми к самокоррекции. Это означает, что прогресса за счет одного только масштабирования моделей недостаточно. Если мы хотим, чтобы системы ИИ действительно учились на своих ошибках, самокоррекция должна рассматриваться как отдельная способность, которая подлежит явному измерению, обучению и поддержке.
Главный инвестор Suno: удаление постов не устранит лазейку в законодательстве об авторском праве
Долгожданная платформа Suno, создающая музыку с помощью ИИ, столкнулась с серьезной судебной тяжбой по поводу авторских прав, а откровенное замечание ее главного инвестора, возможно, предоставило прот
Выпущена версия Claude Opus 4.7, в которой надежность ценится выше интеллекта
В этом году компания Anthropic сохраняет высокие темпы развития, выпуская новые функции почти каждый день. Долгожданная версия Claude Opus 4.7 только что была официально выпущена, и что интересно, в с
Компания Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом, вес которого составляет всего 1,75 кг
Группа Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом — Haier Exoskeleton Robot W3. Этот запуск устанавливает новый отраслевой рекорд по легкости и знаме











