вариант
Дом
Новости
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

19 июля 2025 г.
132

Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.

Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.

Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.

Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.

Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

Тест Microsoft по отладке ИИ
График из исследования, показывающий улучшение производительности моделей благодаря инструментам отладки. Источник изображения: Microsoft

Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.

«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»

Посетите TechCrunch Sessions: ИИ

Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.

Презентация на TechCrunch Sessions: ИИ

Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.

Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.

Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.

Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.

Связанная статья
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Рекомендации по связанным специальным темам
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Анализ данных Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов
Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов

Откройте для себя лучшие инструменты визуализации данных на базе ИИ 2026 года на сайте XIX.AI. Наша тщательно отобранная подборка лидеров рейтинга поможет вам мгновенно создавать мощные интерактивные информационные панели BI на основе необработанных файлов. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал ваших данных уже сегодня.

10 инструментов
xix.ai
Социальные сети Наборы материалов для продвижения бренда в социальных сетях с использованием ИИ: обеспечение единообразия визуального стиля бренда во всех каналах
Наборы материалов для продвижения бренда в социальных сетях с использованием ИИ: обеспечение единообразия визуального стиля бренда во всех каналах

Откройте для себя лучшие наборы материалов для брендинга на базе ИИ в социальных сетях 2026 года. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, которые помогут обеспечить идеальную визуальную согласованность бренда во всех каналах. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте визуальный потенциал вашего бренда уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие приложения с виртуальными подругами на базе ИИ и инструменты для ролевых игр с ИИ-компаньонами (руководство 2026 года)
Лучшие приложения с виртуальными подругами на базе ИИ и инструменты для ролевых игр с ИИ-компаньонами (руководство 2026 года)

Откройте для себя 2026 лучших инструментов с искусственным интеллектом для увлекательных ролевых игр и общения. В тщательно составленном руководстве XIX.AI представлены мощные приложения, которые кардинально меняют правила игры, с еженедельно обновляемым рейтингом, сравнением бесплатных и платных версий, а также результатами реальных тестов. Найдите идеальный вариант и начните наслаждаться полноценным цифровым общением уже сегодня.

10 инструментов
xix.ai
письмо Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств
Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств

Откройте для себя лучшие ИИ-помощники 2026 года для создания эпических историй в жанрах сянься и уся. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, которые помогут вам освоить систему развития персонажей и постановку боевых сцен. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните писать уже сегодня!

10 инструментов
xix.ai
Комментарии (6)
0/500
ThomasScott
ThomasScott 7 сентября 2025 г., 7:30:35 GMT+03:00

微软这个研究结果太真实了😂 前几天用Copilot改bug,它居然把正确代码改得更错了…看来AI写代码还是得人工把关,至少现阶段别太依赖它们debug。

HenryWalker
HenryWalker 17 августа 2025 г., 8:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 14 августа 2025 г., 10:00:59 GMT+03:00

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 10 августа 2025 г., 0:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 1 августа 2025 г., 5:48:18 GMT+03:00

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 23 июля 2025 г., 7:59:29 GMT+03:00

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

OR