Дом
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения
Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.
Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.
Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.
Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.
Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

График из исследования, показывающий улучшение производительности моделей благодаря инструментам отладки. Источник изображения: Microsoft Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.
«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»
Посетите TechCrunch Sessions: ИИ
Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.
Презентация на TechCrunch Sessions: ИИ
Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.
Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.
Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.
Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.
Связанная статья
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Рекомендации по связанным специальным темам
Комментарии (6)
It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?
It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻
It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔
Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻
Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.
Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.
Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.
Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.
Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.
«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»
Посетите TechCrunch Sessions: ИИ
Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.
Презентация на TechCrunch Sessions: ИИ
Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.
Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.
Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.
Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?
It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑💻
It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔
Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑💻











