вариант
Дом
Новости
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

19 июля 2025 г.
80

Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.

Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.

Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.

Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.

Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

Тест Microsoft по отладке ИИ
График из исследования, показывающий улучшение производительности моделей благодаря инструментам отладки. Источник изображения: Microsoft

Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.

«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»

Посетите TechCrunch Sessions: ИИ

Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.

Презентация на TechCrunch Sessions: ИИ

Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.

Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.

Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.

Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.

Связанная статья
Клод 4 представлен: AI-модели нового поколения повышают производительность в программировании и агентских задачах Клод 4 представлен: AI-модели нового поколения повышают производительность в программировании и агентских задачах Anthropic запустила семейство моделей Claude 4, что стало значительным шагом вперед для разработчиков, создающих передовые AI-помощники и решения для программирования. Линейка включает Claude Opus 4,
Hugging Face запускает предзаказы на настольные роботы Reachy Mini Hugging Face запускает предзаказы на настольные роботы Reachy Mini Hugging Face приглашает разработчиков ознакомиться с новейшей инновацией в области робототехники.Платформа AI объявила в среду, что теперь принимает предзаказы на настольные роботы Reachy Mini. Компан
Новый AI-чип Nvidia сталкивается с растущим доминированием Huawei в Китае Новый AI-чип Nvidia сталкивается с растущим доминированием Huawei в Китае Nvidia готовится к конкуренции с Huawei, чтобы сохранить свои позиции на процветающем рынке AI-чипов в Китае.Предстоящий AI-чип Nvidia для Китая — это смелый стратегический шаг, представляющий третью
HenryWalker
HenryWalker 17 августа 2025 г., 8:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts
BrianRoberts 14 августа 2025 г., 10:00:59 GMT+03:00

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis
KevinDavis 10 августа 2025 г., 0:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas
PeterThomas 1 августа 2025 г., 5:48:18 GMT+03:00

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite
JuanWhite 23 июля 2025 г., 7:59:29 GMT+03:00

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

Вернуться к вершине
OR