Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

Дом

Новости

19 июля 2025 г.

OliviaJones

# ai # research

Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.

Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.

Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.

Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.

Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

График из исследования, показывающий улучшение производительности моделей благодаря инструментам отладки. Источник изображения: Microsoft

Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.

«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»

Посетите TechCrunch Sessions: ИИ

Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.

Презентация на TechCrunch Sessions: ИИ

Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.

Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.

Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.

Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.

Связанная статья

ChatGPT использовался для кражи конфиденциальных данных Gmail в результате взлома системы безопасности Предупреждение о безопасности: Исследователи продемонстрировали технологию утечки данных с помощью искусственного интеллектаЭксперты по кибербезопасности недавно обнаружили уязвимость, позволяющую исп

Anthropic признает ошибку искусственного интеллекта Клода в юридической документации, называя ее "постыдной и непреднамеренной" Компания Anthropic ответила на обвинения, касающиеся источника, сгенерированного искусственным интеллектом, в своем текущем судебном споре с музыкальными издателями, охарактеризовав этот инцидент как

Gmail внедряет автоматическое составление резюме писем с помощью искусственного интеллекта Резюме электронной почты на основе Gemini-технологии станут доступны пользователям рабочей областиПодписчики Google Workspace заметят, что Gemini стал играть более важную роль в управлении их почтов

Комментарии (6)

0/200

Представлять на рассмотрение

ThomasScott

7 сентября 2025 г., 7:30:35 GMT+03:00

微软这个研究结果太真实了😂 前几天用Copilot改bug，它居然把正确代码改得更错了…看来AI写代码还是得人工把关，至少现阶段别太依赖它们debug。

HenryWalker

17 августа 2025 г., 8:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but this Microsoft study shows it's not perfect at debugging. Kinda makes you wonder if we're trusting these models a bit too much too soon. 😅 Anyone else worried about buggy AI code sneaking into big projects?

BrianRoberts

14 августа 2025 г., 10:00:59 GMT+03:00

It's wild that AI is cranking out 25% of Google's code, but the debugging struggles are real. Makes me wonder if we're leaning too hard on AI without fixing its blind spots first. 🧑‍💻

KevinDavis

10 августа 2025 г., 0:00:59 GMT+03:00

It's wild that AI is pumping out 25% of Google's code, but the debugging limitations in this study make me wonder if we're leaning too hard on these models without enough human oversight. 🤔

PeterThomas

1 августа 2025 г., 5:48:18 GMT+03:00

Interesting read! AI generating 25% of Google's code is wild, but I'm not surprised it struggles with debugging. Machines can churn out code fast, but catching tricky bugs? That’s still a human’s game. 🧑‍💻

JuanWhite

23 июля 2025 г., 7:59:29 GMT+03:00

AI coding sounds cool, but if it can't debug properly, what's the point? 🤔 Feels like we're hyping up half-baked tools while devs still clean up the mess.

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O AI Builder и Power Automate Революционизируют Суммирование Документов Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы Duolingo Переходит на Систему Энергии OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Два бесплатных способа получить подписку Perplexity Pro на один год

Более

Показан