вариант
Дом
Новости
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения

19 июля 2025 г.
0

Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% нового кода в компании, в то время как генеральный директор Meta Марк Цукерберг стремится широко внедрить инструменты программирования на основе ИИ в гиганте социальных сетей.

Однако даже лучшие модели с трудом справляются с исправлением ошибок в программном обеспечении, которые опытные разработчики устраняют с лёгкостью.

Недавнее исследование Microsoft Research, проведённое подразделением исследований и разработок Microsoft, показывает, что такие модели, как Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не могут решить многие проблемы в тесте разработки программного обеспечения SWE-bench Lite. Результаты подчёркивают, что, несмотря на амбициозные заявления компаний, таких как OpenAI, ИИ всё ещё уступает человеческому опыту в таких областях, как программирование.

Исследователи протестировали девять моделей в качестве основы для «агента на основе единого запроса», оснащённого инструментами отладки, включая отладчик Python. Агент должен был решить 300 специально отобранных задач по отладке программного обеспечения из SWE-bench Lite.

Результаты показали, что даже с продвинутыми моделями агент редко успешно справлялся с более чем половиной задач. Claude 3.7 Sonnet лидировала с показателем успеха 48,4%, за ней следовала модель o1 от OpenAI с 30,2% и o3-mini с 22,1%.

Тест Microsoft по отладке ИИ
График из исследования, показывающий улучшение производительности моделей благодаря инструментам отладки. Источник изображения: Microsoft

Что объясняет такие скромные результаты? Некоторые модели с трудом эффективно использовали доступные инструменты отладки или определяли, какие инструменты подходят для конкретных проблем. Основная причина, по мнению исследователей, — недостаток обучающих данных, особенно данных, отражающих «последовательные процессы принятия решений», такие как трассировки отладки, выполняемые человеком.

«Мы считаем, что обучение или тонкая настройка этих моделей может улучшить их способности к отладке», — написали исследователи. «Однако это требует специализированных данных, таких как траекторные данные, фиксирующие взаимодействие агентов с отладчиком для сбора информации перед предложением исправлений.»

Посетите TechCrunch Sessions: ИИ

Забронируйте место на нашем главном событии в индустрии ИИ с участием спикеров от OpenAI, Anthropic и Cohere. Только в течение ограниченного времени билеты стоят всего $292 за полный день экспертных выступлений, мастер-классов и возможностей для нетворкинга.

Презентация на TechCrunch Sessions: ИИ

Забронируйте место на TC Sessions: ИИ, чтобы представить свою работу более чем 1200 лицам, принимающим решения. Возможности для выставки доступны до 9 мая или до полного заполнения столов.

Результаты не удивительны. Многочисленные исследования показали, что код, сгенерированный ИИ, часто содержит уязвимости в безопасности и ошибки из-за слабого понимания логики программирования. Недавний тест Devin, известного инструмента программирования на основе ИИ, показал, что он смог выполнить только три из 20 задач программирования.

Исследование Microsoft предлагает одно из самых глубоких исследований этой продолжающейся проблемы для моделей ИИ. Хотя вряд ли это охладит интерес инвесторов к инструментам программирования на основе ИИ, это может заставить разработчиков и их руководителей пересмотреть сильную зависимость от ИИ в задачах программирования.

Примечательно, что несколько технологических лидеров выступили против идеи, что ИИ устранит рабочие места программистов. Сооснователь Microsoft Билл Гейтс, генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд МакКиннон и генеральный директор IBM Арвинд Кришна выразили уверенность в том, что профессия программиста сохранится.

Связанная статья
AI-мощные решения могут значительно сократить глобальные выбросы углерода AI-мощные решения могут значительно сократить глобальные выбросы углерода Недавнее исследование Лондонской школы экономики и Systemiq показывает, что искусственный интеллект может существенно снизить глобальные выбросы углерода без ущерба для современных удобств, позиционир
Apple представляет улучшенные функции Siri этой осенью Apple представляет улучшенные функции Siri этой осенью Apple готовится запустить свои передовые, ориентированные на пользователя возможности Siri до сезона праздников 2025 года, как сообщает The New York Times. Ссылаясь на три осведомленных источника, изд
Вашингтон Пост сотрудничает с OpenAI для улучшения доступа к новостям через ChatGPT Вашингтон Пост сотрудничает с OpenAI для улучшения доступа к новостям через ChatGPT Вашингтон Пост и OpenAI объявили о «стратегическом партнерстве» для «расширения доступа к надежным новостям через ChatGPT», согласно пресс-релизу Вашингтон Пост.OpenAI заключила союзы с более чем 20 д
Вернуться к вершине
OR