OpenAI Codex присоединяется к новой волне автономных ИИ-помощников для программистов

OpenAI запустила Codex в прошлую пятницу — продвинутую систему программирования, которая выполняет сложные задачи кодирования с помощью инструкций на естественном языке. Это нововведение ставит OpenAI в ряд передовых агентских инструментов кодирования, преобразующих разработку программного обеспечения.
В отличие от традиционных помощников по ИИ-кодированию, таких как GitHub Copilot, Cursor или Windsurf, которые функционируют как сложное автодополнение в средах разработки, эти новые агентские инструменты устраняют прямое взаимодействие с кодом. Текущие решения по-прежнему требуют контроля со стороны разработчика, а не автономного выполнения задач.
Созданные такими системами, как Devin, SWE-Agent, OpenHands и OpenAI Codex, это новое поколение работает в фоновом режиме. Они функционируют как инженерные менеджеры: получают задачи через такие платформы, как Asana или Slack, и предоставляют готовые решения без раскрытия исходного кода.
Для оптимистов в области ИИ это представляет собой неизбежный прогресс в автоматизации все более сложных рабочих процессов программной инженерии.
«Программирование эволюционировало от ручного ввода клавиш до интеллектуального автодополнения GitHub Copilot», — отмечает Килиан Лирет из Принстона и SWE-Agent. «Сейчас мы вступаем в третью стадию — когда агенты кодирования самостоятельно выполняют задачи после получения описания проблемы».
Агентские системы нацелены на полный обход сред разработчика. «Мы поднимаем рабочий процесс на уровень управления», — поясняет Лирет. «Просто зарегистрируйте отчёт об ошибке, и автономные агенты попытаются решить её без вмешательства».
Несмотря на это видение, проблемы реализации сохраняются.
Присоединяйтесь к нам на TechCrunch Sessions: AI
Забронируйте свой билет на нашу главную ИИ-конференцию с участием экспертов из OpenAI, Anthropic и Cohere. Специальное предложение: полнодневный доступ к ключевым выступлениям, мастер-классам и нетворкингу всего за $292.
Участвуйте в выставке на TechCrunch Sessions: AI
Продемонстрируйте свои инновации более чем 1200 лидерам отрасли на TC Sessions: AI. Доступные выставочные площади доступны до 9 мая или до распродажи.
Запуск Devin в 2024 году столкнулся с жёсткой критикой на YouTube и взвешенными отзывами от Answer.AI, что отражает общие опасения: уровень ошибок часто сводит на нет преимущества автоматизации. (Несмотря на проблемы с запуском, Cognition AI привлекла финансирование в $400 млн при оценке в $4 млрд).
Сторонники отрасли подчёркивают необходимость человеческого контроля, позиционируя агентов кодирования как компоненты в контролируемых рабочих процессах, а не как замену.
«Текущие системы требуют проверки кода человеком», — заявляет Роберт Бреннан из All Hands AI. «Слепое одобрение кода, сгенерированного агентом, быстро создаёт технический долг».
Галлюцинации остаются проблемой. Бреннан приводит случаи, когда агенты выдумывали спецификации API, выходящие за пределы их обучающих данных. Системы предотвращения находятся в разработке, но решения нетривиальны.
Таблица лидеров SWE-Bench отслеживает прогресс, оценивая модели по реальным проблемам с GitHub. OpenHands лидирует по проверенным результатам (65,8% решённых), в то время как OpenAI заявляет, что Codex достигает 72,1% — в ожидании независимой проверки.
Скептицизм в отрасли сосредоточен на том, приводит ли производительность в тестах к практической автономии. Уровень успеха в 75% по-прежнему требует значительного человеческого контроля, особенно в многоэтапных системах.
Как и все инструменты ИИ, постепенные улучшения моделей могут в конечном итоге привести к созданию надёжных агентских систем. Преодоление галлюцинаций и проблем с надёжностью остаётся критически важным для внедрения.
«Мы приближаемся к барьеру доверия», — отмечает Бреннан. «Фундаментальный вопрос заключается в следующем: какую рабочую нагрузку мы можем безопасно делегировать, сохраняя контроль качества?».
Связанная статья
Luma AI представляет авторегрессионную модель Uni-1, которая одновременно генерирует текст и пиксели
23 марта компания Luma Labs представила свою модель генерации изображений Uni-1, которая стала первой общедоступной моделью компании, построенной на архитектуре Unified Intelligence. На официальном са
У Цзиньчжоу из NVIDIA: для автономного вождения настал «момент ChatGPT», серийное производство автомобилей уровня L4 больше не является мечтой
В быстро развивающейся области физического искусственного интеллекта автономное вождение часто рассматривается как первая серьезная задача, которую предстоит решить. Недавно У Синьчжоу, вице-президент
Anthropic незаметно повышает цены на код Claude, суточные сборы для разработчиков удвоились
Проблемы, связанные с затратами на программирование с использованием ИИ, становятся все более очевидными. Anthropic, ведущая компания в сфере искусственного интеллекта, недавно скорректировала цены на
Рекомендации по связанным специальным темам
Комментарии (0)

OpenAI запустила Codex в прошлую пятницу — продвинутую систему программирования, которая выполняет сложные задачи кодирования с помощью инструкций на естественном языке. Это нововведение ставит OpenAI в ряд передовых агентских инструментов кодирования, преобразующих разработку программного обеспечения.
В отличие от традиционных помощников по ИИ-кодированию, таких как GitHub Copilot, Cursor или Windsurf, которые функционируют как сложное автодополнение в средах разработки, эти новые агентские инструменты устраняют прямое взаимодействие с кодом. Текущие решения по-прежнему требуют контроля со стороны разработчика, а не автономного выполнения задач.
Созданные такими системами, как Devin, SWE-Agent, OpenHands и OpenAI Codex, это новое поколение работает в фоновом режиме. Они функционируют как инженерные менеджеры: получают задачи через такие платформы, как Asana или Slack, и предоставляют готовые решения без раскрытия исходного кода.
Для оптимистов в области ИИ это представляет собой неизбежный прогресс в автоматизации все более сложных рабочих процессов программной инженерии.
«Программирование эволюционировало от ручного ввода клавиш до интеллектуального автодополнения GitHub Copilot», — отмечает Килиан Лирет из Принстона и SWE-Agent. «Сейчас мы вступаем в третью стадию — когда агенты кодирования самостоятельно выполняют задачи после получения описания проблемы».
Агентские системы нацелены на полный обход сред разработчика. «Мы поднимаем рабочий процесс на уровень управления», — поясняет Лирет. «Просто зарегистрируйте отчёт об ошибке, и автономные агенты попытаются решить её без вмешательства».
Несмотря на это видение, проблемы реализации сохраняются.
Присоединяйтесь к нам на TechCrunch Sessions: AI
Забронируйте свой билет на нашу главную ИИ-конференцию с участием экспертов из OpenAI, Anthropic и Cohere. Специальное предложение: полнодневный доступ к ключевым выступлениям, мастер-классам и нетворкингу всего за $292.
Участвуйте в выставке на TechCrunch Sessions: AI
Продемонстрируйте свои инновации более чем 1200 лидерам отрасли на TC Sessions: AI. Доступные выставочные площади доступны до 9 мая или до распродажи.
Запуск Devin в 2024 году столкнулся с жёсткой критикой на YouTube и взвешенными отзывами от Answer.AI, что отражает общие опасения: уровень ошибок часто сводит на нет преимущества автоматизации. (Несмотря на проблемы с запуском, Cognition AI привлекла финансирование в $400 млн при оценке в $4 млрд).
Сторонники отрасли подчёркивают необходимость человеческого контроля, позиционируя агентов кодирования как компоненты в контролируемых рабочих процессах, а не как замену.
«Текущие системы требуют проверки кода человеком», — заявляет Роберт Бреннан из All Hands AI. «Слепое одобрение кода, сгенерированного агентом, быстро создаёт технический долг».
Галлюцинации остаются проблемой. Бреннан приводит случаи, когда агенты выдумывали спецификации API, выходящие за пределы их обучающих данных. Системы предотвращения находятся в разработке, но решения нетривиальны.
Таблица лидеров SWE-Bench отслеживает прогресс, оценивая модели по реальным проблемам с GitHub. OpenHands лидирует по проверенным результатам (65,8% решённых), в то время как OpenAI заявляет, что Codex достигает 72,1% — в ожидании независимой проверки.
Скептицизм в отрасли сосредоточен на том, приводит ли производительность в тестах к практической автономии. Уровень успеха в 75% по-прежнему требует значительного человеческого контроля, особенно в многоэтапных системах.
Как и все инструменты ИИ, постепенные улучшения моделей могут в конечном итоге привести к созданию надёжных агентских систем. Преодоление галлюцинаций и проблем с надёжностью остаётся критически важным для внедрения.
«Мы приближаемся к барьеру доверия», — отмечает Бреннан. «Фундаментальный вопрос заключается в следующем: какую рабочую нагрузку мы можем безопасно делегировать, сохраняя контроль качества?».
Luma AI представляет авторегрессионную модель Uni-1, которая одновременно генерирует текст и пиксели
23 марта компания Luma Labs представила свою модель генерации изображений Uni-1, которая стала первой общедоступной моделью компании, построенной на архитектуре Unified Intelligence. На официальном са
У Цзиньчжоу из NVIDIA: для автономного вождения настал «момент ChatGPT», серийное производство автомобилей уровня L4 больше не является мечтой
В быстро развивающейся области физического искусственного интеллекта автономное вождение часто рассматривается как первая серьезная задача, которую предстоит решить. Недавно У Синьчжоу, вице-президент
Anthropic незаметно повышает цены на код Claude, суточные сборы для разработчиков удвоились
Проблемы, связанные с затратами на программирование с использованием ИИ, становятся все более очевидными. Anthropic, ведущая компания в сфере искусственного интеллекта, недавно скорректировала цены на





Дом






