ИИ Github Copilot проверил: смешанный успех кодирования оставляет меня сбитым с толку

Дом

Новости

21 апреля 2025 г.

GregoryAllen

195

Исследование несоответствий в инструментах кодирования с ИИ

Действительно загадочно, как инструменты ИИ, построенные на одной и той же базовой большой языковой модели, могут давать такие разные результаты. Например, ChatGPT, Perplexity и GitHub Copilot используют модель GPT-4 от OpenAI. Однако мои недавние тесты показали значительные различия в производительности: платные планы ChatGPT и Perplexity показали отличные результаты, тогда как GitHub Copilot имел успех лишь в 50% случаев.

Я проводил эти тесты, используя GitHub Copilot, интегрированный в среду VS Code. В предстоящей статье я поделюсь подробным руководством по настройке этой среды. А пока давайте углубимся в детали проведенных мной тестов.

Если вам любопытна моя методология тестирования и использованные запросы, вы можете ознакомиться с подробным руководством по оценке возможностей кодирования ИИ-чатбота.

Коротко: GitHub Copilot успешно прошел два из четырех проведенных мной тестов.

Тест 1: Написание плагина для WordPress

Этот тест оказался полным разочарованием. Это был мой первый эксперимент, и я остался в недоумении, действительно ли GitHub Copilot плохо справляется с кодированием или ограничения взаимодействия в VS Code мешают его возможностям.

Контекст таков: я попросил ИИ разработать полноценный плагин для WordPress с административным интерфейсом и рабочей логикой. Задача плагина заключалась в том, чтобы принимать список имен, сортировать их и разделять дубликаты, чтобы избежать их соседства.

Эта задача возникла из реальной потребности в бизнесе моей жены по продаже цифровых товаров, где она управляет активной группой в Facebook.

Из десяти протестированных моделей ИИ пять полностью прошли этот тест, три прошли частично, а две, включая Microsoft Copilot, полностью провалились. GitHub Copilot, несмотря на одинаковый запрос, создал только PHP-код. Хотя задачу действительно можно было решить только на PHP, GitHub Copilot пытался ссылаться на JavaScript, не создавая его.

Скриншот от David Gewirtz/ZDNET

Когда я попытался запросить GitHub Copilot из файла JavaScript для завершения задачи, он странным образом ответил дополнительным PHP-кодом, все еще ссылаясь на несуществующий файл JavaScript.

Скриншот от David Gewirtz/ZDNET

Тест 2: Переписывание строковой функции

Этот тест был относительно простым: я предоставил функцию, предназначенную для проверки долларов и центов, но проверяющую только целые доллары. Задача заключалась в том, чтобы ИИ исправил функцию.

GitHub Copilot действительно изменил код, но результат был проблемным. Он предполагал, что любая входная строка действительна, что вызвало бы ошибки при пустой строке. Кроме того, обновленное регулярное выражение не могло обработать различные крайние случаи, такие как входные данные "3.", ".3" или "00.30". Для функции, предназначенной для проверки валюты, такие недочеты недопустимы, что означает еще один провал для GitHub Copilot.

Тест 3: Поиск раздражающей ошибки

Здесь GitHub Copilot проявил себя блестяще. Этот тест был основан на реальной задаче кодирования, с которой я столкнулся, где сообщение об ошибке не указывало напрямую на настоящую проблему. Это похоже на загадку кодирования, требующую глубокого понимания вызовов API WordPress для решения.

В то время как Microsoft Copilot, Gemini и Meta Code Llama споткнулись на этом тесте, GitHub Copilot справился с ним, продемонстрировав свою способность решать сложные реальные проблемы.

Тест 4: Написание скрипта

GitHub Copilot также преуспел в этом тесте, где Microsoft Copilot не справился. Задача заключалась в создании скрипта, который должен был интегрировать AppleScript, объектную модель Chrome и утилиту для Mac под названием Keyboard Maestro.

Для прохождения теста ИИ должен был распознать и учесть нюансы всех трех сред, и GitHub Copilot сделал это.

Заключительные мысли

Разочаровывает видеть, что GitHub Copilot, использующий продвинутую модель GPT-4, провалил половину тестов. Учитывая статус GitHub как ведущей платформы управления исходным кодом, можно было бы ожидать, что его поддержка кодирования с ИИ будет более надежной.

Однако мир ИИ постоянно развивается, и я оптимистично настроен на то, что производительность GitHub Copilot со временем улучшится. Мы вернемся к этому через несколько месяцев, чтобы посмотреть, как он продвинулся.

Полагаетесь ли вы на ИИ для помощи в кодировании? Какой инструмент ИИ является вашим основным? Пробовали ли вы GitHub Copilot? Поделитесь своим опытом в комментариях ниже.

Следите за обновлениями моего ежедневного прогресса в проектах в социальных сетях. Не забудьте подписаться на мою еженедельную рассылку и следить за мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, на Bluesky по адресу @DavidGewirtz.com и на YouTube по адресу YouTube.com/DavidGewirtzTV.

Связанная статья

Master Emerald Kaizo Nuzlocke: Ultimate Survival & Strategy Guide Emerald Kaizo - один из самых грозных хаков для Pokémon ROM, которые когда-либо были придуманы. Несмотря на то, что попытка запустить Nuzlocke в разы увеличивает сложность игры, победа остается достиж

Сопроводительные письма на основе искусственного интеллекта: Экспертное руководство по подаче документов в журнал В сегодняшней конкурентной среде научных изданий составление эффективного сопроводительного письма может сыграть решающую роль в принятии вашей рукописи. Узнайте, как инструменты с искусственным интел

США введут санкции против иностранных чиновников из-за правил пользования социальными сетями США выступают против глобального регулирования цифрового контентаНа этой неделе Государственный департамент США выступил с резким дипломатическим обвинением в адрес европейской политики управления ц

Комментарии (24)

0/200

Представлять на рассмотрение

StephenRoberts

13 августа 2025 г., 22:01:01 GMT+03:00

GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?

WalterWilliams

5 августа 2025 г., 16:01:00 GMT+03:00

It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?

WillieLee

29 июля 2025 г., 15:25:16 GMT+03:00

GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?

JerryGonzalez

28 июля 2025 г., 4:19:04 GMT+03:00

GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.

JuanLewis

24 апреля 2025 г., 2:53:39 GMT+03:00

GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔

HenryJackson

23 апреля 2025 г., 17:51:43 GMT+03:00

GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы AI Builder и Power Automate Революционизируют Суммирование Документов OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество

Более

Показан