ИИ Github Copilot проверил: смешанный успех кодирования оставляет меня сбитым с толку
Исследование несоответствий в инструментах кодирования с ИИ
Действительно загадочно, как инструменты ИИ, построенные на одной и той же базовой большой языковой модели, могут давать такие разные результаты. Например, ChatGPT, Perplexity и GitHub Copilot используют модель GPT-4 от OpenAI. Однако мои недавние тесты показали значительные различия в производительности: платные планы ChatGPT и Perplexity показали отличные результаты, тогда как GitHub Copilot имел успех лишь в 50% случаев.
Я проводил эти тесты, используя GitHub Copilot, интегрированный в среду VS Code. В предстоящей статье я поделюсь подробным руководством по настройке этой среды. А пока давайте углубимся в детали проведенных мной тестов.
Если вам любопытна моя методология тестирования и использованные запросы, вы можете ознакомиться с подробным руководством по оценке возможностей кодирования ИИ-чатбота.
Коротко: GitHub Copilot успешно прошел два из четырех проведенных мной тестов.
Тест 1: Написание плагина для WordPress
Этот тест оказался полным разочарованием. Это был мой первый эксперимент, и я остался в недоумении, действительно ли GitHub Copilot плохо справляется с кодированием или ограничения взаимодействия в VS Code мешают его возможностям.
Контекст таков: я попросил ИИ разработать полноценный плагин для WordPress с административным интерфейсом и рабочей логикой. Задача плагина заключалась в том, чтобы принимать список имен, сортировать их и разделять дубликаты, чтобы избежать их соседства.
Эта задача возникла из реальной потребности в бизнесе моей жены по продаже цифровых товаров, где она управляет активной группой в Facebook.
Из десяти протестированных моделей ИИ пять полностью прошли этот тест, три прошли частично, а две, включая Microsoft Copilot, полностью провалились. GitHub Copilot, несмотря на одинаковый запрос, создал только PHP-код. Хотя задачу действительно можно было решить только на PHP, GitHub Copilot пытался ссылаться на JavaScript, не создавая его.

Скриншот от David Gewirtz/ZDNET Когда я попытался запросить GitHub Copilot из файла JavaScript для завершения задачи, он странным образом ответил дополнительным PHP-кодом, все еще ссылаясь на несуществующий файл JavaScript.

Скриншот от David Gewirtz/ZDNET Тест 2: Переписывание строковой функции
Этот тест был относительно простым: я предоставил функцию, предназначенную для проверки долларов и центов, но проверяющую только целые доллары. Задача заключалась в том, чтобы ИИ исправил функцию.
GitHub Copilot действительно изменил код, но результат был проблемным. Он предполагал, что любая входная строка действительна, что вызвало бы ошибки при пустой строке. Кроме того, обновленное регулярное выражение не могло обработать различные крайние случаи, такие как входные данные "3.", ".3" или "00.30". Для функции, предназначенной для проверки валюты, такие недочеты недопустимы, что означает еще один провал для GitHub Copilot.
Тест 3: Поиск раздражающей ошибки
Здесь GitHub Copilot проявил себя блестяще. Этот тест был основан на реальной задаче кодирования, с которой я столкнулся, где сообщение об ошибке не указывало напрямую на настоящую проблему. Это похоже на загадку кодирования, требующую глубокого понимания вызовов API WordPress для решения.
В то время как Microsoft Copilot, Gemini и Meta Code Llama споткнулись на этом тесте, GitHub Copilot справился с ним, продемонстрировав свою способность решать сложные реальные проблемы.
Тест 4: Написание скрипта
GitHub Copilot также преуспел в этом тесте, где Microsoft Copilot не справился. Задача заключалась в создании скрипта, который должен был интегрировать AppleScript, объектную модель Chrome и утилиту для Mac под названием Keyboard Maestro.
Для прохождения теста ИИ должен был распознать и учесть нюансы всех трех сред, и GitHub Copilot сделал это.
Заключительные мысли
Разочаровывает видеть, что GitHub Copilot, использующий продвинутую модель GPT-4, провалил половину тестов. Учитывая статус GitHub как ведущей платформы управления исходным кодом, можно было бы ожидать, что его поддержка кодирования с ИИ будет более надежной.
Однако мир ИИ постоянно развивается, и я оптимистично настроен на то, что производительность GitHub Copilot со временем улучшится. Мы вернемся к этому через несколько месяцев, чтобы посмотреть, как он продвинулся.
Полагаетесь ли вы на ИИ для помощи в кодировании? Какой инструмент ИИ является вашим основным? Пробовали ли вы GitHub Copilot? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего ежедневного прогресса в проектах в социальных сетях. Не забудьте подписаться на мою еженедельную рассылку и следить за мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, на Bluesky по адресу @DavidGewirtz.com и на YouTube по адресу YouTube.com/DavidGewirtzTV.
Связанная статья
Создание раскрасок с использованием ИИ: Полное руководство
Создание раскрасок — это увлекательное занятие, сочетающее художественное выражение с успокаивающим опытом для пользователей. Однако процесс может быть трудоемким. К счастью, инструменты ИИ упрощают с
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad
ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
Комментарии (24)
StephenRoberts
13 августа 2025 г., 22:01:01 GMT+03:00
GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?
0
WalterWilliams
5 августа 2025 г., 16:01:00 GMT+03:00
It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?
0
WillieLee
29 июля 2025 г., 15:25:16 GMT+03:00
GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?
0
JerryGonzalez
28 июля 2025 г., 4:19:04 GMT+03:00
GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.
0
JuanLewis
24 апреля 2025 г., 2:53:39 GMT+03:00
GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔
0
HenryJackson
23 апреля 2025 г., 17:51:43 GMT+03:00
GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔
0
Исследование несоответствий в инструментах кодирования с ИИ
Действительно загадочно, как инструменты ИИ, построенные на одной и той же базовой большой языковой модели, могут давать такие разные результаты. Например, ChatGPT, Perplexity и GitHub Copilot используют модель GPT-4 от OpenAI. Однако мои недавние тесты показали значительные различия в производительности: платные планы ChatGPT и Perplexity показали отличные результаты, тогда как GitHub Copilot имел успех лишь в 50% случаев.
Я проводил эти тесты, используя GitHub Copilot, интегрированный в среду VS Code. В предстоящей статье я поделюсь подробным руководством по настройке этой среды. А пока давайте углубимся в детали проведенных мной тестов.
Если вам любопытна моя методология тестирования и использованные запросы, вы можете ознакомиться с подробным руководством по оценке возможностей кодирования ИИ-чатбота.
Коротко: GitHub Copilot успешно прошел два из четырех проведенных мной тестов.
Тест 1: Написание плагина для WordPress
Этот тест оказался полным разочарованием. Это был мой первый эксперимент, и я остался в недоумении, действительно ли GitHub Copilot плохо справляется с кодированием или ограничения взаимодействия в VS Code мешают его возможностям.
Контекст таков: я попросил ИИ разработать полноценный плагин для WordPress с административным интерфейсом и рабочей логикой. Задача плагина заключалась в том, чтобы принимать список имен, сортировать их и разделять дубликаты, чтобы избежать их соседства.
Эта задача возникла из реальной потребности в бизнесе моей жены по продаже цифровых товаров, где она управляет активной группой в Facebook.
Из десяти протестированных моделей ИИ пять полностью прошли этот тест, три прошли частично, а две, включая Microsoft Copilot, полностью провалились. GitHub Copilot, несмотря на одинаковый запрос, создал только PHP-код. Хотя задачу действительно можно было решить только на PHP, GitHub Copilot пытался ссылаться на JavaScript, не создавая его.
Когда я попытался запросить GitHub Copilot из файла JavaScript для завершения задачи, он странным образом ответил дополнительным PHP-кодом, все еще ссылаясь на несуществующий файл JavaScript.
Тест 2: Переписывание строковой функции
Этот тест был относительно простым: я предоставил функцию, предназначенную для проверки долларов и центов, но проверяющую только целые доллары. Задача заключалась в том, чтобы ИИ исправил функцию.
GitHub Copilot действительно изменил код, но результат был проблемным. Он предполагал, что любая входная строка действительна, что вызвало бы ошибки при пустой строке. Кроме того, обновленное регулярное выражение не могло обработать различные крайние случаи, такие как входные данные "3.", ".3" или "00.30". Для функции, предназначенной для проверки валюты, такие недочеты недопустимы, что означает еще один провал для GitHub Copilot.
Тест 3: Поиск раздражающей ошибки
Здесь GitHub Copilot проявил себя блестяще. Этот тест был основан на реальной задаче кодирования, с которой я столкнулся, где сообщение об ошибке не указывало напрямую на настоящую проблему. Это похоже на загадку кодирования, требующую глубокого понимания вызовов API WordPress для решения.
В то время как Microsoft Copilot, Gemini и Meta Code Llama споткнулись на этом тесте, GitHub Copilot справился с ним, продемонстрировав свою способность решать сложные реальные проблемы.
Тест 4: Написание скрипта
GitHub Copilot также преуспел в этом тесте, где Microsoft Copilot не справился. Задача заключалась в создании скрипта, который должен был интегрировать AppleScript, объектную модель Chrome и утилиту для Mac под названием Keyboard Maestro.
Для прохождения теста ИИ должен был распознать и учесть нюансы всех трех сред, и GitHub Copilot сделал это.
Заключительные мысли
Разочаровывает видеть, что GitHub Copilot, использующий продвинутую модель GPT-4, провалил половину тестов. Учитывая статус GitHub как ведущей платформы управления исходным кодом, можно было бы ожидать, что его поддержка кодирования с ИИ будет более надежной.
Однако мир ИИ постоянно развивается, и я оптимистично настроен на то, что производительность GitHub Copilot со временем улучшится. Мы вернемся к этому через несколько месяцев, чтобы посмотреть, как он продвинулся.
Полагаетесь ли вы на ИИ для помощи в кодировании? Какой инструмент ИИ является вашим основным? Пробовали ли вы GitHub Copilot? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего ежедневного прогресса в проектах в социальных сетях. Не забудьте подписаться на мою еженедельную рассылку и следить за мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, на Bluesky по адресу @DavidGewirtz.com и на YouTube по адресу YouTube.com/DavidGewirtzTV.



GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?




It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?




GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?




GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.




GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔




GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔












