ИИ Github Copilot проверил: смешанный успех кодирования оставляет меня сбитым с толку
Исследование несоответствий в инструментах кодирования с ИИ
Действительно загадочно, как инструменты ИИ, построенные на одной и той же базовой большой языковой модели, могут давать такие разные результаты. Например, ChatGPT, Perplexity и GitHub Copilot используют модель GPT-4 от OpenAI. Однако мои недавние тесты показали значительные различия в производительности: платные планы ChatGPT и Perplexity показали отличные результаты, тогда как GitHub Copilot имел успех лишь в 50% случаев.
Я проводил эти тесты, используя GitHub Copilot, интегрированный в среду VS Code. В предстоящей статье я поделюсь подробным руководством по настройке этой среды. А пока давайте углубимся в детали проведенных мной тестов.
Если вам любопытна моя методология тестирования и использованные запросы, вы можете ознакомиться с подробным руководством по оценке возможностей кодирования ИИ-чатбота.
Коротко: GitHub Copilot успешно прошел два из четырех проведенных мной тестов.
Тест 1: Написание плагина для WordPress
Этот тест оказался полным разочарованием. Это был мой первый эксперимент, и я остался в недоумении, действительно ли GitHub Copilot плохо справляется с кодированием или ограничения взаимодействия в VS Code мешают его возможностям.
Контекст таков: я попросил ИИ разработать полноценный плагин для WordPress с административным интерфейсом и рабочей логикой. Задача плагина заключалась в том, чтобы принимать список имен, сортировать их и разделять дубликаты, чтобы избежать их соседства.
Эта задача возникла из реальной потребности в бизнесе моей жены по продаже цифровых товаров, где она управляет активной группой в Facebook.
Из десяти протестированных моделей ИИ пять полностью прошли этот тест, три прошли частично, а две, включая Microsoft Copilot, полностью провалились. GitHub Copilot, несмотря на одинаковый запрос, создал только PHP-код. Хотя задачу действительно можно было решить только на PHP, GitHub Copilot пытался ссылаться на JavaScript, не создавая его.

Скриншот от David Gewirtz/ZDNET Когда я попытался запросить GitHub Copilot из файла JavaScript для завершения задачи, он странным образом ответил дополнительным PHP-кодом, все еще ссылаясь на несуществующий файл JavaScript.

Скриншот от David Gewirtz/ZDNET Тест 2: Переписывание строковой функции
Этот тест был относительно простым: я предоставил функцию, предназначенную для проверки долларов и центов, но проверяющую только целые доллары. Задача заключалась в том, чтобы ИИ исправил функцию.
GitHub Copilot действительно изменил код, но результат был проблемным. Он предполагал, что любая входная строка действительна, что вызвало бы ошибки при пустой строке. Кроме того, обновленное регулярное выражение не могло обработать различные крайние случаи, такие как входные данные "3.", ".3" или "00.30". Для функции, предназначенной для проверки валюты, такие недочеты недопустимы, что означает еще один провал для GitHub Copilot.
Тест 3: Поиск раздражающей ошибки
Здесь GitHub Copilot проявил себя блестяще. Этот тест был основан на реальной задаче кодирования, с которой я столкнулся, где сообщение об ошибке не указывало напрямую на настоящую проблему. Это похоже на загадку кодирования, требующую глубокого понимания вызовов API WordPress для решения.
В то время как Microsoft Copilot, Gemini и Meta Code Llama споткнулись на этом тесте, GitHub Copilot справился с ним, продемонстрировав свою способность решать сложные реальные проблемы.
Тест 4: Написание скрипта
GitHub Copilot также преуспел в этом тесте, где Microsoft Copilot не справился. Задача заключалась в создании скрипта, который должен был интегрировать AppleScript, объектную модель Chrome и утилиту для Mac под названием Keyboard Maestro.
Для прохождения теста ИИ должен был распознать и учесть нюансы всех трех сред, и GitHub Copilot сделал это.
Заключительные мысли
Разочаровывает видеть, что GitHub Copilot, использующий продвинутую модель GPT-4, провалил половину тестов. Учитывая статус GitHub как ведущей платформы управления исходным кодом, можно было бы ожидать, что его поддержка кодирования с ИИ будет более надежной.
Однако мир ИИ постоянно развивается, и я оптимистично настроен на то, что производительность GitHub Copilot со временем улучшится. Мы вернемся к этому через несколько месяцев, чтобы посмотреть, как он продвинулся.
Полагаетесь ли вы на ИИ для помощи в кодировании? Какой инструмент ИИ является вашим основным? Пробовали ли вы GitHub Copilot? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего ежедневного прогресса в проектах в социальных сетях. Не забудьте подписаться на мою еженедельную рассылку и следить за мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, на Bluesky по адресу @DavidGewirtz.com и на YouTube по адресу YouTube.com/DavidGewirtzTV.
Связанная статья
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана
После инцидента 2023 года, напоминавшего государственный переворот, компания OpenAI еще больше укрепила меры защиты генерального директора Сэма Альтмана, обновив свой устав. Недавно обнародованные суд
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Рекомендации по связанным специальным темам
Комментарии (40)
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔
Исследование несоответствий в инструментах кодирования с ИИ
Действительно загадочно, как инструменты ИИ, построенные на одной и той же базовой большой языковой модели, могут давать такие разные результаты. Например, ChatGPT, Perplexity и GitHub Copilot используют модель GPT-4 от OpenAI. Однако мои недавние тесты показали значительные различия в производительности: платные планы ChatGPT и Perplexity показали отличные результаты, тогда как GitHub Copilot имел успех лишь в 50% случаев.
Я проводил эти тесты, используя GitHub Copilot, интегрированный в среду VS Code. В предстоящей статье я поделюсь подробным руководством по настройке этой среды. А пока давайте углубимся в детали проведенных мной тестов.
Если вам любопытна моя методология тестирования и использованные запросы, вы можете ознакомиться с подробным руководством по оценке возможностей кодирования ИИ-чатбота.
Коротко: GitHub Copilot успешно прошел два из четырех проведенных мной тестов.
Тест 1: Написание плагина для WordPress
Этот тест оказался полным разочарованием. Это был мой первый эксперимент, и я остался в недоумении, действительно ли GitHub Copilot плохо справляется с кодированием или ограничения взаимодействия в VS Code мешают его возможностям.
Контекст таков: я попросил ИИ разработать полноценный плагин для WordPress с административным интерфейсом и рабочей логикой. Задача плагина заключалась в том, чтобы принимать список имен, сортировать их и разделять дубликаты, чтобы избежать их соседства.
Эта задача возникла из реальной потребности в бизнесе моей жены по продаже цифровых товаров, где она управляет активной группой в Facebook.
Из десяти протестированных моделей ИИ пять полностью прошли этот тест, три прошли частично, а две, включая Microsoft Copilot, полностью провалились. GitHub Copilot, несмотря на одинаковый запрос, создал только PHP-код. Хотя задачу действительно можно было решить только на PHP, GitHub Copilot пытался ссылаться на JavaScript, не создавая его.
Когда я попытался запросить GitHub Copilot из файла JavaScript для завершения задачи, он странным образом ответил дополнительным PHP-кодом, все еще ссылаясь на несуществующий файл JavaScript.
Тест 2: Переписывание строковой функции
Этот тест был относительно простым: я предоставил функцию, предназначенную для проверки долларов и центов, но проверяющую только целые доллары. Задача заключалась в том, чтобы ИИ исправил функцию.
GitHub Copilot действительно изменил код, но результат был проблемным. Он предполагал, что любая входная строка действительна, что вызвало бы ошибки при пустой строке. Кроме того, обновленное регулярное выражение не могло обработать различные крайние случаи, такие как входные данные "3.", ".3" или "00.30". Для функции, предназначенной для проверки валюты, такие недочеты недопустимы, что означает еще один провал для GitHub Copilot.
Тест 3: Поиск раздражающей ошибки
Здесь GitHub Copilot проявил себя блестяще. Этот тест был основан на реальной задаче кодирования, с которой я столкнулся, где сообщение об ошибке не указывало напрямую на настоящую проблему. Это похоже на загадку кодирования, требующую глубокого понимания вызовов API WordPress для решения.
В то время как Microsoft Copilot, Gemini и Meta Code Llama споткнулись на этом тесте, GitHub Copilot справился с ним, продемонстрировав свою способность решать сложные реальные проблемы.
Тест 4: Написание скрипта
GitHub Copilot также преуспел в этом тесте, где Microsoft Copilot не справился. Задача заключалась в создании скрипта, который должен был интегрировать AppleScript, объектную модель Chrome и утилиту для Mac под названием Keyboard Maestro.
Для прохождения теста ИИ должен был распознать и учесть нюансы всех трех сред, и GitHub Copilot сделал это.
Заключительные мысли
Разочаровывает видеть, что GitHub Copilot, использующий продвинутую модель GPT-4, провалил половину тестов. Учитывая статус GitHub как ведущей платформы управления исходным кодом, можно было бы ожидать, что его поддержка кодирования с ИИ будет более надежной.
Однако мир ИИ постоянно развивается, и я оптимистично настроен на то, что производительность GitHub Copilot со временем улучшится. Мы вернемся к этому через несколько месяцев, чтобы посмотреть, как он продвинулся.
Полагаетесь ли вы на ИИ для помощи в кодировании? Какой инструмент ИИ является вашим основным? Пробовали ли вы GitHub Copilot? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего ежедневного прогресса в проектах в социальных сетях. Не забудьте подписаться на мою еженедельную рассылку и следить за мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz, на Bluesky по адресу @DavidGewirtz.com и на YouTube по адресу YouTube.com/DavidGewirtzTV.
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана
После инцидента 2023 года, напоминавшего государственный переворот, компания OpenAI еще больше укрепила меры защиты генерального директора Сэма Альтмана, обновив свой устав. Недавно обнародованные суд
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔





Дом






