옵션
뉴스
github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

2025년 4월 21일
288

AI 코딩 도구의 불일치 탐구

모두 동일한 기반 대형 언어 모델로 구축된 AI 도구들이 이렇게 다양한 결과를 낳을 수 있다는 것이 정말로 당혹스럽습니다. 예를 들어, ChatGPT, Perplexity, 그리고 GitHub Copilot은 모두 OpenAI의 GPT-4 모델을 활용합니다. 하지만 최근 테스트에서 성능 차이가 뚜렷했습니다: ChatGPT와 Perplexity의 프로 플랜은 뛰어났지만, GitHub Copilot은 50%의 성공률을 보였습니다.

저는 VS Code 환경에 통합된 GitHub Copilot을 사용해 이 테스트를 진행했습니다. 이에 대한 자세한 설정 가이드는 곧 나올 기사에서 공유할 예정입니다. 지금은 제가 진행한 테스트의 세부 사항을 살펴보겠습니다.

제 테스트 방법론과 사용된 프롬프트가 궁금하다면, AI 챗봇의 코딩 능력을 평가하는 제 자세한 가이드를 확인할 수 있습니다.

TL;DR: GitHub Copilot은 제가 진행한 네 가지 테스트 중 두 가지를 통과했습니다.

테스트 1: WordPress 플러그인 작성

이 테스트는 완전히 실망스러웠습니다. 첫 번째 실험이었기 때문에 GitHub Copilot이 코딩에 어려움을 겪는지, 아니면 VS Code 내의 상호작용 제약이 그 능력을 방해하는지 확신할 수 없었습니다.

배경은 다음과 같습니다: 저는 AI에게 관리자 인터페이스와 작동 로직을 포함한 완전한 기능을 갖춘 WordPress 플러그인을 개발하도록 요청했습니다. 플러그인의 임무는 이름 목록을 받아 정렬하고, 중복된 이름이 인접하지 않도록 분리하는 것이었습니다.

이 작업은 제 아내의 디지털 상품 전자상거래 비즈니스에서 실제로 필요했던 것으로, 그녀는 활발한 Facebook 그룹을 관리하고 있습니다.

테스트한 10개의 AI 모델 중 5개는 이 테스트를 완전히 통과했고, 3개는 부분적으로 통과했으며, Microsoft Copilot을 포함한 2개는 완전히 실패했습니다. GitHub Copilot은 동일한 프롬프트를 받았음에도 PHP 코드만 생성했습니다. 문제는 PHP만으로 해결할 수 있었지만, GitHub Copilot은 JavaScript를 참조하려 했으나 실제로는 생성하지 않았습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

JavaScript 파일 내에서 GitHub Copilot에게 작업을 완료하도록 프롬프트했을 때, 이상하게도 더 많은 PHP 코드를 생성하며 존재하지 않는 JavaScript 파일을 참조했습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

테스트 2: 문자열 함수 재작성

이 테스트는 비교적 간단했습니다: 저는 달러와 센트를 검증하는 함수를 제공했지만, 이 함수는 정수 달러만 확인했습니다. AI의 과제는 이 함수를 수정하는 것이었습니다.

GitHub Copilot은 코드를 수정했지만, 결과는 문제가 있었습니다. 입력 문자열이 항상 유효하다고 가정했기 때문에 문자열이 비어 있으면 오류가 발생했습니다. 또한, 업데이트된 정규 표현식은 "3.", ".3", "00.30"과 같은 다양한 엣지 케이스를 처리하지 못했습니다. 통화를 검증하는 함수로서는 이러한 간과는 용납할 수 없으며, GitHub Copilot은 또 한 번 실패했습니다.

테스트 3: 성가신 버그 찾기

여기서 GitHub Copilot은 빛을 발했습니다. 이 테스트는 제가 실제로 직면했던 코딩 도전 과제를 기반으로 했으며, 오류 메시지가 실제 문제로 직접 연결되지 않았습니다. 이는 코딩 수수께끼와 비슷하며, WordPress API 호출에 대한 깊은 이해가 필요했습니다.

Microsoft Copilot, Gemini, Meta Code Llama는 이 테스트에서 실패했지만, GitHub Copilot은 이를 완벽히 해결하며 복잡한 실제 문제를 다룰 수 있는 능력을 보여주었습니다.

테스트 4: 스크립트 작성

GitHub Copilot은 Microsoft Copilot이 실패한 이 테스트에서도 성공했습니다. 이 작업은 AppleScript, Chrome 객체 모델, 그리고 Keyboard Maestro라는 Mac 전용 유틸리티를 통합해야 하는 스크립트 작성을 포함했습니다.

통과하려면 AI가 세 가지 환경의 미묘한 차이를 인식하고 해결해야 했으며, GitHub Copilot은 이를 정확히 수행했습니다.

최종 생각

고급 GPT-4 모델을 사용하는 GitHub Copilot이 테스트의 절반에서 실패한 것은 실망스럽습니다. GitHub가 선도적인 소스 관리 플랫폼이라는 점을 고려할 때, AI 코딩 지원이 더 신뢰할 만할 것이라고 기대했습니다.

하지만 AI의 세계는 계속 진화하고 있으며, GitHub Copilot의 성능이 시간이 지나면서 개선될 것이라고 낙관합니다. 몇 달 후 다시 점검하여 얼마나 발전했는지 확인할 것입니다.

코딩 지원에 AI를 사용하시나요? 어떤 AI 도구를 주로 사용하시나요? GitHub Copilot을 사용해 보셨나요? 아래 댓글에서 경험을 공유해 주세요.

소셜 미디어에서 제 일일 프로젝트 진행 상황을 업데이트받으세요. 주간 뉴스레터에 가입하는 것도 잊지 마시고, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, Bluesky에서 @DavidGewirtz.com, YouTube에서 YouTube.com/DavidGewirtzTV를 팔로우해 주세요.

관련 기사
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경 오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경 2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다 메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다 페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
관련 특별 주제 추천
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
암호 자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.
자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구
xix.ai
데이터 분석 최고의 AI 데이터 시각화 도구: 원본 파일에서 대화형 BI 대시보드를 자동 생성
최고의 AI 데이터 시각화 도구: 원본 파일에서 대화형 BI 대시보드를 자동 생성

XIX.AI에서 2026년 최고의 AI 데이터 시각화 도구를 만나보세요. 저희가 엄선한 최고 평점의 도구들을 통해 원시 파일에서 강력하고 상호작용이 가능한 BI 대시보드를 즉시 자동 생성할 수 있습니다. 실제 테스트와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 데이터의 잠재력을 발휘해 보세요.

10 도구
xix.ai
의견 (40)
0/500
HarryMartinez
HarryMartinez 2026년 5월 28일 오후 3시 0분 14초 GMT+09:00

Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔

EricAllen
EricAllen 2026년 5월 19일 오전 11시 0분 12초 GMT+09:00

Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.

ArthurJackson
ArthurJackson 2026년 3월 12일 오전 5시 0분 47초 GMT+09:00

Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.

LarryMartin
LarryMartin 2025년 11월 27일 오후 9시 30분 43초 GMT+09:00

이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!

PaulRoberts
PaulRoberts 2025년 11월 8일 오후 1시 30분 36초 GMT+09:00

Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔

EricDavis
EricDavis 2025년 11월 2일 오전 1시 30분 33초 GMT+09:00

看完這篇測試我笑了 😂 明明都是用GPT-4,怎麼Copilot寫程式碼的表現這麼迷?有時候像資深工程師,有時候根本在胡言亂語。該不會AI也有生理期吧?(開玩笑的)不過這倒是讓我猶豫要不要續訂了...

OR