옵션
뉴스
github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

2025년 4월 21일
288

AI 코딩 도구의 불일치 탐구

모두 동일한 기반 대형 언어 모델로 구축된 AI 도구들이 이렇게 다양한 결과를 낳을 수 있다는 것이 정말로 당혹스럽습니다. 예를 들어, ChatGPT, Perplexity, 그리고 GitHub Copilot은 모두 OpenAI의 GPT-4 모델을 활용합니다. 하지만 최근 테스트에서 성능 차이가 뚜렷했습니다: ChatGPT와 Perplexity의 프로 플랜은 뛰어났지만, GitHub Copilot은 50%의 성공률을 보였습니다.

저는 VS Code 환경에 통합된 GitHub Copilot을 사용해 이 테스트를 진행했습니다. 이에 대한 자세한 설정 가이드는 곧 나올 기사에서 공유할 예정입니다. 지금은 제가 진행한 테스트의 세부 사항을 살펴보겠습니다.

제 테스트 방법론과 사용된 프롬프트가 궁금하다면, AI 챗봇의 코딩 능력을 평가하는 제 자세한 가이드를 확인할 수 있습니다.

TL;DR: GitHub Copilot은 제가 진행한 네 가지 테스트 중 두 가지를 통과했습니다.

테스트 1: WordPress 플러그인 작성

이 테스트는 완전히 실망스러웠습니다. 첫 번째 실험이었기 때문에 GitHub Copilot이 코딩에 어려움을 겪는지, 아니면 VS Code 내의 상호작용 제약이 그 능력을 방해하는지 확신할 수 없었습니다.

배경은 다음과 같습니다: 저는 AI에게 관리자 인터페이스와 작동 로직을 포함한 완전한 기능을 갖춘 WordPress 플러그인을 개발하도록 요청했습니다. 플러그인의 임무는 이름 목록을 받아 정렬하고, 중복된 이름이 인접하지 않도록 분리하는 것이었습니다.

이 작업은 제 아내의 디지털 상품 전자상거래 비즈니스에서 실제로 필요했던 것으로, 그녀는 활발한 Facebook 그룹을 관리하고 있습니다.

테스트한 10개의 AI 모델 중 5개는 이 테스트를 완전히 통과했고, 3개는 부분적으로 통과했으며, Microsoft Copilot을 포함한 2개는 완전히 실패했습니다. GitHub Copilot은 동일한 프롬프트를 받았음에도 PHP 코드만 생성했습니다. 문제는 PHP만으로 해결할 수 있었지만, GitHub Copilot은 JavaScript를 참조하려 했으나 실제로는 생성하지 않았습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

JavaScript 파일 내에서 GitHub Copilot에게 작업을 완료하도록 프롬프트했을 때, 이상하게도 더 많은 PHP 코드를 생성하며 존재하지 않는 JavaScript 파일을 참조했습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

테스트 2: 문자열 함수 재작성

이 테스트는 비교적 간단했습니다: 저는 달러와 센트를 검증하는 함수를 제공했지만, 이 함수는 정수 달러만 확인했습니다. AI의 과제는 이 함수를 수정하는 것이었습니다.

GitHub Copilot은 코드를 수정했지만, 결과는 문제가 있었습니다. 입력 문자열이 항상 유효하다고 가정했기 때문에 문자열이 비어 있으면 오류가 발생했습니다. 또한, 업데이트된 정규 표현식은 "3.", ".3", "00.30"과 같은 다양한 엣지 케이스를 처리하지 못했습니다. 통화를 검증하는 함수로서는 이러한 간과는 용납할 수 없으며, GitHub Copilot은 또 한 번 실패했습니다.

테스트 3: 성가신 버그 찾기

여기서 GitHub Copilot은 빛을 발했습니다. 이 테스트는 제가 실제로 직면했던 코딩 도전 과제를 기반으로 했으며, 오류 메시지가 실제 문제로 직접 연결되지 않았습니다. 이는 코딩 수수께끼와 비슷하며, WordPress API 호출에 대한 깊은 이해가 필요했습니다.

Microsoft Copilot, Gemini, Meta Code Llama는 이 테스트에서 실패했지만, GitHub Copilot은 이를 완벽히 해결하며 복잡한 실제 문제를 다룰 수 있는 능력을 보여주었습니다.

테스트 4: 스크립트 작성

GitHub Copilot은 Microsoft Copilot이 실패한 이 테스트에서도 성공했습니다. 이 작업은 AppleScript, Chrome 객체 모델, 그리고 Keyboard Maestro라는 Mac 전용 유틸리티를 통합해야 하는 스크립트 작성을 포함했습니다.

통과하려면 AI가 세 가지 환경의 미묘한 차이를 인식하고 해결해야 했으며, GitHub Copilot은 이를 정확히 수행했습니다.

최종 생각

고급 GPT-4 모델을 사용하는 GitHub Copilot이 테스트의 절반에서 실패한 것은 실망스럽습니다. GitHub가 선도적인 소스 관리 플랫폼이라는 점을 고려할 때, AI 코딩 지원이 더 신뢰할 만할 것이라고 기대했습니다.

하지만 AI의 세계는 계속 진화하고 있으며, GitHub Copilot의 성능이 시간이 지나면서 개선될 것이라고 낙관합니다. 몇 달 후 다시 점검하여 얼마나 발전했는지 확인할 것입니다.

코딩 지원에 AI를 사용하시나요? 어떤 AI 도구를 주로 사용하시나요? GitHub Copilot을 사용해 보셨나요? 아래 댓글에서 경험을 공유해 주세요.

소셜 미디어에서 제 일일 프로젝트 진행 상황을 업데이트받으세요. 주간 뉴스레터에 가입하는 것도 잊지 마시고, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, Bluesky에서 @DavidGewirtz.com, YouTube에서 YouTube.com/DavidGewirtzTV를 팔로우해 주세요.

관련 기사
차이나 텔레콤, 미안비 인텔리전스에 투자…대규모 언어 모델(LLM) 및 데이터 인프라 구축을 위해 자본금 71만 3천 위안으로 증자 차이나 텔레콤, 미안비 인텔리전스에 투자…대규모 언어 모델(LLM) 및 데이터 인프라 구축을 위해 자본금 71만 3천 위안으로 증자 대규모 모델 분야에서 ‘국가대표’로 불리는 기업과 칭화대 출신의 주요 인물이 전략적 제휴를 더욱 공고히 하고 있다. 2026년 3월 1일, 치차차( Qichacha)의 최신 기업 등록 자료에 따르면, 베이징 미안비 인텔리전트 테크놀로지(Beijing Mianbi Intelligent Technology Co., Ltd.)는 대규모 지분 구조 조정을 단행하며
타오티안 그룹, AI 중심 구조 개편 가속화… 인턴에게 무료 토큰 할당량 제공 타오티안 그룹, AI 중심 구조 개편 가속화… 인턴에게 무료 토큰 할당량 제공 타오티안 그룹은 최근 자원 배분과 도구 지원금을 통해 AI 기술을 전자상거래 운영 및 연구개발(R&D) 워크플로우에 신속히 접목하기 위해 고안된 ‘AI 생산성 계획’을 도입했습니다. 이 프로그램은 이제 모든 인턴에게 제공되며, 인턴 기간 동안 정규직 직원과 동일한 AI 접근 권한, 컴퓨팅 할당량 및 승인 절차를 부여합니다.3월 17일부터 타오티안 그룹 직원
글린, 시장 선점 경쟁에서 기업용 AI 인프라를 공략 글린, 시장 선점 경쟁에서 기업용 AI 인프라를 공략 기업용 AI 시장을 장악하기 위한 경쟁이 가속화되고 있다. 마이크로소프트는 ‘코파일럿(Copilot)’을 오피스에 탑재하고 있으며, 구글은 ‘제미니(Gemini)’를 워크스페이스에 통합하고 있고, 오픈AI와 앤트로픽은 모두 기업에 직접 서비스를 판매하고 있다. 한편, 현재 거의 모든 SaaS 업체가 AI 어시스턴트 기능을 제공하고 있다.사용자 인터페이스 장
관련 특별 주제 추천
글쓰기 최고의 AI 선협·무협 조력자: 장대한 수련 성장 스토리와 무술 연출을 작성하세요
최고의 AI 선협·무협 조력자: 장대한 수련 성장 스토리와 무술 연출을 작성하세요

2026년 최고의 AI 어시스턴트를 만나보세요. 장대한 선협(仙侠) 및 무협(武侠) 이야기를 창작하는 데 도움을 줄 수 있는 도구들입니다. XIX.AI가 엄선한 이 목록에는 수련 과정과 무술 연출을 완벽하게 구현할 수 있는 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 창의력을 마음껏 발휘하고 오늘 바로 집필을 시작해 보세요!

10 도구
xix.ai
암호 AI 모바일 앱 코딩 도구: 프롬프트를 기반으로 크로스플랫폼용 Flutter 및 React Native 코드를 생성합니다.
AI 모바일 앱 코딩 도구: 프롬프트를 기반으로 크로스플랫폼용 Flutter 및 React Native 코드를 생성합니다.

2026년 최고의 AI 모바일 앱 개발 도구를 발견해 보세요. Flutter 및 React Native에 적합한 이 도구들은 강력하며, 사용자의 요청에 따라 크로스플랫폼 코드를 자동으로 생성해 줍니다. 무료 옵션과 유료 옵션을 실제 사용 사례를 통해 비교해 보세요. 더 빠른 개발이 가능해지며, 더 나은 앱을 만들 수 있습니다. 지금 바로 XIX.AI에서 순위를 확인해 보세요!

10 도구
xix.ai
암호 최고의 AI 크롬 확장 프로그램 생성기: 코딩 경험 없이도 나만의 브라우저 확장 프로그램 만들기
최고의 AI 크롬 확장 프로그램 생성기: 코딩 경험 없이도 나만의 브라우저 확장 프로그램 만들기

XIX.AI에서 2026년 최고의 AI 크롬 확장 프로그램 생성기를 만나보세요. 저희가 엄선한 이 목록에는 코딩 없이도 나만의 브라우저 확장 프로그램을 만들 수 있는, 평점이 높고 꼭 사용해봐야 할 도구들이 포함되어 있습니다. 무료 버전과 유료 버전을 비교하고, 실제 테스트 결과를 확인하며, 업무 효율을 극대화해 보세요. 최신 순위를 살펴보고 오늘 바로 나에게 딱 맞는 도구를 찾아보세요!

10 도구
xix.ai
텍스트 음성 변환 최고의 AI 다국어 TTS: 50개 이상의 언어로 진짜 원어민 발음을 생성합니다.
최고의 AI 다국어 TTS: 50개 이상의 언어로 진짜 원어민 발음을 생성합니다.

2026년 최고의 AI 다국어 TTS 도구들을 발견해 보세요. 50개 이상의 언어로 원어민과 같은 발음을 구현할 수 있습니다. 저희가 선정한 최고의 도구들을 무료 및 유료 버전으로 비교해 보고, 실제 사용 테스트 결과도 확인해 보세요. XIX.AI에서 자신에게 가장 적합한 음성 도구를 찾아내고 오늘 바로 전 세계적인 커뮤니케이션을 시작해 보세요.

10 도구
xix.ai
회의 도우미 더 스마트하고 빠른 협업을 위한 최고의 AI 회의 자동화 도구들
더 스마트하고 빠른 협업을 위한 최고의 AI 회의 자동화 도구들

2026년에 출시된 최신이자 인기 있는 AI 회의 자동화 도구들을 발견해 보세요. 이 도구들을 활용하면 더 스마트하고 빠르게 협업할 수 있습니다. 저희가 엄선한 목록에는 메모, 요약 내용, 실행 항목들을 자동화해 주는 강력하고 혁신적인 솔루션이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 사례를 통해 비교해 보고, 매주 업데이트되는 순위를 확인하세요. XIX.AI에서 지금 바로 최고의 도구들을 살펴보세요.

10 도구
xix.ai
즉각적인 인프라-어스-코드(Infrastructure-as-Code)를 위한 AI 프롬프트: Terraform 및 Docker 구성을 안전하게 배포하기
인프라-어스-코드(Infrastructure-as-Code)를 위한 AI 프롬프트: Terraform 및 Docker 구성을 안전하게 배포하기

2026년 최신 최고 평점을 받은 ‘인프라스트럭처-어즈-코드(Infrastructure-as-Code)’용 AI 프롬프트를 확인해 보세요. XIX.AI가 엄선한 이 프롬프트들은 Terraform 및 Docker 구성을 안전하게 배포하고, 클라우드 설정을 자동화하며, DevOps 생산성을 높이는 데 도움을 줍니다. 실제 테스트를 통해 무료 옵션과 유료 옵션을 비교해 보세요. 지금 바로 살펴보고 AI의 경쟁력을 확보하세요.

10 도구
xix.ai
의견 (40)
0/500
HarryMartinez
HarryMartinez 2026년 5월 28일 오후 3시 0분 14초 GMT+09:00

Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔

EricAllen
EricAllen 2026년 5월 19일 오전 11시 0분 12초 GMT+09:00

Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.

ArthurJackson
ArthurJackson 2026년 3월 12일 오전 5시 0분 47초 GMT+09:00

Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.

LarryMartin
LarryMartin 2025년 11월 27일 오후 9시 30분 43초 GMT+09:00

이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!

PaulRoberts
PaulRoberts 2025년 11월 8일 오후 1시 30분 36초 GMT+09:00

Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔

EricDavis
EricDavis 2025년 11월 2일 오전 1시 30분 33초 GMT+09:00

看完這篇測試我笑了 😂 明明都是用GPT-4,怎麼Copilot寫程式碼的表現這麼迷?有時候像資深工程師,有時候根本在胡言亂語。該不會AI也有生理期吧?(開玩笑的)不過這倒是讓我猶豫要不要續訂了...

OR