옵션
뉴스
github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.

2025년 4월 21일
195

AI 코딩 도구의 불일치 탐구

모두 동일한 기반 대형 언어 모델로 구축된 AI 도구들이 이렇게 다양한 결과를 낳을 수 있다는 것이 정말로 당혹스럽습니다. 예를 들어, ChatGPT, Perplexity, 그리고 GitHub Copilot은 모두 OpenAI의 GPT-4 모델을 활용합니다. 하지만 최근 테스트에서 성능 차이가 뚜렷했습니다: ChatGPT와 Perplexity의 프로 플랜은 뛰어났지만, GitHub Copilot은 50%의 성공률을 보였습니다.

저는 VS Code 환경에 통합된 GitHub Copilot을 사용해 이 테스트를 진행했습니다. 이에 대한 자세한 설정 가이드는 곧 나올 기사에서 공유할 예정입니다. 지금은 제가 진행한 테스트의 세부 사항을 살펴보겠습니다.

제 테스트 방법론과 사용된 프롬프트가 궁금하다면, AI 챗봇의 코딩 능력을 평가하는 제 자세한 가이드를 확인할 수 있습니다.

TL;DR: GitHub Copilot은 제가 진행한 네 가지 테스트 중 두 가지를 통과했습니다.

테스트 1: WordPress 플러그인 작성

이 테스트는 완전히 실망스러웠습니다. 첫 번째 실험이었기 때문에 GitHub Copilot이 코딩에 어려움을 겪는지, 아니면 VS Code 내의 상호작용 제약이 그 능력을 방해하는지 확신할 수 없었습니다.

배경은 다음과 같습니다: 저는 AI에게 관리자 인터페이스와 작동 로직을 포함한 완전한 기능을 갖춘 WordPress 플러그인을 개발하도록 요청했습니다. 플러그인의 임무는 이름 목록을 받아 정렬하고, 중복된 이름이 인접하지 않도록 분리하는 것이었습니다.

이 작업은 제 아내의 디지털 상품 전자상거래 비즈니스에서 실제로 필요했던 것으로, 그녀는 활발한 Facebook 그룹을 관리하고 있습니다.

테스트한 10개의 AI 모델 중 5개는 이 테스트를 완전히 통과했고, 3개는 부분적으로 통과했으며, Microsoft Copilot을 포함한 2개는 완전히 실패했습니다. GitHub Copilot은 동일한 프롬프트를 받았음에도 PHP 코드만 생성했습니다. 문제는 PHP만으로 해결할 수 있었지만, GitHub Copilot은 JavaScript를 참조하려 했으나 실제로는 생성하지 않았습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

JavaScript 파일 내에서 GitHub Copilot에게 작업을 완료하도록 프롬프트했을 때, 이상하게도 더 많은 PHP 코드를 생성하며 존재하지 않는 JavaScript 파일을 참조했습니다.

David Gewirtz/ZDNET의 스크린샷

David Gewirtz/ZDNET의 스크린샷

테스트 2: 문자열 함수 재작성

이 테스트는 비교적 간단했습니다: 저는 달러와 센트를 검증하는 함수를 제공했지만, 이 함수는 정수 달러만 확인했습니다. AI의 과제는 이 함수를 수정하는 것이었습니다.

GitHub Copilot은 코드를 수정했지만, 결과는 문제가 있었습니다. 입력 문자열이 항상 유효하다고 가정했기 때문에 문자열이 비어 있으면 오류가 발생했습니다. 또한, 업데이트된 정규 표현식은 "3.", ".3", "00.30"과 같은 다양한 엣지 케이스를 처리하지 못했습니다. 통화를 검증하는 함수로서는 이러한 간과는 용납할 수 없으며, GitHub Copilot은 또 한 번 실패했습니다.

테스트 3: 성가신 버그 찾기

여기서 GitHub Copilot은 빛을 발했습니다. 이 테스트는 제가 실제로 직면했던 코딩 도전 과제를 기반으로 했으며, 오류 메시지가 실제 문제로 직접 연결되지 않았습니다. 이는 코딩 수수께끼와 비슷하며, WordPress API 호출에 대한 깊은 이해가 필요했습니다.

Microsoft Copilot, Gemini, Meta Code Llama는 이 테스트에서 실패했지만, GitHub Copilot은 이를 완벽히 해결하며 복잡한 실제 문제를 다룰 수 있는 능력을 보여주었습니다.

테스트 4: 스크립트 작성

GitHub Copilot은 Microsoft Copilot이 실패한 이 테스트에서도 성공했습니다. 이 작업은 AppleScript, Chrome 객체 모델, 그리고 Keyboard Maestro라는 Mac 전용 유틸리티를 통합해야 하는 스크립트 작성을 포함했습니다.

통과하려면 AI가 세 가지 환경의 미묘한 차이를 인식하고 해결해야 했으며, GitHub Copilot은 이를 정확히 수행했습니다.

최종 생각

고급 GPT-4 모델을 사용하는 GitHub Copilot이 테스트의 절반에서 실패한 것은 실망스럽습니다. GitHub가 선도적인 소스 관리 플랫폼이라는 점을 고려할 때, AI 코딩 지원이 더 신뢰할 만할 것이라고 기대했습니다.

하지만 AI의 세계는 계속 진화하고 있으며, GitHub Copilot의 성능이 시간이 지나면서 개선될 것이라고 낙관합니다. 몇 달 후 다시 점검하여 얼마나 발전했는지 확인할 것입니다.

코딩 지원에 AI를 사용하시나요? 어떤 AI 도구를 주로 사용하시나요? GitHub Copilot을 사용해 보셨나요? 아래 댓글에서 경험을 공유해 주세요.

소셜 미디어에서 제 일일 프로젝트 진행 상황을 업데이트받으세요. 주간 뉴스레터에 가입하는 것도 잊지 마시고, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, Bluesky에서 @DavidGewirtz.com, YouTube에서 YouTube.com/DavidGewirtzTV를 팔로우해 주세요.

관련 기사
AI로 구동되는 색칠공기놀이 책 제작: 종합 가이드 AI로 구동되는 색칠공기놀이 책 제작: 종합 가이드 색칠공기놀이 책 디자인은 예술적 표현과 사용자에게 차분한 경험을 결합한 보람 있는 활동입니다. 하지만 이 과정은 노동 집약적일 수 있습니다. 다행히 AI 도구를 사용하면 고품질의 균일한 색칠 페이지를 쉽게 만들 수 있습니다. 이 가이드는 AI를 사용해 색칠공기놀이 책을 제작하는 단계별 접근법을 제공하며, 일관된 스타일과 최적의 효율성을 위한 기술에 초점을
Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공 Qodo, Google Cloud와 협력하여 개발자를 위한 무료 AI 코드 리뷰 도구 제공 코드 품질에 초점을 맞춘 이스라엘 기반 AI 코딩 스타트업 Qodo가 Google Cloud와 파트너십을 시작하여 AI로 생성된 소프트웨어의 무결성을 강화했습니다.기업들이 코딩에 AI를 점점 더 많이 의존함에 따라, 강력한 감독 및 품질 보증 도구에 대한 수요가 증가하고 있습니다.Qodo의 CEO Itamar Friedman은 AI로 생성된 코드가 현대 개
DeepMind의 AI가 2025 수학 올림피아드에서 금메달 획득 DeepMind의 AI가 2025 수학 올림피아드에서 금메달 획득 DeepMind의 AI는 수학적 추론에서 놀라운 도약을 이루어, 2024년에 은메달을 획득한 지 불과 1년 만에 2025 국제수학올림피아드(IMO)에서 금메달을 차지했습니다. 이 돌파구는 인간과 같은 창의력이 요구되는 복잡하고 추상적인 문제를 해결하는 AI의 성장하는 능력을 강조합니다. 이 기사에서는 DeepMind의 변혁적 여정, 주요 기술적 발전, 그리
의견 (24)
0/200
StephenRoberts
StephenRoberts 2025년 8월 14일 오전 4시 1분 1초 GMT+09:00

GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?

WalterWilliams
WalterWilliams 2025년 8월 5일 오후 10시 1분 0초 GMT+09:00

It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?

WillieLee
WillieLee 2025년 7월 29일 오후 9시 25분 16초 GMT+09:00

GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?

JerryGonzalez
JerryGonzalez 2025년 7월 28일 오전 10시 19분 4초 GMT+09:00

GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.

JuanLewis
JuanLewis 2025년 4월 24일 오전 8시 53분 39초 GMT+09:00

GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔

HenryJackson
HenryJackson 2025년 4월 23일 오후 11시 51분 43초 GMT+09:00

GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔

위로 돌아갑니다
OR