github copilot의 AI 테스트 : 혼합 코딩 성공이 나를 당황하게합니다.
AI 코딩 도구의 불일치 탐구
모두 동일한 기반 대형 언어 모델로 구축된 AI 도구들이 이렇게 다양한 결과를 낳을 수 있다는 것이 정말로 당혹스럽습니다. 예를 들어, ChatGPT, Perplexity, 그리고 GitHub Copilot은 모두 OpenAI의 GPT-4 모델을 활용합니다. 하지만 최근 테스트에서 성능 차이가 뚜렷했습니다: ChatGPT와 Perplexity의 프로 플랜은 뛰어났지만, GitHub Copilot은 50%의 성공률을 보였습니다.
저는 VS Code 환경에 통합된 GitHub Copilot을 사용해 이 테스트를 진행했습니다. 이에 대한 자세한 설정 가이드는 곧 나올 기사에서 공유할 예정입니다. 지금은 제가 진행한 테스트의 세부 사항을 살펴보겠습니다.
제 테스트 방법론과 사용된 프롬프트가 궁금하다면, AI 챗봇의 코딩 능력을 평가하는 제 자세한 가이드를 확인할 수 있습니다.
TL;DR: GitHub Copilot은 제가 진행한 네 가지 테스트 중 두 가지를 통과했습니다.
테스트 1: WordPress 플러그인 작성
이 테스트는 완전히 실망스러웠습니다. 첫 번째 실험이었기 때문에 GitHub Copilot이 코딩에 어려움을 겪는지, 아니면 VS Code 내의 상호작용 제약이 그 능력을 방해하는지 확신할 수 없었습니다.
배경은 다음과 같습니다: 저는 AI에게 관리자 인터페이스와 작동 로직을 포함한 완전한 기능을 갖춘 WordPress 플러그인을 개발하도록 요청했습니다. 플러그인의 임무는 이름 목록을 받아 정렬하고, 중복된 이름이 인접하지 않도록 분리하는 것이었습니다.
이 작업은 제 아내의 디지털 상품 전자상거래 비즈니스에서 실제로 필요했던 것으로, 그녀는 활발한 Facebook 그룹을 관리하고 있습니다.
테스트한 10개의 AI 모델 중 5개는 이 테스트를 완전히 통과했고, 3개는 부분적으로 통과했으며, Microsoft Copilot을 포함한 2개는 완전히 실패했습니다. GitHub Copilot은 동일한 프롬프트를 받았음에도 PHP 코드만 생성했습니다. 문제는 PHP만으로 해결할 수 있었지만, GitHub Copilot은 JavaScript를 참조하려 했으나 실제로는 생성하지 않았습니다.

David Gewirtz/ZDNET의 스크린샷 JavaScript 파일 내에서 GitHub Copilot에게 작업을 완료하도록 프롬프트했을 때, 이상하게도 더 많은 PHP 코드를 생성하며 존재하지 않는 JavaScript 파일을 참조했습니다.

David Gewirtz/ZDNET의 스크린샷 테스트 2: 문자열 함수 재작성
이 테스트는 비교적 간단했습니다: 저는 달러와 센트를 검증하는 함수를 제공했지만, 이 함수는 정수 달러만 확인했습니다. AI의 과제는 이 함수를 수정하는 것이었습니다.
GitHub Copilot은 코드를 수정했지만, 결과는 문제가 있었습니다. 입력 문자열이 항상 유효하다고 가정했기 때문에 문자열이 비어 있으면 오류가 발생했습니다. 또한, 업데이트된 정규 표현식은 "3.", ".3", "00.30"과 같은 다양한 엣지 케이스를 처리하지 못했습니다. 통화를 검증하는 함수로서는 이러한 간과는 용납할 수 없으며, GitHub Copilot은 또 한 번 실패했습니다.
테스트 3: 성가신 버그 찾기
여기서 GitHub Copilot은 빛을 발했습니다. 이 테스트는 제가 실제로 직면했던 코딩 도전 과제를 기반으로 했으며, 오류 메시지가 실제 문제로 직접 연결되지 않았습니다. 이는 코딩 수수께끼와 비슷하며, WordPress API 호출에 대한 깊은 이해가 필요했습니다.
Microsoft Copilot, Gemini, Meta Code Llama는 이 테스트에서 실패했지만, GitHub Copilot은 이를 완벽히 해결하며 복잡한 실제 문제를 다룰 수 있는 능력을 보여주었습니다.
테스트 4: 스크립트 작성
GitHub Copilot은 Microsoft Copilot이 실패한 이 테스트에서도 성공했습니다. 이 작업은 AppleScript, Chrome 객체 모델, 그리고 Keyboard Maestro라는 Mac 전용 유틸리티를 통합해야 하는 스크립트 작성을 포함했습니다.
통과하려면 AI가 세 가지 환경의 미묘한 차이를 인식하고 해결해야 했으며, GitHub Copilot은 이를 정확히 수행했습니다.
최종 생각
고급 GPT-4 모델을 사용하는 GitHub Copilot이 테스트의 절반에서 실패한 것은 실망스럽습니다. GitHub가 선도적인 소스 관리 플랫폼이라는 점을 고려할 때, AI 코딩 지원이 더 신뢰할 만할 것이라고 기대했습니다.
하지만 AI의 세계는 계속 진화하고 있으며, GitHub Copilot의 성능이 시간이 지나면서 개선될 것이라고 낙관합니다. 몇 달 후 다시 점검하여 얼마나 발전했는지 확인할 것입니다.
코딩 지원에 AI를 사용하시나요? 어떤 AI 도구를 주로 사용하시나요? GitHub Copilot을 사용해 보셨나요? 아래 댓글에서 경험을 공유해 주세요.
소셜 미디어에서 제 일일 프로젝트 진행 상황을 업데이트받으세요. 주간 뉴스레터에 가입하는 것도 잊지 마시고, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, Bluesky에서 @DavidGewirtz.com, YouTube에서 YouTube.com/DavidGewirtzTV를 팔로우해 주세요.
관련 기사
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
관련 특별 주제 추천
의견 (40)
0/500
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔
AI 코딩 도구의 불일치 탐구
모두 동일한 기반 대형 언어 모델로 구축된 AI 도구들이 이렇게 다양한 결과를 낳을 수 있다는 것이 정말로 당혹스럽습니다. 예를 들어, ChatGPT, Perplexity, 그리고 GitHub Copilot은 모두 OpenAI의 GPT-4 모델을 활용합니다. 하지만 최근 테스트에서 성능 차이가 뚜렷했습니다: ChatGPT와 Perplexity의 프로 플랜은 뛰어났지만, GitHub Copilot은 50%의 성공률을 보였습니다.
저는 VS Code 환경에 통합된 GitHub Copilot을 사용해 이 테스트를 진행했습니다. 이에 대한 자세한 설정 가이드는 곧 나올 기사에서 공유할 예정입니다. 지금은 제가 진행한 테스트의 세부 사항을 살펴보겠습니다.
제 테스트 방법론과 사용된 프롬프트가 궁금하다면, AI 챗봇의 코딩 능력을 평가하는 제 자세한 가이드를 확인할 수 있습니다.
TL;DR: GitHub Copilot은 제가 진행한 네 가지 테스트 중 두 가지를 통과했습니다.
테스트 1: WordPress 플러그인 작성
이 테스트는 완전히 실망스러웠습니다. 첫 번째 실험이었기 때문에 GitHub Copilot이 코딩에 어려움을 겪는지, 아니면 VS Code 내의 상호작용 제약이 그 능력을 방해하는지 확신할 수 없었습니다.
배경은 다음과 같습니다: 저는 AI에게 관리자 인터페이스와 작동 로직을 포함한 완전한 기능을 갖춘 WordPress 플러그인을 개발하도록 요청했습니다. 플러그인의 임무는 이름 목록을 받아 정렬하고, 중복된 이름이 인접하지 않도록 분리하는 것이었습니다.
이 작업은 제 아내의 디지털 상품 전자상거래 비즈니스에서 실제로 필요했던 것으로, 그녀는 활발한 Facebook 그룹을 관리하고 있습니다.
테스트한 10개의 AI 모델 중 5개는 이 테스트를 완전히 통과했고, 3개는 부분적으로 통과했으며, Microsoft Copilot을 포함한 2개는 완전히 실패했습니다. GitHub Copilot은 동일한 프롬프트를 받았음에도 PHP 코드만 생성했습니다. 문제는 PHP만으로 해결할 수 있었지만, GitHub Copilot은 JavaScript를 참조하려 했으나 실제로는 생성하지 않았습니다.
JavaScript 파일 내에서 GitHub Copilot에게 작업을 완료하도록 프롬프트했을 때, 이상하게도 더 많은 PHP 코드를 생성하며 존재하지 않는 JavaScript 파일을 참조했습니다.
테스트 2: 문자열 함수 재작성
이 테스트는 비교적 간단했습니다: 저는 달러와 센트를 검증하는 함수를 제공했지만, 이 함수는 정수 달러만 확인했습니다. AI의 과제는 이 함수를 수정하는 것이었습니다.
GitHub Copilot은 코드를 수정했지만, 결과는 문제가 있었습니다. 입력 문자열이 항상 유효하다고 가정했기 때문에 문자열이 비어 있으면 오류가 발생했습니다. 또한, 업데이트된 정규 표현식은 "3.", ".3", "00.30"과 같은 다양한 엣지 케이스를 처리하지 못했습니다. 통화를 검증하는 함수로서는 이러한 간과는 용납할 수 없으며, GitHub Copilot은 또 한 번 실패했습니다.
테스트 3: 성가신 버그 찾기
여기서 GitHub Copilot은 빛을 발했습니다. 이 테스트는 제가 실제로 직면했던 코딩 도전 과제를 기반으로 했으며, 오류 메시지가 실제 문제로 직접 연결되지 않았습니다. 이는 코딩 수수께끼와 비슷하며, WordPress API 호출에 대한 깊은 이해가 필요했습니다.
Microsoft Copilot, Gemini, Meta Code Llama는 이 테스트에서 실패했지만, GitHub Copilot은 이를 완벽히 해결하며 복잡한 실제 문제를 다룰 수 있는 능력을 보여주었습니다.
테스트 4: 스크립트 작성
GitHub Copilot은 Microsoft Copilot이 실패한 이 테스트에서도 성공했습니다. 이 작업은 AppleScript, Chrome 객체 모델, 그리고 Keyboard Maestro라는 Mac 전용 유틸리티를 통합해야 하는 스크립트 작성을 포함했습니다.
통과하려면 AI가 세 가지 환경의 미묘한 차이를 인식하고 해결해야 했으며, GitHub Copilot은 이를 정확히 수행했습니다.
최종 생각
고급 GPT-4 모델을 사용하는 GitHub Copilot이 테스트의 절반에서 실패한 것은 실망스럽습니다. GitHub가 선도적인 소스 관리 플랫폼이라는 점을 고려할 때, AI 코딩 지원이 더 신뢰할 만할 것이라고 기대했습니다.
하지만 AI의 세계는 계속 진화하고 있으며, GitHub Copilot의 성능이 시간이 지나면서 개선될 것이라고 낙관합니다. 몇 달 후 다시 점검하여 얼마나 발전했는지 확인할 것입니다.
코딩 지원에 AI를 사용하시나요? 어떤 AI 도구를 주로 사용하시나요? GitHub Copilot을 사용해 보셨나요? 아래 댓글에서 경험을 공유해 주세요.
소셜 미디어에서 제 일일 프로젝트 진행 상황을 업데이트받으세요. 주간 뉴스레터에 가입하는 것도 잊지 마시고, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, Bluesky에서 @DavidGewirtz.com, YouTube에서 YouTube.com/DavidGewirtzTV를 팔로우해 주세요.
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
메타 AI가 이제 페이스북 마켓플레이스에서 구매자의 메시지에 응답합니다
페이스북 마켓플레이스가 구매자 문의에 대한 자동 응답 기능을 포함한 새로운 메타 AI 기능을 도입한다고 목요일 회사 측이 발표했다. 또한 이 플랫폼은 AI를 활용해 상품 등록을 가속화하고 판매자 프로필을 요약하며, 이제 판매자가 상품 목록에 배송 옵션을 제공할 수 있도록 지원한다.판매자들은 종종 수많은 구매자 문의를 받기 때문에, 페이스북은 메타 AI 기반
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
Honestly, this doesn't surprise me. Even with the same underlying model, the way each tool fine-tunes prompts and handles context makes a huge difference. Copilot's mixed results probably come from its integration with IDE specifics. Still, it's baffling why the same model can give such inconsistent outputs for similar tasks. 🤔
Ich hab's auch ausprobiert und finde es echt seltsam, dass die Ergebnisse so unterschiedlich sind, obwohl die Basis ähnlich ist. Manchmal schreibt Copilot super Code, manchmal totalen Unsinn. Vielleicht liegt's an der Integration in die IDE? 🤔 Auf jeden Fall muss da noch viel verbessert werden, bevor ich mich voll darauf verlassen kann.
Интересно, почему ИИ-инструменты на одной базовой модели GPT-4 работают так по-разному? GitHub Copilot иногда генерирует код, который выглядит логично, но потом выдает полную ерунду 😅 Может, дело в тонкой настройке или контексте? Это напоминает мне капризного коллегу-программиста, который то гений, то беспомощен.
이 기사 읽어보니 AI 코딩 도구의 편차가 정말 신기하네요. 같은 기술인데 결과가 이렇게 다를 수 있다니... 개발자로 일하면서 Copilot이 가끔 완벽한 코드를 써주다가도 갑자기 엉뚱한 걸 제안해서 당황했던 적이 많아요. 🤔 앞으로 AI 도구들이 더 안정화되길 바랍니다!
Acho frustrante que ferramentas como Copilot e ChatGPT usem o mesmo modelo base mas tenham performances tão diferentes. Isso me faz questionar se a implementação é realmente bem feita ou se só estão colocando um nome famoso pra vender mais. 🤔





집






