옵션
뉴스
코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

2025년 4월 17일
63

코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

기술 세계를 따라가고 있다면, OpenAI가 최신 대형 언어 모델인 GPT-4o를 방금 출시했으며, 여기서 "o"는 "omni"를 의미한다는 것을 알고 있을 가능성이 큽니다. 이 새로운 모델은 텍스트, 그래픽, 음성 전반에 걸쳐 다재다능함을 약속하며, 저는 제 표준 코딩 테스트 세트를 통해 이를 시험해보고 싶었습니다. 이 테스트들은 다양한 AI 모델에 대해 실행되었으며, 꽤 매력적인 결과를 낳았습니다. 끝까지 함께해 주세요. 놓치고 싶지 않은 반전이 있습니다.

직접 실험을 해보고 싶다면, 이 가이드를 확인하세요: AI 챗봇의 코딩 능력을 테스트하는 방법 - 당신도 할 수 있습니다. 이 가이드에는 제가 사용하는 모든 테스트와 함께 작동 방식 및 결과에서 주의해야 할 점에 대한 자세한 설명이 포함되어 있습니다.

이제 각 테스트 결과를 살펴보고 GPT-4o가 Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, 그리고 이전 버전의 ChatGPT와 같은 이전 경쟁자들과 어떻게 비교되는지 알아봅시다.

1. WordPress 플러그인 작성

다음은 GPT-4o의 사용자 인터페이스입니다:

흥미롭게도, GPT-4o는 JavaScript 파일을 포함하여 두 필드의 줄 수를 동적으로 업데이트했습니다. 프롬프트에서 JavaScript를 명시적으로 배제하지 않았지만, 이 창의적인 접근은 예상치 못했으며 효과적이었습니다. JavaScript는 또한 Randomize 버튼의 기능을 향상시켜 페이지 전체 새로고침 없이 여러 결과 세트를 가능하게 했습니다.

줄은 올바르게 배열되었으며, 중복은 사양에 따라 적절히 분리되었습니다. 코드 자체는 탄탄하며, 단 한 가지 사소한 문제가 있습니다: Randomize 버튼이 독립된 줄에 배치되지 않았지만, 프롬프트에서 이를 명시하지 않았으므로 이에 대한 점수는 깎지 않습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 인터페이스: 좋음, 기능: 좋음
  • Microsoft Copilot: 인터페이스: 적절함, 기능: 실패
  • Meta AI: 인터페이스: 적절함, 기능: 실패
  • Meta Code Llama: 완전 실패
  • Google Gemini Advanced: 인터페이스: 좋음, 기능: 실패
  • ChatGPT 4: 인터페이스: 좋음, 기능: 좋음
  • ChatGPT 3.5: 인터페이스: 좋음, 기능: 좋음

2. 문자열 함수 재작성

이 테스트는 모델이 달러와 센트 변환을 처리하는 능력을 평가합니다. GPT-4o는 후속 줄에서 문제를 일으킬 수 있는 입력을 거부하도록 코드를 성공적으로 재작성하여 유효한 달러와 센트 값만 처리되도록 했습니다.

.75와 같은 값에 선행 0을 자동으로 추가하여 0.75로 변환하지 않은 점은 약간 실망스러웠습니다. 하지만 이를 명시적으로 요청하지 않았으므로 AI의 잘못은 아닙니다. 이는 AI가 기능적인 코드를 제공하더라도 원하는 결과를 정확히 얻기 위해 프롬프트를 조정해야 할 수도 있음을 상기시킵니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공
  • Microsoft Copilot: 실패
  • Meta AI: 실패
  • Meta Code Llama: 성공
  • Google Gemini Advanced: 실패
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 성공

3. 성가신 버그 찾기

이 테스트는 해결책이 즉시 명확하지 않기 때문에 흥미롭습니다. 저는 처음에 이 오류로 인해 코딩 중 혼란스러웠고, 그래서 첫 번째 ChatGPT 모델에 도움을 요청했습니다. 당시 ChatGPT는 오류를 즉시 찾아냈고, 이는 놀라운 일이었습니다.

대조적으로, 제가 테스트한 다른 세 개의 LLM은 이 문제의 오해를 놓쳤습니다. 오류 메시지는 코드의 한 부분을 가리키지만, 실제 문제는 다른 곳에 있으며, 이를 파악하려면 WordPress 프레임워크에 대한 깊은 이해가 필요합니다.

다행히 GPT-4o는 문제를 정확히 파악하고 수정 방법을 정확하게 설명했습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공
  • Microsoft Copilot: 실패. 화려하게. 열정적으로. 이모지로.
  • Meta AI: 성공
  • Meta Code Llama: 실패
  • Google Gemini Advanced: 실패
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 성공

지금까지 GPT-4o는 세 가지 테스트 모두에서 성공했습니다. 마지막 테스트에서 어떻게 성과를 낼지 봅시다.

4. 스크립트 작성

이 테스트에 대한 응답으로 GPT-4o는 실제로 제가 요청한 것 이상을 제공했습니다. 이 테스트는 Keyboard Maestro라는 생소한 Mac 스크립팅 도구, Apple의 AppleScript, 그리고 Chrome 스크립팅 동작을 사용하는 것을 포함합니다. 참고로, Keyboard Maestro는 저에게 게임 체인저로, OS와 애플리케이션을 재프로그래밍할 수 있는 능력 덕분에 Mac을 생산성의 중심으로 만들었습니다.

통과하려면 AI가 Keyboard Maestro 코드, AppleScript, Chrome API 기능을 조합하여 솔루션을 정확히 설명해야 합니다.

놀랍게도 GPT-4o는 두 가지 다른 버전을 제공했습니다:

두 버전 모두 Keyboard Maestro와 올바르게 상호작용했지만, 대소문자 처리에서 차이가 있었습니다. 왼쪽 버전은 AppleScript가 "as lowercase"를 지원하지 않기 때문에 틀렸습니다. 오른쪽 버전은 "contains"를 사용하고 대소문자를 구분하지 않아 잘 작동했습니다.

GPT-4o는 작동하는 코드를 제공했기 때문에 조심스럽게 통과로 평가하지만, 두 가지 옵션 중 하나가 잘못된 것을 반환하여 올바른 것을 평가하고 선택하는 데 추가 작업이 필요했습니다. 이는 코드를 직접 작성하는 것만큼 시간이 걸릴 수 있었습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공, 단 예약이 있음
  • Microsoft Copilot: 실패
  • Meta AI: 실패
  • Meta Code Llama: 실패
  • Google Gemini Advanced: 성공
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 실패

전체 결과

다음은 네 가지 테스트에서 모든 모델의 성과입니다:

  • ChatGPT GPT-4o: 4개 중 4개 성공, 단 한 가지 이상한 이중 선택 답변이 있음
  • Microsoft Copilot: 4개 중 0개 성공
  • Meta AI: 4개 중 1개 성공
  • Meta Code Llama: 4개 중 1개 성공
  • Google Gemini Advanced: 4개 중 1개 성공
  • ChatGPT 4: 4개 중 4개 성공
  • ChatGPT 3.5: 4개 중 3개 성공

지금까지 ChatGPT는 코딩 지원에서 제 주력 도구였습니다. 항상 결과를 제공했습니다(제공하지 않은 경우를 제외하고). 다른 AI들은 제 테스트에서 대부분 부족했습니다. 하지만 GPT-4o는 마지막 이중 답변으로 저를 당황하게 했습니다. 이 모델 내부에서 어떤 일이 일어나 이런 문제를 일으켰는지 의문을 갖게 했습니다.

그럼에도 불구하고 GPT-4o는 제 코딩 테스트에서 최고 성과를 보였으므로, 계속 사용하며 그 특이점에 익숙해질 가능성이 큽니다. 또는 ChatGPT Plus에서 GPT-3.5나 GPT-4로 돌아갈 수도 있습니다. 다음에 ChatGPT가 모델을 업데이트할 때, 네 가지 테스트 모두에서 일관되게 올바른 답변을 선택할 수 있는지 다시 테스트해볼 예정입니다.

이 AI 모델들로 코딩을 시도해본 적이 있나요? 어떤 경험이었는지 아래 댓글로 알려주세요.

관련 기사
트럼프의 5000억 달러 스타게이트 프로젝트, 글로벌 AI 혁신 주도 트럼프의 5000억 달러 스타게이트 프로젝트, 글로벌 AI 혁신 주도 급속한 기술 발전의 시대에, 인공지능(AI)을 지배하려는 경쟁은 중요한 지정학적, 경제적 도전으로 떠올랐다. 도널드 트럼프의 지도 아래 미국은 AI 인프라에서 미국의 리더십을 확보하기 위해 5000억 달러 규모의 스타게이트 프로젝트를 시작했다. 이 대담한 노력은 중국과의 치열한 AI 기술 경쟁을 강조한다. 이 기사는 스타게이트 프로젝트의 범위, 전략적 중요
AI Music Covers: Ultimate Guide to Creating Unique Songs AI Music Covers: Ultimate Guide to Creating Unique Songs 인공지능(AI)은 음악 제작을 혁신하여 노래를 새롭게 재해석하는 혁신적인 방법을 도입했습니다. AI 송 커버는 사용자가 다양한 아티스트의 목소리를 사용하여 인기 트랙의 독특한 버전을 제작할 수 있게 합니다. 이 가이드는 AI 송 커버의 필수 요소, 작동 원리, 그리고 시작하기 위한 최고의 무료 도구를 탐구합니다.주요 하이라이트AI 송 커버는 머신 러닝을 활
2025년 개발자 경험을 향상시키는 10대 도구 2025년 개발자 경험을 향상시키는 10대 도구 개발자 경험(DevEx)은 단순한 용어를 넘어선다. 기술 스택이 복잡해지고, 원격 팀이 표준이 되며, 지속적 배포가 가속화됨에 따라 개발자들은 점점 더 복잡한 워크플로우에 직면한다. 열악한 DevEx는 배포 지연, 번아웃, 높은 이직률을 초래한다. 반대로, 강력한 DevEx는 생산성을 높이고, 개발자 사기를 증진하며, 코드 품질을 향상시킨다.DevEx 인사
의견 (20)
0/200
JonathanAllen
JonathanAllen 2025년 4월 26일 오후 8시 46분 22초 GMT+09:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025년 4월 26일 오전 3시 21분 39초 GMT+09:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025년 4월 24일 오후 8시 41분 59초 GMT+09:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025년 4월 23일 오후 2시 12분 28초 GMT+09:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 2025년 4월 23일 오전 11시 12분 49초 GMT+09:00

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 2025년 4월 23일 오전 2시 4분 24초 GMT+09:00

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

위로 돌아갑니다
OR