옵션
뉴스
코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

2025년 4월 17일
141

코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

기술 세계를 따라가고 있다면, OpenAI가 최신 대형 언어 모델인 GPT-4o를 방금 출시했으며, 여기서 "o"는 "omni"를 의미한다는 것을 알고 있을 가능성이 큽니다. 이 새로운 모델은 텍스트, 그래픽, 음성 전반에 걸쳐 다재다능함을 약속하며, 저는 제 표준 코딩 테스트 세트를 통해 이를 시험해보고 싶었습니다. 이 테스트들은 다양한 AI 모델에 대해 실행되었으며, 꽤 매력적인 결과를 낳았습니다. 끝까지 함께해 주세요. 놓치고 싶지 않은 반전이 있습니다.

직접 실험을 해보고 싶다면, 이 가이드를 확인하세요: AI 챗봇의 코딩 능력을 테스트하는 방법 - 당신도 할 수 있습니다. 이 가이드에는 제가 사용하는 모든 테스트와 함께 작동 방식 및 결과에서 주의해야 할 점에 대한 자세한 설명이 포함되어 있습니다.

이제 각 테스트 결과를 살펴보고 GPT-4o가 Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, 그리고 이전 버전의 ChatGPT와 같은 이전 경쟁자들과 어떻게 비교되는지 알아봅시다.

1. WordPress 플러그인 작성

다음은 GPT-4o의 사용자 인터페이스입니다:

흥미롭게도, GPT-4o는 JavaScript 파일을 포함하여 두 필드의 줄 수를 동적으로 업데이트했습니다. 프롬프트에서 JavaScript를 명시적으로 배제하지 않았지만, 이 창의적인 접근은 예상치 못했으며 효과적이었습니다. JavaScript는 또한 Randomize 버튼의 기능을 향상시켜 페이지 전체 새로고침 없이 여러 결과 세트를 가능하게 했습니다.

줄은 올바르게 배열되었으며, 중복은 사양에 따라 적절히 분리되었습니다. 코드 자체는 탄탄하며, 단 한 가지 사소한 문제가 있습니다: Randomize 버튼이 독립된 줄에 배치되지 않았지만, 프롬프트에서 이를 명시하지 않았으므로 이에 대한 점수는 깎지 않습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 인터페이스: 좋음, 기능: 좋음
  • Microsoft Copilot: 인터페이스: 적절함, 기능: 실패
  • Meta AI: 인터페이스: 적절함, 기능: 실패
  • Meta Code Llama: 완전 실패
  • Google Gemini Advanced: 인터페이스: 좋음, 기능: 실패
  • ChatGPT 4: 인터페이스: 좋음, 기능: 좋음
  • ChatGPT 3.5: 인터페이스: 좋음, 기능: 좋음

2. 문자열 함수 재작성

이 테스트는 모델이 달러와 센트 변환을 처리하는 능력을 평가합니다. GPT-4o는 후속 줄에서 문제를 일으킬 수 있는 입력을 거부하도록 코드를 성공적으로 재작성하여 유효한 달러와 센트 값만 처리되도록 했습니다.

.75와 같은 값에 선행 0을 자동으로 추가하여 0.75로 변환하지 않은 점은 약간 실망스러웠습니다. 하지만 이를 명시적으로 요청하지 않았으므로 AI의 잘못은 아닙니다. 이는 AI가 기능적인 코드를 제공하더라도 원하는 결과를 정확히 얻기 위해 프롬프트를 조정해야 할 수도 있음을 상기시킵니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공
  • Microsoft Copilot: 실패
  • Meta AI: 실패
  • Meta Code Llama: 성공
  • Google Gemini Advanced: 실패
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 성공

3. 성가신 버그 찾기

이 테스트는 해결책이 즉시 명확하지 않기 때문에 흥미롭습니다. 저는 처음에 이 오류로 인해 코딩 중 혼란스러웠고, 그래서 첫 번째 ChatGPT 모델에 도움을 요청했습니다. 당시 ChatGPT는 오류를 즉시 찾아냈고, 이는 놀라운 일이었습니다.

대조적으로, 제가 테스트한 다른 세 개의 LLM은 이 문제의 오해를 놓쳤습니다. 오류 메시지는 코드의 한 부분을 가리키지만, 실제 문제는 다른 곳에 있으며, 이를 파악하려면 WordPress 프레임워크에 대한 깊은 이해가 필요합니다.

다행히 GPT-4o는 문제를 정확히 파악하고 수정 방법을 정확하게 설명했습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공
  • Microsoft Copilot: 실패. 화려하게. 열정적으로. 이모지로.
  • Meta AI: 성공
  • Meta Code Llama: 실패
  • Google Gemini Advanced: 실패
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 성공

지금까지 GPT-4o는 세 가지 테스트 모두에서 성공했습니다. 마지막 테스트에서 어떻게 성과를 낼지 봅시다.

4. 스크립트 작성

이 테스트에 대한 응답으로 GPT-4o는 실제로 제가 요청한 것 이상을 제공했습니다. 이 테스트는 Keyboard Maestro라는 생소한 Mac 스크립팅 도구, Apple의 AppleScript, 그리고 Chrome 스크립팅 동작을 사용하는 것을 포함합니다. 참고로, Keyboard Maestro는 저에게 게임 체인저로, OS와 애플리케이션을 재프로그래밍할 수 있는 능력 덕분에 Mac을 생산성의 중심으로 만들었습니다.

통과하려면 AI가 Keyboard Maestro 코드, AppleScript, Chrome API 기능을 조합하여 솔루션을 정확히 설명해야 합니다.

놀랍게도 GPT-4o는 두 가지 다른 버전을 제공했습니다:

두 버전 모두 Keyboard Maestro와 올바르게 상호작용했지만, 대소문자 처리에서 차이가 있었습니다. 왼쪽 버전은 AppleScript가 "as lowercase"를 지원하지 않기 때문에 틀렸습니다. 오른쪽 버전은 "contains"를 사용하고 대소문자를 구분하지 않아 잘 작동했습니다.

GPT-4o는 작동하는 코드를 제공했기 때문에 조심스럽게 통과로 평가하지만, 두 가지 옵션 중 하나가 잘못된 것을 반환하여 올바른 것을 평가하고 선택하는 데 추가 작업이 필요했습니다. 이는 코드를 직접 작성하는 것만큼 시간이 걸릴 수 있었습니다.

이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:

  • ChatGPT GPT-4o: 성공, 단 예약이 있음
  • Microsoft Copilot: 실패
  • Meta AI: 실패
  • Meta Code Llama: 실패
  • Google Gemini Advanced: 성공
  • ChatGPT 4: 성공
  • ChatGPT 3.5: 실패

전체 결과

다음은 네 가지 테스트에서 모든 모델의 성과입니다:

  • ChatGPT GPT-4o: 4개 중 4개 성공, 단 한 가지 이상한 이중 선택 답변이 있음
  • Microsoft Copilot: 4개 중 0개 성공
  • Meta AI: 4개 중 1개 성공
  • Meta Code Llama: 4개 중 1개 성공
  • Google Gemini Advanced: 4개 중 1개 성공
  • ChatGPT 4: 4개 중 4개 성공
  • ChatGPT 3.5: 4개 중 3개 성공

지금까지 ChatGPT는 코딩 지원에서 제 주력 도구였습니다. 항상 결과를 제공했습니다(제공하지 않은 경우를 제외하고). 다른 AI들은 제 테스트에서 대부분 부족했습니다. 하지만 GPT-4o는 마지막 이중 답변으로 저를 당황하게 했습니다. 이 모델 내부에서 어떤 일이 일어나 이런 문제를 일으켰는지 의문을 갖게 했습니다.

그럼에도 불구하고 GPT-4o는 제 코딩 테스트에서 최고 성과를 보였으므로, 계속 사용하며 그 특이점에 익숙해질 가능성이 큽니다. 또는 ChatGPT Plus에서 GPT-3.5나 GPT-4로 돌아갈 수도 있습니다. 다음에 ChatGPT가 모델을 업데이트할 때, 네 가지 테스트 모두에서 일관되게 올바른 답변을 선택할 수 있는지 다시 테스트해볼 예정입니다.

이 AI 모델들로 코딩을 시도해본 적이 있나요? 어떤 경험이었는지 아래 댓글로 알려주세요.

관련 기사
DeepSeek Code, 출시를 앞두고 있다 DeepSeek Code, 출시를 앞두고 있다 AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가? 머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가? 일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경 오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경 2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
관련 특별 주제 추천
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
암호 자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.
자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구
xix.ai
의견 (22)
0/500
RoyMartínez
RoyMartínez 2026년 5월 1일 오전 11시 1분 9초 GMT+09:00

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung
PaulYoung 2026년 3월 15일 오전 9시 0분 58초 GMT+09:00

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen
JonathanAllen 2025년 4월 26일 오후 8시 46분 22초 GMT+09:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025년 4월 26일 오전 3시 21분 39초 GMT+09:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025년 4월 24일 오후 8시 41분 59초 GMT+09:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025년 4월 23일 오후 2시 12분 28초 GMT+09:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

OR