코딩 테스트를 통해 gpt -4o를 넣었고 이상한 결과를 제외하고는 그것들을 얻었습니다.

기술 세계를 따라가고 있다면, OpenAI가 최신 대형 언어 모델인 GPT-4o를 방금 출시했으며, 여기서 "o"는 "omni"를 의미한다는 것을 알고 있을 가능성이 큽니다. 이 새로운 모델은 텍스트, 그래픽, 음성 전반에 걸쳐 다재다능함을 약속하며, 저는 제 표준 코딩 테스트 세트를 통해 이를 시험해보고 싶었습니다. 이 테스트들은 다양한 AI 모델에 대해 실행되었으며, 꽤 매력적인 결과를 낳았습니다. 끝까지 함께해 주세요. 놓치고 싶지 않은 반전이 있습니다.
직접 실험을 해보고 싶다면, 이 가이드를 확인하세요: AI 챗봇의 코딩 능력을 테스트하는 방법 - 당신도 할 수 있습니다. 이 가이드에는 제가 사용하는 모든 테스트와 함께 작동 방식 및 결과에서 주의해야 할 점에 대한 자세한 설명이 포함되어 있습니다.
이제 각 테스트 결과를 살펴보고 GPT-4o가 Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, 그리고 이전 버전의 ChatGPT와 같은 이전 경쟁자들과 어떻게 비교되는지 알아봅시다.
1. WordPress 플러그인 작성
다음은 GPT-4o의 사용자 인터페이스입니다:
흥미롭게도, GPT-4o는 JavaScript 파일을 포함하여 두 필드의 줄 수를 동적으로 업데이트했습니다. 프롬프트에서 JavaScript를 명시적으로 배제하지 않았지만, 이 창의적인 접근은 예상치 못했으며 효과적이었습니다. JavaScript는 또한 Randomize 버튼의 기능을 향상시켜 페이지 전체 새로고침 없이 여러 결과 세트를 가능하게 했습니다.
줄은 올바르게 배열되었으며, 중복은 사양에 따라 적절히 분리되었습니다. 코드 자체는 탄탄하며, 단 한 가지 사소한 문제가 있습니다: Randomize 버튼이 독립된 줄에 배치되지 않았지만, 프롬프트에서 이를 명시하지 않았으므로 이에 대한 점수는 깎지 않습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 인터페이스: 좋음, 기능: 좋음
- Microsoft Copilot: 인터페이스: 적절함, 기능: 실패
- Meta AI: 인터페이스: 적절함, 기능: 실패
- Meta Code Llama: 완전 실패
- Google Gemini Advanced: 인터페이스: 좋음, 기능: 실패
- ChatGPT 4: 인터페이스: 좋음, 기능: 좋음
- ChatGPT 3.5: 인터페이스: 좋음, 기능: 좋음
2. 문자열 함수 재작성
이 테스트는 모델이 달러와 센트 변환을 처리하는 능력을 평가합니다. GPT-4o는 후속 줄에서 문제를 일으킬 수 있는 입력을 거부하도록 코드를 성공적으로 재작성하여 유효한 달러와 센트 값만 처리되도록 했습니다.
.75와 같은 값에 선행 0을 자동으로 추가하여 0.75로 변환하지 않은 점은 약간 실망스러웠습니다. 하지만 이를 명시적으로 요청하지 않았으므로 AI의 잘못은 아닙니다. 이는 AI가 기능적인 코드를 제공하더라도 원하는 결과를 정확히 얻기 위해 프롬프트를 조정해야 할 수도 있음을 상기시킵니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공
- Microsoft Copilot: 실패
- Meta AI: 실패
- Meta Code Llama: 성공
- Google Gemini Advanced: 실패
- ChatGPT 4: 성공
- ChatGPT 3.5: 성공
3. 성가신 버그 찾기
이 테스트는 해결책이 즉시 명확하지 않기 때문에 흥미롭습니다. 저는 처음에 이 오류로 인해 코딩 중 혼란스러웠고, 그래서 첫 번째 ChatGPT 모델에 도움을 요청했습니다. 당시 ChatGPT는 오류를 즉시 찾아냈고, 이는 놀라운 일이었습니다.
대조적으로, 제가 테스트한 다른 세 개의 LLM은 이 문제의 오해를 놓쳤습니다. 오류 메시지는 코드의 한 부분을 가리키지만, 실제 문제는 다른 곳에 있으며, 이를 파악하려면 WordPress 프레임워크에 대한 깊은 이해가 필요합니다.
다행히 GPT-4o는 문제를 정확히 파악하고 수정 방법을 정확하게 설명했습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공
- Microsoft Copilot: 실패. 화려하게. 열정적으로. 이모지로.
- Meta AI: 성공
- Meta Code Llama: 실패
- Google Gemini Advanced: 실패
- ChatGPT 4: 성공
- ChatGPT 3.5: 성공
지금까지 GPT-4o는 세 가지 테스트 모두에서 성공했습니다. 마지막 테스트에서 어떻게 성과를 낼지 봅시다.
4. 스크립트 작성
이 테스트에 대한 응답으로 GPT-4o는 실제로 제가 요청한 것 이상을 제공했습니다. 이 테스트는 Keyboard Maestro라는 생소한 Mac 스크립팅 도구, Apple의 AppleScript, 그리고 Chrome 스크립팅 동작을 사용하는 것을 포함합니다. 참고로, Keyboard Maestro는 저에게 게임 체인저로, OS와 애플리케이션을 재프로그래밍할 수 있는 능력 덕분에 Mac을 생산성의 중심으로 만들었습니다.
통과하려면 AI가 Keyboard Maestro 코드, AppleScript, Chrome API 기능을 조합하여 솔루션을 정확히 설명해야 합니다.
놀랍게도 GPT-4o는 두 가지 다른 버전을 제공했습니다:
두 버전 모두 Keyboard Maestro와 올바르게 상호작용했지만, 대소문자 처리에서 차이가 있었습니다. 왼쪽 버전은 AppleScript가 "as lowercase"를 지원하지 않기 때문에 틀렸습니다. 오른쪽 버전은 "contains"를 사용하고 대소문자를 구분하지 않아 잘 작동했습니다.
GPT-4o는 작동하는 코드를 제공했기 때문에 조심스럽게 통과로 평가하지만, 두 가지 옵션 중 하나가 잘못된 것을 반환하여 올바른 것을 평가하고 선택하는 데 추가 작업이 필요했습니다. 이는 코드를 직접 작성하는 것만큼 시간이 걸릴 수 있었습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공, 단 예약이 있음
- Microsoft Copilot: 실패
- Meta AI: 실패
- Meta Code Llama: 실패
- Google Gemini Advanced: 성공
- ChatGPT 4: 성공
- ChatGPT 3.5: 실패
전체 결과
다음은 네 가지 테스트에서 모든 모델의 성과입니다:
- ChatGPT GPT-4o: 4개 중 4개 성공, 단 한 가지 이상한 이중 선택 답변이 있음
- Microsoft Copilot: 4개 중 0개 성공
- Meta AI: 4개 중 1개 성공
- Meta Code Llama: 4개 중 1개 성공
- Google Gemini Advanced: 4개 중 1개 성공
- ChatGPT 4: 4개 중 4개 성공
- ChatGPT 3.5: 4개 중 3개 성공
지금까지 ChatGPT는 코딩 지원에서 제 주력 도구였습니다. 항상 결과를 제공했습니다(제공하지 않은 경우를 제외하고). 다른 AI들은 제 테스트에서 대부분 부족했습니다. 하지만 GPT-4o는 마지막 이중 답변으로 저를 당황하게 했습니다. 이 모델 내부에서 어떤 일이 일어나 이런 문제를 일으켰는지 의문을 갖게 했습니다.
그럼에도 불구하고 GPT-4o는 제 코딩 테스트에서 최고 성과를 보였으므로, 계속 사용하며 그 특이점에 익숙해질 가능성이 큽니다. 또는 ChatGPT Plus에서 GPT-3.5나 GPT-4로 돌아갈 수도 있습니다. 다음에 ChatGPT가 모델을 업데이트할 때, 네 가지 테스트 모두에서 일관되게 올바른 답변을 선택할 수 있는지 다시 테스트해볼 예정입니다.
이 AI 모델들로 코딩을 시도해본 적이 있나요? 어떤 경험이었는지 아래 댓글로 알려주세요.
관련 기사
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
관련 특별 주제 추천
의견 (22)
0/500
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

기술 세계를 따라가고 있다면, OpenAI가 최신 대형 언어 모델인 GPT-4o를 방금 출시했으며, 여기서 "o"는 "omni"를 의미한다는 것을 알고 있을 가능성이 큽니다. 이 새로운 모델은 텍스트, 그래픽, 음성 전반에 걸쳐 다재다능함을 약속하며, 저는 제 표준 코딩 테스트 세트를 통해 이를 시험해보고 싶었습니다. 이 테스트들은 다양한 AI 모델에 대해 실행되었으며, 꽤 매력적인 결과를 낳았습니다. 끝까지 함께해 주세요. 놓치고 싶지 않은 반전이 있습니다.
직접 실험을 해보고 싶다면, 이 가이드를 확인하세요: AI 챗봇의 코딩 능력을 테스트하는 방법 - 당신도 할 수 있습니다. 이 가이드에는 제가 사용하는 모든 테스트와 함께 작동 방식 및 결과에서 주의해야 할 점에 대한 자세한 설명이 포함되어 있습니다.
이제 각 테스트 결과를 살펴보고 GPT-4o가 Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, 그리고 이전 버전의 ChatGPT와 같은 이전 경쟁자들과 어떻게 비교되는지 알아봅시다.
1. WordPress 플러그인 작성
다음은 GPT-4o의 사용자 인터페이스입니다:
흥미롭게도, GPT-4o는 JavaScript 파일을 포함하여 두 필드의 줄 수를 동적으로 업데이트했습니다. 프롬프트에서 JavaScript를 명시적으로 배제하지 않았지만, 이 창의적인 접근은 예상치 못했으며 효과적이었습니다. JavaScript는 또한 Randomize 버튼의 기능을 향상시켜 페이지 전체 새로고침 없이 여러 결과 세트를 가능하게 했습니다.
줄은 올바르게 배열되었으며, 중복은 사양에 따라 적절히 분리되었습니다. 코드 자체는 탄탄하며, 단 한 가지 사소한 문제가 있습니다: Randomize 버튼이 독립된 줄에 배치되지 않았지만, 프롬프트에서 이를 명시하지 않았으므로 이에 대한 점수는 깎지 않습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 인터페이스: 좋음, 기능: 좋음
- Microsoft Copilot: 인터페이스: 적절함, 기능: 실패
- Meta AI: 인터페이스: 적절함, 기능: 실패
- Meta Code Llama: 완전 실패
- Google Gemini Advanced: 인터페이스: 좋음, 기능: 실패
- ChatGPT 4: 인터페이스: 좋음, 기능: 좋음
- ChatGPT 3.5: 인터페이스: 좋음, 기능: 좋음
2. 문자열 함수 재작성
이 테스트는 모델이 달러와 센트 변환을 처리하는 능력을 평가합니다. GPT-4o는 후속 줄에서 문제를 일으킬 수 있는 입력을 거부하도록 코드를 성공적으로 재작성하여 유효한 달러와 센트 값만 처리되도록 했습니다.
.75와 같은 값에 선행 0을 자동으로 추가하여 0.75로 변환하지 않은 점은 약간 실망스러웠습니다. 하지만 이를 명시적으로 요청하지 않았으므로 AI의 잘못은 아닙니다. 이는 AI가 기능적인 코드를 제공하더라도 원하는 결과를 정확히 얻기 위해 프롬프트를 조정해야 할 수도 있음을 상기시킵니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공
- Microsoft Copilot: 실패
- Meta AI: 실패
- Meta Code Llama: 성공
- Google Gemini Advanced: 실패
- ChatGPT 4: 성공
- ChatGPT 3.5: 성공
3. 성가신 버그 찾기
이 테스트는 해결책이 즉시 명확하지 않기 때문에 흥미롭습니다. 저는 처음에 이 오류로 인해 코딩 중 혼란스러웠고, 그래서 첫 번째 ChatGPT 모델에 도움을 요청했습니다. 당시 ChatGPT는 오류를 즉시 찾아냈고, 이는 놀라운 일이었습니다.
대조적으로, 제가 테스트한 다른 세 개의 LLM은 이 문제의 오해를 놓쳤습니다. 오류 메시지는 코드의 한 부분을 가리키지만, 실제 문제는 다른 곳에 있으며, 이를 파악하려면 WordPress 프레임워크에 대한 깊은 이해가 필요합니다.
다행히 GPT-4o는 문제를 정확히 파악하고 수정 방법을 정확하게 설명했습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공
- Microsoft Copilot: 실패. 화려하게. 열정적으로. 이모지로.
- Meta AI: 성공
- Meta Code Llama: 실패
- Google Gemini Advanced: 실패
- ChatGPT 4: 성공
- ChatGPT 3.5: 성공
지금까지 GPT-4o는 세 가지 테스트 모두에서 성공했습니다. 마지막 테스트에서 어떻게 성과를 낼지 봅시다.
4. 스크립트 작성
이 테스트에 대한 응답으로 GPT-4o는 실제로 제가 요청한 것 이상을 제공했습니다. 이 테스트는 Keyboard Maestro라는 생소한 Mac 스크립팅 도구, Apple의 AppleScript, 그리고 Chrome 스크립팅 동작을 사용하는 것을 포함합니다. 참고로, Keyboard Maestro는 저에게 게임 체인저로, OS와 애플리케이션을 재프로그래밍할 수 있는 능력 덕분에 Mac을 생산성의 중심으로 만들었습니다.
통과하려면 AI가 Keyboard Maestro 코드, AppleScript, Chrome API 기능을 조합하여 솔루션을 정확히 설명해야 합니다.
놀랍게도 GPT-4o는 두 가지 다른 버전을 제공했습니다:
두 버전 모두 Keyboard Maestro와 올바르게 상호작용했지만, 대소문자 처리에서 차이가 있었습니다. 왼쪽 버전은 AppleScript가 "as lowercase"를 지원하지 않기 때문에 틀렸습니다. 오른쪽 버전은 "contains"를 사용하고 대소문자를 구분하지 않아 잘 작동했습니다.
GPT-4o는 작동하는 코드를 제공했기 때문에 조심스럽게 통과로 평가하지만, 두 가지 옵션 중 하나가 잘못된 것을 반환하여 올바른 것을 평가하고 선택하는 데 추가 작업이 필요했습니다. 이는 코드를 직접 작성하는 것만큼 시간이 걸릴 수 있었습니다.
이 테스트와 이전 테스트의 종합 결과는 다음과 같습니다:
- ChatGPT GPT-4o: 성공, 단 예약이 있음
- Microsoft Copilot: 실패
- Meta AI: 실패
- Meta Code Llama: 실패
- Google Gemini Advanced: 성공
- ChatGPT 4: 성공
- ChatGPT 3.5: 실패
전체 결과
다음은 네 가지 테스트에서 모든 모델의 성과입니다:
- ChatGPT GPT-4o: 4개 중 4개 성공, 단 한 가지 이상한 이중 선택 답변이 있음
- Microsoft Copilot: 4개 중 0개 성공
- Meta AI: 4개 중 1개 성공
- Meta Code Llama: 4개 중 1개 성공
- Google Gemini Advanced: 4개 중 1개 성공
- ChatGPT 4: 4개 중 4개 성공
- ChatGPT 3.5: 4개 중 3개 성공
지금까지 ChatGPT는 코딩 지원에서 제 주력 도구였습니다. 항상 결과를 제공했습니다(제공하지 않은 경우를 제외하고). 다른 AI들은 제 테스트에서 대부분 부족했습니다. 하지만 GPT-4o는 마지막 이중 답변으로 저를 당황하게 했습니다. 이 모델 내부에서 어떤 일이 일어나 이런 문제를 일으켰는지 의문을 갖게 했습니다.
그럼에도 불구하고 GPT-4o는 제 코딩 테스트에서 최고 성과를 보였으므로, 계속 사용하며 그 특이점에 익숙해질 가능성이 큽니다. 또는 ChatGPT Plus에서 GPT-3.5나 GPT-4로 돌아갈 수도 있습니다. 다음에 ChatGPT가 모델을 업데이트할 때, 네 가지 테스트 모두에서 일관되게 올바른 답변을 선택할 수 있는지 다시 테스트해볼 예정입니다.
이 AI 모델들로 코딩을 시도해본 적이 있나요? 어떤 경험이었는지 아래 댓글로 알려주세요.
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔





집






