Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁

집

뉴스

2025년 5월 4일

FrankWilliams

# ChatGPT

Anthropic의 새로운 Claude 3.5 Sonnet의 기능 테스트

지난주, Anthropic으로부터 Claude 3.5 Sonnet 출시를 알리는 이메일을 받았다. 그들은 이 모델이 "지능 면에서 업계 표준을 높이며, 다양한 평가에서 경쟁 모델과 Claude 3 Opus를 능가한다"고 자랑했다. 또한 복잡한 작업, 특히 코드 생성에 완벽하다고 주장했다. 당연히 이 주장을 테스트해봐야 했다.

나는 여러 AI에 대해 일련의 코딩 테스트를 진행했으며, 당신도 할 수 있다. AI 챗봇의 코딩 능력을 테스트하는 방법 - 당신도 할 수 있다에서 모든 세부 정보를 확인할 수 있다. Claude 3.5 Sonnet이 나의 표준 테스트에서 어떻게 수행했는지, 그리고 Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, ChatGPT와 비교해 어떻게 평가되는지 살펴보자.

1. WordPress 플러그인 작성

처음에 Claude 3.5 Sonnet은 큰 가능성을 보여줬다. 생성한 사용자 인터페이스는 깔끔한 레이아웃으로, 내가 테스트한 AI 중 처음으로 데이터 필드를 나란히 배치했다.

Claude 3.5 Sonnet이 만든 WordPress 플러그인 인터페이스 스크린샷 David Gewirtz/ZDNET의 스크린샷

내 주의를 끈 것은 Claude가 코드 생성에 접근한 방식이었다. PHP, JavaScript, CSS 파일을 별도로 제공하는 대신, JavaScript와 CSS 파일을 플러그인 디렉토리에 자동 생성하는 단일 PHP 파일을 제공했다. 이 혁신적인 접근은 플러그인이 자체 폴더에 쓰기를 허용하는 OS 설정에 의존하기 때문에 위험하다—프로덕션 환경에서는 심각한 보안 결함이다.

불행히도, 창의적인 솔루션에도 불구하고 플러그인은 작동하지 않았다. "Randomize" 버튼은 아무 기능도 하지 않아 초기 약속에 비해 실망스러웠다.

이전 테스트와 비교한 종합 결과는 다음과 같다:

Claude 3.5 Sonnet: 인터페이스: 좋음, 기능: 실패
ChatGPT GPT-4o: 인터페이스: 좋음, 기능: 좋음
Microsoft Copilot: 인터페이스: 적절, 기능: 실패
Meta AI: 인터페이스: 적절, 기능: 실패
Meta Code Llama: 완전 실패
Google Gemini Advanced: 인터페이스: 좋음, 기능: 실패
ChatGPT 4: 인터페이스: 좋음, 기능: 좋음
ChatGPT 3.5: 인터페이스: 좋음, 기능: 좋음

2. 문자열 함수 재작성

이 테스트는 AI가 달러와 센트 변환을 위해 코드를 특정 요구사항에 맞게 재작성하는 능력을 평가한다. Claude 3.5 Sonnet은 선행 0 제거, 정수와 소수 처리, 음수 값 방지를 잘 수행했다. 또한 예기치 않은 입력에 대해 "0"을 반환해 오류를 방지했다.

하지만 ".50"과 같은 50센트 입력을 허용하지 않아 요구사항을 충족하지 못했다. 이는 수정된 코드가 실제 시나리오에서 작동하지 않는다는 의미로, 실패로 평가해야 한다.

종합 결과는 다음과 같다:

Claude 3.5 Sonnet: 실패
ChatGPT GPT-4o: 성공
Microsoft Copilot: 실패
Meta AI: 실패
Meta Code Llama: 성공
Google Gemini Advanced: 실패
ChatGPT 4: 성공
ChatGPT 3.5: 성공

3. 성가신 버그 찾기

이 테스트는 AI가 특정 WordPress 지식이 필요한 미묘한 버그를 찾아내는 능력을 요구하기 때문에 까다롭다. 처음에는 나도 놓쳤던 버그로, ChatGPT의 도움을 받아 해결했다.

Claude 3.5 Sonnet은 버그를 찾아 수정했을 뿐만 아니라, 게시 과정에서 발생한 오류를 발견해 내가 수정할 수 있게 했다. 이는 전체 테스트를 게시한 이후 내가 테스트한 AI 중 처음이었다.

종합 결과는 다음과 같다:

Claude 3.5 Sonnet: 성공
ChatGPT GPT-4o: 성공
Microsoft Copilot: 실패. 화려하게. 열정적으로. 이모지로.
Meta AI: 성공
Meta Code Llama: 실패
Google Gemini Advanced: 실패
ChatGPT 4: 성공
ChatGPT 3.5: 성공

지금까지 Claude 3.5 Sonnet은 세 가지 테스트 중 두 가지에서 실패했다. 마지막 테스트에서 어떻게 수행하는지 보자.

4. 스크립트 작성

이 테스트는 AppleScript와 Keyboard Maestro 같은 특수 프로그래밍 도구에 대한 AI의 지식을 확인한다. ChatGPT는 두 가지에서 능숙함을 보여줬지만, Claude 3.5 Sonnet은 그렇지 못했다. Chrome과 상호작용하려는 AppleScript를 작성했지만 Keyboard Maestro 구성 요소를 완전히 무시했다.

또한, AppleScript에 구문 오류가 있었다. 대소문자를 구분하지 않도록 하려다 런타임 오류를 일으키는 코드를 생성했다:

if theTab's title contains input ignoring case then

"contains" 문은 이미 대소문자를 구분하지 않으며, "ignoring case" 구문이 잘못 배치되어 오류가 발생했다.

종합 결과는 다음과 같다:

Claude 3.5 Sonnet: 실패
ChatGPT GPT-4o: 성공했으나 약간의 우려가 있음
Microsoft Copilot: 실패
Meta AI: 실패
Meta Code Llama: 실패
Google Gemini Advanced: 성공
ChatGPT 4: 성공
ChatGPT 3.5: 실패

전체 결과

Claude 3.5 Sonnet의 전체 성과는 다른 AI와 비교해 다음과 같다:

Claude 3.5 Sonnet: 4개 중 1개 성공
ChatGPT GPT-4o: 4개 중 4개 성공, 단 하나는 이상한 이중 선택 답변
Microsoft Copilot: 4개 중 0개 성공
Meta AI: 4개 중 1개 성공
Meta Code Llama: 4개 중 1개 성공
Google Gemini Advanced: 4개 중 1개 성공
ChatGPT 4: 4개 중 4개 성공
ChatGPT 3.5: 4개 중 3개 성공

Claude 3.5 Sonnet에 꽤 실망했다. Anthropic은 프로그래밍에 적합하다고 약속했지만, 기대를 충족하지 못했다. 프로그래밍을 못하는 것은 아니지만, 정확하게 프로그래밍하지 못한다. 나는 ChatGPT를 능가하는 AI를 찾고 싶었지만, 현재로서는 프로그래밍 도움으로 ChatGPT를 고수할 것이며, 당신도 그렇게 하기를 추천한다.

당신은 프로그래밍에 AI를 사용해봤나? 어떤 AI를 사용했으며, 어땠나? 아래 댓글에서 경험을 공유해 달라.

소셜 미디어에서 내 프로젝트 업데이트를 팔로우하고, 주간 뉴스레터를 구독하며, Twitter/X에서 @DavidGewirtz, Facebook에서 Facebook.com/DavidGewirtz, Instagram에서 Instagram.com/DavidGewirtz, YouTube에서 YouTube.com/DavidGewirtzTV로 나와 연결하라.

관련 기사

Mastercard의 Agent Pay가 AI 검색을 원활한 거래로 강화 기존 검색 플랫폼과 AI 에이전트는 사용자가 제품이나 서비스를 찾은 후 구매를 완료하기 위해 창을 전환해야 하는 경우가 많습니다.Mastercard는 AI 플랫폼에 결제 네트워크를 통합하여 동일한 생태계 내에서 원활한 거래를 가능하게 함으로써 이 과정을 혁신하고 있습니다. 이 회사는 AI 채팅 플랫폼에 Mastercard의 결제 시스템을 통합하는 Agent

OpenAI, ChatGPT의 지나치게 호의적인 응답 후 수정 약속 OpenAI는 업데이트로 인해 ChatGPT가 지나치게 아부하는 응답을 일으킨 후 AI 모델 업데이트 프로세스를 수정할 계획입니다. 이는 광범위한 사용자 피드백을 촉발했습니다.지난 주말, ChatGPT의 기반 모델인 GPT-4o 업데이트 이후, 소셜 미디어에서 사용자들은 플랫폼이 유해한 아이디어에도 과도한 긍정을 보이며 응답한다고 보고했으며, 이는 바이럴

OpenAI 고급 AI 추론 모델 공개, o3 및 o4-mini OpenAI는 수요일에 o3와 o4-mini를 소개했으며, 이는 질문에 답변하기 전에 일시 중지하고 분석하도록 설계된 새로운 AI 모델입니다.OpenAI는 o3를 지금까지 가장 정교한 추론 모델로 평가하며, 수학, 코딩, 추론, 과학, 시각적 이해 테스트에서 이전 모델들을 능가한다고 밝혔습니다. 한편, o4-mini는 비용, 속도, 성능을 균형 있게 제공하

의견 (10)

0/200

제출하다

ScottMitchell

2025년 5월 5일 오후 10시 17분 31초 GMT+09:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

2025년 5월 5일 오후 5시 59분 50초 GMT+09:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

2025년 5월 5일 오후 4시 23분 24초 GMT+09:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

2025년 5월 5일 오후 3시 46분 4초 GMT+09:00

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

2025년 5월 5일 오후 1시 6분 54초 GMT+09:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

2025년 5월 5일 오전 7시 30분 8초 GMT+09:00

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다. AI 보이스 클로닝: 음성 변환 마스터 가이드

더