소식 Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁

Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁

2025년 5월 3일
FrankWilliams
2

Anthropic의 새로운 Claude 3.5 Sonnet의 기능을 테스트합니다

지난주, 나는 Claude 3.5 Sonnet의 출시를 알리는 Anthropic으로부터 이메일을 받았습니다. 그들은 "인텔리전스의 업계 바를 높이고, 경쟁 업체 모델을 능가하고, 광범위한 평가에 대한 클로드 3 Opus"라고 자랑했습니다. 그들은 또한 코드 생성과 같은 복잡한 작업에 완벽하다고 주장했다. 당연히, 나는이 주장들을 시험에 넣어야했다.

나는 다양한 AI에 대해 일련의 코딩 테스트를 실행합니다. AI 챗봇의 코딩 능력을 테스트하는 방법으로 가십시오. 모든 세부 사항을 찾을 수 있습니다 . Claude 3.5 Sonnet이 표준 테스트에 대해 어떻게 수행했는지, Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced 및 ChatGpt와 같은 다른 AI에 대해 어떻게 쌓이는 지 살펴 보겠습니다.

1. WordPress 플러그인 쓰기

처음에 Claude 3.5 Sonnet은 많은 약속을 보여주었습니다. 생성 된 사용자 인터페이스는 인상적이었고, 테스트 한 AIS 중 처음으로 데이터 필드를 나란히 배치하는 깨끗한 레이아웃으로 인상적이었습니다.

Claude 3.5 Sonnet에 의해 생성 된 WordPress 플러그인 인터페이스의 스크린 샷 David Gewirtz/Zdnet의 스크린 샷

내 관심을 끌었던 것은 Claude가 코드 생성에 어떻게 접근했는지였습니다. PHP, JavaScript 및 CSS의 일반적인 별도의 파일 대신 JavaScript 및 CSS 파일을 플러그인 디렉토리에 자동으로 제작 한 단일 PHP 파일을 제공했습니다. 이것은 혁신적인 접근 방식 이었지만 OS 설정에 따라 플러그인이 자체 폴더에 쓸 수있는 OS 설정에 따라 달라지기 때문에 위험합니다. 생산 환경의 주요 보안 결함입니다.

불행히도 창의적인 솔루션에도 불구하고 플러그인은 작동하지 않았습니다. "Randomize"버튼은 아무것도하지 않았으며, 초기 약속을 감안할 때 실망했습니다.

이전 테스트와 비교 한 집계 결과는 다음과 같습니다.

  • Claude 3.5 Sonnet : 인터페이스 : 양호, 기능 : 실패
  • chatgpt gpt-4o : 인터페이스 : 양호, 기능 : 양호합니다
  • Microsoft Copilot : 인터페이스 : 적절한, 기능 : 실패
  • 메타 AI : 인터페이스 : 적절한, 기능 : 실패
  • 메타 코드 llama : 완전한 실패
  • Google Gemini Advanced : 인터페이스 : 양호, 기능 : 실패
  • Chatgpt 4 : 인터페이스 : 양호, 기능 : 양호합니다
  • Chatgpt 3.5 : 인터페이스 : 양호, 기능 : 좋습니다

2. 문자열 함수를 다시 작성합니다

이 테스트는 AI가 코드를 얼마나 잘 다시 작성 하여이 경우, 달러 및 센트 전환에 대해 특정 요구 사항을 충족시킬 수 있습니다. Claude 3.5 Sonnet은 주요 0을 제거하고 정수와 소수를 올바르게 처리하고 음수 값을 방지하는 데 좋은 작업을 수행했습니다. 또한 예기치 않은 입력에 대해 "0"을 현명하게 반환하여 오류를 피할 수 있습니다.

그러나 50 센트의 ".50"과 같은 항목을 허용하지 못했습니다. 이는 수정 된 코드가 실제 시나리오에서 작동하지 않으므로 실패로 표시해야합니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 실패
  • chatgpt gpt-4o : 성공했습니다
  • Microsoft Copilot : 실패했습니다
  • 메타 AI : 실패했습니다
  • 메타 코드 llama : 성공했습니다
  • Google Gemini Advanced : 실패
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 성공했습니다

3. 성가신 버그 찾기

이 테스트는 AI가 특정 WordPress 지식이 필요한 미묘한 버그를 찾아야하기 때문에 까다 롭습니다. 그것은 내가 놓친 버그이며 처음에 해결하기 위해 Chatgpt를 방문해야했습니다.

Claude 3.5 Sonnet은 버그를 찾아서 수정했을뿐만 아니라 게시 과정에서 오류가 발생한 것을 발견 한 후 수정했습니다. 이것은 전체 테스트 세트를 게시 한 이후 테스트 한 AI 중 첫 번째였습니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 성공
  • chatgpt gpt-4o : 성공했습니다
  • Microsoft Copilot : 실패했습니다. 훌륭하게. 열정적으로. 이모리 적.
  • 메타 AI : 성공했습니다
  • 메타 코드 llama : 실패
  • Google Gemini Advanced : 실패
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 성공했습니다

지금까지 Claude 3.5 Sonnet은 3 번의 테스트 중 2 개에 실패했습니다. 마지막과 어떻게 무슨 일인지 봅시다.

4. 대본 쓰기

이 테스트는 APPLESCRICT 및 키보드 MAESTRO와 같은 전문 프로그래밍 도구에 대한 AI 지식을 확인합니다. Chatgpt는 두 가지 모두에서 숙련도를 보였지만 Claude 3.5 Sonnet도 운이 좋지 않았습니다. Chrome과 상호 작용하려고 시도했지만 키보드 MAESTRO 구성 요소를 완전히 무시한 사과 스크립트를 작성했습니다.

또한 사과 스크립트에는 구문 오류가 포함되어 있습니다. Claude는 매치 케이스 비면성을 만들기 위해 런타임 오류를 일으키는 라인을 생성했습니다.

THETAB의 제목에 입력을 무시한 경우 CASE를 포함합니다

"포함"문은 이미 사례에 민감하지 않으며, "사례 무시"문구가 잘못 배치되어 오류가 발생했습니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 실패
  • Chatgpt GPT-4O : 성공했지만 예약
  • Microsoft Copilot : 실패했습니다
  • 메타 AI : 실패했습니다
  • 메타 코드 llama : 실패
  • Google Gemini Advanced : 성공
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 실패했습니다

전반적인 결과

Claude 3.5 Sonnet이 다른 AI에 비해 전체적으로 수행 한 방법은 다음과 같습니다.

  • 클로드 3.5 소네트 : 4 명 중 1 명은 성공했습니다
  • Chatgpt GPT-4O : 4 명 중 4 명은 성공했지만 하나의 이상한 듀얼 선택 답변으로
  • Microsoft Copilot : 4 개 중 0 명이 성공했습니다
  • 메타 AI : 4 개 중 1 명은 성공했습니다
  • 메타 코드 llama : 4 개 중 1 개가 성공했습니다
  • Google Gemini Advanced : 4 명 중 1 명이 성공했습니다
  • Chatgpt 4 : 4 중 4 명이 성공했습니다
  • Chatgpt 3.5 : 3 중 4 명은 성공했습니다

나는 Claude 3.5 Sonnet에 꽤 실망했습니다. 인간은 그것이 프로그래밍에 적합하다고 약속했지만 그 기대치를 충족시키지 못했습니다. 프로그래밍 할 수없는 것은 아닙니다. 올바르게 프로그래밍 할 수 없습니다. 특히 이러한 모델이 프로그래밍 환경에 통합되므로 Chatgpt를 능가 할 수있는 AI를 계속 찾고 있습니다. 그러나 지금은 프로그래밍 도움을 위해 Chatgpt를 고수하고 있으며, 당신도 마찬가지입니다.

프로그래밍에 AI를 사용 했습니까? 어느 쪽이되었고 어떻게 되었습니까? 아래 의견에 경험을 공유하십시오.

소셜 미디어에서 내 프로젝트 업데이트를 따르고, 주간 뉴스 레터를 구독하고, @davidgewirtz의 Twitter/X, Facebook.com/davidgewirtz , Instagram.com/davidgewirtz 의 Facebook 및 youtube.com/davidgewirtztv 의 YouTube에서 나와 연결하십시오.

관련 기사
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
의견 (0)
0/200
Back to Top
OR