옵션
소식
Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁

Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁

2025년 5월 4일
66

Anthropic의 새로운 Claude 3.5 Sonnet의 기능을 테스트합니다

지난주, 나는 Claude 3.5 Sonnet의 출시를 알리는 Anthropic으로부터 이메일을 받았습니다. 그들은 "인텔리전스의 업계 바를 높이고, 경쟁 업체 모델을 능가하고, 광범위한 평가에 대한 클로드 3 Opus"라고 자랑했습니다. 그들은 또한 코드 생성과 같은 복잡한 작업에 완벽하다고 주장했다. 당연히, 나는이 주장들을 시험에 넣어야했다.

나는 다양한 AI에 대해 일련의 코딩 테스트를 실행합니다. AI 챗봇의 코딩 능력을 테스트하는 방법으로 가십시오. 모든 세부 사항을 찾을 수 있습니다 . Claude 3.5 Sonnet이 표준 테스트에 대해 어떻게 수행했는지, Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced 및 ChatGpt와 같은 다른 AI에 대해 어떻게 쌓이는 지 살펴 보겠습니다.

1. WordPress 플러그인 쓰기

처음에 Claude 3.5 Sonnet은 많은 약속을 보여주었습니다. 생성 된 사용자 인터페이스는 인상적이었고, 테스트 한 AIS 중 처음으로 데이터 필드를 나란히 배치하는 깨끗한 레이아웃으로 인상적이었습니다.

Claude 3.5 Sonnet에 의해 생성 된 WordPress 플러그인 인터페이스의 스크린 샷 David Gewirtz/Zdnet의 스크린 샷

내 관심을 끌었던 것은 Claude가 코드 생성에 어떻게 접근했는지였습니다. PHP, JavaScript 및 CSS의 일반적인 별도의 파일 대신 JavaScript 및 CSS 파일을 플러그인 디렉토리에 자동으로 제작 한 단일 PHP 파일을 제공했습니다. 이것은 혁신적인 접근 방식 이었지만 OS 설정에 따라 플러그인이 자체 폴더에 쓸 수있는 OS 설정에 따라 달라지기 때문에 위험합니다. 생산 환경의 주요 보안 결함입니다.

불행히도 창의적인 솔루션에도 불구하고 플러그인은 작동하지 않았습니다. "Randomize"버튼은 아무것도하지 않았으며, 초기 약속을 감안할 때 실망했습니다.

이전 테스트와 비교 한 집계 결과는 다음과 같습니다.

  • Claude 3.5 Sonnet : 인터페이스 : 양호, 기능 : 실패
  • chatgpt gpt-4o : 인터페이스 : 양호, 기능 : 양호합니다
  • Microsoft Copilot : 인터페이스 : 적절한, 기능 : 실패
  • 메타 AI : 인터페이스 : 적절한, 기능 : 실패
  • 메타 코드 llama : 완전한 실패
  • Google Gemini Advanced : 인터페이스 : 양호, 기능 : 실패
  • Chatgpt 4 : 인터페이스 : 양호, 기능 : 양호합니다
  • Chatgpt 3.5 : 인터페이스 : 양호, 기능 : 좋습니다

2. 문자열 함수를 다시 작성합니다

이 테스트는 AI가 코드를 얼마나 잘 다시 작성 하여이 경우, 달러 및 센트 전환에 대해 특정 요구 사항을 충족시킬 수 있습니다. Claude 3.5 Sonnet은 주요 0을 제거하고 정수와 소수를 올바르게 처리하고 음수 값을 방지하는 데 좋은 작업을 수행했습니다. 또한 예기치 않은 입력에 대해 "0"을 현명하게 반환하여 오류를 피할 수 있습니다.

그러나 50 센트의 ".50"과 같은 항목을 허용하지 못했습니다. 이는 수정 된 코드가 실제 시나리오에서 작동하지 않으므로 실패로 표시해야합니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 실패
  • chatgpt gpt-4o : 성공했습니다
  • Microsoft Copilot : 실패했습니다
  • 메타 AI : 실패했습니다
  • 메타 코드 llama : 성공했습니다
  • Google Gemini Advanced : 실패
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 성공했습니다

3. 성가신 버그 찾기

이 테스트는 AI가 특정 WordPress 지식이 필요한 미묘한 버그를 찾아야하기 때문에 까다 롭습니다. 그것은 내가 놓친 버그이며 처음에 해결하기 위해 Chatgpt를 방문해야했습니다.

Claude 3.5 Sonnet은 버그를 찾아서 수정했을뿐만 아니라 게시 과정에서 오류가 발생한 것을 발견 한 후 수정했습니다. 이것은 전체 테스트 세트를 게시 한 이후 테스트 한 AI 중 첫 번째였습니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 성공
  • chatgpt gpt-4o : 성공했습니다
  • Microsoft Copilot : 실패했습니다. 훌륭하게. 열정적으로. 이모리 적.
  • 메타 AI : 성공했습니다
  • 메타 코드 llama : 실패
  • Google Gemini Advanced : 실패
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 성공했습니다

지금까지 Claude 3.5 Sonnet은 3 번의 테스트 중 2 개에 실패했습니다. 마지막과 어떻게 무슨 일인지 봅시다.

4. 대본 쓰기

이 테스트는 APPLESCRICT 및 키보드 MAESTRO와 같은 전문 프로그래밍 도구에 대한 AI 지식을 확인합니다. Chatgpt는 두 가지 모두에서 숙련도를 보였지만 Claude 3.5 Sonnet도 운이 좋지 않았습니다. Chrome과 상호 작용하려고 시도했지만 키보드 MAESTRO 구성 요소를 완전히 무시한 사과 스크립트를 작성했습니다.

또한 사과 스크립트에는 구문 오류가 포함되어 있습니다. Claude는 매치 케이스 비면성을 만들기 위해 런타임 오류를 일으키는 라인을 생성했습니다.

THETAB의 제목에 입력을 무시한 경우 CASE를 포함합니다

"포함"문은 이미 사례에 민감하지 않으며, "사례 무시"문구가 잘못 배치되어 오류가 발생했습니다.

집계 결과는 다음과 같습니다.

  • 클로드 3.5 소네트 : 실패
  • Chatgpt GPT-4O : 성공했지만 예약
  • Microsoft Copilot : 실패했습니다
  • 메타 AI : 실패했습니다
  • 메타 코드 llama : 실패
  • Google Gemini Advanced : 성공
  • Chatgpt 4 : 성공
  • Chatgpt 3.5 : 실패했습니다

전반적인 결과

Claude 3.5 Sonnet이 다른 AI에 비해 전체적으로 수행 한 방법은 다음과 같습니다.

  • 클로드 3.5 소네트 : 4 명 중 1 명은 성공했습니다
  • Chatgpt GPT-4O : 4 명 중 4 명은 성공했지만 하나의 이상한 듀얼 선택 답변으로
  • Microsoft Copilot : 4 개 중 0 명이 성공했습니다
  • 메타 AI : 4 개 중 1 명은 성공했습니다
  • 메타 코드 llama : 4 개 중 1 개가 성공했습니다
  • Google Gemini Advanced : 4 명 중 1 명이 성공했습니다
  • Chatgpt 4 : 4 중 4 명이 성공했습니다
  • Chatgpt 3.5 : 3 중 4 명은 성공했습니다

나는 Claude 3.5 Sonnet에 꽤 실망했습니다. 인간은 그것이 프로그래밍에 적합하다고 약속했지만 그 기대치를 충족시키지 못했습니다. 프로그래밍 할 수없는 것은 아닙니다. 올바르게 프로그래밍 할 수 없습니다. 특히 이러한 모델이 프로그래밍 환경에 통합되므로 Chatgpt를 능가 할 수있는 AI를 계속 찾고 있습니다. 그러나 지금은 프로그래밍 도움을 위해 Chatgpt를 고수하고 있으며, 당신도 마찬가지입니다.

프로그래밍에 AI를 사용 했습니까? 어느 쪽이되었고 어떻게 되었습니까? 아래 의견에 경험을 공유하십시오.

소셜 미디어에서 내 프로젝트 업데이트를 따르고, 주간 뉴스 레터를 구독하고, @davidgewirtz의 Twitter/X, Facebook.com/davidgewirtz , Instagram.com/davidgewirtz 의 Facebook 및 youtube.com/davidgewirtztv 의 YouTube에서 나와 연결하십시오.

관련 기사
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
의견 (5)
0/200
ScottMitchell
ScottMitchell 2025년 5월 5일 오전 12시 0분 0초 GMT

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 2025년 5월 5일 오전 12시 0분 0초 GMT

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 2025년 5월 5일 오전 12시 0분 0초 GMT

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 2025년 5월 5일 오전 12시 0분 0초 GMT

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 2025년 5월 5일 오전 12시 0분 0초 GMT

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

위로 돌아갑니다
OR