lựa chọn
Trang chủ
Tin tức
Claude 3.5 Sonnet đấu tranh một cách sáng tạo trong các bài kiểm tra mã hóa AI bị chi phối bởi Chatgpt

Claude 3.5 Sonnet đấu tranh một cách sáng tạo trong các bài kiểm tra mã hóa AI bị chi phối bởi Chatgpt

Ngày 04 tháng 5 năm 2025
66

Kiểm tra các khả năng của sonnet Claude 3.5 mới của Anthropic

Tuần trước, tôi đã nhận được một email từ Anthropic thông báo về việc phát hành Claude 3.5 Sonnet. Họ tự hào rằng nó "làm tăng thanh công nghiệp cho trí thông minh, vượt trội so với các mô hình đối thủ cạnh tranh và Claude 3 Opus trên một loạt các đánh giá." Họ cũng tuyên bố nó là hoàn hảo cho các nhiệm vụ phức tạp như tạo mã. Đương nhiên, tôi đã phải đưa những tuyên bố này vào thử nghiệm.

Tôi đã chạy một loạt các bài kiểm tra mã hóa trên các AI khác nhau và bạn cũng có thể. Chỉ cần đi đến cách tôi kiểm tra khả năng mã hóa của AI Chatbot - và bạn cũng có thể tìm thấy tất cả các chi tiết. Chúng ta hãy đi sâu vào cách Claude 3.5 Sonnet thực hiện trước các bài kiểm tra tiêu chuẩn của tôi và xem cách nó xếp chồng lên các AI khác như Microsoft Copilot, Meta AI, Meta Code llama, Google Gemini Advanced và Chatgpt.

1. Viết một plugin WordPress

Ban đầu, Claude 3.5 Sonnet cho thấy rất nhiều lời hứa. Giao diện người dùng mà nó tạo ra rất ấn tượng, với bố cục sạch, lần đầu tiên đặt các trường dữ liệu cạnh nhau trong số các AI mà tôi đã thử nghiệm.

Ảnh chụp màn hình giao diện plugin WordPress được tạo bởi Claude 3.5 Sonnet Ảnh chụp màn hình của David Gewirtz/ZDNet

Điều thu hút sự chú ý của tôi là cách Claude tiếp cận việc tạo mã. Thay vì các tệp riêng biệt thông thường cho PHP, JavaScript và CSS, nó đã cung cấp một tệp PHP duy nhất tự động tạo các tệp JavaScript và CSS vào thư mục của plugin. Mặc dù đây là một cách tiếp cận sáng tạo, nhưng nó rất rủi ro vì nó phụ thuộc vào cài đặt HĐH cho phép một plugin viết vào thư mục riêng của mình, một lỗ hổng bảo mật lớn trong môi trường sản xuất.

Thật không may, mặc dù giải pháp sáng tạo, plugin không hoạt động. Nút "ngẫu nhiên hóa" không làm gì, điều này gây thất vọng cho lời hứa ban đầu.

Dưới đây là kết quả tổng hợp so với các thử nghiệm trước đó:

  • Claude 3.5 Sonnet: Giao diện: Tốt, Chức năng: Thất bại
  • Chatgpt GPT-4O: Giao diện: Tốt, Chức năng: Tốt
  • Microsoft Copilot: Interface: đầy đủ, chức năng: FAIL
  • Meta AI: Giao diện: đầy đủ, chức năng: FAIL
  • Meta Code llama: thất bại hoàn toàn
  • Google Gemini Advanced: Giao diện: Tốt, Chức năng: Thất bại
  • Chatgpt 4: Giao diện: Tốt, Chức năng: Tốt
  • Chatgpt 3.5: Giao diện: Tốt, Chức năng: Tốt

2. Viết lại chức năng chuỗi

Thử nghiệm này đánh giá mức độ AI có thể viết lại mã tốt như thế nào để đáp ứng các nhu cầu cụ thể, trong trường hợp này, cho các chuyển đổi đô la và xu. Claude 3.5 Sonnet đã làm tốt công việc loại bỏ các số không hàng đầu, xử lý các số nguyên và số thập phân chính xác và ngăn chặn các giá trị âm. Nó cũng được trả lại thông minh "0" cho các đầu vào không mong muốn, giúp tránh lỗi.

Tuy nhiên, nó không cho phép các mục như ".50" cho 50 xu, đó là một yêu cầu. Điều này có nghĩa là mã sửa đổi sẽ không hoạt động trong một kịch bản trong thế giới thực, vì vậy tôi phải đánh dấu nó là thất bại.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Không thành công
  • Chatgpt GPT-4O: Thành công
  • Microsoft Copilot: Không thành công
  • Meta AI: Thất bại
  • Meta Code llama: đã thành công
  • Google Gemini nâng cao: Không thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Thành công

3. Tìm một lỗi khó chịu

Thử nghiệm này là khó khăn vì nó yêu cầu AI tìm một lỗi tinh tế cần kiến ​​thức WordPress cụ thể. Đó là một lỗi mà tôi đã bỏ lỡ chính mình và phải chuyển sang Chatgpt để giải quyết ban đầu.

Claude 3.5 Sonnet không chỉ tìm thấy và sửa lỗi mà còn nhận thấy một lỗi được đưa ra trong quá trình xuất bản, sau đó tôi đã sửa. Đây là lần đầu tiên trong số các AI mà tôi đã thử nghiệm kể từ khi xuất bản toàn bộ các bài kiểm tra.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Thành công
  • Chatgpt GPT-4O: Thành công
  • Microsoft Copilot: Không thành công. Ngoạn mục. Nhiệt tình. Biểu tượng cảm xúc.
  • Meta AI: Thành công
  • Meta Code llama: không thành công
  • Google Gemini nâng cao: Không thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Thành công

Cho đến nay, Claude 3.5 Sonnet đã thất bại hai trong số ba bài kiểm tra. Hãy xem nó làm như thế nào với cái cuối cùng.

4. Viết kịch bản

Thử nghiệm này kiểm tra kiến ​​thức của AI về các công cụ lập trình chuyên dụng như AppleScript và Maestro bàn phím. Trong khi Chatgpt đã thể hiện sự thành thạo ở cả hai, Claude 3.5 Sonnet cũng không có giá. Nó đã viết một Applescript cố gắng tương tác với Chrome nhưng hoàn toàn bỏ qua thành phần Maestro bàn phím.

Hơn nữa, AppleScript chứa lỗi cú pháp. Khi cố gắng làm cho sự nhạy cảm của trường hợp phù hợp, Claude đã tạo ra một dòng gây ra lỗi thời gian chạy:

Nếu tiêu đề của Thetab chứa trường hợp bỏ qua đầu vào thì

Câu lệnh "Chứa" đã không nhạy cảm với trường hợp và cụm từ "bỏ qua trường hợp" bị đặt sai chỗ, dẫn đến lỗi.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Không thành công
  • Chatgpt gpt-4o: đã thành công nhưng với các đặt phòng
  • Microsoft Copilot: Không thành công
  • Meta AI: Thất bại
  • Meta Code llama: không thành công
  • Google Gemini Advanced: đã thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Không thành công

Kết quả tổng thể

Đây là cách Claude 3.5 Sonnet thực hiện tổng thể so với các AI khác:

  • Claude 3.5 Sonnet: 1 trên 4 đã thành công
  • Chatgpt GPT-4O: 4 trên 4 đã thành công, nhưng với một câu trả lời lựa chọn kép kỳ lạ
  • Microsoft Copilot: 0 trên 4 đã thành công
  • Meta AI: 1 trên 4 đã thành công
  • Meta Code llama: 1 trên 4 đã thành công
  • Google Gemini Advanced: 1 trên 4 đã thành công
  • TATGPT 4: 4 trên 4 đã thành công
  • Chatgpt 3.5: 3 trên 4 đã thành công

Tôi đã khá thất vọng với Claude 3.5 Sonnet. Nhân học hứa rằng nó phù hợp để lập trình, nhưng nó không đáp ứng những kỳ vọng đó. Nó không phải là nó không thể lập trình; Nó chỉ không thể lập trình chính xác. Tôi tiếp tục hy vọng tìm thấy một AI có thể vượt trội hơn Chatgpt, đặc biệt là khi các mô hình này được tích hợp vào môi trường lập trình. Nhưng bây giờ, tôi đang gắn bó với Chatgpt để trợ giúp lập trình và tôi khuyên bạn nên làm như vậy.

Bạn đã sử dụng AI để lập trình chưa? Cái nào, và nó đã đi như thế nào? Chia sẻ kinh nghiệm của bạn trong các ý kiến ​​dưới đây.

Theo dõi các bản cập nhật dự án của tôi trên phương tiện truyền thông xã hội, đăng ký nhận bản tin hàng tuần của tôi và kết nối với tôi trên Twitter/X tại @DavidgeWirtz, trên Facebook tại Facebook.com/davidgeWirtz , trên Instagram tại Instagram.com

Bài viết liên quan
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
Nhận xét (5)
0/200
ScottMitchell
ScottMitchell 00:00:00 GMT Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 00:00:00 GMT Ngày 05 tháng 5 năm 2025

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 00:00:00 GMT Ngày 05 tháng 5 năm 2025

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 00:00:00 GMT Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 00:00:00 GMT Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

Quay lại đầu
OR