Trang chủ Tin tức Claude 3.5 Sonnet đấu tranh một cách sáng tạo trong các bài kiểm tra mã hóa AI bị chi phối bởi Chatgpt

Claude 3.5 Sonnet đấu tranh một cách sáng tạo trong các bài kiểm tra mã hóa AI bị chi phối bởi Chatgpt

Ngày 03 tháng 5 năm 2025
FrankWilliams
2

Kiểm tra các khả năng của sonnet Claude 3.5 mới của Anthropic

Tuần trước, tôi đã nhận được một email từ Anthropic thông báo về việc phát hành Claude 3.5 Sonnet. Họ tự hào rằng nó "làm tăng thanh công nghiệp cho trí thông minh, vượt trội so với các mô hình đối thủ cạnh tranh và Claude 3 Opus trên một loạt các đánh giá." Họ cũng tuyên bố nó là hoàn hảo cho các nhiệm vụ phức tạp như tạo mã. Đương nhiên, tôi đã phải đưa những tuyên bố này vào thử nghiệm.

Tôi đã chạy một loạt các bài kiểm tra mã hóa trên các AI khác nhau và bạn cũng có thể. Chỉ cần đi đến cách tôi kiểm tra khả năng mã hóa của AI Chatbot - và bạn cũng có thể tìm thấy tất cả các chi tiết. Chúng ta hãy đi sâu vào cách Claude 3.5 Sonnet thực hiện trước các bài kiểm tra tiêu chuẩn của tôi và xem cách nó xếp chồng lên các AI khác như Microsoft Copilot, Meta AI, Meta Code llama, Google Gemini Advanced và Chatgpt.

1. Viết một plugin WordPress

Ban đầu, Claude 3.5 Sonnet cho thấy rất nhiều lời hứa. Giao diện người dùng mà nó tạo ra rất ấn tượng, với bố cục sạch, lần đầu tiên đặt các trường dữ liệu cạnh nhau trong số các AI mà tôi đã thử nghiệm.

Ảnh chụp màn hình giao diện plugin WordPress được tạo bởi Claude 3.5 Sonnet Ảnh chụp màn hình của David Gewirtz/ZDNet

Điều thu hút sự chú ý của tôi là cách Claude tiếp cận việc tạo mã. Thay vì các tệp riêng biệt thông thường cho PHP, JavaScript và CSS, nó đã cung cấp một tệp PHP duy nhất tự động tạo các tệp JavaScript và CSS vào thư mục của plugin. Mặc dù đây là một cách tiếp cận sáng tạo, nhưng nó rất rủi ro vì nó phụ thuộc vào cài đặt HĐH cho phép một plugin viết vào thư mục riêng của mình, một lỗ hổng bảo mật lớn trong môi trường sản xuất.

Thật không may, mặc dù giải pháp sáng tạo, plugin không hoạt động. Nút "ngẫu nhiên hóa" không làm gì, điều này gây thất vọng cho lời hứa ban đầu.

Dưới đây là kết quả tổng hợp so với các thử nghiệm trước đó:

  • Claude 3.5 Sonnet: Giao diện: Tốt, Chức năng: Thất bại
  • Chatgpt GPT-4O: Giao diện: Tốt, Chức năng: Tốt
  • Microsoft Copilot: Interface: đầy đủ, chức năng: FAIL
  • Meta AI: Giao diện: đầy đủ, chức năng: FAIL
  • Meta Code llama: thất bại hoàn toàn
  • Google Gemini Advanced: Giao diện: Tốt, Chức năng: Thất bại
  • Chatgpt 4: Giao diện: Tốt, Chức năng: Tốt
  • Chatgpt 3.5: Giao diện: Tốt, Chức năng: Tốt

2. Viết lại chức năng chuỗi

Thử nghiệm này đánh giá mức độ AI có thể viết lại mã tốt như thế nào để đáp ứng các nhu cầu cụ thể, trong trường hợp này, cho các chuyển đổi đô la và xu. Claude 3.5 Sonnet đã làm tốt công việc loại bỏ các số không hàng đầu, xử lý các số nguyên và số thập phân chính xác và ngăn chặn các giá trị âm. Nó cũng được trả lại thông minh "0" cho các đầu vào không mong muốn, giúp tránh lỗi.

Tuy nhiên, nó không cho phép các mục như ".50" cho 50 xu, đó là một yêu cầu. Điều này có nghĩa là mã sửa đổi sẽ không hoạt động trong một kịch bản trong thế giới thực, vì vậy tôi phải đánh dấu nó là thất bại.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Không thành công
  • Chatgpt GPT-4O: Thành công
  • Microsoft Copilot: Không thành công
  • Meta AI: Thất bại
  • Meta Code llama: đã thành công
  • Google Gemini nâng cao: Không thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Thành công

3. Tìm một lỗi khó chịu

Thử nghiệm này là khó khăn vì nó yêu cầu AI tìm một lỗi tinh tế cần kiến ​​thức WordPress cụ thể. Đó là một lỗi mà tôi đã bỏ lỡ chính mình và phải chuyển sang Chatgpt để giải quyết ban đầu.

Claude 3.5 Sonnet không chỉ tìm thấy và sửa lỗi mà còn nhận thấy một lỗi được đưa ra trong quá trình xuất bản, sau đó tôi đã sửa. Đây là lần đầu tiên trong số các AI mà tôi đã thử nghiệm kể từ khi xuất bản toàn bộ các bài kiểm tra.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Thành công
  • Chatgpt GPT-4O: Thành công
  • Microsoft Copilot: Không thành công. Ngoạn mục. Nhiệt tình. Biểu tượng cảm xúc.
  • Meta AI: Thành công
  • Meta Code llama: không thành công
  • Google Gemini nâng cao: Không thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Thành công

Cho đến nay, Claude 3.5 Sonnet đã thất bại hai trong số ba bài kiểm tra. Hãy xem nó làm như thế nào với cái cuối cùng.

4. Viết kịch bản

Thử nghiệm này kiểm tra kiến ​​thức của AI về các công cụ lập trình chuyên dụng như AppleScript và Maestro bàn phím. Trong khi Chatgpt đã thể hiện sự thành thạo ở cả hai, Claude 3.5 Sonnet cũng không có giá. Nó đã viết một Applescript cố gắng tương tác với Chrome nhưng hoàn toàn bỏ qua thành phần Maestro bàn phím.

Hơn nữa, AppleScript chứa lỗi cú pháp. Khi cố gắng làm cho sự nhạy cảm của trường hợp phù hợp, Claude đã tạo ra một dòng gây ra lỗi thời gian chạy:

Nếu tiêu đề của Thetab chứa trường hợp bỏ qua đầu vào thì

Câu lệnh "Chứa" đã không nhạy cảm với trường hợp và cụm từ "bỏ qua trường hợp" bị đặt sai chỗ, dẫn đến lỗi.

Dưới đây là kết quả tổng hợp:

  • Claude 3.5 Sonnet: Không thành công
  • Chatgpt gpt-4o: đã thành công nhưng với các đặt phòng
  • Microsoft Copilot: Không thành công
  • Meta AI: Thất bại
  • Meta Code llama: không thành công
  • Google Gemini Advanced: đã thành công
  • Chatgpt 4: Thành công
  • Chatgpt 3.5: Không thành công

Kết quả tổng thể

Đây là cách Claude 3.5 Sonnet thực hiện tổng thể so với các AI khác:

  • Claude 3.5 Sonnet: 1 trên 4 đã thành công
  • Chatgpt GPT-4O: 4 trên 4 đã thành công, nhưng với một câu trả lời lựa chọn kép kỳ lạ
  • Microsoft Copilot: 0 trên 4 đã thành công
  • Meta AI: 1 trên 4 đã thành công
  • Meta Code llama: 1 trên 4 đã thành công
  • Google Gemini Advanced: 1 trên 4 đã thành công
  • TATGPT 4: 4 trên 4 đã thành công
  • Chatgpt 3.5: 3 trên 4 đã thành công

Tôi đã khá thất vọng với Claude 3.5 Sonnet. Nhân học hứa rằng nó phù hợp để lập trình, nhưng nó không đáp ứng những kỳ vọng đó. Nó không phải là nó không thể lập trình; Nó chỉ không thể lập trình chính xác. Tôi tiếp tục hy vọng tìm thấy một AI có thể vượt trội hơn Chatgpt, đặc biệt là khi các mô hình này được tích hợp vào môi trường lập trình. Nhưng bây giờ, tôi đang gắn bó với Chatgpt để trợ giúp lập trình và tôi khuyên bạn nên làm như vậy.

Bạn đã sử dụng AI để lập trình chưa? Cái nào, và nó đã đi như thế nào? Chia sẻ kinh nghiệm của bạn trong các ý kiến ​​dưới đây.

Theo dõi các bản cập nhật dự án của tôi trên phương tiện truyền thông xã hội, đăng ký nhận bản tin hàng tuần của tôi và kết nối với tôi trên Twitter/X tại @DavidgeWirtz, trên Facebook tại Facebook.com/davidgeWirtz , trên Instagram tại Instagram.com

Bài viết liên quan
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
Nhận xét (0)
0/200
Back to Top
OR