Claude 3.5 Sonnet đấu tranh một cách sáng tạo trong các bài kiểm tra mã hóa AI bị chi phối bởi Chatgpt

Trang chủ

Tin tức

Ngày 04 tháng 5 năm 2025

FrankWilliams

# ChatGPT

Kiểm tra các khả năng của sonnet Claude 3.5 mới của Anthropic

Tuần trước, tôi đã nhận được một email từ Anthropic thông báo về việc phát hành Claude 3.5 Sonnet. Họ tự hào rằng nó "làm tăng thanh công nghiệp cho trí thông minh, vượt trội so với các mô hình đối thủ cạnh tranh và Claude 3 Opus trên một loạt các đánh giá." Họ cũng tuyên bố nó là hoàn hảo cho các nhiệm vụ phức tạp như tạo mã. Đương nhiên, tôi đã phải đưa những tuyên bố này vào thử nghiệm.

Tôi đã chạy một loạt các bài kiểm tra mã hóa trên các AI khác nhau và bạn cũng có thể. Chỉ cần đi đến cách tôi kiểm tra khả năng mã hóa của AI Chatbot - và bạn cũng có thể tìm thấy tất cả các chi tiết. Chúng ta hãy đi sâu vào cách Claude 3.5 Sonnet thực hiện trước các bài kiểm tra tiêu chuẩn của tôi và xem cách nó xếp chồng lên các AI khác như Microsoft Copilot, Meta AI, Meta Code llama, Google Gemini Advanced và Chatgpt.

1. Viết một plugin WordPress

Ban đầu, Claude 3.5 Sonnet cho thấy rất nhiều lời hứa. Giao diện người dùng mà nó tạo ra rất ấn tượng, với bố cục sạch, lần đầu tiên đặt các trường dữ liệu cạnh nhau trong số các AI mà tôi đã thử nghiệm.

Ảnh chụp màn hình giao diện plugin WordPress được tạo bởi Claude 3.5 Sonnet Ảnh chụp màn hình của David Gewirtz/ZDNet

Điều thu hút sự chú ý của tôi là cách Claude tiếp cận việc tạo mã. Thay vì các tệp riêng biệt thông thường cho PHP, JavaScript và CSS, nó đã cung cấp một tệp PHP duy nhất tự động tạo các tệp JavaScript và CSS vào thư mục của plugin. Mặc dù đây là một cách tiếp cận sáng tạo, nhưng nó rất rủi ro vì nó phụ thuộc vào cài đặt HĐH cho phép một plugin viết vào thư mục riêng của mình, một lỗ hổng bảo mật lớn trong môi trường sản xuất.

Thật không may, mặc dù giải pháp sáng tạo, plugin không hoạt động. Nút "ngẫu nhiên hóa" không làm gì, điều này gây thất vọng cho lời hứa ban đầu.

Dưới đây là kết quả tổng hợp so với các thử nghiệm trước đó:

Claude 3.5 Sonnet: Giao diện: Tốt, Chức năng: Thất bại
Chatgpt GPT-4O: Giao diện: Tốt, Chức năng: Tốt
Microsoft Copilot: Interface: đầy đủ, chức năng: FAIL
Meta AI: Giao diện: đầy đủ, chức năng: FAIL
Meta Code llama: thất bại hoàn toàn
Google Gemini Advanced: Giao diện: Tốt, Chức năng: Thất bại
Chatgpt 4: Giao diện: Tốt, Chức năng: Tốt
Chatgpt 3.5: Giao diện: Tốt, Chức năng: Tốt

2. Viết lại chức năng chuỗi

Thử nghiệm này đánh giá mức độ AI có thể viết lại mã tốt như thế nào để đáp ứng các nhu cầu cụ thể, trong trường hợp này, cho các chuyển đổi đô la và xu. Claude 3.5 Sonnet đã làm tốt công việc loại bỏ các số không hàng đầu, xử lý các số nguyên và số thập phân chính xác và ngăn chặn các giá trị âm. Nó cũng được trả lại thông minh "0" cho các đầu vào không mong muốn, giúp tránh lỗi.

Tuy nhiên, nó không cho phép các mục như ".50" cho 50 xu, đó là một yêu cầu. Điều này có nghĩa là mã sửa đổi sẽ không hoạt động trong một kịch bản trong thế giới thực, vì vậy tôi phải đánh dấu nó là thất bại.

Dưới đây là kết quả tổng hợp:

Claude 3.5 Sonnet: Không thành công
Chatgpt GPT-4O: Thành công
Microsoft Copilot: Không thành công
Meta AI: Thất bại
Meta Code llama: đã thành công
Google Gemini nâng cao: Không thành công
Chatgpt 4: Thành công
Chatgpt 3.5: Thành công

3. Tìm một lỗi khó chịu

Thử nghiệm này là khó khăn vì nó yêu cầu AI tìm một lỗi tinh tế cần kiến thức WordPress cụ thể. Đó là một lỗi mà tôi đã bỏ lỡ chính mình và phải chuyển sang Chatgpt để giải quyết ban đầu.

Claude 3.5 Sonnet không chỉ tìm thấy và sửa lỗi mà còn nhận thấy một lỗi được đưa ra trong quá trình xuất bản, sau đó tôi đã sửa. Đây là lần đầu tiên trong số các AI mà tôi đã thử nghiệm kể từ khi xuất bản toàn bộ các bài kiểm tra.

Dưới đây là kết quả tổng hợp:

Claude 3.5 Sonnet: Thành công
Chatgpt GPT-4O: Thành công
Microsoft Copilot: Không thành công. Ngoạn mục. Nhiệt tình. Biểu tượng cảm xúc.
Meta AI: Thành công
Meta Code llama: không thành công
Google Gemini nâng cao: Không thành công
Chatgpt 4: Thành công
Chatgpt 3.5: Thành công

Cho đến nay, Claude 3.5 Sonnet đã thất bại hai trong số ba bài kiểm tra. Hãy xem nó làm như thế nào với cái cuối cùng.

4. Viết kịch bản

Thử nghiệm này kiểm tra kiến thức của AI về các công cụ lập trình chuyên dụng như AppleScript và Maestro bàn phím. Trong khi Chatgpt đã thể hiện sự thành thạo ở cả hai, Claude 3.5 Sonnet cũng không có giá. Nó đã viết một Applescript cố gắng tương tác với Chrome nhưng hoàn toàn bỏ qua thành phần Maestro bàn phím.

Hơn nữa, AppleScript chứa lỗi cú pháp. Khi cố gắng làm cho sự nhạy cảm của trường hợp phù hợp, Claude đã tạo ra một dòng gây ra lỗi thời gian chạy:

Nếu tiêu đề của Thetab chứa trường hợp bỏ qua đầu vào thì

Câu lệnh "Chứa" đã không nhạy cảm với trường hợp và cụm từ "bỏ qua trường hợp" bị đặt sai chỗ, dẫn đến lỗi.

Dưới đây là kết quả tổng hợp:

Claude 3.5 Sonnet: Không thành công
Chatgpt gpt-4o: đã thành công nhưng với các đặt phòng
Microsoft Copilot: Không thành công
Meta AI: Thất bại
Meta Code llama: không thành công
Google Gemini Advanced: đã thành công
Chatgpt 4: Thành công
Chatgpt 3.5: Không thành công

Kết quả tổng thể

Đây là cách Claude 3.5 Sonnet thực hiện tổng thể so với các AI khác:

Claude 3.5 Sonnet: 1 trên 4 đã thành công
Chatgpt GPT-4O: 4 trên 4 đã thành công, nhưng với một câu trả lời lựa chọn kép kỳ lạ
Microsoft Copilot: 0 trên 4 đã thành công
Meta AI: 1 trên 4 đã thành công
Meta Code llama: 1 trên 4 đã thành công
Google Gemini Advanced: 1 trên 4 đã thành công
TATGPT 4: 4 trên 4 đã thành công
Chatgpt 3.5: 3 trên 4 đã thành công

Tôi đã khá thất vọng với Claude 3.5 Sonnet. Nhân học hứa rằng nó phù hợp để lập trình, nhưng nó không đáp ứng những kỳ vọng đó. Nó không phải là nó không thể lập trình; Nó chỉ không thể lập trình chính xác. Tôi tiếp tục hy vọng tìm thấy một AI có thể vượt trội hơn Chatgpt, đặc biệt là khi các mô hình này được tích hợp vào môi trường lập trình. Nhưng bây giờ, tôi đang gắn bó với Chatgpt để trợ giúp lập trình và tôi khuyên bạn nên làm như vậy.

Bạn đã sử dụng AI để lập trình chưa? Cái nào, và nó đã đi như thế nào? Chia sẻ kinh nghiệm của bạn trong các ý kiến dưới đây.

Theo dõi các bản cập nhật dự án của tôi trên phương tiện truyền thông xã hội, đăng ký nhận bản tin hàng tuần của tôi và kết nối với tôi trên Twitter/X tại @DavidgeWirtz, trên Facebook tại Facebook.com/davidgeWirtz , trên Instagram tại Instagram.com

Bài viết liên quan

OpenAI Cam kết Sửa chữa Sau Phản hồi Quá đồng thuận của ChatGPT OpenAI dự định sửa đổi quy trình cập nhật mô hình AI cho ChatGPT sau khi một bản cập nhật gây ra phản hồi quá sycophantic, dẫn đến nhiều phản hồi từ người dùng.Cuối tuần trước, sau khi cập nhật GPT-4o

OpenAI Ra Mắt Các Mô Hình Suy Luận AI Tiên Tiến, o3 và o4-mini OpenAI đã giới thiệu o3 và o4-mini vào thứ Tư, các mô hình AI mới được thiết kế để tạm dừng và phân tích câu hỏi trước khi trả lời.OpenAI ca ngợi o3 là mô hình suy luận tinh vi nhất từ trước đến nay,

Tân trang ngôi nhà của bạn: Trang trí bằng AI với Pinterest & ChatGPT Đang vật lộn với việc thiết kế lại ngôi nhà với vô số lựa chọn? Kết hợp trí tuệ nhân tạo với nguồn cảm hứng hình ảnh của Pinterest để tạo ra không gian lý tưởng. Hướng dẫn này tiết lộ cách kết hợp hìn

Nhận xét (10)

0/200

Nộp

ScottMitchell

20:17:31 GMT+07:00 Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

15:59:50 GMT+07:00 Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

14:23:24 GMT+07:00 Ngày 05 tháng 5 năm 2025

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

13:46:04 GMT+07:00 Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

11:06:54 GMT+07:00 Ngày 05 tháng 5 năm 2025

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

05:30:08 GMT+07:00 Ngày 05 tháng 5 năm 2025

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng