Claude 3.5 Sonnet AI कोडिंग परीक्षणों में रचनात्मक रूप से संघर्ष करता है

घर

समाचार

4 मई 2025

FrankWilliams

# ChatGPT

एंथ्रोपिक के नए क्लॉड 3.5 सॉनेट की क्षमताओं का परीक्षण

पिछले सप्ताह, मुझे एंथ्रोपिक से एक ईमेल प्राप्त हुआ जिसमें क्लॉड 3.5 सॉनेट के रिलीज की घोषणा की गई थी। उन्होंने दावा किया कि यह "बुद्धिमत्ता के लिए उद्योग का मानक ऊंचा करता है, जो प्रतिस्पर्धी मॉडलों और क्लॉड 3 ओपस को विभिन्न मूल्यांकनों में पीछे छोड़ता है।" उन्होंने यह भी दावा किया कि यह कोड जनरेशन जैसे जटिल कार्यों के लिए उपयुक्त है। स्वाभाविक रूप से, मुझे इन दावों का परीक्षण करना था।

मैंने विभिन्न AI पर कोडिंग टेस्ट की एक श्रृंखला चलाई है, और आप भी ऐसा कर सकते हैं। सभी विवरण जानने के लिए मैं AI चैटबॉट की कोडिंग क्षमता का परीक्षण कैसे करता हूं - और आप भी कर सकते हैं पर जाएं। आइए, देखें कि क्लॉड 3.5 सॉनेट ने मेरे मानक परीक्षणों में कैसा प्रदर्शन किया और यह माइक्रोसॉफ्ट कोपायलट, मेटा AI, मेटा कोड लामा, गूगल जेमिनी एडवांस्ड, और चैटजीपीटी जैसे अन्य AI के मुकाबले कैसे खड़ा होता है।

1. वर्डप्रेस प्लगइन लिखना

शुरुआत में, क्लॉड 3.5 सॉनेट ने बहुत संभावनाएं दिखाईं। इसके द्वारा जनरेट किया गया यूजर इंटरफेस प्रभावशाली था, जिसमें एक साफ लेआउट था जो मेरे द्वारा परीक्षण किए गए AI में पहली बार डेटा फील्ड्स को अगल-बगल रखता था।

क्लॉड 3.5 सॉनेट द्वारा बनाए गए वर्डप्रेस प्लगइन इंटरफेस का स्क्रीनशॉट स्क्रीनशॉट: डेविड गेविर्ट्ज/ZDNET

मेरे ध्यान में आया कि क्लॉड ने कोड जनरेशन को कैसे अपनाया। PHP, जावास्क्रिप्ट, और CSS के लिए अलग-अलग फाइलों के बजाय, इसने एक ही PHP फाइल प्रदान की जो प्लगइन के डायरेक्टरी में जावास्क्रिप्ट और CSS फाइलों को स्वचालित रूप से जनरेट करती थी। हालांकि यह एक नवीन दृष्टिकोण था, यह जोखिम भरा है क्योंकि यह OS सेटिंग्स पर निर्भर करता है जो प्लगइन को अपनी फोल्डर में लिखने की अनुमति देता है—जो उत्पादन वातावरण में एक प्रमुख सुरक्षा खामी है।

दुर्भाग्यवश, रचनात्मक समाधान के बावजूद, प्लगइन काम नहीं किया। "रैंडमाइज" बटन ने कुछ नहीं किया, जो इसकी शुरुआती संभावना को देखते हुए निराशाजनक था।

यहां पिछले परीक्षणों की तुलना में समग्र परिणाम हैं:

क्लॉड 3.5 सॉनेट: इंटरफेस: अच्छा, कार्यक्षमता: असफल
चैटजीपीटी GPT-4o: इंटरफेस: अच्छा, कार्यक्षमता: अच्छा
माइक्रोसॉफ्ट कोपायलट: इंटरफेस: पर्याप्त, कार्यक्षमता: असफल
मेटा AI: इंटरफेस: पर्याप्त, कार्यक्षमता: असफल
मेटा कोड लामा: पूर्ण असफलता
गूगल जेमिनी एडवांस्ड: इंटरफेस: अच्छा, कार्यक्षमता: असफल
चैटजीपीटी 4: इंटरफेस: अच्छा, कार्यक्षमता: अच्छा
चैटजीपीटी 3.5: इंटरफेस: अच्छा, कार्यक्षमता: अच्छा

2. स्ट्रिंग फंक्शन को फिर से लिखना

यह परीक्षण मूल्यांकन करता है कि AI विशेष जरूरतों, इस मामले में डॉलर और सेंट रूपांतरण के लिए कोड को कितनी अच्छी तरह फिर से लिख सकता है। क्लॉड 3.5 सॉनेट ने अग्रणी शून्य हटाने, पूर्णांक और दशमलव को सही ढंग से संभालने, और नकारात्मक मानों को रोकने में अच्छा काम किया। इसने अप्रत्याशित इनपुट के लिए "0" लौटाया, जो त्रुटियों से बचने में मदद करता है।

हालांकि, यह ".50" जैसे 50 सेंट के लिए प्रविष्टियों की अनुमति देने में विफल रहा, जो एक आवश्यकता थी। इसका मतलब है कि संशोधित कोड वास्तविक दुनिया के परिदृश्य में काम नहीं करेगा, इसलिए मुझे इसे असफल के रूप में चिह्नित करना होगा।

यहां समग्र परिणाम हैं:

क्लॉड 3.5 सॉनेट: असफल
चैटजीपीटी GPT-4o: सफल
माइक्रोसॉफ्ट कोपायलट: असफल
मेटा AI: असफल
मेटा कोड लामा: सफल
गूगल जेमिनी एडवांस्ड: असफल
चैटजीपीटी 4: सफल
चैटजीपीटी 3.5: सफल

3. एक कष्टप्रद बग ढूंढना

यह परीक्षण जटिल है क्योंकि इसके लिए AI को एक सूक्ष्म बग ढूंढने की आवश्यकता होती है जिसमें विशेष वर्डप्रेस ज्ञान की जरूरत होती है। यह एक ऐसा बग था जिसे मैंने खुद मिस कर दिया था और शुरू में चैटजीपीटी की मदद से हल करना पड़ा था।

क्लॉड 3.5 सॉनेट ने न केवल बग ढूंढा और ठीक किया, बल्कि प्रकाशन प्रक्रिया के दौरान हुई एक त्रुटि को भी देखा, जिसे मैंने बाद में ठीक किया। यह मेरे द्वारा परीक्षण किए गए AI में पहली बार था जब से मैंने पूर्ण परीक्षण सेट प्रकाशित किया था।

यहां समग्र परिणाम हैं:

क्लॉड 3.5 सॉनेट: सफल
चैटजीपीटी GPT-4o: सफल
माइक्रोसॉफ्ट कोपायलट: असफल। शानदार ढंग से। उत्साहपूर्वक। इमोजी के साथ।
मेटा AI: सफल
मेटा कोड लामा: असफल
गूगल जेमिनी एडवांस्ड: असफल
चैटजीपीटी 4: सफल
चैटजीपीटी 3.5: सफल

अब तक, क्लॉड 3.5 सॉनेट तीन में से दो परीक्षणों में असफल रहा है। आइए देखें कि यह आखिरी परीक्षण में कैसा प्रदर्शन करता है।

4. स्क्रिप्ट लिखना

यह परीक्षण AppleScript और Keyboard Maestro जैसे विशेष प्रोग्रामिंग टूल्स के बारे में AI के ज्ञान की जांच करता है। जहां चैटजीपीटी ने दोनों में दक्षता दिखाई थी, वहीं क्लॉड 3.5 सॉनेट उतना अच्छा नहीं रहा। इसने एक AppleScript लिखा जो क्रोम के साथ इंटरैक्ट करने की कोशिश करता था, लेकिन Keyboard Maestro घटक को पूरी तरह से अनदेखा कर दिया।

इसके अलावा, AppleScript में एक सिंटेक्स त्रुटि थी। केस-इंसेंसिटिव बनाने की कोशिश में, क्लॉड ने एक ऐसी लाइन जनरेट की जो रनटाइम त्रुटि का कारण बनेगी:

if theTab's title contains input ignoring case then

"contains" स्टेटमेंट पहले से ही केस-इंसेंसिटिव है, और "ignoring case" वाक्यांश गलत स्थान पर था, जिसके परिणामस्वरूप त्रुटि हुई।

यहां समग्र परिणाम हैं:

क्लॉड 3.5 सॉनेट: असफल
चैटजीपीटी GPT-4o: सफल लेकिन कुछ संदेह के साथ
माइक्रोसॉफ्ट कोपायलट: असफल
मेटा AI: असफल
मेटा कोड लामा: असफल
गूगल जेमिनी एडवांस्ड: सफल
चैटजीपीटी 4: सफल
चैटजीपीटी 3.5: असफल

कुल परिणाम

यहां बताया गया है कि क्लॉड 3.5 सॉनेट ने अन्य AI की तुलना में कुल मिलाकर कैसा प्रदर्शन किया:

क्लॉड 3.5 सॉनेट: 4 में से 1 सफल
चैटजीपीटी GPT-4o: 4 में से 4 सफल, लेकिन एक अजीब दोहरे विकल्प वाले जवाब के साथ
माइक्रोसॉफ्ट कोपायलट: 4 में से 0 सफल
मेटा AI: 4 में से 1 सफल
मेटा कोड लामा: 4 में से 1 सफल
गूगल जेमिनी एडवांस्ड: 4 में से 1 सफल
चैटजीपीटी 4: 4 में से 4 सफल
चैटजीपीटी 3.5: 4 में से 3 सफल

मैं क्लॉड 3.5 सॉनेट से बहुत निराश था। एंथ्रोपिक ने वादा किया था कि यह प्रोग्रामिंग के लिए उपयुक्त है, लेकिन यह उन अपेक्षाओं पर खरा नहीं उतरा। ऐसा नहीं है कि यह प्रोग्राम नहीं कर सकता; यह बस सही ढंग से प्रोग्राम नहीं कर सकता। मैं उम्मीद करता रहता हूं कि मुझे ऐसा AI मिलेगा जो चैटजीपीटी से बेहतर प्रदर्शन करे, खासकर जब इन मॉडलों को प्रोग्रामिंग वातावरण में एकीकृत किया जाता है। लेकिन अभी के लिए, मैं प्रोग्रामिंग मदद के लिए चैटजीपीटी के साथ रहूंगा, और मैं आपको भी ऐसा करने की सलाह देता हूं।

क्या आपने प्रोग्रामिंग के लिए AI का उपयोग किया है? कौन सा, और यह कैसा रहा? नीचे टिप्पणियों में अपने अनुभव साझा करें।

सोशल मीडिया पर मेरे प्रोजेक्ट अपडेट्स का पालन करें, मेरे साप्ताहिक न्यूज़लेटर की सदस्यता लें, और Twitter/X पर @DavidGewirtz, Facebook पर Facebook.com/DavidGewirtz, Instagram पर Instagram.com/DavidGewirtz, और YouTube पर YouTube.com/DavidGewirtzTV पर मुझसे जुड़ें।

संबंधित लेख

OpenAI Commits to Fixes After ChatGPT's Overly Agreeable Responses OpenAI ChatGPT के लिए अपने AI मॉडल अपडेट प्रक्रिया को संशोधित करने की योजना बना रहा है, क्योंकि एक अपडेट के बाद अत्यधिक चापलूसी भरे जवाब मिले, जिससे उपयोगकर्ताओं की व्यापक प्रतिक्रिया प्राप्त हुई।पिछल

OpenAI ने उन्नत AI तर्क मॉडल, o3 और o4-mini का अनावरण किया OpenAI ने बुधवार को o3 और o4-mini को पेश किया, ये नए AI मॉडल हैं जो सवालों का विश्लेषण करने और जवाब देने से पहले रुककर विचार करते हैं।OpenAI का दावा है कि o3 अब तक का सबसे उन्नत तर्क मॉडल है, जो गणित,

अपने घर को नया रूप दें: Pinterest और ChatGPT के साथ AI-चालित सजावट क्या आप अनगिनत विकल्पों के साथ अपने घर को फिर से डिज़ाइन करने में संघर्ष कर रहे हैं? Pinterest की दृश्य प्रेरणा के साथ कृत्रिम बुद्धिमत्ता को मिलाकर अपनी आदर्श जगह बनाएं। यह मार्गदर्शिका बताती है कि P

सूचना (10)

0/200

जमा करना

ScottMitchell

5 मई 2025 6:47:31 अपराह्न IST

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5 मई 2025 2:29:50 अपराह्न IST

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5 मई 2025 12:53:24 अपराह्न IST

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5 मई 2025 12:16:04 अपराह्न IST

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5 मई 2025 9:36:54 पूर्वाह्न IST

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

5 मई 2025 4:00:08 पूर्वाह्न IST

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

शीर्ष समाचार

GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प एआई वॉयसओवर: रियलिस्टिक वॉयस क्रिएशन का अल्टीमेट गाइड Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया

अधिक

प्रदर्शित