घर समाचार Claude 3.5 Sonnet AI कोडिंग परीक्षणों में रचनात्मक रूप से संघर्ष करता है

Claude 3.5 Sonnet AI कोडिंग परीक्षणों में रचनात्मक रूप से संघर्ष करता है

3 मई 2025
FrankWilliams
2

एन्थ्रोपिक के नए क्लाउड 3.5 सॉनेट की क्षमताओं का परीक्षण

पिछले हफ्ते, मुझे एंथ्रोपिक से एक ईमेल मिला, जिसमें क्लाउड 3.5 सॉनेट की रिलीज़ होने की घोषणा की गई थी। उन्होंने दावा किया कि यह "इंटेलिजेंस के लिए उद्योग की पट्टी को बढ़ाता है, प्रतियोगी मॉडल को बेहतर बनाता है और मूल्यांकन की एक विस्तृत श्रृंखला पर क्लाउड 3 ओपस है।" उन्होंने यह भी दावा किया कि यह कोड जनरेशन जैसे जटिल कार्यों के लिए एकदम सही था। स्वाभाविक रूप से, मुझे इन दावों को परीक्षण के लिए रखना पड़ा।

मैंने विभिन्न एआई पर कोडिंग परीक्षणों की एक श्रृंखला चलाई है, और आप भी कर सकते हैं। बस मैं एक एआई चैटबॉट की कोडिंग क्षमता का परीक्षण कैसे करता हूं - और आप सभी विवरणों को खोजने के लिए भी कर सकते हैं । आइए, कैसे क्लाउड 3.5 सोननेट ने मेरे मानक परीक्षणों के खिलाफ प्रदर्शन किया, और यह देखें कि यह Microsoft Copilot, मेटा AI, मेटा कोड Llama, Google Gemini Advanced, और Chatgpt जैसे अन्य AI के खिलाफ कैसे ढेर हो जाता है।

1। वर्डप्रेस प्लगइन लिखना

प्रारंभ में, क्लाउड 3.5 सॉनेट ने बहुत सारे वादा दिखाया। इसे उत्पन्न उपयोगकर्ता इंटरफ़ेस प्रभावशाली था, एक साफ लेआउट के साथ, जिसने पहली बार एआईएस के बीच डेटा फ़ील्ड को साइड-बाय-साइड रखा है जो मैंने परीक्षण किया है।

वर्डप्रेस प्लगइन इंटरफ़ेस का स्क्रीनशॉट क्लाउड 3.5 सोननेट द्वारा बनाया गया डेविड Gewirtz/ZDNet द्वारा स्क्रीनशॉट

मेरा ध्यान आकर्षित किया गया था कि कैसे क्लाउड ने कोड पीढ़ी से संपर्क किया। PHP, जावास्क्रिप्ट, और CSS के लिए सामान्य अलग-अलग फ़ाइलों के बजाय, इसने एक एकल PHP फ़ाइल प्रदान की, जिसने ऑटो-जनरेट किया जावास्क्रिप्ट और CSS फ़ाइलों को प्लगइन की निर्देशिका में। हालांकि यह एक अभिनव दृष्टिकोण था, यह जोखिम भरा है क्योंकि यह ओएस सेटिंग्स पर निर्भर करता है जो एक प्लगइन को अपने स्वयं के फ़ोल्डर में लिखने की अनुमति देता है - उत्पादन वातावरण में एक प्रमुख सुरक्षा दोष।

दुर्भाग्य से, रचनात्मक समाधान के बावजूद, प्लगइन काम नहीं किया। "रैंडमाइज़" बटन ने कुछ भी नहीं किया, जो कि निराशाजनक था, जो अपने प्रारंभिक वादा को देखते हुए निराशाजनक था।

पिछले परीक्षणों की तुलना में यहां कुल परिणाम दिए गए हैं:

  • क्लाउड 3.5 सॉनेट: इंटरफ़ेस: अच्छा, कार्यक्षमता: विफल
  • CHATGPT GPT-4O: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा
  • Microsoft Copilot: इंटरफ़ेस: पर्याप्त, कार्यक्षमता: विफल
  • मेटा एआई: इंटरफ़ेस: पर्याप्त, कार्यक्षमता: विफल
  • मेटा कोड लामा: पूर्ण विफलता
  • Google मिथुन उन्नत: इंटरफ़ेस: अच्छा, कार्यक्षमता: विफल
  • CHATGPT 4: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा
  • CHATGPT 3.5: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा

2। एक स्ट्रिंग फ़ंक्शन को फिर से लिखना

यह परीक्षण मूल्यांकन करता है कि एआई विशिष्ट आवश्यकताओं को पूरा करने के लिए कोड को कितनी अच्छी तरह से लिख सकता है, इस मामले में, डॉलर और प्रतिशत रूपांतरण के लिए। क्लाउड 3.5 सॉनेट ने अग्रणी शून्य को हटाने, पूर्णांक और दशमलव को सही तरीके से संभालने और नकारात्मक मूल्यों को रोकने के लिए एक अच्छा काम किया। यह अप्रत्याशित रूप से अप्रत्याशित इनपुट के लिए "0" वापस कर दिया, जो त्रुटियों से बचने में मदद करता है।

हालांकि, यह 50 सेंट के लिए ".50" जैसी प्रविष्टियों की अनुमति देने में विफल रहा, जो एक आवश्यकता थी। इसका मतलब है कि संशोधित कोड वास्तविक दुनिया के परिदृश्य में काम नहीं करेगा, इसलिए मुझे इसे एक विफल के रूप में चिह्नित करना होगा।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: असफल
  • CHATGPT GPT-4O: सफल हुआ
  • Microsoft Copilot: विफल
  • मेटा एआई: विफल
  • मेटा कोड llama: सफल हुआ
  • Google मिथुन उन्नत: विफल
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: सफल हुआ

3। एक कष्टप्रद बग ढूंढना

यह परीक्षण मुश्किल है क्योंकि इसके लिए एआई को एक सूक्ष्म बग खोजने की आवश्यकता होती है जिसे विशिष्ट वर्डप्रेस ज्ञान की आवश्यकता होती है। यह एक बग है जिसे मैंने खुद से याद किया और शुरू में हल करने के लिए चटप्ट की ओर रुख करना पड़ा।

क्लाउड 3.5 सॉनेट ने न केवल बग को पाया और तय किया, बल्कि प्रकाशन प्रक्रिया के दौरान शुरू की गई एक त्रुटि भी देखी, जिसे मैंने तब सही किया। यह एआईएस के बीच पहला था जिसे मैंने परीक्षणों के पूर्ण सेट को प्रकाशित करने के बाद से परीक्षण किया है।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: सफल हुआ
  • CHATGPT GPT-4O: सफल हुआ
  • Microsoft Copilot: विफल। शानदार। उत्साह से। Emojally।
  • मेटा एआई: सफल हुआ
  • मेटा कोड लामा: विफल
  • Google मिथुन उन्नत: विफल
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: सफल हुआ

अब तक, क्लाउड 3.5 सॉनेट ने तीन में से दो परीक्षणों को विफल कर दिया है। आइए देखें कि यह पिछले एक के साथ कैसे करता है।

4। एक स्क्रिप्ट लिखना

यह परीक्षण AppleScript और कीबोर्ड Maestro जैसे विशेष प्रोग्रामिंग टूल के AI के ज्ञान की जांच करता है। जबकि CHATGPT ने दोनों में प्रवीणता दिखाई थी, क्लाउड 3.5 सॉनेट ने भी किराया नहीं किया। इसने एक AppleScript लिखा था जिसमें क्रोम के साथ बातचीत करने का प्रयास किया गया था लेकिन कीबोर्ड मेस्ट्रो घटक को पूरी तरह से अनदेखा किया गया था।

इसके अलावा, AppleScript में एक वाक्यविन्यास त्रुटि थी। मैच केस-असंवेदनशील बनाने की कोशिश में, क्लाउड ने एक लाइन उत्पन्न की जो एक रनटाइम त्रुटि का कारण बनेगी:

यदि Thetab के शीर्षक में इनपुट अनदेखा मामला है तो

"शामिल" कथन पहले से ही केस-असंवेदनशील है, और "अनदेखी केस" वाक्यांश को गलत तरीके से किया गया था, जिसके परिणामस्वरूप एक त्रुटि हुई।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: असफल
  • CHATGPT GPT-4O: सफल लेकिन आरक्षण के साथ
  • Microsoft Copilot: विफल
  • मेटा एआई: विफल
  • मेटा कोड लामा: विफल
  • Google मिथुन एडवांस्ड: सफल रहा
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: विफल

समग्र परिणाम

यहां बताया गया है कि कैसे क्लाउड 3.5 सॉनेट ने अन्य एआई की तुलना में समग्र प्रदर्शन किया:

  • क्लाउड 3.5 सॉनेट: 4 में से 1 सफल हुआ
  • CHATGPT GPT-4O: 4 में से 4 सफल रहे, लेकिन एक अजीब दोहरी पसंद के उत्तर के साथ
  • Microsoft Copilot: 4 में से 0 सफल हुआ
  • मेटा एआई: 4 में से 1 सफल हुआ
  • मेटा कोड लामा: 4 में से 1 सफल हुआ
  • Google मिथुन एडवांस्ड: 4 में से 1 सफल रहा
  • CHATGPT 4: 4 में से 4 सफल हुए
  • CHATGPT 3.5: 3 में से 3 सफल हुए

मैं क्लाउड 3.5 सॉनेट के साथ बहुत निराश था। एन्थ्रोपिक ने वादा किया कि यह प्रोग्रामिंग के लिए अनुकूल था, लेकिन यह उन उम्मीदों को पूरा नहीं करता था। ऐसा नहीं है कि यह प्रोग्राम नहीं कर सकता है; यह सिर्फ सही तरीके से प्रोग्राम नहीं कर सकता। मैं एक एआई खोजने की उम्मीद करता रहता हूं जो चैट को बेहतर बना सकता है, खासकर जब ये मॉडल प्रोग्रामिंग वातावरण में एकीकृत हो जाते हैं। लेकिन अभी के लिए, मैं प्रोग्रामिंग मदद के लिए CHATGPT के साथ चिपका हुआ हूं, और मैं आपको ऐसा करने की सलाह देता हूं।

क्या आपने प्रोग्रामिंग के लिए एआई का उपयोग किया है? कौन सा, और यह कैसे हुआ? नीचे दी गई टिप्पणियों में अपने अनुभव साझा करें।

सोशल मीडिया पर मेरे प्रोजेक्ट अपडेट का पालन करें, मेरे साप्ताहिक न्यूज़लेटर की सदस्यता लें, और मेरे साथ ट्विटर/एक्स पर @DavidgeWirtz पर, फेसबुक पर फेसबुक पर, Instagram.com/davidgewirtz पर Instagram पर, और youtube.com/Davidgewirtztv पर YouTube पर @DavidgeWirtz पर, Twitter/X पर कनेक्ट करें।

संबंधित लेख
打開深搜索到達以挑戰困惑和chatgpt搜索 打開深搜索到達以挑戰困惑和chatgpt搜索 如果您在科技界中,您可能會聽說過圍繞開放式深度搜索(ODS)的嗡嗡聲,這是來自Sectient Foundation的新開源框架。 ODS通過提供專有AI搜索引擎(如困惑和Chatgpt搜索)的強大替代方案來引起海浪
使用Chatgpt製作出色的求職信:提示和技巧 使用Chatgpt製作出色的求職信:提示和技巧 創建完美總結您職業的簡歷足以挑戰,但是工作申請通常也需要求職信。這封信是您有機會深入研究您為什麼對公司感興趣的細節,使您有資格獲得該職位以及為什麼您是最好的坦率
虛擬地探索地球:Chatgpt和Google Earth度假計劃者 虛擬地探索地球:Chatgpt和Google Earth度假計劃者 曾經有過逃避日常磨碎的衝動,但發現自己在去哪裡陷入困境?讓我們深入研究一個很酷的方法,以計劃下一個度假勝地,而無需踏出門外。通過利用Chatgpt和Google Earth的力量,您可以踏上一個既令人興奮又相關的虛擬假期
सूचना (0)
शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है Google.org Unveils $15M AI Training Grants for Government Workers कंबियम का एआई कचरे की लकड़ी को लकड़ी में बदल देता है एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है यूके एआई बॉडी ने सिक्योरिटी इंस्टीट्यूट को नाम दिया, एंथ्रोपिक के साथ एमओयू साइन किया
अधिक
Back to Top
OR