विकल्प
घर
समाचार
Claude 3.5 Sonnet AI कोडिंग परीक्षणों में रचनात्मक रूप से संघर्ष करता है

Claude 3.5 Sonnet AI कोडिंग परीक्षणों में रचनात्मक रूप से संघर्ष करता है

4 मई 2025
66

एन्थ्रोपिक के नए क्लाउड 3.5 सॉनेट की क्षमताओं का परीक्षण

पिछले हफ्ते, मुझे एंथ्रोपिक से एक ईमेल मिला, जिसमें क्लाउड 3.5 सॉनेट की रिलीज़ होने की घोषणा की गई थी। उन्होंने दावा किया कि यह "इंटेलिजेंस के लिए उद्योग की पट्टी को बढ़ाता है, प्रतियोगी मॉडल को बेहतर बनाता है और मूल्यांकन की एक विस्तृत श्रृंखला पर क्लाउड 3 ओपस है।" उन्होंने यह भी दावा किया कि यह कोड जनरेशन जैसे जटिल कार्यों के लिए एकदम सही था। स्वाभाविक रूप से, मुझे इन दावों को परीक्षण के लिए रखना पड़ा।

मैंने विभिन्न एआई पर कोडिंग परीक्षणों की एक श्रृंखला चलाई है, और आप भी कर सकते हैं। बस मैं एक एआई चैटबॉट की कोडिंग क्षमता का परीक्षण कैसे करता हूं - और आप सभी विवरणों को खोजने के लिए भी कर सकते हैं । आइए, कैसे क्लाउड 3.5 सोननेट ने मेरे मानक परीक्षणों के खिलाफ प्रदर्शन किया, और यह देखें कि यह Microsoft Copilot, मेटा AI, मेटा कोड Llama, Google Gemini Advanced, और Chatgpt जैसे अन्य AI के खिलाफ कैसे ढेर हो जाता है।

1। वर्डप्रेस प्लगइन लिखना

प्रारंभ में, क्लाउड 3.5 सॉनेट ने बहुत सारे वादा दिखाया। इसे उत्पन्न उपयोगकर्ता इंटरफ़ेस प्रभावशाली था, एक साफ लेआउट के साथ, जिसने पहली बार एआईएस के बीच डेटा फ़ील्ड को साइड-बाय-साइड रखा है जो मैंने परीक्षण किया है।

वर्डप्रेस प्लगइन इंटरफ़ेस का स्क्रीनशॉट क्लाउड 3.5 सोननेट द्वारा बनाया गया डेविड Gewirtz/ZDNet द्वारा स्क्रीनशॉट

मेरा ध्यान आकर्षित किया गया था कि कैसे क्लाउड ने कोड पीढ़ी से संपर्क किया। PHP, जावास्क्रिप्ट, और CSS के लिए सामान्य अलग-अलग फ़ाइलों के बजाय, इसने एक एकल PHP फ़ाइल प्रदान की, जिसने ऑटो-जनरेट किया जावास्क्रिप्ट और CSS फ़ाइलों को प्लगइन की निर्देशिका में। हालांकि यह एक अभिनव दृष्टिकोण था, यह जोखिम भरा है क्योंकि यह ओएस सेटिंग्स पर निर्भर करता है जो एक प्लगइन को अपने स्वयं के फ़ोल्डर में लिखने की अनुमति देता है - उत्पादन वातावरण में एक प्रमुख सुरक्षा दोष।

दुर्भाग्य से, रचनात्मक समाधान के बावजूद, प्लगइन काम नहीं किया। "रैंडमाइज़" बटन ने कुछ भी नहीं किया, जो कि निराशाजनक था, जो अपने प्रारंभिक वादा को देखते हुए निराशाजनक था।

पिछले परीक्षणों की तुलना में यहां कुल परिणाम दिए गए हैं:

  • क्लाउड 3.5 सॉनेट: इंटरफ़ेस: अच्छा, कार्यक्षमता: विफल
  • CHATGPT GPT-4O: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा
  • Microsoft Copilot: इंटरफ़ेस: पर्याप्त, कार्यक्षमता: विफल
  • मेटा एआई: इंटरफ़ेस: पर्याप्त, कार्यक्षमता: विफल
  • मेटा कोड लामा: पूर्ण विफलता
  • Google मिथुन उन्नत: इंटरफ़ेस: अच्छा, कार्यक्षमता: विफल
  • CHATGPT 4: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा
  • CHATGPT 3.5: इंटरफ़ेस: अच्छा, कार्यक्षमता: अच्छा

2। एक स्ट्रिंग फ़ंक्शन को फिर से लिखना

यह परीक्षण मूल्यांकन करता है कि एआई विशिष्ट आवश्यकताओं को पूरा करने के लिए कोड को कितनी अच्छी तरह से लिख सकता है, इस मामले में, डॉलर और प्रतिशत रूपांतरण के लिए। क्लाउड 3.5 सॉनेट ने अग्रणी शून्य को हटाने, पूर्णांक और दशमलव को सही तरीके से संभालने और नकारात्मक मूल्यों को रोकने के लिए एक अच्छा काम किया। यह अप्रत्याशित रूप से अप्रत्याशित इनपुट के लिए "0" वापस कर दिया, जो त्रुटियों से बचने में मदद करता है।

हालांकि, यह 50 सेंट के लिए ".50" जैसी प्रविष्टियों की अनुमति देने में विफल रहा, जो एक आवश्यकता थी। इसका मतलब है कि संशोधित कोड वास्तविक दुनिया के परिदृश्य में काम नहीं करेगा, इसलिए मुझे इसे एक विफल के रूप में चिह्नित करना होगा।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: असफल
  • CHATGPT GPT-4O: सफल हुआ
  • Microsoft Copilot: विफल
  • मेटा एआई: विफल
  • मेटा कोड llama: सफल हुआ
  • Google मिथुन उन्नत: विफल
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: सफल हुआ

3। एक कष्टप्रद बग ढूंढना

यह परीक्षण मुश्किल है क्योंकि इसके लिए एआई को एक सूक्ष्म बग खोजने की आवश्यकता होती है जिसे विशिष्ट वर्डप्रेस ज्ञान की आवश्यकता होती है। यह एक बग है जिसे मैंने खुद से याद किया और शुरू में हल करने के लिए चटप्ट की ओर रुख करना पड़ा।

क्लाउड 3.5 सॉनेट ने न केवल बग को पाया और तय किया, बल्कि प्रकाशन प्रक्रिया के दौरान शुरू की गई एक त्रुटि भी देखी, जिसे मैंने तब सही किया। यह एआईएस के बीच पहला था जिसे मैंने परीक्षणों के पूर्ण सेट को प्रकाशित करने के बाद से परीक्षण किया है।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: सफल हुआ
  • CHATGPT GPT-4O: सफल हुआ
  • Microsoft Copilot: विफल। शानदार। उत्साह से। Emojally।
  • मेटा एआई: सफल हुआ
  • मेटा कोड लामा: विफल
  • Google मिथुन उन्नत: विफल
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: सफल हुआ

अब तक, क्लाउड 3.5 सॉनेट ने तीन में से दो परीक्षणों को विफल कर दिया है। आइए देखें कि यह पिछले एक के साथ कैसे करता है।

4। एक स्क्रिप्ट लिखना

यह परीक्षण AppleScript और कीबोर्ड Maestro जैसे विशेष प्रोग्रामिंग टूल के AI के ज्ञान की जांच करता है। जबकि CHATGPT ने दोनों में प्रवीणता दिखाई थी, क्लाउड 3.5 सॉनेट ने भी किराया नहीं किया। इसने एक AppleScript लिखा था जिसमें क्रोम के साथ बातचीत करने का प्रयास किया गया था लेकिन कीबोर्ड मेस्ट्रो घटक को पूरी तरह से अनदेखा किया गया था।

इसके अलावा, AppleScript में एक वाक्यविन्यास त्रुटि थी। मैच केस-असंवेदनशील बनाने की कोशिश में, क्लाउड ने एक लाइन उत्पन्न की जो एक रनटाइम त्रुटि का कारण बनेगी:

यदि Thetab के शीर्षक में इनपुट अनदेखा मामला है तो

"शामिल" कथन पहले से ही केस-असंवेदनशील है, और "अनदेखी केस" वाक्यांश को गलत तरीके से किया गया था, जिसके परिणामस्वरूप एक त्रुटि हुई।

यहाँ कुल परिणाम हैं:

  • क्लाउड 3.5 सॉनेट: असफल
  • CHATGPT GPT-4O: सफल लेकिन आरक्षण के साथ
  • Microsoft Copilot: विफल
  • मेटा एआई: विफल
  • मेटा कोड लामा: विफल
  • Google मिथुन एडवांस्ड: सफल रहा
  • CHATGPT 4: सफल हुआ
  • CHATGPT 3.5: विफल

समग्र परिणाम

यहां बताया गया है कि कैसे क्लाउड 3.5 सॉनेट ने अन्य एआई की तुलना में समग्र प्रदर्शन किया:

  • क्लाउड 3.5 सॉनेट: 4 में से 1 सफल हुआ
  • CHATGPT GPT-4O: 4 में से 4 सफल रहे, लेकिन एक अजीब दोहरी पसंद के उत्तर के साथ
  • Microsoft Copilot: 4 में से 0 सफल हुआ
  • मेटा एआई: 4 में से 1 सफल हुआ
  • मेटा कोड लामा: 4 में से 1 सफल हुआ
  • Google मिथुन एडवांस्ड: 4 में से 1 सफल रहा
  • CHATGPT 4: 4 में से 4 सफल हुए
  • CHATGPT 3.5: 3 में से 3 सफल हुए

मैं क्लाउड 3.5 सॉनेट के साथ बहुत निराश था। एन्थ्रोपिक ने वादा किया कि यह प्रोग्रामिंग के लिए अनुकूल था, लेकिन यह उन उम्मीदों को पूरा नहीं करता था। ऐसा नहीं है कि यह प्रोग्राम नहीं कर सकता है; यह सिर्फ सही तरीके से प्रोग्राम नहीं कर सकता। मैं एक एआई खोजने की उम्मीद करता रहता हूं जो चैट को बेहतर बना सकता है, खासकर जब ये मॉडल प्रोग्रामिंग वातावरण में एकीकृत हो जाते हैं। लेकिन अभी के लिए, मैं प्रोग्रामिंग मदद के लिए CHATGPT के साथ चिपका हुआ हूं, और मैं आपको ऐसा करने की सलाह देता हूं।

क्या आपने प्रोग्रामिंग के लिए एआई का उपयोग किया है? कौन सा, और यह कैसे हुआ? नीचे दी गई टिप्पणियों में अपने अनुभव साझा करें।

सोशल मीडिया पर मेरे प्रोजेक्ट अपडेट का पालन करें, मेरे साप्ताहिक न्यूज़लेटर की सदस्यता लें, और मेरे साथ ट्विटर/एक्स पर @DavidgeWirtz पर, फेसबुक पर फेसबुक पर, Instagram.com/davidgewirtz पर Instagram पर, और youtube.com/Davidgewirtztv पर YouTube पर @DavidgeWirtz पर, Twitter/X पर कनेक्ट करें।

संबंधित लेख
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
सूचना (5)
ScottMitchell
ScottMitchell 5 मई 2025 12:00:00 पूर्वाह्न GMT

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 5 मई 2025 12:00:00 पूर्वाह्न GMT

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 5 मई 2025 12:00:00 पूर्वाह्न GMT

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 5 मई 2025 12:00:00 पूर्वाह्न GMT

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 5 मई 2025 12:00:00 पूर्वाह्न GMT

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

शीर्ष समाचार
Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया दक्षिण कोरिया स्थानीय दुकानों में दीपसेक ऐप डाउनलोड करता है Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें चैट की ऊर्जा का उपयोग अपेक्षा से कम है Openai का O3 मॉडल संभावित रूप से अधिक महंगा है जो शुरू में विचार की तुलना में संचालित होता है नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है
अधिक
शीर्ष पर वापस
OR