विकल्प
घर
समाचार
Microsoft Study Reveals AI Models' Limitations in Software Debugging

Microsoft Study Reveals AI Models' Limitations in Software Debugging

19 जुलाई 2025
0

OpenAI, Anthropic और अन्य प्रमुख AI लैब्स के AI मॉडल कोडिंग कार्यों के लिए तेजी से उपयोग किए जा रहे हैं। Google CEO Sundar Pichai ने अक्टूबर में नोट किया कि AI कंपनी में 25% नए कोड जनरेट करता है, जबकि Meta CEO Mark Zuckerberg का लक्ष्य सोशल मीडिया दिग्गज के भीतर AI कोडिंग टूल्स को व्यापक रूप से लागू करना है।

हालांकि, शीर्ष प्रदर्शन वाले मॉडल भी सॉफ्टवेयर बग्स को ठीक करने में संघर्ष करते हैं, जिन्हें अनुभवी डेवलपर्स आसानी से संभाल लेते हैं।

Microsoft Research के हालिया अध्ययन, Microsoft की R&D डिवीजन द्वारा आयोजित, से पता चलता है कि Anthropic का Claude 3.7 Sonnet और OpenAI का o3-mini SWE-bench Lite सॉफ्टवेयर डेवलपमेंट बेंचमार्क में कई समस्याओं को हल करने में असफल रहते हैं। निष्कर्ष बताते हैं कि OpenAI जैसी कंपनियों के महत्वाकांक्षी दावों के बावजूद, AI अभी भी कोडिंग जैसे क्षेत्रों में मानव विशेषज्ञता से पीछे है।

अध्ययन के शोधकर्ताओं ने नौ मॉडलों को एक “एकल प्रॉम्प्ट-आधारित एजेंट” के आधार के रूप में परीक्षण किया, जो Python डीबगर जैसे डीबगिंग टूल्स से लैस था। एजेंट को SWE-bench Lite से 300 चयनित सॉफ्टवेयर डीबगिंग चुनौतियों को संबोधित करने का कार्य सौंपा गया था।

परिणामों से पता चला कि उन्नत मॉडलों के साथ भी, एजेंट शायद ही कभी आधे से अधिक कार्यों को सफलतापूर्वक हल कर पाया। Claude 3.7 Sonnet ने 48.4% सफलता दर के साथ नेतृत्व किया, इसके बाद OpenAI का o1 30.2% और o3-mini 22.1% पर रहा।

Microsoft AI डीबगिंग बेंचमार्क
अध्ययन से एक चार्ट जो डीबगिंग टूल्स से मॉडलों को मिले प्रदर्शन सुधार को दर्शाता है। छवि क्रेडिट: Microsoft

निराशाजनक परिणामों का क्या कारण है? कुछ मॉडल उपलब्ध डीबगिंग टूल्स का प्रभावी ढंग से उपयोग करने या विशिष्ट समस्याओं के लिए उपयुक्त टूल्स की पहचान करने में असफल रहे। शोधकर्ताओं के अनुसार, मुख्य समस्या पर्याप्त प्रशिक्षण डेटा की कमी थी, विशेष रूप से “क्रमिक निर्णय लेने की प्रक्रियाओं” जैसे मानव डीबगिंग ट्रेस को कैप्चर करने वाला डेटा।

“हमें विश्वास है कि इन मॉडलों को प्रशिक्षित या फाइन-ट्यून करने से उनकी डीबगिंग क्षमताएं सुधर सकती हैं,” शोधकर्ताओं ने लिखा। “हालांकि, इसके लिए विशेष डेटा की आवश्यकता है, जैसे कि एजेंट्स के डीबगर के साथ बातचीत को कैप्चर करने वाला ट्रैजेक्ट्री डेटा, जो समाधान प्रस्तावित करने से पहले जानकारी एकत्र करता है।”

TechCrunch Sessions: AI में भाग लें

हमारे प्रमुख AI उद्योग आयोजन में अपनी जगह आरक्षित करें, जिसमें OpenAI, Anthropic, और Cohere के वक्ता शामिल हैं। सीमित समय के लिए, टिकट केवल $292 में उपलब्ध हैं, जिसमें विशेषज्ञ वार्ताओं, कार्यशालाओं और नेटवर्किंग अवसरों का एक पूरा दिन शामिल है।

TechCrunch Sessions: AI में प्रदर्शन करें

TC Sessions: AI में अपनी जगह बुक करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपने काम को प्रस्तुत करें। प्रदर्शनी अवसर 9 मई तक या टेबल पूरी तरह से बुक होने तक उपलब्ध हैं।

निष्कर्ष आश्चर्यजनक नहीं हैं। कई अध्ययनों ने दिखाया है कि AI-जनरेटेड कोड अक्सर प्रोग्रामिंग तर्क को समझने में कमजोरियों के कारण सुरक्षा खामियां और त्रुटियां लाता है। Devin, एक प्रसिद्ध AI कोडिंग टूल के हालिया परीक्षण से पता चला कि यह 20 प्रोग्रामिंग कार्यों में से केवल तीन को पूरा कर सका।

Microsoft का अध्ययन AI मॉडलों के लिए इस निरंतर चुनौती का सबसे गहन विश्लेषण प्रदान करता है। हालांकि यह AI-संचालित कोडिंग टूल्स में निवेशक रुचि को कम करने की संभावना नहीं है, यह डेवलपर्स और उनके नेताओं को कोडिंग कार्यों के लिए AI पर भारी निर्भरता पर पुनर्विचार करने के लिए प्रेरित कर सकता है।

उल्लेखनीय रूप से, कई तकनीकी नेताओं ने इस विचार का विरोध किया है कि AI कोडिंग नौकरियों को खत्म कर देगा। Microsoft के सह-संस्थापक Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, और IBM CEO Arvind Krishna ने सभी विश्वास व्यक्त किया है कि प्रोग्रामिंग एक पेशे के रूप में बना रहेगा।

संबंधित लेख
AI-चालित समाधान वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकते हैं AI-चालित समाधान वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकते हैं लंदन स्कूल ऑफ इकोनॉमिक्स और सिस्टमिक के एक हालिया अध्ययन से पता चलता है कि कृत्रिम बुद्धिमत्ता (AI) आधुनिक सुविधाओं को त्यागे बिना वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकती है, जिससे AI जलवायु
Apple ने इस पतझड़ में उन्नत Siri सुविधाओं का अनावरण किया Apple ने इस पतझड़ में उन्नत Siri सुविधाओं का अनावरण किया Apple 2025 की छुट्टियों के मौसम से पहले अपनी उन्नत, उपयोगकर्ता-केंद्रित Siri क्षमताओं को लॉन्च करने के लिए तैयार है, जैसा कि The New York Times ने बताया। तीन सूचित स्रोतों का हवाला देते हुए, आउटलेट ने
वाशिंगटन पोस्ट ने ओपनएआई के साथ साझेदारी करके चैटजीपीटी के माध्यम से समाचार पहुंच को बढ़ाया वाशिंगटन पोस्ट ने ओपनएआई के साथ साझेदारी करके चैटजीपीटी के माध्यम से समाचार पहुंच को बढ़ाया वाशिंगटन पोस्ट और OpenAI ने एक “रणनीतिक साझेदारी” की घोषणा की है ताकि “चैटजीपीटी के माध्यम से विश्वसनीय समाचारों तक पहुंच का विस्तार किया जा सके,” जैसा कि वाशिंगटन पोस्ट के प्रेस विज्ञप्ति में कहा गया
सूचना (0)
शीर्ष समाचार
GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है
अधिक
शीर्ष पर वापस
OR