Microsoft Study Reveals AI Models' Limitations in Software Debugging
OpenAI, Anthropic और अन्य प्रमुख AI लैब्स के AI मॉडल कोडिंग कार्यों के लिए तेजी से उपयोग किए जा रहे हैं। Google CEO Sundar Pichai ने अक्टूबर में नोट किया कि AI कंपनी में 25% नए कोड जनरेट करता है, जबकि Meta CEO Mark Zuckerberg का लक्ष्य सोशल मीडिया दिग्गज के भीतर AI कोडिंग टूल्स को व्यापक रूप से लागू करना है।
हालांकि, शीर्ष प्रदर्शन वाले मॉडल भी सॉफ्टवेयर बग्स को ठीक करने में संघर्ष करते हैं, जिन्हें अनुभवी डेवलपर्स आसानी से संभाल लेते हैं।
Microsoft Research के हालिया अध्ययन, Microsoft की R&D डिवीजन द्वारा आयोजित, से पता चलता है कि Anthropic का Claude 3.7 Sonnet और OpenAI का o3-mini SWE-bench Lite सॉफ्टवेयर डेवलपमेंट बेंचमार्क में कई समस्याओं को हल करने में असफल रहते हैं। निष्कर्ष बताते हैं कि OpenAI जैसी कंपनियों के महत्वाकांक्षी दावों के बावजूद, AI अभी भी कोडिंग जैसे क्षेत्रों में मानव विशेषज्ञता से पीछे है।
अध्ययन के शोधकर्ताओं ने नौ मॉडलों को एक “एकल प्रॉम्प्ट-आधारित एजेंट” के आधार के रूप में परीक्षण किया, जो Python डीबगर जैसे डीबगिंग टूल्स से लैस था। एजेंट को SWE-bench Lite से 300 चयनित सॉफ्टवेयर डीबगिंग चुनौतियों को संबोधित करने का कार्य सौंपा गया था।
परिणामों से पता चला कि उन्नत मॉडलों के साथ भी, एजेंट शायद ही कभी आधे से अधिक कार्यों को सफलतापूर्वक हल कर पाया। Claude 3.7 Sonnet ने 48.4% सफलता दर के साथ नेतृत्व किया, इसके बाद OpenAI का o1 30.2% और o3-mini 22.1% पर रहा।

अध्ययन से एक चार्ट जो डीबगिंग टूल्स से मॉडलों को मिले प्रदर्शन सुधार को दर्शाता है। छवि क्रेडिट: Microsoft निराशाजनक परिणामों का क्या कारण है? कुछ मॉडल उपलब्ध डीबगिंग टूल्स का प्रभावी ढंग से उपयोग करने या विशिष्ट समस्याओं के लिए उपयुक्त टूल्स की पहचान करने में असफल रहे। शोधकर्ताओं के अनुसार, मुख्य समस्या पर्याप्त प्रशिक्षण डेटा की कमी थी, विशेष रूप से “क्रमिक निर्णय लेने की प्रक्रियाओं” जैसे मानव डीबगिंग ट्रेस को कैप्चर करने वाला डेटा।
“हमें विश्वास है कि इन मॉडलों को प्रशिक्षित या फाइन-ट्यून करने से उनकी डीबगिंग क्षमताएं सुधर सकती हैं,” शोधकर्ताओं ने लिखा। “हालांकि, इसके लिए विशेष डेटा की आवश्यकता है, जैसे कि एजेंट्स के डीबगर के साथ बातचीत को कैप्चर करने वाला ट्रैजेक्ट्री डेटा, जो समाधान प्रस्तावित करने से पहले जानकारी एकत्र करता है।”
TechCrunch Sessions: AI में भाग लें
हमारे प्रमुख AI उद्योग आयोजन में अपनी जगह आरक्षित करें, जिसमें OpenAI, Anthropic, और Cohere के वक्ता शामिल हैं। सीमित समय के लिए, टिकट केवल $292 में उपलब्ध हैं, जिसमें विशेषज्ञ वार्ताओं, कार्यशालाओं और नेटवर्किंग अवसरों का एक पूरा दिन शामिल है।
TechCrunch Sessions: AI में प्रदर्शन करें
TC Sessions: AI में अपनी जगह बुक करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपने काम को प्रस्तुत करें। प्रदर्शनी अवसर 9 मई तक या टेबल पूरी तरह से बुक होने तक उपलब्ध हैं।
निष्कर्ष आश्चर्यजनक नहीं हैं। कई अध्ययनों ने दिखाया है कि AI-जनरेटेड कोड अक्सर प्रोग्रामिंग तर्क को समझने में कमजोरियों के कारण सुरक्षा खामियां और त्रुटियां लाता है। Devin, एक प्रसिद्ध AI कोडिंग टूल के हालिया परीक्षण से पता चला कि यह 20 प्रोग्रामिंग कार्यों में से केवल तीन को पूरा कर सका।
Microsoft का अध्ययन AI मॉडलों के लिए इस निरंतर चुनौती का सबसे गहन विश्लेषण प्रदान करता है। हालांकि यह AI-संचालित कोडिंग टूल्स में निवेशक रुचि को कम करने की संभावना नहीं है, यह डेवलपर्स और उनके नेताओं को कोडिंग कार्यों के लिए AI पर भारी निर्भरता पर पुनर्विचार करने के लिए प्रेरित कर सकता है।
उल्लेखनीय रूप से, कई तकनीकी नेताओं ने इस विचार का विरोध किया है कि AI कोडिंग नौकरियों को खत्म कर देगा। Microsoft के सह-संस्थापक Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, और IBM CEO Arvind Krishna ने सभी विश्वास व्यक्त किया है कि प्रोग्रामिंग एक पेशे के रूप में बना रहेगा।
संबंधित लेख
AI-चालित समाधान वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकते हैं
लंदन स्कूल ऑफ इकोनॉमिक्स और सिस्टमिक के एक हालिया अध्ययन से पता चलता है कि कृत्रिम बुद्धिमत्ता (AI) आधुनिक सुविधाओं को त्यागे बिना वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकती है, जिससे AI जलवायु
Apple ने इस पतझड़ में उन्नत Siri सुविधाओं का अनावरण किया
Apple 2025 की छुट्टियों के मौसम से पहले अपनी उन्नत, उपयोगकर्ता-केंद्रित Siri क्षमताओं को लॉन्च करने के लिए तैयार है, जैसा कि The New York Times ने बताया। तीन सूचित स्रोतों का हवाला देते हुए, आउटलेट ने
वाशिंगटन पोस्ट ने ओपनएआई के साथ साझेदारी करके चैटजीपीटी के माध्यम से समाचार पहुंच को बढ़ाया
वाशिंगटन पोस्ट और OpenAI ने एक “रणनीतिक साझेदारी” की घोषणा की है ताकि “चैटजीपीटी के माध्यम से विश्वसनीय समाचारों तक पहुंच का विस्तार किया जा सके,” जैसा कि वाशिंगटन पोस्ट के प्रेस विज्ञप्ति में कहा गया
सूचना (0)
0/200
OpenAI, Anthropic और अन्य प्रमुख AI लैब्स के AI मॉडल कोडिंग कार्यों के लिए तेजी से उपयोग किए जा रहे हैं। Google CEO Sundar Pichai ने अक्टूबर में नोट किया कि AI कंपनी में 25% नए कोड जनरेट करता है, जबकि Meta CEO Mark Zuckerberg का लक्ष्य सोशल मीडिया दिग्गज के भीतर AI कोडिंग टूल्स को व्यापक रूप से लागू करना है।
हालांकि, शीर्ष प्रदर्शन वाले मॉडल भी सॉफ्टवेयर बग्स को ठीक करने में संघर्ष करते हैं, जिन्हें अनुभवी डेवलपर्स आसानी से संभाल लेते हैं।
Microsoft Research के हालिया अध्ययन, Microsoft की R&D डिवीजन द्वारा आयोजित, से पता चलता है कि Anthropic का Claude 3.7 Sonnet और OpenAI का o3-mini SWE-bench Lite सॉफ्टवेयर डेवलपमेंट बेंचमार्क में कई समस्याओं को हल करने में असफल रहते हैं। निष्कर्ष बताते हैं कि OpenAI जैसी कंपनियों के महत्वाकांक्षी दावों के बावजूद, AI अभी भी कोडिंग जैसे क्षेत्रों में मानव विशेषज्ञता से पीछे है।
अध्ययन के शोधकर्ताओं ने नौ मॉडलों को एक “एकल प्रॉम्प्ट-आधारित एजेंट” के आधार के रूप में परीक्षण किया, जो Python डीबगर जैसे डीबगिंग टूल्स से लैस था। एजेंट को SWE-bench Lite से 300 चयनित सॉफ्टवेयर डीबगिंग चुनौतियों को संबोधित करने का कार्य सौंपा गया था।
परिणामों से पता चला कि उन्नत मॉडलों के साथ भी, एजेंट शायद ही कभी आधे से अधिक कार्यों को सफलतापूर्वक हल कर पाया। Claude 3.7 Sonnet ने 48.4% सफलता दर के साथ नेतृत्व किया, इसके बाद OpenAI का o1 30.2% और o3-mini 22.1% पर रहा।

निराशाजनक परिणामों का क्या कारण है? कुछ मॉडल उपलब्ध डीबगिंग टूल्स का प्रभावी ढंग से उपयोग करने या विशिष्ट समस्याओं के लिए उपयुक्त टूल्स की पहचान करने में असफल रहे। शोधकर्ताओं के अनुसार, मुख्य समस्या पर्याप्त प्रशिक्षण डेटा की कमी थी, विशेष रूप से “क्रमिक निर्णय लेने की प्रक्रियाओं” जैसे मानव डीबगिंग ट्रेस को कैप्चर करने वाला डेटा।
“हमें विश्वास है कि इन मॉडलों को प्रशिक्षित या फाइन-ट्यून करने से उनकी डीबगिंग क्षमताएं सुधर सकती हैं,” शोधकर्ताओं ने लिखा। “हालांकि, इसके लिए विशेष डेटा की आवश्यकता है, जैसे कि एजेंट्स के डीबगर के साथ बातचीत को कैप्चर करने वाला ट्रैजेक्ट्री डेटा, जो समाधान प्रस्तावित करने से पहले जानकारी एकत्र करता है।”
TechCrunch Sessions: AI में भाग लें
हमारे प्रमुख AI उद्योग आयोजन में अपनी जगह आरक्षित करें, जिसमें OpenAI, Anthropic, और Cohere के वक्ता शामिल हैं। सीमित समय के लिए, टिकट केवल $292 में उपलब्ध हैं, जिसमें विशेषज्ञ वार्ताओं, कार्यशालाओं और नेटवर्किंग अवसरों का एक पूरा दिन शामिल है।
TechCrunch Sessions: AI में प्रदर्शन करें
TC Sessions: AI में अपनी जगह बुक करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपने काम को प्रस्तुत करें। प्रदर्शनी अवसर 9 मई तक या टेबल पूरी तरह से बुक होने तक उपलब्ध हैं।
निष्कर्ष आश्चर्यजनक नहीं हैं। कई अध्ययनों ने दिखाया है कि AI-जनरेटेड कोड अक्सर प्रोग्रामिंग तर्क को समझने में कमजोरियों के कारण सुरक्षा खामियां और त्रुटियां लाता है। Devin, एक प्रसिद्ध AI कोडिंग टूल के हालिया परीक्षण से पता चला कि यह 20 प्रोग्रामिंग कार्यों में से केवल तीन को पूरा कर सका।
Microsoft का अध्ययन AI मॉडलों के लिए इस निरंतर चुनौती का सबसे गहन विश्लेषण प्रदान करता है। हालांकि यह AI-संचालित कोडिंग टूल्स में निवेशक रुचि को कम करने की संभावना नहीं है, यह डेवलपर्स और उनके नेताओं को कोडिंग कार्यों के लिए AI पर भारी निर्भरता पर पुनर्विचार करने के लिए प्रेरित कर सकता है।
उल्लेखनीय रूप से, कई तकनीकी नेताओं ने इस विचार का विरोध किया है कि AI कोडिंग नौकरियों को खत्म कर देगा। Microsoft के सह-संस्थापक Bill Gates, Replit CEO Amjad Masad, Okta CEO Todd McKinnon, और IBM CEO Arvind Krishna ने सभी विश्वास व्यक्त किया है कि प्रोग्रामिंग एक पेशे के रूप में बना रहेगा।











