Microsoft-Studie zeigt die Grenzen von KI-Modellen beim Software-Debugging

Heim

Nachricht

19. Juli 2025

OliviaJones

# ai # research

KI-Modelle von OpenAI, Anthropic und anderen führenden KI-Laboren werden zunehmend für Programmieraufgaben eingesetzt. Google-CEO Sundar Pichai bemerkte im Oktober, dass KI 25 % des neuen Codes im Unternehmen generiert, während Meta-CEO Mark Zuckerberg plant, KI-Programmierwerkzeuge weitreichend im Social-Media-Riesen einzusetzen.

Allerdings haben selbst die leistungsstärksten Modelle Schwierigkeiten, Softwarefehler zu beheben, die erfahrene Entwickler mühelos meistern.

Eine kürzlich durchgeführte Studie von Microsoft Research, geleitet von Microsofts Forschungs- und Entwicklungsabteilung, zeigt, dass Modelle wie Anthropics Claude 3.7 Sonnet und OpenAIs o3-mini viele Probleme im SWE-bench Lite Softwareentwicklungs-Benchmark nicht lösen konnten. Die Ergebnisse verdeutlichen, dass KI trotz ambitionierter Behauptungen von Unternehmen wie OpenAI in Bereichen wie der Programmierung immer noch hinter menschlicher Expertise zurückbleibt.

Die Forscher der Studie testeten neun Modelle als Grundlage für einen „Single-Prompt-basierten Agenten“, der mit Debugging-Tools, einschließlich eines Python-Debuggers, ausgestattet war. Der Agent wurde beauftragt, 300 kuratierte Software-Debugging-Herausforderungen aus SWE-bench Lite zu bewältigen.

Die Ergebnisse zeigten, dass selbst mit fortschrittlichen Modellen der Agent selten mehr als die Hälfte der Aufgaben erfolgreich löste. Claude 3.7 Sonnet führte mit einer Erfolgsquote von 48,4 %, gefolgt von OpenAIs o1 mit 30,2 % und o3-mini mit 22,1 %.

Ein Diagramm aus der Studie, das die Leistungssteigerung der Modelle durch Debugging-Tools zeigt. Bildnachweis: Microsoft

Was erklärt die enttäuschenden Ergebnisse? Einige Modelle hatten Schwierigkeiten, verfügbare Debugging-Tools effektiv zu nutzen oder zu erkennen, welche Tools für spezifische Probleme geeignet waren. Das Hauptproblem war laut den Forschern ein Mangel an ausreichenden Trainingsdaten, insbesondere Daten, die „sequentielle Entscheidungsprozesse“ wie menschliche Debugging-Abläufe erfassen.

„Wir glauben, dass das Training oder die Feinabstimmung dieser Modelle ihre Debugging-Fähigkeiten verbessern kann“, schrieben die Forscher. „Dies erfordert jedoch spezialisierte Daten, wie Trajektoriendaten, die Agenten beim Interagieren mit einem Debugger erfassen, um Informationen zu sammeln, bevor sie Korrekturen vorschlagen.“

Nehmen Sie an TechCrunch Sessions teil: AI

Sichern Sie sich Ihren Platz bei unserer führenden Veranstaltung der KI-Branche mit Sprechern von OpenAI, Anthropic und Cohere. Für begrenzte Zeit kosten Tickets nur 292 $ für einen ganzen Tag mit Expertenvorträgen, Workshops und Networking-Möglichkeiten.

Präsentieren Sie sich bei TechCrunch Sessions: AI

Buchen Sie Ihren Platz bei TC Sessions: AI, um Ihre Arbeit über 1.200 Entscheidungsträgern zu präsentieren. Ausstellungsmöglichkeiten sind bis zum 9. Mai oder bis alle Tische ausgebucht sind verfügbar.

Die Ergebnisse sind nicht überraschend. Zahlreiche Studien haben gezeigt, dass KI-generierter Code oft Sicherheitslücken und Fehler aufweist, da Schwächen im Verständnis der Programmierlogik bestehen. Ein kürzlich durchgeführter Test von Devin, einem bekannten KI-Programmierwerkzeug, ergab, dass es nur drei von 20 Programmieraufgaben abschließen konnte.

Die Studie von Microsoft bietet eine der detailliertesten Untersuchungen dieser anhaltenden Herausforderung für KI-Modelle. Zwar wird sie das Interesse von Investoren an KI-gestützten Programmierwerkzeugen kaum bremsen, könnte aber Entwickler und ihre Führungskräfte dazu veranlassen, die starke Abhängigkeit von KI für Programmieraufgaben zu überdenken.

Bemerkenswert ist, dass mehrere Tech-Führer die Vorstellung zurückgewiesen haben, dass KI Programmierjobs eliminieren wird. Microsoft-Mitbegründer Bill Gates, Replit-CEO Amjad Masad, Okta-CEO Todd McKinnon und IBM-CEO Arvind Krishna haben alle ihr Vertrauen geäußert, dass das Programmieren als Beruf bestehen bleiben wird.

Verwandter Artikel

KI-gestützte Lösungen könnten globale Kohlenstoffemissionen erheblich reduzieren Eine kürzlich veröffentlichte Studie der London School of Economics und Systemiq zeigt, dass künstliche Intelligenz die globalen Kohlenstoffemissionen erheblich senken könnte, ohne moderne Annehmlichk

Apple enthüllt verbesserte Siri-Funktionen diesen Herbst Apple ist bereit, seine fortschrittlichen, nutzerorientierten Siri-Funktionen vor der Weihnachtssaison 2025 einzuführen, wie von The New York Times berichtet. Unter Berufung auf drei informierte Quell

Washington Post arbeitet mit OpenAI zusammen, um Nachrichten über ChatGPT zugänglicher zu machen The Washington Post und OpenAI haben eine „strategische Partnerschaft“ angekündigt, um „den Zugang zu vertrauenswürdigen Nachrichten über ChatGPT zu erweitern“, so eine Pressemitteilung von The Washin

Kommentare (0)

0/200

Einreichen

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen OpenAI verbessert den AI -Sprachassistenten für bessere Chats AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung NotebookLM fügt die Funktion für Webquellen -Erkennung hinzu Im Inneren von Googles AI-Sprung: Gemini 2.5 denkt tiefer, spricht intelligenter und codiert schneller

Mehr

Vorgestellt