Microsoft-Studie: Mehr KI-Token erhöhen Denkfehler

Heim

Nachricht

29. September 2025

ArthurCarter

# Gemini # research # llama # gpt-4o # LLMs # o3-mini # o1

Neue Einsichten in die Effizienz von LLM-Reasoning

Neue Forschungsergebnisse von Microsoft zeigen, dass fortschrittliche Schlussfolgerungstechniken in großen Sprachmodellen nicht zu einheitlichen Verbesserungen in verschiedenen KI-Systemen führen. In ihrer bahnbrechenden Studie wurde untersucht, wie neun führende Basismodelle auf verschiedene Skalierungsansätze während der Inferenz reagieren.

Bewertung der Skalierungsmethoden für die Inferenzzeit

Das Forschungsteam führte eine strenge Testmethodik für drei verschiedene Skalierungstechniken ein:

Traditionelles Chain-of-Thought-Prompting
Parallele Antwortgenerierung mit Aggregation
Sequentielle Verfeinerung durch Feedback-Schleifen

Experimenteller Rahmen für die Bewertung der Argumentationsleistung

Acht umfassende Benchmarks boten anspruchsvolle Testszenarien in verschiedenen Disziplinen, darunter Mathematik, wissenschaftliches Denken, komplexes Problemlösen und räumliche Analyse. Mehrere Tests wiesen abgestufte Schwierigkeitsgrade auf, um zu untersuchen, wie die Leistung mit der Problemkomplexität skaliert.

Wichtige Erkenntnisse über die Leistung im logischen Denken

Die umfassende Evaluierung lieferte mehrere wichtige Erkenntnisse für KI-Praktiker:

Die Leistungsgewinne durch Skalierungstechniken variieren je nach Modellarchitektur und Aufgabenbereich dramatisch
Längere Antworten korrelieren nicht durchgängig mit besseren Lösungen
Die Rechenkosten schwanken selbst bei identischen Anfragen in unvorhersehbarer Weise.
Traditionelle Modelle können manchmal durch umfangreiche Skalierung mit spezialisierten Denkmodellen mithalten
Überprüfungsmechanismen sind vielversprechend für die Verbesserung der Effizienz

Leistung und Rechenkosten bei verschiedenen Modellen und Aufgaben

Praktische Implikationen für die KI-Entwicklung

Diese Erkenntnisse haben erhebliche Auswirkungen auf die Implementierung von KI in Unternehmen:

Die Vorhersagbarkeit der Kosten erweist sich als eine große Herausforderung, da die Verwendung von Token selbst bei korrekten Antworten eine hohe Varianz aufweist. "Entwickler brauchen Modelle mit konsistenten Berechnungsmustern", so Microsoft-Forscherin Besmira Nushi.

Die Forschung identifiziert auch die Länge der Antworten als einen potenziellen Indikator für das Vertrauen in das Modell, wobei übermäßig lange Antworten oft auf falsche Lösungen jenseits bestimmter Schwellenwerte hinweisen.

Skalierungsmuster der Inferenz in der GPT-4o-Leistung

Die Zukunft von effizienten Reasoning-Systemen

Die Studie zeigt mehrere vielversprechende Richtungen für die zukünftige Entwicklung auf:

"Überprüfungsmechanismen könnten die Art und Weise verändern, wie wir an Schlussfolgerungsprobleme herangehen", erklärt Nushi und schlägt vor, dass bestehende Validierungssysteme für Unternehmen für KI-Anwendungen angepasst werden könnten. Diese Integration würde es ermöglichen, dass natürlichsprachliche Schnittstellen eine spezialisierte Validierungslogik nutzen können.

Die Forschung unterstreicht den wachsenden Bedarf an Lösungen, die ein Gleichgewicht zwischen der Genauigkeit von Schlussfolgerungen und vorhersehbaren Rechenkosten herstellen, da KI-Systeme immer komplexere Aufgaben in der realen Welt übernehmen.

Verwandter Artikel

Warum LLMs Anweisungen ignorieren und wie man das wirksam beheben kann Verstehen, warum große Sprachmodelle Anweisungen überspringenGroße Sprachmodelle (Large Language Models, LLMs) haben die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, verändert und

Googles Gemini-App mit Echtzeit-KI-Video, Deep Research und neuen Funktionen (120 Zeichen) Google hat auf seiner Entwicklerkonferenz I/O 2025 wichtige Verbesserungen für Gemini AI vorgestellt. Dabei wurden die multimodalen Funktionen erweitert, KI-Modelle der nächsten Generation eingeführt

Google Cloud sorgt für Durchbrüche in der wissenschaftlichen Forschung und Entdeckung Die digitale Revolution verändert die wissenschaftlichen Methoden durch nie dagewesene Berechnungsmöglichkeiten. Spitzentechnologien ergänzen heute sowohl theoretische Rahmenwerke als auch Laborexperi

Kommentare (0)

0/200

Einreichen

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt