DeepSeek V3.2 KI-Modell bietet Spitzenleistung bei minimalen Rechenkosten
Während große Technologieunternehmen Milliarden in Rechenleistung investieren, um hochmoderne KI-Modelle zu entwickeln, hat das chinesische Unternehmen DeepSeek ähnliche Ergebnisse durch intelligentere Ansätze statt durch reine Größe erzielt. Das DeepSeek V3.2-Modell entspricht in Bezug auf die Schlussfolgerungsbenchmarks dem GPT-5 von OpenAI, obwohl es „weniger Gesamt-Trainings-FLOPs” verwendet – ein Fortschritt, der die Herangehensweise der Branche an die Entwicklung hochentwickelter künstlicher Intelligenz neu definieren könnte.
Für Unternehmen zeigt diese Veröffentlichung, dass erstklassige KI-Fähigkeiten nicht unbedingt erstklassige Rechenbudgets erfordern. Die Open-Source-Verfügbarkeit von DeepSeek V3.2 ermöglicht es Unternehmen, fortschrittliche Schlussfolgerungs- und Agentenfunktionen zu bewerten und gleichzeitig die Kontrolle über ihre Bereitstellungsinfrastruktur zu behalten – ein entscheidender Faktor, da die Kosteneffizienz bei KI-Einführungsplänen zunehmend an Bedeutung gewinnt.
Das in Hangzhou ansässige Forschungslabor stellte am Montag zwei Versionen vor: die Basisversion DeepSeek V3.2 und DeepSeek-V3.2-Speciale. Letztere erzielte bei der Internationalen Mathematik-Olympiade 2025 und der Internationalen Informatik-Olympiade eine Goldmedaillen-Leistung – Benchmarks, die zuvor nur von unveröffentlichten internen Modellen führender US-amerikanischer KI-Unternehmen erreicht wurden.
Diese Leistung ist besonders bemerkenswert, da DeepSeek aufgrund von Exportbestimmungen nur eingeschränkten Zugang zu fortschrittlichen Halbleiterchips hat.
Ressourceneffizienz als Wettbewerbsvorteil
Der Erfolg von DeepSeek stellt die in der Branche weit verbreitete Überzeugung in Frage, dass für eine führende KI-Leistung massiv skalierte Rechenressourcen erforderlich sind. Das Unternehmen führt diese Effizienz auf architektonische Durchbrüche zurück, insbesondere auf DeepSeek Sparse Attention (DSA), das die Rechenkomplexität erheblich senkt, ohne die Modellleistung zu beeinträchtigen.
Das Basismodell DeepSeek V3.2 erreichte eine Genauigkeit von 93,1 % bei den Mathematikaufgaben des AIME 2025 und eine Codeforces-Bewertung von 2386, womit es in der Bewertung der Schlussfolgerungsfähigkeit gleichauf mit GPT-5 liegt.
Die Speciale-Variante schnitt sogar noch besser ab und erzielte 96,0 % bei der American Invitational Mathematics Examination (AIME) 2025, 99,2 % beim Harvard-MIT Mathematics Tournament (HMMT) im Februar 2025 und sicherte sich sowohl bei der Internationalen Mathematik-Olympiade 2025 als auch bei der Internationalen Olympiade der Informatik die Goldmedaille.
Diese Ergebnisse sind besonders beeindruckend, wenn man bedenkt, dass DeepSeek aufgrund der zahlreichen Zölle und Exportkontrollen, die China betreffen, nur begrenzten Zugang zu fortschrittlichen Chips hat. Der technische Bericht zeigt, dass das Unternehmen ein Rechenbudget nach dem Training bereitgestellt hat, das 10 % der Ausgaben vor dem Training übersteigt – eine beträchtliche Investition, die durch Optimierung des verstärkenden Lernens anstelle von Brute-Force-Skalierung fortschrittliche Fähigkeiten gefördert hat.
Technische Innovation fördert Effizienz
Der DSA-Mechanismus markiert eine Abkehr von herkömmlichen Aufmerksamkeitsarchitekturen. Anstatt alle Token mit einheitlicher Rechenintensität zu verarbeiten, verwendet DSA einen „Lightning Indexer” und ein fein abgestuftes Token-Auswahlsystem, das nur die relevantesten Informationen für jede Abfrage identifiziert und verarbeitet.
Diese Methode reduziert die Komplexität der Kernaufmerksamkeit von O(L²) auf O(Lk), wobei k die Anzahl der ausgewählten Token bezeichnet – ein Bruchteil der Gesamtsequenzlänge L. Während des erweiterten Vortrainings vom DeepSeek-V3.1-Terminus-Checkpoint trainierte das Unternehmen DSA mit 943,7 Milliarden Token unter Verwendung von 480 Sequenzen mit 128.000 Token pro Trainingsschritt.
Die Architektur implementiert auch ein Kontextmanagement, das für Tool-Aufrufsituationen entwickelt wurde. Im Gegensatz zu früheren Reasoning-Modellen, die Reasoning-Inhalte nach jeder Benutzernachricht verworfen haben, bewahrt das DeepSeek V3.2-Modell Reasoning-Spuren, wenn nur toolbezogene Nachrichten hinzugefügt werden, und verbessert so die Token-Effizienz in Multi-Turn-Agent-Workflows, indem unnötiges erneutes Reasoning vermieden wird.
Unternehmensanwendungen und praktische Leistung
Für Unternehmen, die die Implementierung von KI prüfen, bietet die Methodik von DeepSeek greifbare Vorteile, die über die Benchmark-Ergebnisse hinausgehen. Auf Terminal Bench 2.0, das die Fähigkeiten von Codierungs-Workflows misst, erreichte DeepSeek V3.2 eine Genauigkeit von 46,4 %.
Das Modell erzielte 73,1 % bei SWE-Verified, einem Benchmark für die Lösung von Software-Engineering-Problemen, und 70,2 % bei SWE Multilingual, was seinen praktischen Wert in Entwicklungsumgebungen unter Beweis stellt.
Bei agentenbasierten Aufgaben, die den autonomen Einsatz von Tools und mehrstufiges Denken erfordern, zeigte das Modell erhebliche Verbesserungen gegenüber früheren Open-Source-Systemen. Das Unternehmen schuf eine groß angelegte Pipeline zur Synthese agentenbasierter Aufgaben, die über 1.800 unterschiedliche Umgebungen und 85.000 komplexe Eingabeaufforderungen generierte, sodass das Modell Denkstrategien auf unbekannte Szenarien des Tool-Einsatzes verallgemeinern konnte.
DeepSeek hat das Basis-Modell V3.2 auf Hugging Face als Open Source veröffentlicht, sodass Unternehmen es ohne Herstellerbindung einsetzen und anpassen können. Die Speciale-Variante ist aufgrund höherer Token-Verbrauchsanforderungen weiterhin nur über API zugänglich – ein Kompromiss zwischen Spitzenleistung und Effizienz beim Einsatz.
Auswirkungen auf die Branche und Anerkennung
Die Veröffentlichung hat innerhalb der KI-Forschungsgemeinschaft erhebliche Diskussionen ausgelöst. Susan Zhang, leitende Forschungsingenieurin bei Google DeepMind, lobte die umfassende technische Dokumentation von DeepSeek und hob insbesondere die Bemühungen des Unternehmens hervor, Modelle nach dem Training zu stabilisieren und die agentenbezogenen Fähigkeiten zu stärken.
Der Zeitpunkt kurz vor der Konferenz über neuronale Informationsverarbeitungssysteme hat die Aufmerksamkeit noch verstärkt. Florian Brand, ein Experte für Chinas Open-Source-KI-Ökosystem, der an der NeurIPS in San Diego teilnahm, beobachtete die unmittelbare Reaktion: „Nach der Ankündigung von DeepSeek brodelte es heute in allen Gruppenchats.“
Anerkannte Einschränkungen und Entwicklungsweg
Der technische Bericht von DeepSeek befasst sich mit den aktuellen Lücken im Vergleich zu den führenden Modellen. Die Token-Effizienz bleibt eine Herausforderung – das DeepSeek V3.2-Modell benötigt in der Regel längere Generierungssequenzen, um die Ausgabequalität von Systemen wie Gemini 3 Pro zu erreichen. Das Unternehmen räumt auch ein, dass die Breite des Weltwissens aufgrund der geringeren Gesamt-Trainingsrechenleistung hinter den führenden proprietären Modellen zurückbleibt.
Zu den zukünftigen Entwicklungsschwerpunkten gehören die Skalierung der Rechenressourcen für das Vortraining, um das Weltwissen zu erweitern, die Optimierung der Effizienz der Argumentationskette, um die Token-Nutzung zu verbessern, und die Verfeinerung der grundlegenden Architektur für komplexe Problemlösungsaufgaben.
Siehe auch: Die Realität des KI-Geschäfts – was Unternehmensleiter wissen müssen

Möchten Sie mehr über KI und Big Data von Branchenexperten erfahren? Besuchen Sie die AI & Big Data Expo in Amsterdam, Kalifornien und London. Diese umfassende Veranstaltung ist Teil der TechEx und findet zusammen mit anderen wichtigen Technologieveranstaltungen statt. Klicken Sie hier für weitere Details.
AI News wird von TechForge Media betrieben. Entdecken Sie hier weitere bevorstehende Veranstaltungen und Webinare zum Thema Unternehmenstechnologie.
Verwandter Artikel
DeepSeek stellt ein KI-Modell vor, das mit den Systemen von Frontier konkurriert
Das chinesische KI-Labor DeepSeek hat zwei Vorschauversionen seines neuesten großen Sprachmodells, DeepSeek V4, veröffentlicht – ein mit Spannung erwartetes Update des letztjährigen Modells V3.2 und d
Deutsches Gericht gibt Teradyne Robotics Recht und erlässt einstweilige Verfügung gegen Elite Robots
Die Teradyne-Tochtergesellschaft Universal Robots stellte kürzlich auf der MODEX-Messe ihren mobilen Manipulator vor, der mit einem kollaborativen UR-Roboterarm ausgestattet ist. Quelle: TeradyneAls d
Hyundai stellt MobED-Roboter auf der AW vor, während KI die Fertigung verändert
Hyundai wird seinen MobED-Roboter neben anderen koreanischen Systemen auf der AW 2026 vorstellen. Quelle: Hyundai Motor GroupDas Robotics Lab der Hyundai Motor Group wird seine mobile Plattform MobED
Empfehlungen zu verwandten Spezialthemen
Kommentare (1)
Während große Technologieunternehmen Milliarden in Rechenleistung investieren, um hochmoderne KI-Modelle zu entwickeln, hat das chinesische Unternehmen DeepSeek ähnliche Ergebnisse durch intelligentere Ansätze statt durch reine Größe erzielt. Das DeepSeek V3.2-Modell entspricht in Bezug auf die Schlussfolgerungsbenchmarks dem GPT-5 von OpenAI, obwohl es „weniger Gesamt-Trainings-FLOPs” verwendet – ein Fortschritt, der die Herangehensweise der Branche an die Entwicklung hochentwickelter künstlicher Intelligenz neu definieren könnte.
Für Unternehmen zeigt diese Veröffentlichung, dass erstklassige KI-Fähigkeiten nicht unbedingt erstklassige Rechenbudgets erfordern. Die Open-Source-Verfügbarkeit von DeepSeek V3.2 ermöglicht es Unternehmen, fortschrittliche Schlussfolgerungs- und Agentenfunktionen zu bewerten und gleichzeitig die Kontrolle über ihre Bereitstellungsinfrastruktur zu behalten – ein entscheidender Faktor, da die Kosteneffizienz bei KI-Einführungsplänen zunehmend an Bedeutung gewinnt.
Das in Hangzhou ansässige Forschungslabor stellte am Montag zwei Versionen vor: die Basisversion DeepSeek V3.2 und DeepSeek-V3.2-Speciale. Letztere erzielte bei der Internationalen Mathematik-Olympiade 2025 und der Internationalen Informatik-Olympiade eine Goldmedaillen-Leistung – Benchmarks, die zuvor nur von unveröffentlichten internen Modellen führender US-amerikanischer KI-Unternehmen erreicht wurden.
Diese Leistung ist besonders bemerkenswert, da DeepSeek aufgrund von Exportbestimmungen nur eingeschränkten Zugang zu fortschrittlichen Halbleiterchips hat.
Ressourceneffizienz als Wettbewerbsvorteil
Der Erfolg von DeepSeek stellt die in der Branche weit verbreitete Überzeugung in Frage, dass für eine führende KI-Leistung massiv skalierte Rechenressourcen erforderlich sind. Das Unternehmen führt diese Effizienz auf architektonische Durchbrüche zurück, insbesondere auf DeepSeek Sparse Attention (DSA), das die Rechenkomplexität erheblich senkt, ohne die Modellleistung zu beeinträchtigen.
Das Basismodell DeepSeek V3.2 erreichte eine Genauigkeit von 93,1 % bei den Mathematikaufgaben des AIME 2025 und eine Codeforces-Bewertung von 2386, womit es in der Bewertung der Schlussfolgerungsfähigkeit gleichauf mit GPT-5 liegt.
Die Speciale-Variante schnitt sogar noch besser ab und erzielte 96,0 % bei der American Invitational Mathematics Examination (AIME) 2025, 99,2 % beim Harvard-MIT Mathematics Tournament (HMMT) im Februar 2025 und sicherte sich sowohl bei der Internationalen Mathematik-Olympiade 2025 als auch bei der Internationalen Olympiade der Informatik die Goldmedaille.
Diese Ergebnisse sind besonders beeindruckend, wenn man bedenkt, dass DeepSeek aufgrund der zahlreichen Zölle und Exportkontrollen, die China betreffen, nur begrenzten Zugang zu fortschrittlichen Chips hat. Der technische Bericht zeigt, dass das Unternehmen ein Rechenbudget nach dem Training bereitgestellt hat, das 10 % der Ausgaben vor dem Training übersteigt – eine beträchtliche Investition, die durch Optimierung des verstärkenden Lernens anstelle von Brute-Force-Skalierung fortschrittliche Fähigkeiten gefördert hat.
Technische Innovation fördert Effizienz
Der DSA-Mechanismus markiert eine Abkehr von herkömmlichen Aufmerksamkeitsarchitekturen. Anstatt alle Token mit einheitlicher Rechenintensität zu verarbeiten, verwendet DSA einen „Lightning Indexer” und ein fein abgestuftes Token-Auswahlsystem, das nur die relevantesten Informationen für jede Abfrage identifiziert und verarbeitet.
Diese Methode reduziert die Komplexität der Kernaufmerksamkeit von O(L²) auf O(Lk), wobei k die Anzahl der ausgewählten Token bezeichnet – ein Bruchteil der Gesamtsequenzlänge L. Während des erweiterten Vortrainings vom DeepSeek-V3.1-Terminus-Checkpoint trainierte das Unternehmen DSA mit 943,7 Milliarden Token unter Verwendung von 480 Sequenzen mit 128.000 Token pro Trainingsschritt.
Die Architektur implementiert auch ein Kontextmanagement, das für Tool-Aufrufsituationen entwickelt wurde. Im Gegensatz zu früheren Reasoning-Modellen, die Reasoning-Inhalte nach jeder Benutzernachricht verworfen haben, bewahrt das DeepSeek V3.2-Modell Reasoning-Spuren, wenn nur toolbezogene Nachrichten hinzugefügt werden, und verbessert so die Token-Effizienz in Multi-Turn-Agent-Workflows, indem unnötiges erneutes Reasoning vermieden wird.
Unternehmensanwendungen und praktische Leistung
Für Unternehmen, die die Implementierung von KI prüfen, bietet die Methodik von DeepSeek greifbare Vorteile, die über die Benchmark-Ergebnisse hinausgehen. Auf Terminal Bench 2.0, das die Fähigkeiten von Codierungs-Workflows misst, erreichte DeepSeek V3.2 eine Genauigkeit von 46,4 %.
Das Modell erzielte 73,1 % bei SWE-Verified, einem Benchmark für die Lösung von Software-Engineering-Problemen, und 70,2 % bei SWE Multilingual, was seinen praktischen Wert in Entwicklungsumgebungen unter Beweis stellt.
Bei agentenbasierten Aufgaben, die den autonomen Einsatz von Tools und mehrstufiges Denken erfordern, zeigte das Modell erhebliche Verbesserungen gegenüber früheren Open-Source-Systemen. Das Unternehmen schuf eine groß angelegte Pipeline zur Synthese agentenbasierter Aufgaben, die über 1.800 unterschiedliche Umgebungen und 85.000 komplexe Eingabeaufforderungen generierte, sodass das Modell Denkstrategien auf unbekannte Szenarien des Tool-Einsatzes verallgemeinern konnte.
DeepSeek hat das Basis-Modell V3.2 auf Hugging Face als Open Source veröffentlicht, sodass Unternehmen es ohne Herstellerbindung einsetzen und anpassen können. Die Speciale-Variante ist aufgrund höherer Token-Verbrauchsanforderungen weiterhin nur über API zugänglich – ein Kompromiss zwischen Spitzenleistung und Effizienz beim Einsatz.
Auswirkungen auf die Branche und Anerkennung
Die Veröffentlichung hat innerhalb der KI-Forschungsgemeinschaft erhebliche Diskussionen ausgelöst. Susan Zhang, leitende Forschungsingenieurin bei Google DeepMind, lobte die umfassende technische Dokumentation von DeepSeek und hob insbesondere die Bemühungen des Unternehmens hervor, Modelle nach dem Training zu stabilisieren und die agentenbezogenen Fähigkeiten zu stärken.
Der Zeitpunkt kurz vor der Konferenz über neuronale Informationsverarbeitungssysteme hat die Aufmerksamkeit noch verstärkt. Florian Brand, ein Experte für Chinas Open-Source-KI-Ökosystem, der an der NeurIPS in San Diego teilnahm, beobachtete die unmittelbare Reaktion: „Nach der Ankündigung von DeepSeek brodelte es heute in allen Gruppenchats.“
Anerkannte Einschränkungen und Entwicklungsweg
Der technische Bericht von DeepSeek befasst sich mit den aktuellen Lücken im Vergleich zu den führenden Modellen. Die Token-Effizienz bleibt eine Herausforderung – das DeepSeek V3.2-Modell benötigt in der Regel längere Generierungssequenzen, um die Ausgabequalität von Systemen wie Gemini 3 Pro zu erreichen. Das Unternehmen räumt auch ein, dass die Breite des Weltwissens aufgrund der geringeren Gesamt-Trainingsrechenleistung hinter den führenden proprietären Modellen zurückbleibt.
Zu den zukünftigen Entwicklungsschwerpunkten gehören die Skalierung der Rechenressourcen für das Vortraining, um das Weltwissen zu erweitern, die Optimierung der Effizienz der Argumentationskette, um die Token-Nutzung zu verbessern, und die Verfeinerung der grundlegenden Architektur für komplexe Problemlösungsaufgaben.
Siehe auch: Die Realität des KI-Geschäfts – was Unternehmensleiter wissen müssen

Möchten Sie mehr über KI und Big Data von Branchenexperten erfahren? Besuchen Sie die AI & Big Data Expo in Amsterdam, Kalifornien und London. Diese umfassende Veranstaltung ist Teil der TechEx und findet zusammen mit anderen wichtigen Technologieveranstaltungen statt. Klicken Sie hier für weitere Details.
AI News wird von TechForge Media betrieben. Entdecken Sie hier weitere bevorstehende Veranstaltungen und Webinare zum Thema Unternehmenstechnologie.
DeepSeek stellt ein KI-Modell vor, das mit den Systemen von Frontier konkurriert
Das chinesische KI-Labor DeepSeek hat zwei Vorschauversionen seines neuesten großen Sprachmodells, DeepSeek V4, veröffentlicht – ein mit Spannung erwartetes Update des letztjährigen Modells V3.2 und d
Deutsches Gericht gibt Teradyne Robotics Recht und erlässt einstweilige Verfügung gegen Elite Robots
Die Teradyne-Tochtergesellschaft Universal Robots stellte kürzlich auf der MODEX-Messe ihren mobilen Manipulator vor, der mit einem kollaborativen UR-Roboterarm ausgestattet ist. Quelle: TeradyneAls d
Hyundai stellt MobED-Roboter auf der AW vor, während KI die Fertigung verändert
Hyundai wird seinen MobED-Roboter neben anderen koreanischen Systemen auf der AW 2026 vorstellen. Quelle: Hyundai Motor GroupDas Robotics Lab der Hyundai Motor Group wird seine mobile Plattform MobED





Heim






