Deepseeks R1- und V3 -Codierungsfähigkeiten getestet: Wir sind noch nicht zum Scheitern verurteilt
Einführung in DeepSeek: Ein neuer Akteur in der KI-Arena
DeepSeek hat am Wochenende die Bühne betreten und weltweit Aufmerksamkeit aus drei überzeugenden Gründen erregt:
- Es ist ein KI-Chatbot aus China, eine bemerkenswerte Abweichung von den üblichen Angeboten aus den USA.
- Es ist Open Source, was in der Tech-Community eine große Sache ist.
- Es läuft auf deutlich weniger Infrastruktur als seine schwergewichtigen Pendants, was es für viele zu einer interessanten Option macht.
Während die genaue Prüfung der US-Regierung bezüglich TikTok und einer möglichen Beteiligung der chinesischen Regierung an dessen Code für Aufsehen gesorgt hat, zieht DeepSeeks Herkunft aus China natürlich ähnliche Aufmerksamkeit auf sich. Wir halten uns hier jedoch von der Politik fern. Stattdessen tauchen wir ein in die Frage, wie DeepSeek V3 und DeepSeek R1 im Vergleich zu anderen KI-Modellen bei Programmieraufgaben abschneiden.
Laut den eigenen Richtlinien von DeepSeek:
- Wählen Sie V3 für Aufgaben, die Tiefe und Genauigkeit erfordern, wie das Lösen komplexer mathematischer Probleme oder das Generieren komplizierter Codes.
- Entscheiden Sie sich für R1, wenn Sie schnelle, hochvolumige Anwendungen benötigen, wie z. B. die Automatisierung des Kundensupports oder einfache Textverarbeitung.
Sie können zwischen R1 und V3 über einen kleinen Button in der Chat-Oberfläche wechseln. Wenn er blau ist, verwenden Sie R1.

Screenshot von David Gewirtz/ZDNET Wie haben sie abgeschnitten? Beide Modelle zeigten Potenzial, waren aber nicht fehlerfrei. Lassen Sie uns die Ergebnisse untersuchen.
Test 1: Erstellen eines WordPress-https://img.xix.aiplugins
Mein erster Test, inspiriert von dem Bedarf meiner Frau nach einem WordPress-https://img.xix.aiplugin zur Verwaltung eines Beteiligungsgeräts für ihre Online-Gruppe, ist ein Klassiker. Das https://img.xix.aiplugin musste eine Liste von Namen akzeptieren, sie sortieren und sicherstellen, dass Duplikate nicht nebeneinander stehen. Ich habe diese Herausforderung zahlreichen KIs gestellt, und sie ist schwierig.

Screenshot von David Gewirtz/ZDNET DeepSeek V3 hat es perfekt gemeistert und eine Benutzeroberfläche sowie Programmlogik erstellt, die die Vorgaben exakt erfüllten. R1 verfolgte einen anderen Ansatz und lieferte satte 4502 Wörter Analyse, bevor der Code geteilt wurde. Die Benutzeroberfläche war umfassender, aber sowohl die Benutzeroberfläche als auch die Logik funktionierten, sodass R1 ebenfalls bestand.

Screenshot von David Gewirtz/ZDNET 
Screenshot von David Gewirtz/ZDNET Bis jetzt haben sowohl V3 als auch R1 einen von vier Tests bestanden.
Test 2: Umschreiben einer String-Funktion
Ein Benutzer hatte Probleme, Dollar und Cent in ein Spendenfeld einzugeben, was mein ursprünglicher Code nicht erlaubte. Die Aufgabe war, die Routine so anzupassen, dass beides akzeptiert wird. DeepSeek generierte funktionalen Code, aber es gibt Verbesserungspotenzial.
Der Code von V3 war übermäßig lang und repetitiv, während die Argumentation von R1 vor der Codegenerierung ebenfalls ausführlich war. Beide Modelle validierten bis zu zwei Dezimalstellen, aber sie kamen mit sehr großen Zahlen nicht gut zurecht. R1s Nutzung der JavaScript-Number-Konvertierung ohne Prüfung von Randfällen könnte zu Abstürzen führen.
Interessanterweise lieferte R1 eine schöne Liste von Testfällen:

Screenshot von David Gewirtz/ZDNET Ich gebe den Punkt an V3, weil sein Code nicht abstürzt und die erwarteten Ergebnisse liefert. R1 fällt durch mögliche Abstürze bei Nicht-String-Eingaben durch. Das macht zwei Siege von vier für V3 und einen für R1.
Test 3: Aufspüren eines lästigen Fehlers
Dieser Test basierte auf einem Fehler, den ich nur schwer finden konnte. Die Herausforderung war, dass die offensichtliche Antwort basierend auf der Fehlermeldung falsch war, was KIs oft täuscht. Das Lösen erfordert ein Verständnis der WordPress-API-Aufrufe, das Hinaussehen über die Fehlermeldung und das genaue Lokalisieren des Fehlers.
Beide, V3 und R1, bestanden diesen Test mit nahezu identischen Antworten, was V3 auf drei von vier Siegen und R1 auf zwei von vier bringt. DeepSeek übertrifft bereits Gemini, Copilot, Claude und Meta.
Test 4: Erstellen eines Skripts
Dieser Test ist schwierig, weil er drei Umgebungen umfasst: AppleScript, das Chrome-Objektmodell und Keyboard Maestro. ChatGPT hat es gemeistert, aber DeepSeek V3 und R1 blieben zurück. Keines der Modelle verstand die Notwendigkeit, Aufgaben zwischen Keyboard Maestro und Chrome aufzuteilen, und ihr AppleScript-Wissen war schwach.
R1 machte falsche Annahmen, wie dass immer ein vorderes Fenster existiert und dass das laufende Programm immer Chrome sein würde. Dies ließ V3 mit drei korrekten Tests und einem Fehlschlag sowie R1 mit zwei korrekten Tests und zwei Fehlschlägen zurück.
Schlussgedanken
DeepSeeks Beharren darauf, eine öffentliche Cloud-E-Mail wie Gmail anstelle meiner Unternehmensdomäne zu verwenden, war frustrierend. Es gab auch einige Reaktionsprobleme, die die Tests länger als erwartet dauern ließen.
Ich hatte zunächst Schwierigkeiten, mich anzumelden, aufgrund dieses Fehlers:
Die Online-Dienste von DeepSeek waren kürzlich groß angelegten bösartigen Angriffen ausgesetzt. Um den fortlaufenden Dienst zu gewährleisten, ist die Registrierung vorübergehend auf +86 Telefonnummern beschränkt. Bestehende Benutzer können sich wie gewohnt einloggen. Vielen Dank für Ihr Verständnis und Ihre Unterstützung.
Nach dem Einloggen konnte ich die Tests durchführen. DeepSeek neigt dazu, mit seinem Code wortreich zu sein. Das AppleScript in Test 4 war sowohl falsch als auch unnötig lang. Der reguläre Ausdruck in Test 2 hätte wartungsfreundlicher sein können, obwohl V3 es richtig gemacht hat.
Ich bin beeindruckt, dass V3 Gemini, Copilot und Meta geschlagen hat, aber es liegt immer noch auf dem alten GPT-3.5-Niveau, was Raum für Wachstum andeutet. Die Leistung von R1 war enttäuschend. Wenn ich wählen müsste, würde ich für Programmierhilfe bei ChatGPT bleiben.
Trotzdem ist DeepSeek für ein neues Tool, das auf viel weniger Infrastruktur läuft, definitiv eines, das man im Auge behalten sollte.
Was sind Ihre Gedanken? Haben Sie DeepSeek ausprobiert? Nutzen Sie KIs für Programmierunterstützung? Lassen Sie es uns in den Kommentaren unten wissen.
Folgen Sie meinen täglichen Projekt-Updates auf Social Media, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, Facebook unter Facebook.com/DavidGewirtz, Instagram unter Instagram.com/DavidGewirtz, Bluesky unter @DavidGewirtz.com und YouTube unter YouTube.com/DavidGewirtzTV.
Verwandter Artikel
AI Voice Translator G5 Pro: Nahtlose globale Kommunikation
In einer Welt, in der globale Vernetzung essenziell ist, ist das Überbrücken von Sprachbarrieren wichtiger denn je. Der AI Voice Translator G5 Pro bietet eine praktische Lösung mit seinen Echtzeit-Übe
Erhöhen Sie die Qualität Ihrer Bilder mit HitPaw AI Photo Enhancer: Ein umfassender Leitfaden
Möchten Sie Ihre Bildbearbeitung revolutionieren? Dank modernster künstlicher Intelligenz ist die Verbesserung Ihrer Bilder nun mühelos. Dieser detaillierte Leitfaden stellt den HitPaw AI Photo Enhanc
KI-gestützte Musikerstellung: Songs und Videos mühelos erstellen
Musikerstellung kann komplex sein und erfordert Zeit, Ressourcen und Fachwissen. Künstliche Intelligenz hat diesen Prozess revolutioniert und ihn einfach und zugänglich gemacht. Dieser Leitfaden zeigt
Kommentare (11)
0/200
JoseGonzalez
7. August 2025 08:33:00 MESZ
DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄
0
ArthurSanchez
23. April 2025 10:48:34 MESZ
DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏
0
NicholasAdams
23. April 2025 08:36:41 MESZ
DeepSeekのR1とV3はかなりクールですが、正直に言うと、完璧ではありません。コーディングのスキルはまあまあですが、時々ただ推測しているように感じます。それでも、中国からAIの新しいプレイヤーが登場するのは新鮮ですね!DeepSeek、改善を続けてください!👏
0
StephenGonzalez
21. April 2025 06:47:37 MESZ
DeepSeek's R1 and V3 are pretty cool, but they're not perfect. The coding skills are decent, but sometimes the responses are a bit off. Still, it's great to see a new player from China in the AI game. Keep improving, DeepSeek! 👀
0
BruceClark
20. April 2025 20:54:30 MESZ
ディープシークのR1とV3はかなりクールですが、完璧ではありません。コーディングのスキルはまあまあですが、時々レスポンスがずれることがあります。それでも、中国から新しいプレイヤーがAIの世界に参入するのは素晴らしいです。ディープシーク、改善を続けてください!👀
0
AnthonyHernández
20. April 2025 11:41:17 MESZ
딥시크의 R1과 V3는 꽤 멋지지만, 완벽하진 않아요. 코딩 스킬은 괜찮은데, 가끔 응답이 좀 어긋나요. 그래도 중국에서 새로운 플레이어가 AI 게임에 참여하는 건 멋진 일이에요. 딥시크, 계속 개선하세요! 👀
0
Einführung in DeepSeek: Ein neuer Akteur in der KI-Arena
DeepSeek hat am Wochenende die Bühne betreten und weltweit Aufmerksamkeit aus drei überzeugenden Gründen erregt:
- Es ist ein KI-Chatbot aus China, eine bemerkenswerte Abweichung von den üblichen Angeboten aus den USA.
- Es ist Open Source, was in der Tech-Community eine große Sache ist.
- Es läuft auf deutlich weniger Infrastruktur als seine schwergewichtigen Pendants, was es für viele zu einer interessanten Option macht.
Während die genaue Prüfung der US-Regierung bezüglich TikTok und einer möglichen Beteiligung der chinesischen Regierung an dessen Code für Aufsehen gesorgt hat, zieht DeepSeeks Herkunft aus China natürlich ähnliche Aufmerksamkeit auf sich. Wir halten uns hier jedoch von der Politik fern. Stattdessen tauchen wir ein in die Frage, wie DeepSeek V3 und DeepSeek R1 im Vergleich zu anderen KI-Modellen bei Programmieraufgaben abschneiden.
Laut den eigenen Richtlinien von DeepSeek:
- Wählen Sie V3 für Aufgaben, die Tiefe und Genauigkeit erfordern, wie das Lösen komplexer mathematischer Probleme oder das Generieren komplizierter Codes.
- Entscheiden Sie sich für R1, wenn Sie schnelle, hochvolumige Anwendungen benötigen, wie z. B. die Automatisierung des Kundensupports oder einfache Textverarbeitung.
Sie können zwischen R1 und V3 über einen kleinen Button in der Chat-Oberfläche wechseln. Wenn er blau ist, verwenden Sie R1.
Wie haben sie abgeschnitten? Beide Modelle zeigten Potenzial, waren aber nicht fehlerfrei. Lassen Sie uns die Ergebnisse untersuchen.
Test 1: Erstellen eines WordPress-https://img.xix.aiplugins
Mein erster Test, inspiriert von dem Bedarf meiner Frau nach einem WordPress-https://img.xix.aiplugin zur Verwaltung eines Beteiligungsgeräts für ihre Online-Gruppe, ist ein Klassiker. Das https://img.xix.aiplugin musste eine Liste von Namen akzeptieren, sie sortieren und sicherstellen, dass Duplikate nicht nebeneinander stehen. Ich habe diese Herausforderung zahlreichen KIs gestellt, und sie ist schwierig.
DeepSeek V3 hat es perfekt gemeistert und eine Benutzeroberfläche sowie Programmlogik erstellt, die die Vorgaben exakt erfüllten. R1 verfolgte einen anderen Ansatz und lieferte satte 4502 Wörter Analyse, bevor der Code geteilt wurde. Die Benutzeroberfläche war umfassender, aber sowohl die Benutzeroberfläche als auch die Logik funktionierten, sodass R1 ebenfalls bestand.
Bis jetzt haben sowohl V3 als auch R1 einen von vier Tests bestanden.
Test 2: Umschreiben einer String-Funktion
Ein Benutzer hatte Probleme, Dollar und Cent in ein Spendenfeld einzugeben, was mein ursprünglicher Code nicht erlaubte. Die Aufgabe war, die Routine so anzupassen, dass beides akzeptiert wird. DeepSeek generierte funktionalen Code, aber es gibt Verbesserungspotenzial.
Der Code von V3 war übermäßig lang und repetitiv, während die Argumentation von R1 vor der Codegenerierung ebenfalls ausführlich war. Beide Modelle validierten bis zu zwei Dezimalstellen, aber sie kamen mit sehr großen Zahlen nicht gut zurecht. R1s Nutzung der JavaScript-Number-Konvertierung ohne Prüfung von Randfällen könnte zu Abstürzen führen.
Interessanterweise lieferte R1 eine schöne Liste von Testfällen:
Ich gebe den Punkt an V3, weil sein Code nicht abstürzt und die erwarteten Ergebnisse liefert. R1 fällt durch mögliche Abstürze bei Nicht-String-Eingaben durch. Das macht zwei Siege von vier für V3 und einen für R1.
Test 3: Aufspüren eines lästigen Fehlers
Dieser Test basierte auf einem Fehler, den ich nur schwer finden konnte. Die Herausforderung war, dass die offensichtliche Antwort basierend auf der Fehlermeldung falsch war, was KIs oft täuscht. Das Lösen erfordert ein Verständnis der WordPress-API-Aufrufe, das Hinaussehen über die Fehlermeldung und das genaue Lokalisieren des Fehlers.
Beide, V3 und R1, bestanden diesen Test mit nahezu identischen Antworten, was V3 auf drei von vier Siegen und R1 auf zwei von vier bringt. DeepSeek übertrifft bereits Gemini, Copilot, Claude und Meta.
Test 4: Erstellen eines Skripts
Dieser Test ist schwierig, weil er drei Umgebungen umfasst: AppleScript, das Chrome-Objektmodell und Keyboard Maestro. ChatGPT hat es gemeistert, aber DeepSeek V3 und R1 blieben zurück. Keines der Modelle verstand die Notwendigkeit, Aufgaben zwischen Keyboard Maestro und Chrome aufzuteilen, und ihr AppleScript-Wissen war schwach.
R1 machte falsche Annahmen, wie dass immer ein vorderes Fenster existiert und dass das laufende Programm immer Chrome sein würde. Dies ließ V3 mit drei korrekten Tests und einem Fehlschlag sowie R1 mit zwei korrekten Tests und zwei Fehlschlägen zurück.
Schlussgedanken
DeepSeeks Beharren darauf, eine öffentliche Cloud-E-Mail wie Gmail anstelle meiner Unternehmensdomäne zu verwenden, war frustrierend. Es gab auch einige Reaktionsprobleme, die die Tests länger als erwartet dauern ließen.
Ich hatte zunächst Schwierigkeiten, mich anzumelden, aufgrund dieses Fehlers:
Die Online-Dienste von DeepSeek waren kürzlich groß angelegten bösartigen Angriffen ausgesetzt. Um den fortlaufenden Dienst zu gewährleisten, ist die Registrierung vorübergehend auf +86 Telefonnummern beschränkt. Bestehende Benutzer können sich wie gewohnt einloggen. Vielen Dank für Ihr Verständnis und Ihre Unterstützung.
Nach dem Einloggen konnte ich die Tests durchführen. DeepSeek neigt dazu, mit seinem Code wortreich zu sein. Das AppleScript in Test 4 war sowohl falsch als auch unnötig lang. Der reguläre Ausdruck in Test 2 hätte wartungsfreundlicher sein können, obwohl V3 es richtig gemacht hat.
Ich bin beeindruckt, dass V3 Gemini, Copilot und Meta geschlagen hat, aber es liegt immer noch auf dem alten GPT-3.5-Niveau, was Raum für Wachstum andeutet. Die Leistung von R1 war enttäuschend. Wenn ich wählen müsste, würde ich für Programmierhilfe bei ChatGPT bleiben.
Trotzdem ist DeepSeek für ein neues Tool, das auf viel weniger Infrastruktur läuft, definitiv eines, das man im Auge behalten sollte.
Was sind Ihre Gedanken? Haben Sie DeepSeek ausprobiert? Nutzen Sie KIs für Programmierunterstützung? Lassen Sie es uns in den Kommentaren unten wissen.
Folgen Sie meinen täglichen Projekt-Updates auf Social Media, abonnieren Sie meinen wöchentlichen Newsletter und verbinden Sie sich mit mir auf Twitter/X unter @DavidGewirtz, Facebook unter Facebook.com/DavidGewirtz, Instagram unter Instagram.com/DavidGewirtz, Bluesky unter @DavidGewirtz.com und YouTube unter YouTube.com/DavidGewirtzTV.




DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄




DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏




DeepSeekのR1とV3はかなりクールですが、正直に言うと、完璧ではありません。コーディングのスキルはまあまあですが、時々ただ推測しているように感じます。それでも、中国からAIの新しいプレイヤーが登場するのは新鮮ですね!DeepSeek、改善を続けてください!👏




DeepSeek's R1 and V3 are pretty cool, but they're not perfect. The coding skills are decent, but sometimes the responses are a bit off. Still, it's great to see a new player from China in the AI game. Keep improving, DeepSeek! 👀




ディープシークのR1とV3はかなりクールですが、完璧ではありません。コーディングのスキルはまあまあですが、時々レスポンスがずれることがあります。それでも、中国から新しいプレイヤーがAIの世界に参入するのは素晴らしいです。ディープシーク、改善を続けてください!👀




딥시크의 R1과 V3는 꽤 멋지지만, 완벽하진 않아요. 코딩 스킬은 괜찮은데, 가끔 응답이 좀 어긋나요. 그래도 중국에서 새로운 플레이어가 AI 게임에 참여하는 건 멋진 일이에요. 딥시크, 계속 개선하세요! 👀












