Compétences de codage R1 et V3 de Deepseek testées: nous ne sommes pas encore condamnés

Maison

Nouvelles

17 avril 2025

MarkSmith

117

Présentation de DeepSeek : Un nouvel acteur dans l'arène de l'IA

DeepSeek a fait irruption sur la scène ce week-end, attirant l'attention mondiale pour trois raisons convaincantes :

C'est un chatbot IA originaire de Chine, une différence notable par rapport aux offres habituelles basées aux États-Unis.
Il est open source, ce qui est important dans la communauté technologique.
Il fonctionne avec beaucoup moins d'infrastructure que ses homologues poids lourds, ce qui en fait une option intrigante pour beaucoup.

Bien que l'examen par le gouvernement américain de TikTok et l'éventuelle implication du gouvernement chinois dans son code aient suscité des inquiétudes, l'émergence de DeepSeek depuis la Chine attire naturellement une attention similaire. Cependant, nous évitons ici la politique. Plongeons plutôt dans la manière dont DeepSeek V3 et DeepSeek R1 se comparent à d'autres modèles d'IA dans les tâches de codage.

Selon les propres conseils de DeepSeek :

Choisissez V3 pour les tâches exigeant profondeur et précision, comme résoudre des problèmes mathématiques complexes ou générer du code complexe.
Optez pour R1 lorsque vous avez besoin d'applications rapides à haut volume, telles que l'automatisation du support client ou le traitement de texte de base.

Vous pouvez basculer entre R1 et V3 à l'aide d'un petit bouton dans l'interface de chat. S'il est bleu, vous utilisez R1.

Capture d'écran par David Gewirtz/ZDNET

Alors, comment s'en sont-ils sortis ? Les deux modèles ont montré du potentiel mais n'étaient pas parfaits. Explorons les résultats.

Test 1 : Création d'un https://img.xix.aiplugin WordPress

Mon premier test, inspiré par le besoin de ma femme pour un https://img.xix.aiplugin WordPress afin de gérer un dispositif d'implication pour son groupe en ligne, est un classique. Le https://img.xix.aiplugin devait accepter une liste de noms, les trier et s'assurer que les doublons ne soient pas côte à côte. J'ai lancé ce défi à de nombreuses IA, et c'est un défi difficile.

Capture d'écran par David Gewirtz/ZDNET

DeepSeek V3 a réussi, créant une interface utilisateur et une logique de programme qui répondaient parfaitement au cahier des charges. R1 a adopté une approche différente, offrant une analyse de 4502 mots avant de partager le code. L'interface utilisateur était plus large, mais l'interface et la logique fonctionnaient, donc R1 a également réussi.

Capture d'écran par David Gewirtz/ZDNET

Jusqu'à présent, V3 et R1 ont réussi un test sur quatre.

Test 2 : Réécriture d'une fonction de chaîne

Un utilisateur avait du mal à entrer des dollars et des cents dans un champ de don, ce que mon code original ne permettait pas. La tâche était de modifier la routine pour accepter les deux. DeepSeek a généré un code fonctionnel, mais il y a place à amélioration.

Le code de V3 était trop long et répétitif, tandis que le raisonnement de R1 avant de générer le code était également long. Les deux modèles validaient jusqu'à deux décimales, mais ils ne géraient pas bien les très grands nombres. L'utilisation par R1 de la conversion en Number de JavaScript sans vérifier les cas limites pourrait entraîner des plantages.

Intéressant, R1 a fourni une belle liste de cas de test :

Capture d'écran par David Gewirtz/ZDNET

Je donne le point à V3 car son code ne planterait pas et produirait les résultats attendus. R1 échoue en raison de plantages potentiels avec des entrées non-chaîne. Cela fait deux victoires sur quatre pour V3 et une pour R1.

Test 3 : Traquer un bug gênant

Ce test provenait d'un bug que j'ai eu du mal à trouver. Le défi était que la réponse évidente basée sur le message d'erreur était fausse, ce qui piège souvent les IA. Le résoudre nécessite de comprendre les appels d'API WordPress, de voir au-delà du message d'erreur et de localiser le bug.

V3 et R1 ont réussi ce test avec des réponses presque identiques, portant V3 à trois victoires sur quatre et R1 à deux sur quatre. DeepSeek surpasse déjà Gemini, Copilot, Claude et Meta.

Test 4 : Création d'un script

Ce test est difficile car il implique trois environnements : AppleScript, le modèle d'objet Chrome et Keyboard Maestro. ChatGPT a excellé, mais DeepSeek V3 et R1 ont échoué. Aucun des modèles n'a compris la nécessité de diviser les tâches entre Keyboard Maestro et Chrome, et leurs connaissances en AppleScript étaient faibles.

R1 a fait des hypothèses incorrectes, comme supposer qu'une fenêtre active existe toujours et que le programme actif serait toujours Chrome. Cela laisse V3 avec trois tests corrects et un échec, et R1 avec deux tests corrects et deux échecs.

Réflexions finales

L'insistance de DeepSeek à utiliser un e-mail de cloud public comme Gmail plutôt que mon domaine d'entreprise était frustrante. Il y avait aussi des problèmes de réactivité qui ont rendu les tests plus longs que prévu.

J'ai initialement eu du mal à m'inscrire à cause de cette erreur :

Les services en ligne de DeepSeek ont récemment été confrontés à des attaques malveillantes à grande échelle. Pour assurer la continuité du service, l'inscription est temporairement limitée aux numéros de téléphone +86. Les utilisateurs existants peuvent se connecter comme d'habitude. Merci de votre compréhension et de votre soutien.

Une fois connecté, j'ai pu exécuter les tests. DeepSeek a tendance à être verbeux avec son code. L'AppleScript dans le Test 4 était à la fois incorrect et inutilement long. L'expression régulière dans le Test 2 aurait pu être plus maintenable, bien que V3 l'ait bien faite.

Je suis impressionné que V3 ait surpassé Gemini, Copilot et Meta, mais il est encore au niveau de l'ancien GPT-3.5, ce qui suggère qu'il y a place à l'amélioration. La performance de R1 était décevante. Si je devais choisir, je resterais avec ChatGPT pour l'aide à la programmation.

Cela dit, pour un nouvel outil fonctionnant avec beaucoup moins d'infrastructure, DeepSeek est définitivement à surveiller.

Qu'en pensez-vous ? Avez-vous essayé DeepSeek ? Utilisez-vous des IA pour le support à la programmation ? Faites-le-nous savoir dans les commentaires ci-dessous.

Suivez mes mises à jour quotidiennes de projets sur les réseaux sociaux, abonnez-vous à ma newsletter hebdomadaire, et connectez-vous avec moi sur Twitter/X à @DavidGewirtz, Facebook à Facebook.com/DavidGewirtz, Instagram à Instagram.com/DavidGewirtz, Bluesky à @DavidGewirtz.com, et YouTube à YouTube.com/DavidGewirtzTV.

Article connexe

Master Emerald Kaizo Nuzlocke : Guide ultime de survie et de stratégie Emerald Kaizo est l'un des plus formidables hacks de ROM Pokémon jamais conçus. Bien que tenter une course Nuzlocke augmente exponentiellement le défi, la victoire reste possible grâce à une planifica

Lettres de motivation alimentées par l'IA : Guide d'experts pour les soumissions à des revues Dans l'environnement compétitif de l'édition universitaire d'aujourd'hui, l'élaboration d'une lettre de motivation efficace peut faire la différence cruciale dans l'acceptation de votre manuscrit. Déc

Les États-Unis vont sanctionner des fonctionnaires étrangers en raison de la réglementation sur les médias sociaux Les États-Unis prennent position contre les réglementations mondiales en matière de contenu numériqueCette semaine, le département d'État américain a émis un blâme diplomatique sévère à l'encontre d

commentaires (13)

0/200

Soumettre

CarlCarter

5 septembre 2025 22:30:30 UTC+02:00

DeepSeek这波操作有点东西啊！中国本土AI终于不再只擅长写诗和做饭了，居然在代码能力上也能和国外大模型掰手腕👏 不过开源这事...希望别过两天就变成'部分开源'吧😂

BruceGonzalez

25 août 2025 09:01:02 UTC+02:00

DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀

JoseGonzalez

7 août 2025 08:33:00 UTC+02:00

DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄

ArthurSanchez

23 avril 2025 10:48:34 UTC+02:00

DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏

NicholasAdams

23 avril 2025 08:36:41 UTC+02:00

DeepSeekのR1とV3はかなりクールですが、正直に言うと、完璧ではありません。コーディングのスキルはまあまあですが、時々ただ推測しているように感じます。それでも、中国からAIの新しいプレイヤーが登場するのは新鮮ですね！DeepSeek、改善を続けてください！👏

StephenGonzalez

21 avril 2025 06:47:37 UTC+02:00

DeepSeek's R1 and V3 are pretty cool, but they're not perfect. The coding skills are decent, but sometimes the responses are a bit off. Still, it's great to see a new player from China in the AI game. Keep improving, DeepSeek! 👀

Top nouvelles

Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois AI Builder et Power Automate Révolutionnent la Synthèse de Documents OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée

Plus

En vedette