DeepSeek-V3-0324
671B
Quantité de paramètre de modèle
DeepSeek
Organisation affiliée
Source ouverte
Type de licence
24 mars 2025
Temps de libération
Introduction du modèle
DeepSeek-V3 surpasse d'autres modèles open source tels que Qwen2.5-72B et Llama-3.1-405B dans plusieurs évaluations et égale les performances des meilleurs modèles propriétaires comme GPT-4 et Claude-3.5-Sonnet.
Score complet
Dialogue du langage
Réserve de connaissances
Association de raisonnement
Calcul mathématique
Écriture de code
Commande suivante
Faites glisser vers la gauche et la droite pour voir plus


Capacité de compréhension du langage
Capable de comprendre des contextes complexes et de générer des phrases logiquement cohérentes, bien que parfois hors du contrôle de la tonalité.
7.4


Portée de la couverture des connaissances
Possède une connaissance fondamentale des disciplines traditionnelles, mais a une couverture limitée des champs interdisciplinaires de pointe.
8.7


Capacité de raisonnement
Peut effectuer un raisonnement logique avec plus de trois étapes, bien que l'efficacité baisse lors de la gestion des relations non linéaires.
8.9
Comparaison du modèle
DeepSeek-V3-0324 vs Qwen2.5-7B-Instruct
Comme Qwen2, les modèles de langue Qwen2.5 prennent en charge jusqu'à 128K tokens et peuvent générer jusqu'à 8K tokens. Ils maintiennent également une prise en charge multilingue pour plus de 29 langues, y compris le chinois, l'anglais, le français, l'espagnol, le portugais, l'allemand, l'italien, le russe, le japonais, le coréen, le vietnamien, le thaï, l'arabe et bien d'autres.
DeepSeek-V3-0324 vs Gemini-2.5-Pro-Preview-05-06
Gemini 2.5 Pro est un modèle publié par l'équipe de recherche en intelligence artificielle de Google DeepMind, utilisant le numéro de version Gemini-2.5-Pro-Preview-05-06.
DeepSeek-V3-0324 vs GPT-4o-mini-20240718
GPT-4o-mini est un modèle API produit par OpenAI, avec le numéro de version spécifique étant gpt-4o-mini-2024-07-18.
DeepSeek-V3-0324 vs Doubao-1.5-thinking-pro-250415
Le nouveau modèle de réflexion profonde Doubao-1.5 se distingue dans des domaines professionnels tels que les mathématiques, la programmation, la raisonnement scientifique, ainsi que dans des tâches générales comme l'écriture créative. Il a atteint ou est proche du niveau supérieur de l'industrie sur plusieurs benchmarks autorisés tels que AIME 2024, Codeforces et GPQA.
Modèle connexe
DeepSeek-V2-Chat-0628
DeepSeek-V2 est un modèle de langue robuste de type Mixture-of-Experts (MoE), caractérisé par un coût d'entraînement économique et une inférence efficace. Il comprend un total de 236 milliards de paramètres, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42,5 % des coûts d'entraînement, réduisant la mémoire de cache KV de 93,3 % et augmentant la capacité maximale de génération jusqu'à 5,76 fois.
DeepSeek-V2.5
DeepSeek-V2.5 est une version mise à jour combinant DeepSeek-V2-Chat et DeepSeek-Coder-V2-Instruct. Le nouveau modèle intègre les capacités générales et de codage des deux versions précédentes.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, un modèle de langue Mixture-of-Experts (MoE) puissant présenté par DeepSeek, DeepSeek-V2-Lite est une version allégée de celui-ci.
DeepSeek-V2-Chat
DeepSeek-V2 est un modèle linguistique robuste du type Mixture-of-Experts (MoE), caractérisé par un entraînement économique et une inférence efficace. Il comporte 236 milliards de paramètres au total, dont 21 milliards sont activés pour chaque jeton. Comparé à DeepSeek 67B, DeepSeek-V2 offre des performances supérieures tout en économisant 42.5 % des coûts d'entraînement, réduisant la mémoire cache KV de 93.3 % et augmentant le débit maximal de génération de 5.76 fois.
DeepSeek-R1
DeepSeek-R1 est un modèle entraîné via un apprentissage par renforcement (RL) à grande échelle sans utiliser de mise au point supervisée (SFT) comme étape initiale. Ses performances dans les tâches mathématiques, de codage et de raisonnement sont comparables à celles d'OpenAI-o1.
Documents pertinents
Dernière opportunité pour valoriser votre marque avec un événement parallèle à TechCrunch Sessions: AI
Aujourd'hui est votre dernière chance de mettre en avant votre marque au cœur des discussions sur l'IA lors de la semaine TechCrunch Sessions: AI, avec les candidatures pour organiser un événement par
Rejoignez les Sessions TechCrunch : AI avec un Invité et Économisez 50 % sur Leur Billet d'ici le 4 Mai
Curieux de l’avenir de l’IA ? Amenez un ami et plongez-y ensemble !Jusqu’au 4 mai, procurez-vous votre billet Early Bird pour les Sessions TechCrunch : AI, économisez jusqu’à 210 $, et obtenez 50 % de
Anthropic améliore Claude avec des intégrations d'outils fluides et une recherche avancée
Anthropic a dévoilé de nouvelles « Intégrations » pour Claude, permettant à l'IA de se connecter directement à vos outils de travail préférés. L'entreprise a également introduit une fonctionnalité amé
Conception UX alimentée par l'IA : Façonner l'avenir de l'expérience utilisateur
Le domaine de la conception de l'expérience utilisateur (UX) connaît une transformation profonde, alimentée par l'évolution rapide de l'intelligence artificielle (IA). Loin d'être une vision lointaine
Éducation alimentée par l'IA : Révolutionner l'apprentissage à tous les niveaux
L'intelligence artificielle (IA) transforme l'éducation en fournissant des outils innovants pour engager les élèves et personnaliser l'apprentissage. Cet article examine comment les éducateurs peuvent