Modelleinführung
DeepSeek-R1 nutzte in der Nachtrainings-Phase ausgiebig Techniken des Reinforcement Learning und verbesserte so die Schlussfolgerungsfähigkeiten des Modells mit nur einer minimalen Menge an kommentierten Daten erheblich. Bei Aufgaben, die Mathematik, Codierung und natürlichsprachliche Inferenz beinhalten, ist seine Leistung gleichauf mit der offiziellen Version von OpenAIs o1.