DeepSeek-R1
671B
Параметр модели
DeepSeek
Аффилированная организация
Открытый исходный код
Тип лицензии
19 января 2025 г.
Время выпуска
Введение модели
DeepSeek-R1 активно использовал методы усиленного обучения на этапе после обучения, значительно повысив возможности модели логического вывода при минимальном количестве аннотированных данных. На задачах, связанных с математикой, программированием и инференсом естественного языка, его производительность соответствует официальной версии OpenAI's o1.
Комплексная оценка
Языковый диалог
Запас знаний
Ассоциация рассуждений
Математический расчет
Написание кода
Команда следующей


Способность к пониманию языка
Способен понимать сложные контексты и генерировать логически когерентные предложения, хотя и иногда выключенные по контролю тона.
7.5


Объем знаний
Охватывает более 200 специализированных областей, интегрируя последние результаты исследований и межкультурные знания в режиме реального времени.
9.0


Способность рассуждать
Может выполнять логические рассуждения с более чем тремя шагами, хотя эффективность падает при обращении с нелинейными отношениями.
8.5
Сравнение модели
DeepSeek-R1 vs Qwen2.5-7B-Instruct
Как и Qwen2, модели языка Qwen2.5 поддерживают до 128K токенов и могут генерировать до 8K токенов. Они также сохраняют мультиязычную поддержку более чем для 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие.
DeepSeek-R1 vs Doubao-1.5-thinking-pro-250415
Новый глубокий мыслительный модель Doubao-1.5 показывает отличные результаты в профессиональных областях, таких как математика, программирование, научное reasoning, а также в общей задаче, такой как творческая письменная работа. Она достигла или находится на уровне промышленного лидера на нескольких авторитетных benchmarkах, таких как AIME 2024, Codeforces и GPQA.
DeepSeek-R1 vs Step-1-8K
Step-1-8K - это модель API, созданная компанией Step Star, версия модели - step-1-8k.
Связанная модель
DeepSeek-V2-Chat-0628
DeepSeek-V2 — это мощная модель языка типа Mixture-of-Experts (MoE), характеризующаяся экономичностью обучения и эффективностью вывода. Она содержит 236 миллиардов общих параметров, из которых 21 миллиард активируется для каждого токена. В сравнении с DeepSeek 67B, DeepSeek-V2 демонстрирует более высокую производительность, при этом экономя 42,5% затрат на обучение, снижая объем KV-кэша на 93,3% и увеличивая максимальную пропускную способность генерации до 5,76 раз.
DeepSeek-V2.5
DeepSeek-V2.5 — это обновленная версия, объединяющая DeepSeek-V2-Chat и DeepSeek-Coder-V2-Instruct. Новая модель интегрирует общие и программные возможности двух предыдущих версий.
DeepSeek-V3-0324
DeepSeek-V3 превосходит другие открытые модели, такие как Qwen2.5-72B и Llama-3.1-405B, во множестве оценок и соответствует уровню производительности премиальных закрытых моделей, таких как GPT-4 и Claude-3.5-Sonnet.
DeepSeek-V2-Lite-Chat
DeepSeek-V2, сильная модель языка Mixture-of-Experts (MoE), представленная DeepSeek, DeepSeek-V2-Lite — это лёгкая версия этой модели.
DeepSeek-V2-Chat
DeepSeek-V2 — мощная модель языка в формате Mixture-of-Experts (MoE), характеризующаяся экономичным обучением и эффективной инференсом. Она состоит из 236 миллиардов общих параметров, из которых 21 миллиард активируется для каждого токена. В сравнении с DeepSeek 67B, DeepSeek-V2 показывает более высокую производительность, при этом экономит 42.5% затрат на обучение, снижает размер KV-кэша на 93.3% и увеличивает максимальную пропускную способность генерации в 5.76 раза.
Соответствующие документы
Google Gemini Code Assist улучшает AI-кодирование с агентскими функциями
Gemini Code Assist — новый "агентный" функционал в режиме превьюGoogle представил обновление своего ИИ-помощника для разработчиков Gemini Code Assist с революционными «агентными» в
Microsoft открывает исходный код CLI-редактора на Build
Microsoft делает ставку на open-source на конференции Build 2025На ежегодной конференции Build 2025 Microsoft совершила серьезные шаги в мире open-source, выпустив несколько ключев
OpenAI улучшает ИИ-модель, лежащую в основе Operator Agent
OpenAI выводит Operator на новый уровеньOpenAI представляет масштабное обновление для своего автономного ИИ-агента Operator. В скором времени Operator перейдет на модель o3 — одну
Фонд будущего ИИ Google, возможно, должен действовать осторожно
Инвестиционная инициатива Google в области ИИ: стратегический поворот на фоне регуляторного вниманияОбъявление Google о создании фонда AI Futures Fund является смелым шагом в стрем
AI YouTube Thumbnail Generator: Увеличьте просмотры видео
Сила ИИ В The YouTube Thumbnail Creationin Today Digital Landscape, очаровательная миниатюра YouTube имеет решающее значение для привлечения внимания зрителей. С миллионами видео, конкурирующих за клики, поразительная миниатюра может иметь все значение. AI YouTube Миниатюрные генераторы появились как GAM