вариант
Дом
Список моделей AL
DeepSeek-V2-Lite-Chat
Параметр модели
16B
Параметр модели
Аффилированная организация
DeepSeek
Аффилированная организация
Открытый исходный код
Тип лицензии
Время выпуска
15 мая 2024 г.
Время выпуска

Введение модели
DeepSeek-V2, мощная модель языка Mixture-of-Experts (MoE), представленная DeepSeek, DeepSeek-V2-Lite - это легкая версия этой модели.
Смахните влево и вправо, чтобы посмотреть больше
Способность к пониманию языка Способность к пониманию языка
Способность к пониманию языка
Часто делает семантические ошибки, что приводит к очевидным логическим отключениям в ответах.
3.1
Объем знаний Объем знаний
Объем знаний
Имеет значительные знания слепых пятен, часто показывающих фактические ошибки и повторяющуюся устаревшую информацию.
4.1
Способность рассуждать Способность рассуждать
Способность рассуждать
Невозможно поддерживать последовательные сети рассуждений, часто вызывая инвертированную причинность или просчеты.
2.8
Сравнение модели
Связанная модель
DeepSeek-V3-0324 DeepSeek-V3 превосходит другие модели с открытым исходным кодом, такие как Qwen2.5-72B и Llama-3.1-405B, в различных оценках и соответствует производительности ведущих закрытых моделей, таких как GPT-4 и Claude-3.5-Sonnet.
DeepSeek-R1-0528 Последняя версия Deepseek R1.
DeepSeek-V2-Chat-0628 DeepSeek-V2 — это мощная модель языка типа Mixture-of-Experts (MoE), характеризующаяся экономичностью обучения и эффективностью вывода. Она содержит 236 миллиардов общих параметров, из которых 21 миллиард активируется для каждого токена. В сравнении с DeepSeek 67B, DeepSeek-V2 демонстрирует более высокую производительность, при этом экономя 42,5% затрат на обучение, снижая объем KV-кэша на 93,3% и увеличивая максимальную пропускную способность генерации до 5,76 раз.
DeepSeek-V2.5 DeepSeek-V2.5 — это обновленная версия, объединяющая DeepSeek-V2-Chat и DeepSeek-Coder-V2-Instruct. Новая модель интегрирует общие и программные возможности двух предыдущих версий.
DeepSeek-V3-0324 DeepSeek-V3 превосходит другие открытые модели, такие как Qwen2.5-72B и Llama-3.1-405B, во множестве оценок и соответствует уровню производительности премиальных закрытых моделей, таких как GPT-4 и Claude-3.5-Sonnet.
Соответствующие документы
Google представляет инструменты с искусственным интеллектом для Gmail, документов и видеороликов Google представила на I/O 2025 обновления рабочего пространства с поддержкой искусственного интеллектаВ ходе ежегодной конференции для разработчиков компания Google представила инновационные усовершен
AWS запускает Bedrock AgentCore: Платформа с открытым исходным кодом для разработки корпоративных агентов искусственного интеллекта Вот переписанный HTML-контент:AWS запускает Bedrock AgentCore для корпоративных ИИ-агентов Amazon Web Services (AWS) делает большую ставку на ИИ-агентов, преобразующих бизнес-операции, представляя Ama
Akaluli AI Voice Recorder повышает продуктивность и эффективность концентрации внимания В нашей гиперсвязанной рабочей среде сохранять концентрацию во время важных разговоров становится все сложнее. Диктофон Akaluli AI представляет собой инновационное решение этой современной дилеммы, по
Spotify повышает стоимость подписки Premium на рынках за пределами США Spotify повышает цены на подписку на нескольких международных рынках всего через несколько дней после того, как отчитался о неутешительных финансовых показателях. В понедельник гигант потокового вещан
Cairn RPG: простая в освоении настольная система для новых игроков Хотите получить захватывающее представление о настольных ролевых играх, но при этом не перегрузить новичков? Представьте, что вы организуете целое приключение с десятью новичками всего за пятнадцать м
Сравнение модели
Начните сравнение
Вернуться к вершине
OR