Дом
Модель искусственного интеллекта DeepSeek V3.2 обеспечивает высочайшую производительность при минимальных вычислительных затратах
В то время как крупные технологические компании инвестируют миллиарды в вычислительные мощности для разработки передовых моделей искусственного интеллекта, китайская компания DeepSeek достигла аналогичных результатов благодаря более разумным подходам, а не просто масштабам. Модель DeepSeek V3.2 соответствует GPT-5 от OpenAI по показателям логического мышления, хотя она использовала «меньшее общее количество FLOP при обучении» — это достижение может переопределить подход отрасли к созданию сложных систем искусственного интеллекта.
Для бизнеса этот релиз демонстрирует, что для создания искусственного интеллекта высшего уровня не обязательно требуются вычислительные бюджеты высшего уровня. Открытый исходный код DeepSeek V3.2 позволяет организациям оценивать передовые функции рассуждения и агентности, сохраняя при этом контроль над инфраструктурой развертывания — важный фактор, поскольку рентабельность становится все более важным фактором при принятии решений о внедрении искусственного интеллекта.
Исследовательская лаборатория из Ханчжоу представила в понедельник две версии: базовую DeepSeek V3.2 и DeepSeek-V3.2-Speciale. Последняя получила золотую медаль на Международной математической олимпиаде 2025 года и Международной олимпиаде по информатике — тестах, которые ранее проходили только невыпущенные внутренние модели ведущих американских компаний в области искусственного интеллекта.
Это достижение особенно примечательно, учитывая ограниченный доступ DeepSeek к передовым полупроводниковым чипам в соответствии с экспортными правилами.
Эффективность использования ресурсов как конкурентное преимущество
Успех DeepSeek бросает вызов широко распространенному в отрасли мнению, что для достижения ведущих показателей в области искусственного интеллекта необходимы огромные вычислительные ресурсы. Компания объясняет такую эффективность прорывами в архитектуре, в частности DeepSeek Sparse Attention (DSA), которая значительно снижает вычислительную сложность без ущерба для производительности модели.
Базовая модель DeepSeek V3.2 достигла 93,1% точности в решении математических задач AIME 2025 и рейтинга Codeforces 2386, что ставит ее на один уровень с GPT-5 в оценках логического мышления.
Вариант Speciale показал еще лучшие результаты, набрав 96,0% на American Invitational Mathematics Examination (AIME) 2025, 99,2% на Harvard-MIT Mathematics Tournament (HMMT) в феврале 2025 года и завоевав золотую медаль как на Международной математической олимпиаде 2025 года, так и на Международной олимпиаде по информатике.
Эти результаты особенно впечатляют, учитывая ограниченный доступ DeepSeek к передовым чипам из-за ряда тарифов и экспортных ограничений, влияющих на Китай. Технический отчет указывает, что компания выделила на вычисления после обучения бюджет, превышающий 10 % расходов до обучения — значительные инвестиции, которые способствовали развитию передовых возможностей за счет оптимизации обучения с подкреплением, а не масштабирования методом перебора.
Технические инновации, повышающие эффективность
Механизм DSA знаменует собой отход от традиционных архитектур внимания. Вместо обработки всех токенов с одинаковой вычислительной интенсивностью, DSA использует «молниеносный индексатор» и систему тонкой селекции токенов, которая выделяет и обрабатывает только наиболее релевантную информацию для каждого запроса.
Этот метод снижает сложность основного внимания с O(L²) до O(Lk), где k обозначает количество выбранных токенов — долю от общей длины последовательности L. Во время расширенного предварительного обучения с контрольной точки DeepSeek-V3.1-Terminus компания обучила DSA на 943,7 миллиардах токенов, используя 480 последовательностей по 128 тысяч токенов на каждый этап обучения.
Архитектура также реализует управление контекстом, предназначенное для ситуаций вызова инструментов. В отличие от более ранних моделей рассуждений, которые отбрасывали содержание рассуждений после каждого сообщения пользователя, модель DeepSeek V3.2 сохраняет следы рассуждений, когда добавляются только сообщения, связанные с инструментами, повышая эффективность токенов в многоходовых рабочих процессах агентов за счет устранения ненужных повторных рассуждений.
Корпоративные приложения и практическая производительность
Для организаций, оценивающих внедрение ИИ, методология DeepSeek предоставляет ощутимые преимущества, выходящие за рамки результатов тестирования. На Terminal Bench 2.0, который измеряет возможности рабочего процесса кодирования, DeepSeek V3.2 достиг точности 46,4%.
Модель набрала 73,1% в SWE-Verified, тесте по решению проблем в области разработки программного обеспечения, и 70,2% в SWE Multilingual, продемонстрировав практическую ценность в условиях разработки.
В агентных задачах, требующих автономного использования инструментов и многоэтапного мышления, модель продемонстрировала существенные улучшения по сравнению с предыдущими системами с открытым исходным кодом. Компания создала крупномасштабный конвейер синтеза агентных задач, который сгенерировал более 1800 различных сред и 85 000 сложных подсказок, что позволило модели обобщить стратегии мышления для незнакомых сценариев использования инструментов.
DeepSeek открыла исходный код базовой модели V3.2 на Hugging Face, что позволяет предприятиям развертывать и настраивать ее без привязки к поставщику. Вариант Speciale остается доступным только через API из-за более высоких требований к потреблению токенов — это компромисс между пиковой производительностью и эффективностью развертывания.
Последствия для отрасли и признание
Выпуск модели вызвал значительную дискуссию в сообществе исследователей в области ИИ. Сьюзан Чжан, главный инженер-исследователь в Google DeepMind, высоко оценила исчерпывающую техническую документацию DeepSeek, особо отметив усилия компании по стабилизации моделей после обучения и укреплению агентских возможностей.
Время, предшествующее Конференции по нейронным системам обработки информации, привлекло к ней повышенное внимание. Флориан Бранд, эксперт по открытой экосистеме ИИ в Китае, участвующий в NeurIPS в Сан-Диего, отметил немедленную реакцию: «Сегодня все групповые чаты были взволнованы после объявления DeepSeek».
Признанные ограничения и путь развития
Технический отчет DeepSeek рассматривает текущие пробелы по сравнению с передовыми моделями. Эффективность токенов остается проблемой — модель DeepSeek V3.2 обычно требует более длинных последовательностей генерации, чтобы соответствовать качеству вывода таких систем, как Gemini 3 Pro. Компания также признает, что объем знаний о мире отстает от ведущих проприетарных моделей из-за более низкой общей вычислительной мощности обучения.
Приоритеты будущего развития включают масштабирование вычислительных ресурсов для предварительного обучения с целью расширения мировых знаний, оптимизацию эффективности цепочки рассуждений для улучшения использования токенов и усовершенствование базовой архитектуры для решения сложных задач.
См. также: Реальность бизнеса в области ИИ — что нужно знать руководителям предприятий

Хотите узнать больше об ИИ и больших данных от экспертов отрасли? Посетите выставку AI & Big Data Expo, которая проходит в Амстердаме, Калифорнии и Лондоне. Это комплексное мероприятие является частью TechEx и проходит одновременно с другими крупными технологическими событиями. Нажмите здесь для получения дополнительной информации.
AI News поддерживается TechForge Media. Узнайте о других предстоящих мероприятиях и вебинарах по корпоративным технологиям здесь.
Связанная статья
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Немецкий суд принял сторону компании Teradyne Robotics и вынес судебный запрет в отношении компании Elite Robots
Дочерняя компания Teradyne — Universal Robots — недавно продемонстрировала на выставке MODEX свой мобильный манипулятор, оснащенный манипулятором-коллаборативным роботом UR. Источник: TeradyneНа этой
Hyundai представляет робота MobED на выставке AW в то время, как искусственный интеллект преобразует производство
Hyundai продемонстрирует своего робота MobED среди других корейских систем на выставке AW 2026. Источник: Hyundai Motor GroupРоботическая лаборатория Hyundai Motor Group представит свою мобильную плат
Рекомендации по связанным специальным темам
Комментарии (1)
В то время как крупные технологические компании инвестируют миллиарды в вычислительные мощности для разработки передовых моделей искусственного интеллекта, китайская компания DeepSeek достигла аналогичных результатов благодаря более разумным подходам, а не просто масштабам. Модель DeepSeek V3.2 соответствует GPT-5 от OpenAI по показателям логического мышления, хотя она использовала «меньшее общее количество FLOP при обучении» — это достижение может переопределить подход отрасли к созданию сложных систем искусственного интеллекта.
Для бизнеса этот релиз демонстрирует, что для создания искусственного интеллекта высшего уровня не обязательно требуются вычислительные бюджеты высшего уровня. Открытый исходный код DeepSeek V3.2 позволяет организациям оценивать передовые функции рассуждения и агентности, сохраняя при этом контроль над инфраструктурой развертывания — важный фактор, поскольку рентабельность становится все более важным фактором при принятии решений о внедрении искусственного интеллекта.
Исследовательская лаборатория из Ханчжоу представила в понедельник две версии: базовую DeepSeek V3.2 и DeepSeek-V3.2-Speciale. Последняя получила золотую медаль на Международной математической олимпиаде 2025 года и Международной олимпиаде по информатике — тестах, которые ранее проходили только невыпущенные внутренние модели ведущих американских компаний в области искусственного интеллекта.
Это достижение особенно примечательно, учитывая ограниченный доступ DeepSeek к передовым полупроводниковым чипам в соответствии с экспортными правилами.
Эффективность использования ресурсов как конкурентное преимущество
Успех DeepSeek бросает вызов широко распространенному в отрасли мнению, что для достижения ведущих показателей в области искусственного интеллекта необходимы огромные вычислительные ресурсы. Компания объясняет такую эффективность прорывами в архитектуре, в частности DeepSeek Sparse Attention (DSA), которая значительно снижает вычислительную сложность без ущерба для производительности модели.
Базовая модель DeepSeek V3.2 достигла 93,1% точности в решении математических задач AIME 2025 и рейтинга Codeforces 2386, что ставит ее на один уровень с GPT-5 в оценках логического мышления.
Вариант Speciale показал еще лучшие результаты, набрав 96,0% на American Invitational Mathematics Examination (AIME) 2025, 99,2% на Harvard-MIT Mathematics Tournament (HMMT) в феврале 2025 года и завоевав золотую медаль как на Международной математической олимпиаде 2025 года, так и на Международной олимпиаде по информатике.
Эти результаты особенно впечатляют, учитывая ограниченный доступ DeepSeek к передовым чипам из-за ряда тарифов и экспортных ограничений, влияющих на Китай. Технический отчет указывает, что компания выделила на вычисления после обучения бюджет, превышающий 10 % расходов до обучения — значительные инвестиции, которые способствовали развитию передовых возможностей за счет оптимизации обучения с подкреплением, а не масштабирования методом перебора.
Технические инновации, повышающие эффективность
Механизм DSA знаменует собой отход от традиционных архитектур внимания. Вместо обработки всех токенов с одинаковой вычислительной интенсивностью, DSA использует «молниеносный индексатор» и систему тонкой селекции токенов, которая выделяет и обрабатывает только наиболее релевантную информацию для каждого запроса.
Этот метод снижает сложность основного внимания с O(L²) до O(Lk), где k обозначает количество выбранных токенов — долю от общей длины последовательности L. Во время расширенного предварительного обучения с контрольной точки DeepSeek-V3.1-Terminus компания обучила DSA на 943,7 миллиардах токенов, используя 480 последовательностей по 128 тысяч токенов на каждый этап обучения.
Архитектура также реализует управление контекстом, предназначенное для ситуаций вызова инструментов. В отличие от более ранних моделей рассуждений, которые отбрасывали содержание рассуждений после каждого сообщения пользователя, модель DeepSeek V3.2 сохраняет следы рассуждений, когда добавляются только сообщения, связанные с инструментами, повышая эффективность токенов в многоходовых рабочих процессах агентов за счет устранения ненужных повторных рассуждений.
Корпоративные приложения и практическая производительность
Для организаций, оценивающих внедрение ИИ, методология DeepSeek предоставляет ощутимые преимущества, выходящие за рамки результатов тестирования. На Terminal Bench 2.0, который измеряет возможности рабочего процесса кодирования, DeepSeek V3.2 достиг точности 46,4%.
Модель набрала 73,1% в SWE-Verified, тесте по решению проблем в области разработки программного обеспечения, и 70,2% в SWE Multilingual, продемонстрировав практическую ценность в условиях разработки.
В агентных задачах, требующих автономного использования инструментов и многоэтапного мышления, модель продемонстрировала существенные улучшения по сравнению с предыдущими системами с открытым исходным кодом. Компания создала крупномасштабный конвейер синтеза агентных задач, который сгенерировал более 1800 различных сред и 85 000 сложных подсказок, что позволило модели обобщить стратегии мышления для незнакомых сценариев использования инструментов.
DeepSeek открыла исходный код базовой модели V3.2 на Hugging Face, что позволяет предприятиям развертывать и настраивать ее без привязки к поставщику. Вариант Speciale остается доступным только через API из-за более высоких требований к потреблению токенов — это компромисс между пиковой производительностью и эффективностью развертывания.
Последствия для отрасли и признание
Выпуск модели вызвал значительную дискуссию в сообществе исследователей в области ИИ. Сьюзан Чжан, главный инженер-исследователь в Google DeepMind, высоко оценила исчерпывающую техническую документацию DeepSeek, особо отметив усилия компании по стабилизации моделей после обучения и укреплению агентских возможностей.
Время, предшествующее Конференции по нейронным системам обработки информации, привлекло к ней повышенное внимание. Флориан Бранд, эксперт по открытой экосистеме ИИ в Китае, участвующий в NeurIPS в Сан-Диего, отметил немедленную реакцию: «Сегодня все групповые чаты были взволнованы после объявления DeepSeek».
Признанные ограничения и путь развития
Технический отчет DeepSeek рассматривает текущие пробелы по сравнению с передовыми моделями. Эффективность токенов остается проблемой — модель DeepSeek V3.2 обычно требует более длинных последовательностей генерации, чтобы соответствовать качеству вывода таких систем, как Gemini 3 Pro. Компания также признает, что объем знаний о мире отстает от ведущих проприетарных моделей из-за более низкой общей вычислительной мощности обучения.
Приоритеты будущего развития включают масштабирование вычислительных ресурсов для предварительного обучения с целью расширения мировых знаний, оптимизацию эффективности цепочки рассуждений для улучшения использования токенов и усовершенствование базовой архитектуры для решения сложных задач.
См. также: Реальность бизнеса в области ИИ — что нужно знать руководителям предприятий

Хотите узнать больше об ИИ и больших данных от экспертов отрасли? Посетите выставку AI & Big Data Expo, которая проходит в Амстердаме, Калифорнии и Лондоне. Это комплексное мероприятие является частью TechEx и проходит одновременно с другими крупными технологическими событиями. Нажмите здесь для получения дополнительной информации.
AI News поддерживается TechForge Media. Узнайте о других предстоящих мероприятиях и вебинарах по корпоративным технологиям здесь.
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Немецкий суд принял сторону компании Teradyne Robotics и вынес судебный запрет в отношении компании Elite Robots
Дочерняя компания Teradyne — Universal Robots — недавно продемонстрировала на выставке MODEX свой мобильный манипулятор, оснащенный манипулятором-коллаборативным роботом UR. Источник: TeradyneНа этой
Hyundai представляет робота MobED на выставке AW в то время, как искусственный интеллект преобразует производство
Hyundai продемонстрирует своего робота MobED среди других корейских систем на выставке AW 2026. Источник: Hyundai Motor GroupРоботическая лаборатория Hyundai Motor Group представит свою мобильную плат











