вариант
Дом
Новости
DeepSeek Shakes AI Industry: Далее AI LEAP может зависеть от увеличения вычислений при выводе, а не на большем количестве данных

DeepSeek Shakes AI Industry: Далее AI LEAP может зависеть от увеличения вычислений при выводе, а не на большем количестве данных

18 апреля 2025 г.
151

DeepSeek Shakes AI Industry: Далее AI LEAP может зависеть от увеличения вычислений при выводе, а не на большем количестве данных

Индустрия ИИ находится в состоянии постоянных изменений, и 2025 год принес несколько революционных разработок, которые встряхнули отрасль. Одним из главных потрясений стало то, что китайская лаборатория ИИ DeepSeek представила новую модель, которая вызвала падение акций Nvidia на 17% и повлияла на другие акции компаний, связанных с центрами данных для ИИ. Почему столько шума вокруг модели DeepSeek? Она обеспечивает высочайшую производительность за небольшую часть стоимости по сравнению с другими американскими конкурентами, вызывая бурные дискуссии о том, что это означает для будущего центров данных для ИИ.

Но чтобы по-настоящему понять, что делает DeepSeek, нужно рассмотреть общую картину. Мир ИИ сталкивается с нехваткой данных для обучения. Крупные игроки уже использовали большую часть общедоступных данных в интернете, что означает, что мы упираемся в стену в улучшении предварительного обучения. В результате отрасль переключается на "вычисления во время тестирования" (TTC). Представьте это как момент, когда модели ИИ "думают" перед ответом, как, например, в серии "o" от OpenAI. Есть надежда, что TTC может обеспечить такие же улучшения масштабирования, как это когда-то делало предварительное обучение, потенциально открывая следующую большую волну прорывов в ИИ.

Эти изменения указывают на два крупных сдвига: во-первых, лаборатории с меньшими бюджетами теперь вступают в игру, создавая передовые модели. Во-вторых, TTC становится новым рубежом для продвижения ИИ вперед. Давайте разберем эти тенденции и их возможное значение для ландшафта и рынка ИИ.

Последствия для индустрии ИИ

Мы считаем, что переход к TTC и усиление конкуренции среди моделей рассуждений могут изменить ландшафт ИИ по нескольким направлениям: аппаратное обеспечение, облачные платформы, базовые модели и корпоративное программное обеспечение.

1. Аппаратное обеспечение (графические процессоры, специализированные чипы и вычислительная инфраструктура)

Переход к TTC может изменить потребности компаний в области ИИ в аппаратном обеспечении и подходы к его управлению. Вместо того чтобы вкладывать деньги в всё более крупные кластеры графических процессоров для обучения, они могут начать больше сосредотачиваться на усилении возможностей вывода для удовлетворения требований TTC. Хотя графические процессоры останутся важными для вывода, различия между рабочими нагрузками обучения и вывода могут повлиять на то, как эти чипы настраиваются и используются. Поскольку рабочие нагрузки вывода более непредсказуемы и имеют "пиковый" характер, планирование мощностей может стать сложнее.

Мы также считаем, что этот сдвиг может стимулировать рынок аппаратного обеспечения, специально разработанного для вывода с низкой задержкой, например, ASIC. Поскольку TTC становится важнее, чем мощность обучения, доминирование универсальных графических процессоров может начать ослабевать, открывая двери для производителей специализированных чипов для вывода.

2. Облачные платформы: гиперскейлеры (AWS, Azure, GCP) и облачные вычисления

Одной из основных проблем для внедрения ИИ в бизнесе, помимо вопросов точности, является ненадежность API вывода. Такие проблемы, как нестабильное время ответа, ограничения по количеству запросов и сложности с параллельными запросами, могут быть настоящей головной болью. TTC может усугубить эти проблемы. В этом сценарии облачный провайдер, который может гарантировать высокое качество обслуживания (QoS) для решения этих проблем, получит значительное преимущество.

Интересно, что, хотя новые методы могут сделать ИИ более эффективным, они не обязательно снизят спрос на аппаратное обеспечение. Согласно парадоксу Джевонса, где повышение эффективности приводит к увеличению потребления, более эффективные модели вывода могут побудить больше разработчиков использовать модели рассуждений, увеличивая потребность в вычислительной мощности. Мы считаем, что недавние улучшения моделей могут стимулировать рост спроса на облачные вычисления для ИИ, как для вывода, так и для обучения небольших специализированных моделей.

3. Поставщики базовых моделей (OpenAI, Anthropic, Cohere, DeepSeek, Mistral)

Если новые игроки, такие как DeepSeek, смогут конкурировать с крупными игроками при значительно меньших затратах, монополия проприетарных предварительно обученных моделей может начать рушиться. Мы также можем ожидать больше инноваций в TTC для трансформерных моделей, и, как показал DeepSeek, эти инновации могут прийти из неожиданных мест, помимо привычных лидеров в области ИИ.

4. Внедрение ИИ в корпоративной среде и SaaS (уровень приложений)

Учитывая китайское происхождение DeepSeek, их продукты, вероятно, будут подвергаться постоянной проверке с точки зрения безопасности и конфиденциальности. Их API и сервисы чат-ботов, базирующиеся в Китае, вряд ли найдут отклик у корпоративных клиентов в области ИИ в США, Канаде или других западных странах. Многие компании уже блокируют веб-сайт и приложения DeepSeek. Даже если модели DeepSeek будут размещены третьими сторонами в западных центрах данных, они могут столкнуться с проверками, что может ограничить их внедрение в корпоративной среде. Исследователи указывают на такие проблемы, как возможность взлома, предвзятость и генерация вредоносного контента. Хотя некоторые компании могут экспериментировать с моделями DeepSeek, широкое внедрение кажется маловероятным из-за этих опасений.

С другой стороны, вертикальная специализация набирает обороты. В прошлом вертикальные приложения, построенные на базовых моделях, были сосредоточены на создании адаптированных рабочих процессов. Такие методы, как генерация с использованием поиска (RAG), маршрутизация моделей, вызов функций и защитные механизмы, были ключевыми для настройки обобщённых моделей под конкретные случаи использования. Но всегда существовала озабоченность, что значительные улучшения базовых моделей могут сделать эти приложения устаревшими. Сэм Альтман однажды предупреждал, что большой скачок в возможностях моделей может "разрушить" эти инновации.

Однако, если мы наблюдаем плато в улучшениях вычислений во время обучения, угроза быстрого устаревания уменьшается. В мире, где улучшения производительности моделей происходят за счёт оптимизации TTC, могут появиться новые возможности для игроков на уровне приложений. Инновации, такие как оптимизация структурированных запросов, стратегии рассуждений с учётом задержек и эффективные методы выборки, могут обеспечить значительные улучшения производительности в конкретных вертикалях.

Эти улучшения особенно актуальны для моделей, ориентированных на рассуждения, таких как GPT-4o от OpenAI и DeepSeek-R1, которые могут отвечать несколько секунд. В приложениях реального времени сокращение задержек и повышение качества вывода в конкретной области могут дать конкурентное преимущество. В результате компании с глубокими знаниями в определённой области могут сыграть ключевую роль в оптимизации эффективности вывода и настройке результатов.

Работа DeepSeek показывает, что мы отходим от зависимости исключительно от увеличения предварительного обучения для улучшения качества моделей. Вместо этого TTC становится всё более важным. Хотя неясно, будут ли модели DeepSeek широко приняты в корпоративном программном обеспечении из-за проверок, их влияние на улучшение других моделей становится всё более очевидным.

Мы считаем, что инновации DeepSeek побуждают устоявшиеся лаборатории ИИ перенимать аналогичные методы, дополняя их существующие преимущества в аппаратном обеспечении. Предсказанное снижение стоимости моделей, похоже, стимулирует большее использование моделей, что соответствует модели парадокса Джевонса.

Пашутан Ваезипур — технический руководитель в Georgian.

Связанная статья
DeepSeek-V3 Представлен: Как AI-дизайн, учитывающий оборудование, снижает затраты и повышает производительность DeepSeek-V3 Представлен: Как AI-дизайн, учитывающий оборудование, снижает затраты и повышает производительность DeepSeek-V3: Экономичный скачок в развитии AIИндустрия AI находится на распутье. Хотя большие языковые модели (LLMs) становятся мощнее, их вычислительные требования стремительно растут, делая передовы
DeepSeek-GRM: Революционизирует масштабируемую и экономически эффективную ИИ для бизнеса DeepSeek-GRM: Революционизирует масштабируемую и экономически эффективную ИИ для бизнеса Если вы ведете бизнес, то знаете, как сложно может быть интегрировать ИИ в свои операции. Высокие затраты и техническая сложность часто делают передовые модели ИИ недоступными для
Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы Удаление предвзятости и цензуры из крупных языковых моделей (LLMS), таких как DeepSeek, является сложной задачей, которая привлекла внимание политиков США и лидеров бизнеса, которые считают его потенциальной угрозой национальной безопасности. Недавний отчет из отборочного комитета Конгресса США помечен Deeps
Комментарии (32)
HenryDavis
HenryDavis 31 июля 2025 г., 14:35:39 GMT+03:00

DeepSeek's new model sounds like a game-changer! A 17% Nvidia stock dip is wild—wonder how this’ll shift the AI race. More compute at inference? Mind blown! 🤯

JoseGonzalez
JoseGonzalez 29 июля 2025 г., 15:25:16 GMT+03:00

Wow, DeepSeek's new model sounds like a game-changer! That 17% Nvidia stock dip is wild—makes me wonder if we're hitting a compute bottleneck. Anyone else curious how this shifts the AI race? 🤔

BrianMartinez
BrianMartinez 27 апреля 2025 г., 4:02:24 GMT+03:00

¡El nuevo modelo de DeepSeek está sacudiendo la industria de la IA! Es increíble ver cómo baja la acción de Nvidia por esto. Me pregunto si más capacidad de cómputo en la inferencia será realmente la próxima gran cosa o solo un hype. De cualquier manera, es emocionante ver cómo evoluciona la industria! 🚀

GeorgeKing
GeorgeKing 25 апреля 2025 г., 5:22:57 GMT+03:00

DeepSeek's new model is shaking up the AI industry! It's wild to see Nvidia's stock dip because of this. I'm curious if more compute at inference will really be the next big thing or if it's just hype. Either way, it's exciting to watch the industry evolve! 🚀

GeorgeNelson
GeorgeNelson 23 апреля 2025 г., 17:51:14 GMT+03:00

O novo modelo da DeepSeek está abalando a indústria de IA! É louco ver a queda das ações da Nvidia por causa disso. Estou curioso se mais poder de computação na inferência será realmente a próxima grande coisa ou se é apenas hype. De qualquer forma, é emocionante ver a evolução da indústria! 🚀

GeorgeWilson
GeorgeWilson 23 апреля 2025 г., 17:44:57 GMT+03:00

DeepSeek의 새로운 모델이 AI 산업을 흔들고 있어요! Nvidia의 주식이 이 때문에 떨어지는 걸 보니 정말 놀랍네요. 추론 시 더 많은 계산 능력이 정말 다음 큰 변화가 될지, 아니면 그냥 과대광고일지 궁금해요. 어쨌든 산업이 진화하는 걸 보는 건 흥미로워요! 🚀

Вернуться к вершине
OR