Дом
Как масштабировать большие модели: стратегия Ян Чжилина, представленная на GTC, по повышению эффективности токенов и использованию кластеров агентов

Ключ к второй половине эры крупных моделей заключается уже не просто в увеличении вычислительной мощности, а в коренном переосмыслении базовой архитектуры.
18 марта на конференции NVIDIA GTC 2026 основатель Moonshot AI Ян Чжилинь выступил с долгожданной ключевой речью. Это стало его первым всеобъемлющим публичным изложением основной технической дорожной карты модели Kimi K2.5 , предоставившим свежий взгляд на эволюцию больших моделей в эпоху «пост-масштабирования».
Ян Чжилин заявил, что для преодоления текущих ограничений искусственного интеллекта необходима полная реструктуризация ключевых технологий, таких как оптимизаторы, механизмы внимания и остаточные связи. Он сформулировал эволюцию Kimi в трех взаимосвязанных измерениях:
Эффективность токенов: устранение растраты ресурсов для достижения еще более экстремального соотношения вычислительной мощности и производительности.
Длинный контекст: постоянное углубление преимущества Kimi в области памяти длинного контекста для обработки информации в огромных масштабах.
Кластер агентов: интеллект эволюционирует от отдельных агентов к динамически генерируемым «цифровым кластерам».
По мнению Ян Чжилина, масштабирование теперь превратилось в поиск эффектов масштаба в области эффективности, памяти и автоматизированного сотрудничества. Усиление преимуществ этих трех аспектов может открыть уровни интеллекта, значительно превосходящие нынешние возможности.
Согласно более ранним заявлениям, модель Kimi K2.5, запущенная в начале января, уже демонстрирует эту «всестороннюю» способность. Являясь на сегодняшний день самой мощной моделью с открытым исходным кодом от Moonshot AI, она обладает нативной мультимодальной архитектурой, достигает передовой (SOTA) производительности в понимании кода и визуальной информации, а также поддерживает гибкое переключение между «мыслящим» и «немыслящим» режимами для точной адаптации к задачам, основанным на агентах.
По мере того как технологический подход Moonshot AI становится более ясным, конкуренция в области крупных моделей смещает акцент с «количества параметров» на «плотность интеллекта». С появлением кластеров агентов в качестве потенциальной конечной формы будущего интеллекта, вопрос о том, сможет ли Kimi добиться прорыва в рамках концепции «трехмерного умножения» Ян Чжилина, стал ключевым фокусом внимания отрасли.
Связанная статья
Генеральный директор OpenAI Альтман раскритиковал Anthropic за маркетинговые приемы, продиктованные паникой
Продолжающийся публичный спор между лидерами в области искусственного интеллекта — компаниями OpenAI и Anthropic — обострился. Сэм Альтман, генеральный директор OpenAI, недавно в ходе подкаста подверг
Стартап Cursor AI, занимающийся разработкой программного обеспечения, планирует нанять 200 сотрудников в Азиатско-Тихоокеанском регионе после получения значительных инвестиций от SpaceX
Стартап Cursor, занимающийся разработкой решений в области искусственного интеллекта, объявил о масштабной глобальной экспансии и планирует в течение ближайших шести месяцев нанять 200 сотрудников в А
Claude использовался для создания вредоносных пакетов npm: более 670 скомпрометированных пакетов ставят под угрозу открытый исходный код
Недавний инцидент в сфере кибербезопасности продемонстрировал, как крупные языковые модели (LLM) используются в качестве инструмента для разработки вредоносного ПО. Исследователь в области безопасност
Рекомендации по связанным специальным темам
Комментарии (0)

Ключ к второй половине эры крупных моделей заключается уже не просто в увеличении вычислительной мощности, а в коренном переосмыслении базовой архитектуры.
18 марта на конференции NVIDIA GTC 2026 основатель Moonshot AI Ян Чжилинь выступил с долгожданной ключевой речью. Это стало его первым всеобъемлющим публичным изложением основной технической дорожной карты модели
Ян Чжилин заявил, что для преодоления текущих ограничений искусственного интеллекта необходима полная реструктуризация ключевых технологий, таких как оптимизаторы, механизмы внимания и остаточные связи. Он сформулировал эволюцию Kimi в трех взаимосвязанных измерениях:
Эффективность токенов: устранение растраты ресурсов для достижения еще более экстремального соотношения вычислительной мощности и производительности.
Длинный контекст: постоянное углубление преимущества Kimi в области памяти длинного контекста для обработки информации в огромных масштабах.
Кластер агентов: интеллект эволюционирует от отдельных агентов к динамически генерируемым «цифровым кластерам».
По мнению Ян Чжилина, масштабирование теперь превратилось в поиск эффектов масштаба в области эффективности, памяти и автоматизированного сотрудничества. Усиление преимуществ этих трех аспектов может открыть уровни интеллекта, значительно превосходящие нынешние возможности.
Согласно более ранним заявлениям, модель Kimi K2.5, запущенная в начале января, уже демонстрирует эту «всестороннюю» способность. Являясь на сегодняшний день самой мощной моделью с открытым исходным кодом от Moonshot AI, она обладает нативной мультимодальной архитектурой, достигает передовой (SOTA) производительности в понимании кода и визуальной информации, а также поддерживает гибкое переключение между «мыслящим» и «немыслящим» режимами для точной адаптации к задачам, основанным на агентах.
По мере того как технологический подход Moonshot AI становится более ясным, конкуренция в области крупных моделей смещает акцент с «количества параметров» на «плотность интеллекта». С появлением кластеров агентов в качестве потенциальной конечной формы будущего интеллекта, вопрос о том, сможет ли
Генеральный директор OpenAI Альтман раскритиковал Anthropic за маркетинговые приемы, продиктованные паникой
Продолжающийся публичный спор между лидерами в области искусственного интеллекта — компаниями OpenAI и Anthropic — обострился. Сэм Альтман, генеральный директор OpenAI, недавно в ходе подкаста подверг
Стартап Cursor AI, занимающийся разработкой программного обеспечения, планирует нанять 200 сотрудников в Азиатско-Тихоокеанском регионе после получения значительных инвестиций от SpaceX
Стартап Cursor, занимающийся разработкой решений в области искусственного интеллекта, объявил о масштабной глобальной экспансии и планирует в течение ближайших шести месяцев нанять 200 сотрудников в А
Claude использовался для создания вредоносных пакетов npm: более 670 скомпрометированных пакетов ставят под угрозу открытый исходный код
Недавний инцидент в сфере кибербезопасности продемонстрировал, как крупные языковые модели (LLM) используются в качестве инструмента для разработки вредоносного ПО. Исследователь в области безопасност











