Lar
Como escalar modelos de grande porte: a estratégia de Yang Zhilin na GTC sobre eficiência de tokens e clusters de agentes

O caminho para a segunda metade da era dos grandes modelos não passa mais simplesmente pelo aumento da capacidade de computação, mas por uma reformulação fundamental da arquitetura subjacente.
Na conferência NVIDIA GTC 2026, realizada em 18 de março, o fundador da Moonshot AI, Yang Zhilin, proferiu uma palestra muito aguardada. Esse foi seu primeiro esboço público abrangente do roteiro técnico central por trás do modelo Kimi K2.5 , oferecendo uma nova perspectiva sobre a evolução dos modelos de grande porte na era “pós-escalonamento”.
Yang Zhilin afirmou que, para superar os limites atuais da inteligência, é essencial uma reestruturação completa de tecnologias-chave como otimizadores, mecanismos de atenção e conexões residuais. Ele enquadrou a evolução do Kimi em três dimensões sinérgicas:
Eficiência de tokens: Eliminar o desperdício de recursos para buscar uma relação computação-desempenho ainda mais extrema.
Contexto Longo: Aprofundar continuamente a vantagem da memória de contexto longo do Kimi para processar informações em escala massiva.
Cluster de agentes: a inteligência está evoluindo de agentes individuais para “clusters digitais” gerados dinamicamente.
Na visão de Yang Zhilin, o escalonamento evoluiu para a busca de efeitos de escala em eficiência, memória e colaboração automatizada. Multiplicar os ganhos dessas três dimensões poderia desbloquear níveis de inteligência muito além das capacidades atuais.
De acordo com anúncios anteriores, o modelo Kimi K2.5 lançado no início de janeiro já demonstra essa capacidade “abrangente”. Como o modelo de código aberto mais poderoso da Moonshot AI até o momento, ele apresenta uma arquitetura multimodal nativa, alcança desempenho de ponta (SOTA) em compreensão de código e visual e oferece suporte à alternância flexível entre os modos “pensante” e “não pensante” para se adaptar com precisão a tarefas baseadas em agentes.
À medida que a abordagem tecnológica da Moonshot AI se torna mais clara, a competição entre grandes modelos está mudando o foco da “contagem de parâmetros” para a “densidade de inteligência”. Com os clusters de agentes emergindo como uma forma potencial definitiva de inteligência futura, se o Kimi poderá alcançar um avanço sob a estrutura de “multiplicação tridimensional” de Yang Zhilin tornou-se um foco-chave do setor.
Artigo relacionado
A Reliance revela um plano de investimento em IA de US$ 110 bilhões, à medida que a Índia acelera sua iniciativa tecnológica
Mukesh Ambani, o bilionário presidente do conglomerado indiano Reliance, anunciou na quinta-feira um plano de 10 trilhões de rúpias (cerca de US$ 110 bilhões) para construir uma infraestrutura de comp
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e
Recomendações de tópicos especiais relacionados
Comentários (0)

O caminho para a segunda metade da era dos grandes modelos não passa mais simplesmente pelo aumento da capacidade de computação, mas por uma reformulação fundamental da arquitetura subjacente.
Na conferência NVIDIA GTC 2026, realizada em 18 de março, o fundador da Moonshot AI, Yang Zhilin, proferiu uma palestra muito aguardada. Esse foi seu primeiro esboço público abrangente do roteiro técnico central por trás do modelo
Yang Zhilin afirmou que, para superar os limites atuais da inteligência, é essencial uma reestruturação completa de tecnologias-chave como otimizadores, mecanismos de atenção e conexões residuais. Ele enquadrou a evolução do Kimi em três dimensões sinérgicas:
Eficiência de tokens: Eliminar o desperdício de recursos para buscar uma relação computação-desempenho ainda mais extrema.
Contexto Longo: Aprofundar continuamente a vantagem da memória de contexto longo do Kimi para processar informações em escala massiva.
Cluster de agentes: a inteligência está evoluindo de agentes individuais para “clusters digitais” gerados dinamicamente.
Na visão de Yang Zhilin, o escalonamento evoluiu para a busca de efeitos de escala em eficiência, memória e colaboração automatizada. Multiplicar os ganhos dessas três dimensões poderia desbloquear níveis de inteligência muito além das capacidades atuais.
De acordo com anúncios anteriores, o modelo Kimi K2.5 lançado no início de janeiro já demonstra essa capacidade “abrangente”. Como o modelo de código aberto mais poderoso da Moonshot AI até o momento, ele apresenta uma arquitetura multimodal nativa, alcança desempenho de ponta (SOTA) em compreensão de código e visual e oferece suporte à alternância flexível entre os modos “pensante” e “não pensante” para se adaptar com precisão a tarefas baseadas em agentes.
À medida que a abordagem tecnológica da Moonshot AI se torna mais clara, a competição entre grandes modelos está mudando o foco da “contagem de parâmetros” para a “densidade de inteligência”. Com os clusters de agentes emergindo como uma forma potencial definitiva de inteligência futura, se
A Reliance revela um plano de investimento em IA de US$ 110 bilhões, à medida que a Índia acelera sua iniciativa tecnológica
Mukesh Ambani, o bilionário presidente do conglomerado indiano Reliance, anunciou na quinta-feira um plano de 10 trilhões de rúpias (cerca de US$ 110 bilhões) para construir uma infraestrutura de comp
A Zhiyuan WITA encerra a interação com o robô “nu” com o primeiro pedido de conformidade
O setor de inteligência incorporada atingiu um marco significativo. De acordo com o último comunicado da Administração do Ciberespaço de Xangai, o modelo de grande porte WITA, desenvolvido pela Zhiyua
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e











