JD.com apresenta o modelo JoyAI-LLM-Flash para impulsionar o avanço da IA

A JD.com disponibilizou publicamente seu mais recente modelo de linguagem de grande escala, o JoyAI-LLM-Flash, na plataforma Hugging Face em 14 de fevereiro. O modelo possui um total de 4,8 bilhões de parâmetros, dos quais 3 bilhões são ativados durante a inferência. Ele foi pré-treinado com 20 trilhões de tokens de texto, demonstrando grande proficiência na compreensão de conhecimentos contemporâneos, raciocínio lógico e tarefas de programação.
O JoyAI-LLM-Flash utiliza uma nova estrutura de otimização FiberPO, que incorpora a teoria dos feixes de fibras ao aprendizado por reforço. Combinada com o otimizador Muon e a tecnologia de previsão multitoken densa (MTP), essa abordagem resolve de forma eficaz os desafios de instabilidade comuns ao dimensionamento de modelos tradicionais. Em comparação com versões sem MTP, sua taxa de processamento aumentou de 1,3 a 1,7 vezes, elevando significativamente tanto a eficiência do treinamento quanto o potencial de aplicação prática.
O modelo é construído sobre uma arquitetura de mistura de especialistas (MoE), com 40 camadas. Ele suporta um comprimento de contexto de 128 mil tokens e possui um vocabulário de 129 mil, representando um avanço substancial para a JD.com no campo da inteligência artificial.
Artigo relacionado
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu
Recomendações de tópicos especiais relacionados
Comentários (1)

A JD.com disponibilizou publicamente seu mais recente modelo de linguagem de grande escala, o JoyAI-LLM-Flash, na plataforma Hugging Face em 14 de fevereiro. O modelo possui um total de 4,8 bilhões de parâmetros, dos quais 3 bilhões são ativados durante a inferência. Ele foi pré-treinado com 20 trilhões de tokens de texto, demonstrando grande proficiência na compreensão de conhecimentos contemporâneos, raciocínio lógico e tarefas de programação.
O JoyAI-LLM-Flash utiliza uma nova estrutura de otimização FiberPO, que incorpora a teoria dos feixes de fibras ao aprendizado por reforço. Combinada com o otimizador Muon e a tecnologia de previsão multitoken densa (MTP), essa abordagem resolve de forma eficaz os desafios de instabilidade comuns ao dimensionamento de modelos tradicionais. Em comparação com versões sem MTP, sua taxa de processamento aumentou de 1,3 a 1,7 vezes, elevando significativamente tanto a eficiência do treinamento quanto o potencial de aplicação prática.
O modelo é construído sobre uma arquitetura de mistura de especialistas (MoE), com 40 camadas. Ele suporta um comprimento de contexto de 128 mil tokens e possui um vocabulário de 129 mil, representando um avanço substancial para a JD.com no campo da inteligência artificial.
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu





Lar






