Lar
O Ant Group lança o Ling-2.6-flash de código aberto, a mais recente adição à família de modelos Baoling
A série de modelos de grande porte Baoling, do Ant Group, recebeu hoje uma importante atualização, com o Ling-2.6-flash agora oficialmente disponível para desenvolvedores em todo o mundo. Para se adaptar a diferentes ambientes de hardware e reduzir as barreiras à implantação, este modelo também lançou várias versões de precisão, incluindo BF16, FP8 e INT4, oferecendo aos desenvolvedores opções de inferência mais flexíveis.
Como um modelo Instruct com 104 bilhões de parâmetros totais e 7,4 bilhões de parâmetros ativados, o Ling-2.6-flash foi testado anteriormente sob o codinome “Elephant Alpha” na plataforma OpenRouter. Durante um período de teste de duas semanas, a equipe de desenvolvimento coletou um extenso feedback do mundo real e realizou otimizações direcionadas, aprimorando notavelmente a fluidez da alternância entre os códigos chinês e inglês e melhorando a compatibilidade com as principais estruturas de programação.

Destaques técnicos: arquitetura híbrida e eficiência superior
O principal ponto fortedo Ling-2.6-flash reside em sua arquitetura exclusiva e alta eficiência operacional:
Arquitetura linear híbrida: por meio de otimização computacional de baixo nível, o modelo alcança excelente velocidade de inferência. Com 4 placas H20, ele atinge até 340 tokens/s. Em throughput de pré-preenchimento, ele oferece 2,2 vezes mais do que o Nemotron-3-Super, reduzindo significativamente a latência de resposta.
Notável Índice de Eficiência de Tokens: A equipe calibrou meticulosamente a eficiência de tokens durante o treinamento. Dados de avaliação mostram que, para tarefas de qualidade equivalente, o Ling-2.6-flash consome apenas cerca de 15 milhões de tokens — aproximadamente um décimo dos concorrentes comparáveis —, reduzindo significativamente os custos comerciais.
Aprofundamento de cenários: aprimoramentos direcionados na capacidade do agente
Para cenários de agentes — um dos casos de uso mais comuns para modelos de grande porte —,o Ling-2.6-flash foi especificamente aprimorado. Seja ao lidar com chamadas de ferramentas complexas, planejamento em várias etapas ou execução final de tarefas, o modelo apresenta desempenho confiável. Em várias avaliações padrão do setor, como BFCL-V4 e SWE-bench, mesmo quando comparado a modelos com maior número de parâmetros ativados, o Ling-2.6-flash mantém um desempenho comparável ou até mesmo de ponta (SOTA).
Os desenvolvedores agora podem acessar os recursos de código aberto do modelo por meio do Hugging Face e do ModelScope (Moba Community), abrindo caminho para uma exploração mais profunda de seu potencial em diversas aplicações do setor.
Artigo relacionado
Por favor, forneça o título do artigo para que possamos reformulá-lo na forma de uma pergunta.
No panorama digital atual, a inteligência artificial está transformando setores em todos os âmbitos, e os blogs não são exceção. Os blogueiros estão constantemente em busca de maneiras de otimizar seu
A Conntour levanta US$ 7 milhões da General Catalyst e da YC para uma solução de busca em vídeos de segurança baseada em IA
O setor de tecnologia de vigilância está atualmente sob escrutínio, embora não pelas razões mais favoráveis. Controvérsias surgiram depois que a Agência de Imigração e Alfândega dos EUA (ICE) teria ac
Revelado o primeiro hardware de IA da Apple: AirPods com câmera entram na fase de DVT
As ambições da Apple no campo do hardware de IA estão ficando mais claras. O renomado jornalista de tecnologia Mark Gurman relata que os tão esperados AirPods com câmeras integradas entraram na fase f
Recomendações de tópicos especiais relacionados
Comentários (0)
A série de modelos de grande porte Baoling, do Ant Group, recebeu hoje uma importante atualização, com
Como um modelo Instruct com 104 bilhões de parâmetros totais e 7,4 bilhões de parâmetros ativados,

Destaques técnicos: arquitetura híbrida e eficiência superior
O principal ponto forte
Arquitetura linear híbrida: por meio de otimização computacional de baixo nível, o modelo alcança excelente velocidade de inferência. Com 4 placas H20, ele atinge até 340 tokens/s. Em throughput de pré-preenchimento, ele oferece 2,2 vezes mais do que o Nemotron-3-Super, reduzindo significativamente a latência de resposta.
Notável Índice de Eficiência de Tokens: A equipe calibrou meticulosamente a eficiência de tokens durante o treinamento. Dados de avaliação mostram que, para tarefas de qualidade equivalente,
Aprofundamento de cenários: aprimoramentos direcionados na capacidade do agente
Para cenários de agentes — um dos casos de uso mais comuns para modelos de grande porte —,
Os desenvolvedores agora podem acessar os recursos de código aberto do modelo por meio do Hugging Face e do ModelScope (Moba Community), abrindo caminho para uma exploração mais profunda de seu potencial em diversas aplicações do setor.
Por favor, forneça o título do artigo para que possamos reformulá-lo na forma de uma pergunta.
No panorama digital atual, a inteligência artificial está transformando setores em todos os âmbitos, e os blogs não são exceção. Os blogueiros estão constantemente em busca de maneiras de otimizar seu
A Conntour levanta US$ 7 milhões da General Catalyst e da YC para uma solução de busca em vídeos de segurança baseada em IA
O setor de tecnologia de vigilância está atualmente sob escrutínio, embora não pelas razões mais favoráveis. Controvérsias surgiram depois que a Agência de Imigração e Alfândega dos EUA (ICE) teria ac
Revelado o primeiro hardware de IA da Apple: AirPods com câmera entram na fase de DVT
As ambições da Apple no campo do hardware de IA estão ficando mais claras. O renomado jornalista de tecnologia Mark Gurman relata que os tão esperados AirPods com câmeras integradas entraram na fase f











