Lar
O Ant Group apresenta o F2LLM-v2: um modelo de incorporação multilíngue em grande escala
Superar a limitação “centrada no inglês” na representação semântica tornou-se uma fronteira fundamental na evolução dos grandes modelos de linguagem.
Em 26 de março, a equipe CodeFuse do Ant Group e da Universidade Jiao Tong de Xangai lançou oficialmente a série F2LLM-v2 de modelos de embedding. Essa série não apenas alcançou desempenho de ponta em benchmarks de referência, mas também oferece uma solução de representação semântica eficiente e de alto desempenho para desenvolvedores em todo o mundo por meio de uma abordagem totalmente de código aberto.

Desempenho excepcional: alcançando 11 resultados SOTA no MTEB
No renomado benchmark MTEB para avaliação de modelos de embedding, o F2LLM-v2 demonstrou pontos fortes abrangentes:
11 primeiras colocações: garantiu o primeiro lugar em 11 rankings específicos de idiomas e domínios, incluindo alemão, francês, japonês e recuperação de código.
Um Desafiador Formidável: Mesmo suas variantes leves superaram consistentemente modelos conhecidos do setor de tamanho comparável.
Ampla cobertura: a avaliação abrangeu 430 subtarefas diversas, como perguntas e respostas médicas e recuperação de código, alcançando cobertura completa de cenários.

Compreensão abrangente: proficiência em 282 idiomas naturais e mais de 40 linguagens de programação
O poder do F2LLM-v2 deriva de sua base de treinamento altamente inclusiva:
Aprimoramento multilíngue: Oferece suporte reforçado para idiomas de recursos médios e baixos (como as famílias de idiomas nórdicos e do Sudeste Asiático), possibilitando uma cobertura linguística global genuína.
Especialização em programação: Com profundo conhecimento de mais de 40 linguagens de programação, como Python, Java e Go, é a escolha ideal para desenvolvedores que criam sistemas RAG (Retrieval-Augmented Generation) e assistentes de código.
Dados de alta qualidade: Construído com base em 60 milhões de amostras públicas meticulosamente limpas, ele garante tanto a pureza quanto a amplitude da base de conhecimento do modelo.

Extrema eficiência: uma família completa de modelos que varia de 80 milhões a 14 bilhões de parâmetros
Para atender a necessidades que vão desde dispositivos móveis até computação em nuvem, a equipe da CodeFuse desenvolveu uma matriz de modelos abrangente:
Otimizado para dispositivos móveis: modelos compactos de 80 milhões a 330 milhões de parâmetros utilizam técnicas de “poda de modelo” e “destilação de conhecimento”, permitindo uma operação suave em plataformas móveis.
Inovação “aninhada”: Suporta ajuste dinâmico de dimensões, permitindo que os usuários alternem com flexibilidade entre 8 dimensões e dimensões completas, otimizando o equilíbrio entre velocidade de inferência e custo de armazenamento.
Totalmente de código aberto: transparência estabelecendo um novo padrão para a comunidade
Ao contrário de muitos modelos de “caixa preta”, o F2LLM-v2 está comprometido com uma filosofia totalmente de código aberto:
Lançamento completo: todos os pesos do modelo para cada variante de tamanho estão disponíveis para download.
Transparência detalhada: Um relatório técnico abrangente é publicado, divulgando toda a metodologia de treinamento.
Reprodutibilidade total: Todos os códigos e pontos de verificação do treinamento são divulgados, capacitando pesquisadores globalmente a se basearem neste trabalho para desenvolvimento posterior.
Conclusão: Rompendo barreiras para explorar o potencial infinito da IA
Como mais um marco significativo na Série de Código Aberto da CodeFuse, o lançamento do F2LLM-v2
Artigo relacionado
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi dire
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
Recomendações de tópicos especiais relacionados
Comentários (0)
Superar a limitação “centrada no inglês” na representação semântica tornou-se uma fronteira fundamental na evolução dos grandes modelos de linguagem.
Em 26 de março, a equipe CodeFuse do Ant Group e da Universidade Jiao Tong de Xangai lançou oficialmente a série F2LLM-v2 de modelos de embedding. Essa série não apenas alcançou desempenho de ponta em benchmarks de referência, mas também oferece uma solução de representação semântica eficiente e de alto desempenho para desenvolvedores em todo o mundo por meio de uma abordagem totalmente de código aberto.

Desempenho excepcional: alcançando 11 resultados SOTA no MTEB
No renomado benchmark MTEB para avaliação de modelos de embedding, o F2LLM-v2 demonstrou pontos fortes abrangentes:
11 primeiras colocações: garantiu o primeiro lugar em 11 rankings específicos de idiomas e domínios, incluindo alemão, francês, japonês e recuperação de código.
Um Desafiador Formidável: Mesmo suas variantes leves superaram consistentemente modelos conhecidos do setor de tamanho comparável.
Ampla cobertura: a avaliação abrangeu 430 subtarefas diversas, como perguntas e respostas médicas e recuperação de código, alcançando cobertura completa de cenários.

Compreensão abrangente: proficiência em 282 idiomas naturais e mais de 40 linguagens de programação
O poder do F2LLM-v2 deriva de sua base de treinamento altamente inclusiva:
Aprimoramento multilíngue: Oferece suporte reforçado para idiomas de recursos médios e baixos (como as famílias de idiomas nórdicos e do Sudeste Asiático), possibilitando uma cobertura linguística global genuína.
Especialização em programação: Com profundo conhecimento de mais de 40 linguagens de programação, como Python, Java e Go, é a escolha ideal para desenvolvedores que criam sistemas RAG (Retrieval-Augmented Generation) e assistentes de código.
Dados de alta qualidade: Construído com base em 60 milhões de amostras públicas meticulosamente limpas, ele garante tanto a pureza quanto a amplitude da base de conhecimento do modelo.

Extrema eficiência: uma família completa de modelos que varia de 80 milhões a 14 bilhões de parâmetros
Para atender a necessidades que vão desde dispositivos móveis até computação em nuvem, a equipe da CodeFuse desenvolveu uma matriz de modelos abrangente:
Otimizado para dispositivos móveis: modelos compactos de 80 milhões a 330 milhões de parâmetros utilizam técnicas de “poda de modelo” e “destilação de conhecimento”, permitindo uma operação suave em plataformas móveis.
Inovação “aninhada”: Suporta ajuste dinâmico de dimensões, permitindo que os usuários alternem com flexibilidade entre 8 dimensões e dimensões completas, otimizando o equilíbrio entre velocidade de inferência e custo de armazenamento.
Totalmente de código aberto: transparência estabelecendo um novo padrão para a comunidade
Ao contrário de muitos modelos de “caixa preta”, o F2LLM-v2 está comprometido com uma filosofia totalmente de código aberto:
Lançamento completo: todos os pesos do modelo para cada variante de tamanho estão disponíveis para download.
Transparência detalhada: Um relatório técnico abrangente é publicado, divulgando toda a metodologia de treinamento.
Reprodutibilidade total: Todos os códigos e pontos de verificação do treinamento são divulgados, capacitando pesquisadores globalmente a se basearem neste trabalho para desenvolvimento posterior.
Conclusão: Rompendo barreiras para explorar o potencial infinito da IA
Como mais um marco significativo na Série de Código Aberto da CodeFuse, o lançamento do F2LLM-v2
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi dire
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos











