opção
MarkSanchez
MarkSanchez
11 de Fevereiro de 2026

O Ant Group tornou seu modelo de IA multimodal Ming-Flash-Omni 2.0 de código aberto. Segundo relatos, ele supera modelos como o Gemini 2.5 Pro em alguns benchmarks de compreensão de linguagem visual, edição de imagens e geração de áudio. Uma característica importante é sua geração de áudio unificada, que produz fala, efeitos sonoros e música em uma única faixa a partir de comandos em linguagem natural. O modelo é construído sobre a arquitetura Ling 2.0 baseada em MoE e projetado como uma base reutilizável para desenvolvedores simplificarem o desenvolvimento de aplicativos multimodais.

O Ant Group tornou seu modelo de IA multimodal Ming-Flash-Omni 2.0 de código aberto. Segundo relatos, ele supera modelos como o Gemini 2.5 Pro em alguns benchmarks de compreensão de linguagem visual, edição de imagens e geração de áudio. Uma característica importante é sua geração de áudio unificada, que produz fala, efeitos sonoros e música em uma única faixa a partir de comandos em linguagem natural. O modelo é construído sobre a arquitetura Ling 2.0 baseada em MoE e projetado como uma base reutilizável para desenvolvedores simplificarem o desenvolvimento de aplicativos multimodais.
Comentários (0)
0/300
OR