Introdução ao modelo
Qwen1.5 é a versão beta do Qwen2, mantendo sua arquitetura como um modelo transformador apenas decodificador com ativação SwiGLU, RoPE e mecanismos de atenção multi-cabeça. Ele oferece nove tamanhos de modelo e tem capacidades multilíngues e de chat aprimoradas, suportando uma comprimento de contexto de 32.768 tokens. Todos os modelos têm prompts de sistema habilitados para atuação de papéis, e o código suporta implementação nativa em transformers.
Capacidade de compreensão de idiomas
Muitas vezes, faz mal julgamentos semânticos, levando a óbvias desconexões lógicas nas respostas.
5.9
Escopo de cobertura do conhecimento
Possui conhecimento central das disciplinas convencionais, mas tem cobertura limitada de campos interdisciplinares de ponta.
7.1
Capacidade de raciocínio
Incapaz de manter cadeias de raciocínio coerentes, geralmente causando causalidade invertida ou erros de cálculo.
3.7