Introducción al modelo
Qwen1.5 es la versión beta de Qwen2, manteniendo su arquitectura como un modelo de transformador solo decodificador con activación SwiGLU, RoPE y mecanismos de atención de varias cabezas. Ofrece nueve tamaños de modelo y tiene capacidades mejoradas en multilingüismo y modelos de chat, admitiendo una longitud de contexto de 32.768 tokens. Todos los modelos tienen habilitados los prompts de sistema para roles, y el código admite implementación nativa en transformers.
Capacidad de comprensión del lenguaje
A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.
5.7
Alcance de cobertura de conocimiento
Tiene puntos ciegos de conocimiento significativo, a menudo que muestran errores objetivos y repitiendo información obsoleta.
5.8
Capacidad de razonamiento
Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.
3.8