Introducción al modelo
Qwen1.5 es la versión beta de Qwen2, manteniendo su arquitectura como un modelo de transformador de solo decodificador con activación SwiGLU, RoPE y mecanismos de atención de varias cabezas. Ofrece nueve tamaños de modelo y tiene capacidades mejoradas en multilingüismo y modelos de chat, con un contexto de longitud de 32.768 tokens. Todos los modelos tienen habilitados prompts de sistema para interpretación de roles, y el código admite implementación nativa en transformers.
Capacidad de comprensión del lenguaje
A menudo hace juicios mal semánticos, lo que lleva a obvias desconexiones lógicas en las respuestas.
4.5
Alcance de cobertura de conocimiento
Tiene puntos ciegos de conocimiento significativo, a menudo que muestran errores objetivos y repitiendo información obsoleta.
5.1
Capacidad de razonamiento
Incapaz de mantener cadenas de razonamiento coherentes, a menudo causando causalidad invertida o errores de cálculo.
2.2