Introducción al modelo
Qwen1.5 es la versión beta de Qwen2, manteniendo su arquitectura como un modelo de transformador solo decodificador con activación SwiGLU, RoPE y mecanismos de atención de varias cabezas. Ofrece nueve tamaños de modelo y tiene mejoradas las capacidades multilingües y de chat, admitiendo una longitud de contexto de 32,768 tokens. Todos los modelos tienen habilitados prompts de sistema para roles, y el código admite implementación nativa en transformers.