Introducción al modelo
Qwen1.5 es la versión beta de Qwen2, manteniendo su arquitectura como un modelo de transformador solo decodificador con activación SwiGLU, RoPE y mecanismos de atención multi-cabeza. Ofrece nueve tamaños de modelo y tiene capacidades mejoradas de multilingüismo y chat, con un contexto de longitud de 32,768 tokens. Todos los modelos tienen promts de sistema habilitados para roles, y el código admite implementación nativa en transformers.