Introducción al modelo
Qwen1.5 es la versión beta de Qwen2, manteniendo su arquitectura como un modelo de transformador solo decodificador con activación SwiGLU, RoPE y mecanismos de atención multi-cabeza. Ofrece nueve tamaños de modelo y tiene capacidades mejoradas en lenguas múltiples y modelos de chat, admitiendo una longitud de contexto de 32,768 tokens. Todos los modelos tienen habilitados prompts de sistema para interpretación de roles, y el código admite implementación nativa en Transformers.