Introdução ao modelo
Qwen1.5 é a versão beta do Qwen2, mantendo sua arquitetura como um modelo de transformador decoder-only com ativação SwiGLU, RoPE e mecanismos de atenção de múltiplas cabeças. Ele oferece nove tamanhos de modelo e tem capacidades multilíngues e de chat aprimoradas, suportando uma extensão de contexto de 32.768 tokens. Todos os modelos possuem prompts de sistema habilitados para interpretação de papéis, e o código suporta implementação nativa nos transformers.