Introduction du modèle
Qwen1.5 est la version bêta de Qwen2, conservant une architecture de modèle de transformation à décoder-seul avec l'activation SwiGLU, RoPE et les mécanismes d'attention multi-têtes. Elle offre neuf tailles de modèles et possède des capacités améliorées pour les modèles multilingues et de conversation, prenant en charge une longueur de contexte de 32,768 tokens. Tous les modèles ont activé les invites système pour les rôles, et le code supporte une implémentation native dans transformers.