Introduction du modèle
Qwen1.5 est la version bêta de Qwen2, conservant son architecture de modèle de transformation uniquement décodeur avec l'activation SwiGLU, RoPE et les mécanismes d'attention multi-têtes. Elle propose neuf tailles de modèles et améliore les capacités multilingues et de chat, prenant en charge une longueur de contexte de 32 768 tokens. Tous les modèles incluent des invites système pour le jeu de rôle, et le code prend en charge une implémentation native dans transformers.