Introduction du modèle
Qwen1.5 est la version bêta de Qwen2, conservant son architecture de modèle de transformation à décoder seul avec l'activation SwiGLU, RoPE et les mécanismes d'attention multi-têtes. Il propose neuf tailles de modèles et possède des capacités améliorées en langues multiples et en modèles de conversation, prenant en charge une longueur de contexte de 32 768 tokens. Tous les modèles incluent des invites de système pour le jeu de rôle, et le code prend en charge une implémentation native dans transformers.