Maison
Lancement du modèle Qwen 2.5-Omni-3B AI pour les PC et ordinateurs portables grand public

Alibaba, le leader chinois du commerce électronique et du cloud, continue de défier les développeurs d'IA du monde entier avec ses dernières innovations. Peu de temps après avoir présenté sa série de modèles de raisonnement avancés à source ouverte Qwen3, l'équipe de Qwen a dévoilé Qwen2.5-Omni-3B, un modèle multimodal rationalisé optimisé pour le matériel grand public tout en maintenant de solides performances dans le traitement du texte, de l'audio, de l'image et de la vidéo.
Qwen2.5-Omni-3B représente une itération condensée de 3 milliards de paramètres du modèle phare de 7 milliards de paramètres. Les paramètres définissent la complexité opérationnelle du modèle, et un nombre plus élevé de paramètres permet généralement d'obtenir des capacités plus importantes. Malgré son échelle réduite, cette version compacte préserve plus de 90 % des performances multimodales de son prédécesseur, tout en offrant une génération de texte et de parole naturelle en temps réel.
L'optimisation de la mémoire du GPU constitue une amélioration majeure. L'équipe de développement fait état d'une réduction de 50 % de la consommation de VRAM lors du traitement d'entrées étendues de 25 000 jetons. Grâce à des améliorations techniques, les besoins en mémoire passent de 60,2 Go (modèle 7B) à seulement 28,2 Go (modèle 3B), ce qui permet d'utiliser des GPU de 24 Go disponibles dans les appareils grand public haut de gamme plutôt que du matériel d'entreprise.
Cette efficacité découle d'éléments architecturaux innovants, notamment le cadre Thinker-Talker et l'encodage positionnel TMRoPE personnalisé, qui synchronise le traitement vidéo et audio. Les licences actuelles limitent l'utilisation à des applications de recherche, et les entreprises doivent obtenir des autorisations supplémentaires de l'équipe Qwen d'Alibaba pour une mise en œuvre commerciale.
Cette version répond à la demande croissante du marché pour des solutions multimodales déployables, soutenues par des mesures de performance rivalisant avec des modèles plus importants. Elle est accessible via :
- Hugging Face
- GitHub
- ModelScope
Les options d'intégration incluent Hugging Face Transformers, les conteneurs Docker et la plateforme vLLM d'Alibaba, avec des améliorations optionnelles telles que FlashAttention 2 et la précision BF16 pour des performances accélérées et une réduction de la surcharge mémoire.
Comparaison des performances des benchmarks
Tâche Qwen2.5-Omni-3B Qwen2.5-Omni-7B
OmniBench (raisonnement multimodal) 52.2 56.1
VideoBench (compréhension audio) 68.8 74.1
MMMU (raisonnement sur les images) 53.1 59.2
MVBench (raisonnement vidéo) 68.7 70.3
Seed-tts-eval test-hard (génération de discours) 92.1 93.5
La différence minime de performance dans les tâches audiovisuelles souligne l'efficacité de conception du modèle 3B, particulièrement utile pour les applications en temps réel nécessitant des résultats de haute qualité.
Capacités multimodales en temps réel
Qwen2.5-Omni-3B traite des entrées multimodales simultanées tout en générant des réponses textuelles et audio instantanées. Le modèle intègre la personnalisation de la voix avec deux options prédéfinies - Shelsie (femme) et Ethan (homme) - adaptables à différents cas d'utilisation. Les utilisateurs peuvent sélectionner des sorties audio ou texte uniquement, avec en option la désactivation de l'audio pour une meilleure conservation de la mémoire.
Développement de la communauté
L'équipe de Qwen encourage la collaboration open-source grâce à des boîtes à outils complètes, des points de contrôle préformés, l'accessibilité de l'API et la documentation sur le déploiement. La série Qwen2.5-Omni a connu un succès important, atteignant les premières places du classement des modèles en vogue de Hugging Face. Junyang Lin, membre de l'équipe, a noté sur X : "De nombreux utilisateurs ont demandé un modèle Omni compact pour le déploiement, et c'est exactement ce que nous avons fait."
Implications pour les entreprises
Pour les responsables technologiques qui supervisent le développement et l'infrastructure de l'IA, Qwen2.5-Omni-3B présente à la fois des opportunités et des limites. Sa capacité à égaler les performances des modèles plus grands sur le matériel grand public laisse entrevoir un potentiel de déploiement pratique, mais les contraintes de licence nécessitent un examen attentif.
Dans le cadre de l'accord de licence de recherche Qwen d'Alibaba Cloud, le modèle est limité aux applications non commerciales. Les organisations peuvent l'évaluer, le comparer et l'affiner à des fins de recherche interne, mais ne peuvent pas le mettre en œuvre dans des systèmes en contact avec la clientèle ou générateurs de revenus sans obtenir une licence commerciale.
Qwen2.5-Omni-3B est donc avant tout un outil de prototypage et d'évaluation plutôt qu'une solution de production. Les équipes informatiques peuvent l'utiliser pour le développement de pipelines, le perfectionnement d'outils et l'évaluation d'architectures dans le cadre de paramètres de recherche. Les ingénieurs de données et les professionnels de la sécurité peuvent explorer ses capacités pour une validation interne, bien que le déploiement en production avec des données sensibles nécessite la conformité aux licences.
En fin de compte, le modèle abaisse les obstacles techniques à l'expérimentation multimodale de l'IA tout en maintenant les restrictions commerciales. Il sert de ressource d'évaluation stratégique pour les entreprises qui prennent la décision de construire ou d'acheter, bien que le déploiement en production nécessite un engagement formel avec le cadre de licence d'Alibaba.
Article connexe
Un tribunal allemand donne raison à Teradyne Robotics et prononce une injonction à l'encontre d'Elite Robots
Universal Robots, filiale de Teradyne, a récemment présenté son manipulateur mobile équipé d'un bras robotique collaboratif UR lors du salon MODEX. Source : TeradyneAlors que le salon Hannover Messe s
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Hyundai présente son robot MobED à l'AW alors que l'IA transforme le secteur manufacturier
Hyundai présentera son robot MobED parmi d'autres systèmes coréens lors du salon AW 2026. Source : Hyundai Motor GroupLe laboratoire de robotique de Hyundai Motor Group présentera sa plateforme mobile
Recommandations de sujets spéciaux liés
commentaires (1)

Alibaba, le leader chinois du commerce électronique et du cloud, continue de défier les développeurs d'IA du monde entier avec ses dernières innovations. Peu de temps après avoir présenté sa série de modèles de raisonnement avancés à source ouverte Qwen3, l'équipe de Qwen a dévoilé Qwen2.5-Omni-3B, un modèle multimodal rationalisé optimisé pour le matériel grand public tout en maintenant de solides performances dans le traitement du texte, de l'audio, de l'image et de la vidéo.
Qwen2.5-Omni-3B représente une itération condensée de 3 milliards de paramètres du modèle phare de 7 milliards de paramètres. Les paramètres définissent la complexité opérationnelle du modèle, et un nombre plus élevé de paramètres permet généralement d'obtenir des capacités plus importantes. Malgré son échelle réduite, cette version compacte préserve plus de 90 % des performances multimodales de son prédécesseur, tout en offrant une génération de texte et de parole naturelle en temps réel.
L'optimisation de la mémoire du GPU constitue une amélioration majeure. L'équipe de développement fait état d'une réduction de 50 % de la consommation de VRAM lors du traitement d'entrées étendues de 25 000 jetons. Grâce à des améliorations techniques, les besoins en mémoire passent de 60,2 Go (modèle 7B) à seulement 28,2 Go (modèle 3B), ce qui permet d'utiliser des GPU de 24 Go disponibles dans les appareils grand public haut de gamme plutôt que du matériel d'entreprise.
Cette efficacité découle d'éléments architecturaux innovants, notamment le cadre Thinker-Talker et l'encodage positionnel TMRoPE personnalisé, qui synchronise le traitement vidéo et audio. Les licences actuelles limitent l'utilisation à des applications de recherche, et les entreprises doivent obtenir des autorisations supplémentaires de l'équipe Qwen d'Alibaba pour une mise en œuvre commerciale.
Cette version répond à la demande croissante du marché pour des solutions multimodales déployables, soutenues par des mesures de performance rivalisant avec des modèles plus importants. Elle est accessible via :
- Hugging Face
- GitHub
- ModelScope
Les options d'intégration incluent Hugging Face Transformers, les conteneurs Docker et la plateforme vLLM d'Alibaba, avec des améliorations optionnelles telles que FlashAttention 2 et la précision BF16 pour des performances accélérées et une réduction de la surcharge mémoire.
Comparaison des performances des benchmarks
| Tâche | Qwen2.5-Omni-3B | Qwen2.5-Omni-7B |
|---|---|---|
| OmniBench (raisonnement multimodal) | 52.2 | 56.1 |
| VideoBench (compréhension audio) | 68.8 | 74.1 |
| MMMU (raisonnement sur les images) | 53.1 | 59.2 |
| MVBench (raisonnement vidéo) | 68.7 | 70.3 |
| Seed-tts-eval test-hard (génération de discours) | 92.1 | 93.5 |
La différence minime de performance dans les tâches audiovisuelles souligne l'efficacité de conception du modèle 3B, particulièrement utile pour les applications en temps réel nécessitant des résultats de haute qualité.
Capacités multimodales en temps réel
Qwen2.5-Omni-3B traite des entrées multimodales simultanées tout en générant des réponses textuelles et audio instantanées. Le modèle intègre la personnalisation de la voix avec deux options prédéfinies - Shelsie (femme) et Ethan (homme) - adaptables à différents cas d'utilisation. Les utilisateurs peuvent sélectionner des sorties audio ou texte uniquement, avec en option la désactivation de l'audio pour une meilleure conservation de la mémoire.
Développement de la communauté
L'équipe de Qwen encourage la collaboration open-source grâce à des boîtes à outils complètes, des points de contrôle préformés, l'accessibilité de l'API et la documentation sur le déploiement. La série Qwen2.5-Omni a connu un succès important, atteignant les premières places du classement des modèles en vogue de Hugging Face. Junyang Lin, membre de l'équipe, a noté sur X : "De nombreux utilisateurs ont demandé un modèle Omni compact pour le déploiement, et c'est exactement ce que nous avons fait."
Implications pour les entreprises
Pour les responsables technologiques qui supervisent le développement et l'infrastructure de l'IA, Qwen2.5-Omni-3B présente à la fois des opportunités et des limites. Sa capacité à égaler les performances des modèles plus grands sur le matériel grand public laisse entrevoir un potentiel de déploiement pratique, mais les contraintes de licence nécessitent un examen attentif.
Dans le cadre de l'accord de licence de recherche Qwen d'Alibaba Cloud, le modèle est limité aux applications non commerciales. Les organisations peuvent l'évaluer, le comparer et l'affiner à des fins de recherche interne, mais ne peuvent pas le mettre en œuvre dans des systèmes en contact avec la clientèle ou générateurs de revenus sans obtenir une licence commerciale.
Qwen2.5-Omni-3B est donc avant tout un outil de prototypage et d'évaluation plutôt qu'une solution de production. Les équipes informatiques peuvent l'utiliser pour le développement de pipelines, le perfectionnement d'outils et l'évaluation d'architectures dans le cadre de paramètres de recherche. Les ingénieurs de données et les professionnels de la sécurité peuvent explorer ses capacités pour une validation interne, bien que le déploiement en production avec des données sensibles nécessite la conformité aux licences.
En fin de compte, le modèle abaisse les obstacles techniques à l'expérimentation multimodale de l'IA tout en maintenant les restrictions commerciales. Il sert de ressource d'évaluation stratégique pour les entreprises qui prennent la décision de construire ou d'acheter, bien que le déploiement en production nécessite un engagement formel avec le cadre de licence d'Alibaba.
Un tribunal allemand donne raison à Teradyne Robotics et prononce une injonction à l'encontre d'Elite Robots
Universal Robots, filiale de Teradyne, a récemment présenté son manipulateur mobile équipé d'un bras robotique collaboratif UR lors du salon MODEX. Source : TeradyneAlors que le salon Hannover Messe s
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Hyundai présente son robot MobED à l'AW alors que l'IA transforme le secteur manufacturier
Hyundai présentera son robot MobED parmi d'autres systèmes coréens lors du salon AW 2026. Source : Hyundai Motor GroupLe laboratoire de robotique de Hyundai Motor Group présentera sa plateforme mobile











