Maison
Qwen 3.5-Omni bat tous les records avec 215 SOTA, marquant ainsi le début de l'ère de l'IA multisensorielle
Tongyi Lab a officiellement lancé hier soir le nouveau grand modèle multimodal Qwen3.5-Omni. Ce modèle représente une avancée significative en matière de compréhension, d'interaction et d'exécution des tâches par rapport à son prédécesseur, faisant passer l'IA du statut d'« assistant confiné à l'écran » à celui d'« agent intelligent capable de comprendre le monde physique ».
Principales avancées : multimodalité complète et 215 benchmarks SOTA
Qwen3.5-Omni dispose d'une architecture native « Full Modality », lui permettant de traiter de manière transparente le texte, les images, l'audio et la vidéo. Au cours d'évaluations couvrant l'analyse audiovisuelle, le raisonnement, le dialogue et la traduction, le modèle a obtenu 215 résultats de pointe (SOTA). Il convient de noter que ses capacités générales de compréhension et de reconnaissance audio ont surpassé celles de modèles tels que Gemini-3.1Pro, tandis que ses performances visuelles et textuelles restent de premier ordre, à l'instar de son homologue, le modèle Qwen3.5 de taille similaire.

Architecture technique : Hybrid-Attention MoE
Le modèle s'appuie sur le cadre classique Thinker-Talker avec une refonte architecturale fondamentale :
Thinker (Centre de compréhension) : mis à niveau vers un modèle Hybrid-Attention Mixture of Experts (MoE), prenant en charge un contexte ultra-long de 256 000 tokens. Cela lui permet de traiter jusqu'à 10 heures d'audio ou 1 heure de vidéo, en capturant avec précision les détails les plus fins dans des séquences longues grâce à la technologie TMRoPE.
Talker (Centre d'expression) : Intègre la nouvelle technologie ARIA et le codage RVQ, remplaçant les processus DiT très gourmands en ressources informatiques. Cela permet non seulement de résoudre les problèmes courants de génération audio tels que les sauts de mots et les erreurs de prononciation des chiffres, mais aussi de doter le modèle de solides capacités de contrôle vocal en temps réel.
Applications concrètes : du codage d'ambiance au clonage vocal
Les capacités de Qwen3.5-Omni permettent plusieurs scénarios d'application transformateurs :
Codage de vibe émergent naturel : le modèle fait preuve d'une compréhension et d'une génération de code impressionnantes sans formation spécifique, ce qui lui permet de produire du code Python ou des prototypes front-end directement à partir de la logique vidéo.
Interaction en temps réel de type humain : prend en charge les interruptions sémantiques. Il peut faire la différence entre les bruits de fond (comme une toux) et les interruptions intentionnelles, et les utilisateurs peuvent ajuster le ton (par exemple, « joyeux ») et le volume via des instructions simples.
Analyse vidéo fine : il peut générer des sous-titres structurés et horodatés, identifiant avec précision les actions, les changements de musique de fond et les transitions de caméra au sein des vidéos.
Clonage vocal personnalisé : les utilisateurs peuvent créer une « voix numérique » hautement naturelle et personnalisée en téléchargeant un court échantillon audio, avec une prise en charge de 113 langues.
Qwen3.5-Omni est désormais disponible sur la plateforme BaiLian d'Alibaba Cloud en versions Plus, Flash et Light. Une API de dialogue en temps réel (Realtime) et une démo sont également accessibles via la communauté ModelScope.
Article connexe
Apple retire l'application Cal AI en raison d'achats inappropriés à l'intérieur de l'application et de facturation frauduleuse.
La récente suppression par Apple de l’application Cal AI, une populaire application de suivi alimentaire utilisant l’intelligence artificielle et intégrée à MyFitnessPal, souligne son respect strict des politiques de l’App Store concernant les paieme
La facturation basée sur des jetons de Github Copilot provoque la colère des développeurs
L'âge d'or de GitHub Copilot chez Microsoft semble prendre fin, en particulier pour les utilisateurs individuels. L'entreprise passe d'un modèle de tarification fixe à un système basé sur des jetons, ce qui pourrait augmenter considérablement les coû
Points clés du dossier de soumission à l’IPO de SpaceX : ambitions d’expansion dans les domaines de l’internet par satellite et de l’intelligence artificielle
Dans son prospectus S-1 déposé en prévision d’une introduction en bourse, SpaceX a révélé un certain nombre de performances commerciales impressionnantes qui mettent en évidence sa position de force dans les communications spatiales et l’intelligence
Recommandations de sujets spéciaux liés
commentaires (0)
Tongyi Lab a officiellement lancé hier soir le nouveau grand modèle multimodal Qwen3.5-Omni. Ce modèle représente une avancée significative en matière de compréhension, d'interaction et d'exécution des tâches par rapport à son prédécesseur, faisant passer l'IA du statut d'« assistant confiné à l'écran » à celui d'« agent intelligent capable de comprendre le monde physique ».
Principales avancées : multimodalité complète et 215 benchmarks SOTA
Qwen3.5-Omni dispose d'une architecture native « Full Modality », lui permettant de traiter de manière transparente le texte, les images, l'audio et la vidéo. Au cours d'évaluations couvrant l'analyse audiovisuelle, le raisonnement, le dialogue et la traduction, le modèle a obtenu 215 résultats de pointe (SOTA). Il convient de noter que ses capacités générales de compréhension et de reconnaissance audio ont surpassé celles de modèles tels que Gemini-3.1Pro, tandis que ses performances visuelles et textuelles restent de premier ordre, à l'instar de son homologue, le modèle Qwen3.5 de taille similaire.

Architecture technique : Hybrid-Attention MoE
Le modèle s'appuie sur le cadre classique Thinker-Talker avec une refonte architecturale fondamentale :
Thinker (Centre de compréhension) : mis à niveau vers un modèle Hybrid-Attention Mixture of Experts (MoE), prenant en charge un contexte ultra-long de 256 000 tokens. Cela lui permet de traiter jusqu'à 10 heures d'audio ou 1 heure de vidéo, en capturant avec précision les détails les plus fins dans des séquences longues grâce à la technologie TMRoPE.
Talker (Centre d'expression) : Intègre la nouvelle technologie ARIA et le codage RVQ, remplaçant les processus DiT très gourmands en ressources informatiques. Cela permet non seulement de résoudre les problèmes courants de génération audio tels que les sauts de mots et les erreurs de prononciation des chiffres, mais aussi de doter le modèle de solides capacités de contrôle vocal en temps réel.
Applications concrètes : du codage d'ambiance au clonage vocal
Les capacités de Qwen3.5-Omni permettent plusieurs scénarios d'application transformateurs :
Codage de vibe émergent naturel : le modèle fait preuve d'une compréhension et d'une génération de code impressionnantes sans formation spécifique, ce qui lui permet de produire du code Python ou des prototypes front-end directement à partir de la logique vidéo.
Interaction en temps réel de type humain : prend en charge les interruptions sémantiques. Il peut faire la différence entre les bruits de fond (comme une toux) et les interruptions intentionnelles, et les utilisateurs peuvent ajuster le ton (par exemple, « joyeux ») et le volume via des instructions simples.
Analyse vidéo fine : il peut générer des sous-titres structurés et horodatés, identifiant avec précision les actions, les changements de musique de fond et les transitions de caméra au sein des vidéos.
Clonage vocal personnalisé : les utilisateurs peuvent créer une « voix numérique » hautement naturelle et personnalisée en téléchargeant un court échantillon audio, avec une prise en charge de 113 langues.
Qwen3.5-Omni est désormais disponible sur la plateforme BaiLian d'Alibaba Cloud en versions Plus, Flash et Light. Une API de dialogue en temps réel (Realtime) et une démo sont également accessibles via la communauté ModelScope.
Apple retire l'application Cal AI en raison d'achats inappropriés à l'intérieur de l'application et de facturation frauduleuse.
La récente suppression par Apple de l’application Cal AI, une populaire application de suivi alimentaire utilisant l’intelligence artificielle et intégrée à MyFitnessPal, souligne son respect strict des politiques de l’App Store concernant les paieme
La facturation basée sur des jetons de Github Copilot provoque la colère des développeurs
L'âge d'or de GitHub Copilot chez Microsoft semble prendre fin, en particulier pour les utilisateurs individuels. L'entreprise passe d'un modèle de tarification fixe à un système basé sur des jetons, ce qui pourrait augmenter considérablement les coû
Points clés du dossier de soumission à l’IPO de SpaceX : ambitions d’expansion dans les domaines de l’internet par satellite et de l’intelligence artificielle
Dans son prospectus S-1 déposé en prévision d’une introduction en bourse, SpaceX a révélé un certain nombre de performances commerciales impressionnantes qui mettent en évidence sa position de force dans les communications spatiales et l’intelligence











