Maison
Ant Group dévoile Ling-2.6-flash, un modèle open source qui vient compléter la famille de modèles Baoling
La série de grands modèles Baoling d'Ant Group a fait l'objet d'une mise à jour majeure aujourd'hui, Ling-2.6-flash étant désormais officiellement accessible aux développeurs du monde entier. Afin de s'adapter à différents environnements matériels et de réduire les obstacles au déploiement, ce modèle propose également plusieurs versions de précision, notamment BF16, FP8 et INT4, offrant ainsi aux développeurs des options d'inférence plus flexibles.
Modèle Instruct comptant 104 milliards de paramètres au total et 7,4 milliards de paramètres activés, Ling-2.6-flash avait auparavant été testé sous le nom de code « Elephant Alpha » sur la plateforme OpenRouter. Au cours d'une période d'essai de deux semaines, l'équipe de développement a recueilli de nombreux retours d'expérience concrets et procédé à des optimisations ciblées, améliorant notamment la fluidité du passage du chinois à l'anglais et la compatibilité avec les principaux frameworks de programmation.

Points forts techniques : architecture hybride et efficacité supérieure
La force principalede Ling-2.6-flash réside dans son architecture unique et sa grande efficacité opérationnelle :
Architecture linéaire hybride : grâce à une optimisation computationnelle de bas niveau, le modèle atteint une excellente vitesse d'inférence. Avec 4 cartes H20, il atteint jusqu'à 340 tokens/s. En débit de préremplissage, il offre un rendement 2,2 fois supérieur à celui de Nemotron-3-Super, réduisant ainsi considérablement la latence de réponse.
Ratio d'efficacité des tokens remarquable : l'équipe a méticuleusement calibré l'efficacité des tokens pendant l'entraînement. Les données d'évaluation montrent que pour des tâches de qualité équivalente, Ling-2.6-flash ne consomme qu'environ 15 millions de tokens — soit environ un dixième de ses concurrents comparables —, ce qui réduit considérablement les coûts commerciaux.
Approfondissement des scénarios : améliorations ciblées des capacités des agents
Pour les scénarios d'agents — l'un des cas d'utilisation les plus courants des grands modèles —,Ling-2.6-flash a été spécifiquement amélioré. Qu'il s'agisse de gérer des appels d'outils complexes, une planification en plusieurs étapes ou l'exécution finale d'une tâche, le modèle fonctionne de manière fiable. Dans plusieurs évaluations de référence telles que BFCL-V4 et SWE-bench, même comparé à des modèles dotés d'un plus grand nombre de paramètres activés, Ling-2.6-flash maintient des performances comparables, voire de pointe (SOTA).
Les développeurs peuvent désormais accéder aux ressources open source du modèle via Hugging Face et ModelScope (Moba Community), ce qui ouvre la voie à une exploration plus approfondie de son potentiel dans diverses applications industrielles.
Article connexe
Veuillez indiquer le titre de l'article à reformuler sous forme de question.
Dans le paysage numérique actuel, l'intelligence artificielle est en train de transformer tous les secteurs, et le blogging ne fait pas exception. Les blogueurs sont constamment à la recherche de moye
Conntour lève 7 millions de dollars auprès de General Catalyst et Y Combinator pour sa solution de recherche vidéo de sécurité basée sur l'IA
Le secteur des technologies de surveillance fait actuellement l'objet d'une attention particulière, mais pas pour les meilleures raisons. Des controverses ont éclaté après que l'agence américaine de l
Le premier matériel d'IA d'Apple dévoilé : les AirPods équipés d'une caméra entrent en phase de test
Les ambitions d'Apple en matière de matériel d'IA se précisent. Le célèbre journaliste spécialisé dans les technologies Mark Gurman rapporte que les AirPods tant attendus, dotés de caméras i
Recommandations de sujets spéciaux liés
commentaires (0)
La série de grands modèles Baoling d'Ant Group a fait l'objet d'une mise à jour majeure aujourd'hui,
Modèle Instruct comptant 104 milliards de paramètres au total et 7,4 milliards de paramètres activés,

Points forts techniques : architecture hybride et efficacité supérieure
La force principale
Architecture linéaire hybride : grâce à une optimisation computationnelle de bas niveau, le modèle atteint une excellente vitesse d'inférence. Avec 4 cartes H20, il atteint jusqu'à 340 tokens/s. En débit de préremplissage, il offre un rendement 2,2 fois supérieur à celui de Nemotron-3-Super, réduisant ainsi considérablement la latence de réponse.
Ratio d'efficacité des tokens remarquable : l'équipe a méticuleusement calibré l'efficacité des tokens pendant l'entraînement. Les données d'évaluation montrent que pour des tâches de qualité équivalente,
Approfondissement des scénarios : améliorations ciblées des capacités des agents
Pour les scénarios d'agents — l'un des cas d'utilisation les plus courants des grands modèles —,
Les développeurs peuvent désormais accéder aux ressources open source du modèle via Hugging Face et ModelScope (Moba Community), ce qui ouvre la voie à une exploration plus approfondie de son potentiel dans diverses applications industrielles.
Veuillez indiquer le titre de l'article à reformuler sous forme de question.
Dans le paysage numérique actuel, l'intelligence artificielle est en train de transformer tous les secteurs, et le blogging ne fait pas exception. Les blogueurs sont constamment à la recherche de moye
Conntour lève 7 millions de dollars auprès de General Catalyst et Y Combinator pour sa solution de recherche vidéo de sécurité basée sur l'IA
Le secteur des technologies de surveillance fait actuellement l'objet d'une attention particulière, mais pas pour les meilleures raisons. Des controverses ont éclaté après que l'agence américaine de l
Le premier matériel d'IA d'Apple dévoilé : les AirPods équipés d'une caméra entrent en phase de test
Les ambitions d'Apple en matière de matériel d'IA se précisent. Le célèbre journaliste spécialisé dans les technologies Mark Gurman rapporte que les AirPods tant attendus, dotés de caméras i











