Introduction du modèle
MiniMax-Text-01 est un modèle de langue puissant doté de 456 milliards de paramètres au total, dont 45,9 milliards sont activés par jeton. Pour mieux exploiter les capacités de traitement du long contexte du modèle, MiniMax-Text-01 adopte une architecture hybride combinant Lightning Attention, Softmax Attention et Mixture-of-Experts (MoE).