Introduction du modèle
MiniMax-Text-01 est un modèle linguistique puissant avec un total de 456 milliards de paramètres, dont 45,9 milliards sont activés par jeton. Pour mieux exploiter les capacités de contexte long du modèle, MiniMax-Text-01 adopte une architecture hybride qui combine l'Attention Lightning, l'Attention Softmax et le Mixture-of-Experts (MoE).