Modelleinführung
MiniMax-Text-01 ist ein Modell mit 456 Milliarden Parametern, das Lightning Attention, Softmax Attention und Mixture-of-Experts (MoE) kombiniert. Es verwendet fortschrittliche parallele Strategien, um einen Trainingskontext von 1 Million Tokens zu erreichen und bis zu 4 Millionen Tokens während der Inferenz zu verarbeiten, wodurch es Spitzenleistung zeigt.