Modelleinführung
MiniMax-Text-01 ist ein leistungsstarker Sprachmodell mit insgesamt 456 Milliarden Parametern, wovon 45,9 Milliarden pro Token aktiviert sind. Um die Fähigkeiten des Modells im Hinblick auf lange Kontexte besser auszuschöpfen, verwendet MiniMax-Text-01 eine hybride Architektur, die Lightning Attention, Softmax Attention und Mixture-of-Experts (MoE) kombiniert.