Введение модели
MiniMax-Text-01 — это модель с 456 миллиардами параметров, сочетающая Lightning Attention, Softmax Attention и Mixture-of-Experts (MoE). Она использует передовые стратегии параллельной обработки для достижения контекста обучения в 1 миллион токенов и может обрабатывать до 4 миллионов токенов во время инференса, демонстрируя высший уровень производительности.