Введение модели
MiniMax-Text-01 — это мощная языковая модель с общим количеством параметров 456 миллиардов, из которых 45,9 миллиарда активируются на каждый токен. Для лучшего раскрытия возможностей обработки длинного контекста модель MiniMax-Text-01 использует гибридную архитектуру, сочетающую Lightning Attention, Softmax Attention и Mixture-of-Experts (MoE).