Введение модели
MiniMax-Text-01 — это мощная языковая модель с общим количеством 456 миллиардов параметров, из которых 45,9 миллиарда активируются на каждый токен. Для лучшей реализации возможностей работы с длинными контекстами модель использует гибридную архитектуру, сочетающую Lightning Attention, Softmax Attention и Mixture-of-Experts (MoE).