MiniMax开源周Day1，开源 MiniMax-M1模型卷起来了呀，MiniMax也玩起了开源周，哈哈哈哈，这是对标DeepSeek开源周的节奏呀！先狠狠地期待一手，不知道后面四天都会有什么内容，不过，现在大模型厂真的卷到飞起了！Day1，MiniMax 是先开源了混合注意力推理模型-M1，这个模型是在今年1月份开源的Min

MiniMax开源周Day1，开源 MiniMax-M1模型

卷起来了呀，MiniMax也玩起了开源周，哈哈哈哈，这是对标DeepSeek开源周的节奏呀！

先狠狠地期待一手，不知道后面四天都会有什么内容，不过，现在大模型厂真的卷到飞起了！

Day1，MiniMax 是先开源了混合注意力推理模型-M1，这个模型是在今年1月份开源的MiniMax-Text-01模型上增量训练得来的，结构跟MiniMax-Text-01模型一致，MoE结构，总参数456B，激活参数45.9B。

MiniMax-M1应该是上下文长度最长的推理模型了，输入支持1M，输出有两个版本，40K和80K，80K比Gemini2.5 pro还长，长文本做到底啦！图3.

MiniMax-M1模型结构与MiniMax-Text-01模型一致，均为混合注意力模型，如下图所示，是将模型部分Softmax Attention替换成了Lightning Attention。图4.

模型训练主要三个部分，Continue Pretrain、SFT和RL。其中RL部分尤为特殊，它们提出了一个新的强化学习算法CISPO（Clipped IS-weight Policy Optimization），通过裁剪重要性采样权重而非token更新来稳定训练，从而避免了传统PPO/GRPO算法中token被裁剪的问题。

M1模型在该算法下，仅使用512个H800 GPU 训了3周，大概53万刀，整体的RL训练成本，相较于456B的庞然大物来说，真是超级高效了。

验证CISPO有效性，在Qwen2.5-32B-base进行了对比实验，相较于DAPO和GRPO，在AIME 2024均有提到，大概在50%的训练步骤下，就与DAPO效果相当。（图5）

榜单效果如图6-7，在AIME、Live Codebench上与DeepSeek-R1和Qwen3-235B基本持平，在辅助软件工程SWE、工具利用TAU和长上下文任务（MRCR）上效果很好。当然还有，因为混合注意力机制，在生成长度128K，M1的计算量仅为DeepSeek R1的25%。

最后长文测试，也是杠杠地，见图8-9，DeepSeek只能读取1%。

发布于江苏