MiniMax开源周Day1,开源 MiniMax-M1模型
卷起来了呀,MiniMax也玩起了开源周,哈哈哈哈,这是对标DeepSeek开源周的节奏呀!
先狠狠地期待一手,不知道后面四天都会有什么内容,不过,现在大模型厂真的卷到飞起了!
Day1,MiniMax 是先开源了混合注意力推理模型-M1,这个模型是在今年1月份开源的MiniMax-Text-01模型上增量训练得来的,结构跟MiniMax-Text-01模型一致,MoE结构,总参数456B,激活参数45.9B。
MiniMax-M1应该是上下文长度最长的推理模型了,输入支持1M,输出有两个版本,40K和80K,80K比Gemini2.5 pro还长,长文本做到底啦!图3.
MiniMax-M1模型结构与MiniMax-Text-01模型一致,均为混合注意力模型,如下图所示,是将模型部分Softmax Attention替换成了Lightning Attention。图4.
模型训练主要三个部分,Continue Pretrain、SFT和RL。其中RL部分尤为特殊,它们提出了一个新的强化学习算法CISPO(Clipped IS-weight Policy Optimization),通过裁剪重要性采样权重而非token更新来稳定训练,从而避免了传统PPO/GRPO算法中token被裁剪的问题。
M1模型在该算法下,仅使用512个H800 GPU 训了3周,大概53万刀,整体的RL训练成本,相较于456B的庞然大物来说,真是超级高效了。
验证CISPO有效性,在Qwen2.5-32B-base进行了对比实验,相较于DAPO和GRPO,在AIME 2024均有提到,大概在50%的训练步骤下,就与DAPO效果相当。(图5)
榜单效果如图6-7,在AIME、Live Codebench上与DeepSeek-R1和Qwen3-235B基本持平,在辅助软件工程SWE、工具利用TAU和长上下文任务(MRCR)上效果很好。当然还有,因为混合注意力机制,在生成长度128K,M1的计算量仅为DeepSeek R1的25%。
最后长文测试,也是杠杠地,见图8-9,DeepSeek只能读取1%。
