DeepSeek、智谱的GLM 5.2、Kimi表明中国模型在算法工程层面可能已经进入一定程度上的原创能力正循环(DeepSeek-V3/R1 的架构与RL方案、Kimi 的线性注意力探索被海外反向学习)。具体而言:
1. DeepSeek:高效混合专家与强化学习推理
DeepSeek的核心贡献在于如何更高效地训练和部署超大规模模型,并显著提升推理能力。
- 架构创新-DeepSeekMoE与MLA:
- 混合专家架构:DeepSeek-V3总参数671B,但每个token仅激活37B参数。它创新性地将专家分为共享专家(所有token都激活)和路由专家(动态选择),并通过无辅助损失的负载均衡策略(Auxiliary-Loss-Free Balancing)解决了传统MoE的负载不均问题,实现了无损优化。
- 多头潜在注意力:为解决长上下文下KV缓存过大的问题,MLA通过低秩压缩减少了Key-Value的存储需求,显著提升了推理效率。
- 训练创新 - FP8与DualPipe:
- FP8混合精度训练:DeepSeek-V3在千亿级模型上成功应用了FP8低精度训练,通过动态量化和混合精度策略,大幅降低了计算成本和显存占用,是首个FP8原生训练的千亿级模型。
- DualPipe算法:针对MoE模型跨节点通信瓶颈,DualPipe通过计算与通信重叠的双向管道调度,最大化GPU利用率,隐藏通信开销,极大提升了分布式训练效率。
- 推理创新 - R1的强化学习路径:
- DeepSeek-R1-Zero直接在基座模型上进行纯强化学习,未使用任何监督微调数据,证明了强大的基座模型 + RL 是通往强推理能力的有效路径,挑战了“必须SFT才能RL”的常规。
- R1则通过冷启动SFT + 多阶段RL + 混合数据生成,在保持强推理能力的同时提升了输出的可读性csdn.net。其生成的高质量思维链数据不仅用于自身,还通过蒸馏赋能了小模型。
2. Kimi(月之暗面):线性注意力与智能体基础设施
Kimi的原创性聚焦于突破Transformer的二次复杂度瓶颈,为长上下文和智能体时代构建高效基础设施。
- 注意力机制革命 - Kimi Delta Attention (KDA):
- Kimi Linear架构的核心是KDA,它是一种混合线性注意力机制。通过细粒度遗忘门控(通道级独立遗忘率),让模型能动态、精准地控制记忆保留与遗忘,解决了传统线性注意力“记不住”的问题。
- KDA基于改进的Delta Rule,在数学上保证了稳定性,即使处理百万级token序列也不会梯度爆炸或消失。
- 在相同训练规模下,Kimi Linear在MMLU、BBH等基准上超越了全注意力模型,在长上下文推理中解码速度提升最高6倍,KV缓存减少75%qq.com+1。这首次证明了线性注意力在性能上可以与全注意力比肩甚至超越。
- 架构与训练优化:
- 混合架构:采用3:1的混合层设计(3层KDA + 1层全注意力),兼顾线性计算效率与全局语义建模能力。
- Attention Residuals:提出注意力残差机制,让每层能根据输入内容有选择地聚合前序层信息,解决了深层网络中信息稀释问题,提升了模型深度训练的效率与稳定性。
- Muon优化器:Kimi团队是全球最早把 Muon 推到超大规模训练的团队之一,提升了数据利用效率segmentfault.com+1。该优化器已被GLM、DeepSeek V4等模型采用。
- 智能体与长上下文实践:
- Kimi将上述技术用于支撑超长上下文(最初支持1M,后因成本调整)和智能体集群(如K2.5的Orchestrator机制,能将复杂长任务拆解给数十个子Agent并行处理)。
3. 智谱GLM:长程任务与工程落地
智谱的GLM系列则聚焦于长程任务和工程化能力,致力于让模型能像人一样持续工作数小时,自主完成完整工程。
- 长上下文与编程能力:
- GLM-5.2实现了1M token的无损上下文,并通过IndexShare架构优化,使1M上下文下单token FLOPs降低约2.9倍,长序列推理吞吐大幅提升。
- 在编程基准测试SWE-bench Pro中得分62.1,Terminal-Bench 2.1得分81.0,与海外头部模型Claude Opus 4.8在某些基准上贴近甚至部分项反超,是排名最高的开源模型。
- 国产算力适配与开源生态:
- GLM-5.2在发布第一天就适配了华为昇腾、平头哥、寒武纪等多个国产算力平台,体现了极致的Infra优化能力。
- 采用最宽松的MIT开源协议,无地域限制,强调“技术平权无国界”,推动了开源生态的发展。
发布于 北京
