26-04-30 10:26 微博认证:北京智谱华章科技股份有限公司官方微博

GLM-5底层基建进展:吞吐最高提升132%

最近几个月,我们的推理基础设施承受了前所未有的压力。每天数亿次 Coding Agent 调用,把 GLM-5 推到了一个我们自己也没完全预料到的状态——

🌀 乱码、复读、偶现的生僻字

只在高并发 + 长上下文的场景下才会触发,离线复现极难。这不是模型的问题,是 Infra 的问题。我们花了数周排查,最终定位并修复了几个相互独立的底层 Bug。

今天,我们把这段探索写成了一篇技术博客《Scaling Pain》,把过程、思路、修复方案完整摊开。希望对同样在做大规模 Agent Serving 的同行有用。

🔗 完整技术博客:z.ai/blog/scaling-pain

1️⃣异常识别:把投机采样指标反过来用,当成在线异常监控信号。
2️⃣BugFix 1:PD 分离下的 KV Cache 竞态
异步 Abort 引发的复用冲突。修复后,异常率从万分之十几降到万分之三以下。
3️⃣BugFix 2:HiCache 加载时序缺失
Read-before-ready 访问模式。修复已通过 PR 22811 提交至 SGLang 社区。
4️⃣优化:KV Cache 分层存储 LayerSplit
显存占用最高节省 ~80%,长上下文吞吐提升 10%–132%。

每一次对 Scaling Law 的追求,都必须有同等强度的系统工程作为支撑。在高并发、长上下文的 Coding Agent 场景下,维护输出质量本身已和吞吐、延迟、可用性同等重要,而这也是我们会长期投入、持续打磨的方向。

#智谱# #How I AI# #GLM#

发布于 北京