GLM-5底层基建进展：吞吐最高提升132%最近几个月，我们的推理基础设施承受了前所未有的压力。每天数亿次 Coding Agent 调用，把 GLM-5 推到了一个我们自己也没完全预料到的状态——🌀 乱码、复读、偶现的生僻字只在高并发 + 长上下文的场景下才会触发，离线复现极难。这不是模型的问题，是 Inf

GLM-5底层基建进展：吞吐最高提升132%

最近几个月，我们的推理基础设施承受了前所未有的压力。每天数亿次 Coding Agent 调用，把 GLM-5 推到了一个我们自己也没完全预料到的状态——

🌀 乱码、复读、偶现的生僻字

只在高并发 + 长上下文的场景下才会触发，离线复现极难。这不是模型的问题，是 Infra 的问题。我们花了数周排查，最终定位并修复了几个相互独立的底层 Bug。

今天，我们把这段探索写成了一篇技术博客《Scaling Pain》，把过程、思路、修复方案完整摊开。希望对同样在做大规模 Agent Serving 的同行有用。

🔗 完整技术博客：z.ai/blog/scaling-pain

1️⃣异常识别：把投机采样指标反过来用，当成在线异常监控信号。
2️⃣BugFix 1：PD 分离下的 KV Cache 竞态
异步 Abort 引发的复用冲突。修复后，异常率从万分之十几降到万分之三以下。
3️⃣BugFix 2：HiCache 加载时序缺失
Read-before-ready 访问模式。修复已通过 PR 22811 提交至 SGLang 社区。
4️⃣优化：KV Cache 分层存储 LayerSplit
显存占用最高节省 ~80%，长上下文吞吐提升 10%–132%。

每一次对 Scaling Law 的追求，都必须有同等强度的系统工程作为支撑。在高并发、长上下文的 Coding Agent 场景下，维护输出质量本身已和吞吐、延迟、可用性同等重要，而这也是我们会长期投入、持续打磨的方向。

#智谱# #How I AI# #GLM#

发布于北京