单 Agent 到底哪里不行？单 Agent 的核心瓶颈有三条：第一，上下文窗口的物理限制。不管是 GPT-4 的 128K，还是 Claude 的 200K，甚至 Gemini 的 1M token，上下文窗口始终是有限的。当一个 Agent 需要同时掌握用户需求、产品文档、API 规范、历史对话、工具返回结果、中间推理过程时，上下文会被

单 Agent 到底哪里不行？

单 Agent 的核心瓶颈有三条：

第一，上下文窗口的物理限制。不管是 GPT-4 的 128K，还是 Claude 的 200K，甚至 Gemini 的 1M token，上下文窗口始终是有限的。当一个 Agent 需要同时掌握用户需求、产品文档、API 规范、历史对话、工具返回结果、中间推理过程时，上下文会被迅速撑爆。更致命的是，研究表明 LLM 存在"中间遗忘"（lost in the middle）现象——位于上下文中间位置的信息，其召回率显著低于首尾。上下文不是仓库，是工作台；工作台堆满了，手就没地方放。

第二，角色指令的互相干扰。当你给一个 Agent 同时塞入"你是产品经理"“你是测试工程师”"你是运维专家"三重角色时，Agent 会在角色之间频繁切换，导致指令冲突和注意力分散。实践表明，角色越多，单 Agent 的指令遵循质量越差。这就像让一个人同时兼任公司的 CEO、CTO 和 CFO——不是做不到，而是大概率每一件事都做不好。

第三，工具数量的组合爆炸。一个 Agent 挂载的工具越多，工具选择的准确率越低。当你给 Agent 挂了 50 个工具，它在选择"用哪个工具"这件事上的错误率会显著上升。工具描述本身也占用上下文，形成恶性循环。

这三条瓶颈叠加，就是单 Agent 的天花板。突破天花板的方法不是等更大的模型，而是分工——这就是 Multi-Agent 的根本动因。

发布于浙江