模型的价格一直是大家选择时最重要的判断条件。
同水平情况下谁便宜用谁,省一点是一点。
但我在一个VC博客上看到了Coinbase(美国最大的加密货币交易所)的案例。
给大家分享一下他们是怎么做的。
他们最近的token用量翻了一倍,AI支出反而少了一半。
并不是通过换模型做到的。
而是通过路由优化——让大部分请求根本不走贵的模型。
1️⃣ 为什么大部分AI请求不该付费?
现在大家的默认动作是什么?
打开ChatGPT或者调API。
每个问题都走的最贵的模型。
就像所有快递都选顺丰次日达——但你的80%包裹,其实用普通快递就够了。
路由系统要解决的就是这个问题:哪些请求该走贵的实时大模型,哪些可以走本地模型或者异步批处理。
本地模型,接近零成本。
异步批量推理比实时推理便宜两个数量级。
但大部分公司的AI系统里,根本没有"分流"这个概念——所有请求都挤在最贵的那条路上。
这就是为什么Coinbase能做到支出减半。
他们做了三件事:更好的默认设置、路由、缓存。
翻译成人话就是:别让每个请求都走贵的路,重复问题别重复算,能晚点出结果的就走夜间批处理。
2️⃣ 路由的三层架构到底怎么设计?
路由不是一个开关,是三层系统。
第一层:技能分类器
判断这个请求是什么类型。
FAQ、简单翻译、文本分类 → 标记为"简单任务"
代码生成、长文写作、复杂推理 → 标记为"复杂任务"
数据分析、报告生成 → 标记为"可异步任务"
这一层通常用规则+小模型做预判断,成本几乎为零。
第二层:路由器
根据任务类型决定走哪条路。
简单任务 → 本地模型(3B-7B参数,成本接近零)
复杂任务+实时需求 → 云端大模型实时推理
复杂任务+可等待 → 异步批处理队列(成本是实时的1%)
这一层的关键是"可等待"的判断。
大多数AI工作可以等几分钟,但大家的系统默认全走实时。
第三层:模型选择器
在同一条路径里,还能再细分。
云端实时:海外大模型(贵但强) vs 国内模型(便宜但够用)
异步批处理:夜间跑一批任务。
这套系统的核心逻辑是:让70-80%的简单请求别碰贵的模型。
3️⃣ 为什么很少人会考虑设计路由?
因为大家都在忙着挑模型,而且设计路由的需求和门槛也比较高。
OpenAI降价了,立刻换;
Claude更便宜了,再换一次;
而且路由系统不是一次性动作,是持续的工程投入。
得先分析请求分布,然后持续监控调整。
最难的是中间那步——搭三层架构。
这三层每一层都要写规则、调参数、验证准确率。
这套能力,不是买个API就有的。
这就是为什么Coinbase能做到支出减半,而大部分公司还在纠结"GPT和Claude哪个更便宜"。
发布于 上海
