Coinbase AI支出减半|coinbase|路由优化|ai支出

模型的价格一直是大家选择时最重要的判断条件。

同水平情况下谁便宜用谁，省一点是一点。

但我在一个VC博客上看到了Coinbase（美国最大的加密货币交易所）的案例。

给大家分享一下他们是怎么做的。

他们最近的token用量翻了一倍，AI支出反而少了一半。

并不是通过换模型做到的。
而是通过路由优化——让大部分请求根本不走贵的模型。

1️⃣ 为什么大部分AI请求不该付费？

现在大家的默认动作是什么？

打开ChatGPT或者调API。

每个问题都走的最贵的模型。
就像所有快递都选顺丰次日达——但你的80%包裹，其实用普通快递就够了。

路由系统要解决的就是这个问题：哪些请求该走贵的实时大模型，哪些可以走本地模型或者异步批处理。
本地模型，接近零成本。

异步批量推理比实时推理便宜两个数量级。

但大部分公司的AI系统里，根本没有"分流"这个概念——所有请求都挤在最贵的那条路上。

这就是为什么Coinbase能做到支出减半。

他们做了三件事：更好的默认设置、路由、缓存。

翻译成人话就是：别让每个请求都走贵的路，重复问题别重复算，能晚点出结果的就走夜间批处理。

2️⃣ 路由的三层架构到底怎么设计？

路由不是一个开关，是三层系统。

第一层：技能分类器
判断这个请求是什么类型。
FAQ、简单翻译、文本分类 → 标记为"简单任务"
代码生成、长文写作、复杂推理 → 标记为"复杂任务"
数据分析、报告生成 → 标记为"可异步任务"
这一层通常用规则+小模型做预判断，成本几乎为零。

第二层：路由器
根据任务类型决定走哪条路。
简单任务 → 本地模型（3B-7B参数，成本接近零）
复杂任务+实时需求 → 云端大模型实时推理
复杂任务+可等待 → 异步批处理队列（成本是实时的1%）
这一层的关键是"可等待"的判断。
大多数AI工作可以等几分钟，但大家的系统默认全走实时。

第三层：模型选择器
在同一条路径里，还能再细分。
云端实时：海外大模型（贵但强） vs 国内模型（便宜但够用）
异步批处理：夜间跑一批任务。
这套系统的核心逻辑是：让70-80%的简单请求别碰贵的模型。

3️⃣ 为什么很少人会考虑设计路由？
因为大家都在忙着挑模型，而且设计路由的需求和门槛也比较高。

OpenAI降价了，立刻换；
Claude更便宜了，再换一次；

而且路由系统不是一次性动作，是持续的工程投入。
得先分析请求分布，然后持续监控调整。

最难的是中间那步——搭三层架构。
这三层每一层都要写规则、调参数、验证准确率。
这套能力，不是买个API就有的。

这就是为什么Coinbase能做到支出减半，而大部分公司还在纠结"GPT和Claude哪个更便宜"。

发布于上海