Coinbase的AI成本实验:从模型选择到缓存优化的“隐形降本”
AI在企业内部的成本控制,正在从“砍预算”转向“改系统”。
Coinbase最近披露的一组内部调整数据,把这个变化讲得比较具体:在代币使用量持续上升的背景下,AI相关支出反而下降了近一半。没有压缩使用权限,也没有设限流规则,调整发生在更底层的结构里。
真正被动的是那套默认路径。
最先被动手的是模型选择。Coinbase把部分默认调用切到了GLM 5.2、Kimi 2.7这类开源权重模型。逻辑不复杂——在多数通用任务里,模型性能差异不再是成本差异的主要变量,调用结构才是。
一个细节是,91%的员工从未触及使用上限。这句话的潜台词其实是:问题不在“用得太多”,而在“用得不够聪明”。
工程团队做的另一件事更偏基础设施层面。系统开始对提示词做预处理,然后自动路由到不同模型。简单理解就是,把“一个大模型解决所有问题”的路径拆开:规划任务走一条链,执行任务走另一条链。模型不再是单一入口,而是分发节点。
这种拆分在AI工程体系里越来越常见,本质上是在把“推理成本”切成更细的颗粒度。
缓存层的改动更直观。LibreChat的缓存命中率从5%拉到60%,这个变化基本可以直接对应到成本曲线的陡降。很多重复查询不再重新调用模型,而是直接复用结果。听起来是工程优化,但在大规模调用场景里,这种优化往往比模型升级更有效。
还有一个不太显眼但影响结构的调整:上下文管理被压缩。切换任务时直接开启新会话,减少历史上下文依赖,同时缩小文件输入范围。对用户体验来说可能更“断裂”,但对成本模型来说更清晰——少带历史包袱,就少一层token消耗。
Coinbase同时做了一件看起来矛盾的事:增强支出可见性。工程师可以自由选择模型,但要对成本影响负责。这种设计更接近“内部定价机制”,而不是简单的预算管控。
企业在这里其实做了一次轻微的组织实验。AI使用从集中采购,转向分布式决策,但用成本反馈做约束。
放在更大的行业背景里,这种路径并不孤立。随着大模型调用进入企业级常态阶段,成本问题已经从“有没有钱用AI”,变成“怎么用AI不浪费”。优化空间也从模型本身,转移到调用结构、缓存策略和任务拆解方式。
换句话说,真正的降本不再发生在模型发布时,而发生在系统调用的每一层路径选择里。