减少重复请求
对确定性、非流式、低温度请求做精确缓存,命中时可直接返回结果,避免重复消耗上游 token。
Cost optimization
AI 应用上线后,长上下文、重复请求、无上限输出和模型选择不当都会快速放大成本。Botat 在网关层系统性处理这些问题。

对确定性、非流式、低温度请求做精确缓存,命中时可直接返回结果,避免重复消耗上游 token。
当历史对话超过预算时,将旧轮次压缩为记忆摘要,保留关键上下文和最近消息。
对没有设置输出上限的请求自动补充合理预算,减少无意识的长回答和费用波动。
不同策略风险不同。Botat 可以从低风险缓存和输出预算开始,再按业务场景逐步启用上下文压缩和模型路由。