用量与成本
OpenSquilla 会从运行中的 gateway 记录 token 用量与预估成本。在执行了路由、重度工具调用、channel 或长上下文工作之后,使用成本视图可了解模型开销的去向。
前置要求
成本检查依赖 gateway:
opensquilla gateway status
如果 gateway 未运行:
opensquilla gateway run
查看成本
opensquilla cost
默认视图按 session/模型行列出 input tokens、output tokens 与预估成本。
按模型分组
opensquilla cost --by-model
当启用 SquillaRouter 并希望查看最近工作负载由哪些模型承担时,使用该视图。
使用 JSON 输出
opensquilla cost --json
opensquilla cost --by-model --json
JSON 输出适用于本地仪表盘、回归检查与自动化报告。
首先查看什么
| 信号 | 可能含义 |
|---|---|
| 高端模型出现多行 | router 策略或任务形态可能比预期更频繁地升级。 |
| input tokens 过高 | 较长的历史、较大的工具结果,或较大的 prompt/工具 schema 接入面可能主导成本。 |
| output tokens 过高 | 任务可能需要更紧凑的指令或更小的响应格式。 |
| 成本集中在某个 session | 在更改全局配置之前先检查该 session。 |
安全降低成本
从 router 与 diagnostics 入手:
opensquilla configure router --router recommended
opensquilla diagnostics on
opensquilla cost --by-model
针对较大的工具结果,请阅读:
针对简单的一次性自动化任务,约束运行范围:
opensquilla agent --max-iterations 20 --timeout 600 -m "Bounded task"
注意事项与限制
- 成本是基于记录的运行时用量与配置的定价得到的预估值。
- 实际费用以 provider 账单为准。
- 工具压缩与路由可以降低模型上下文成本,但需要结合任务成功率进行检查,而不仅看 token 总数。
- diagnostics 可以解释某个 turn 为何会路由、压缩、重试或产生异常大的输出。
延伸阅读: