文档导航
文档 / 用量与成本

用量与成本

OpenSquilla 会从运行中的 gateway 记录 token 用量与预估成本。在执行了路由、重度工具调用、channel 或长上下文工作之后,使用成本视图可了解模型开销的去向。

前置要求

成本检查依赖 gateway:

opensquilla gateway status

如果 gateway 未运行:

opensquilla gateway run

查看成本

opensquilla cost

默认视图按 session/模型行列出 input tokens、output tokens 与预估成本。

按模型分组

opensquilla cost --by-model

当启用 SquillaRouter 并希望查看最近工作负载由哪些模型承担时,使用该视图。

使用 JSON 输出

opensquilla cost --json
opensquilla cost --by-model --json

JSON 输出适用于本地仪表盘、回归检查与自动化报告。

首先查看什么

信号可能含义
高端模型出现多行router 策略或任务形态可能比预期更频繁地升级。
input tokens 过高较长的历史、较大的工具结果,或较大的 prompt/工具 schema 接入面可能主导成本。
output tokens 过高任务可能需要更紧凑的指令或更小的响应格式。
成本集中在某个 session在更改全局配置之前先检查该 session。

安全降低成本

从 router 与 diagnostics 入手:

opensquilla configure router --router recommended
opensquilla diagnostics on
opensquilla cost --by-model

针对较大的工具结果,请阅读:

针对简单的一次性自动化任务,约束运行范围:

opensquilla agent --max-iterations 20 --timeout 600 -m "Bounded task"

注意事项与限制

  • 成本是基于记录的运行时用量与配置的定价得到的预估值。
  • 实际费用以 provider 账单为准。
  • 工具压缩与路由可以降低模型上下文成本,但需要结合任务成功率进行检查,而不仅看 token 总数。
  • diagnostics 可以解释某个 turn 为何会路由、压缩、重试或产生异常大的输出。

延伸阅读:


文档索引 · 产品指南 · 改进本页 · 反馈文档问题

在 GitHub 上编辑此页(英文原稿) OpenSquilla 文档 · 中文社区翻译