1. 说明目的
本文用于解释该 API 平台价格页中的几个核心概念,包括:
- 页面价格是否已经包含倍率
- 模型倍率、分组倍率、补全倍率分别是什么意思
- token 消耗与费用之间如何计算
- 如何理解输入价格、补全价格、缓存读取价格
说明:以下结论是根据当前截图中的字段和数值关系整理得到,适合作为平台内部或个人使用时的价格说明文档。
2. 结论:页面价格已经包含倍率
根据截图中的价格表,可以判断:
页面展示的“模型价格”已经是包含倍率后的最终展示价格,不是原始价格。
也就是说:
- 页面右侧看到的“输入价格 / 补全价格 / 缓存读取价格”
- 已经综合考虑了倍率因素
- 正常理解下,结算应直接按页面显示价格计算
- 不应在结算时再额外乘一次倍率
2.1 判断依据
从表中可反推出一个基础输入单价,然后通过倍率精确还原页面价格。
例如:
gpt-4.1
- 模型倍率:
1 - 分组倍率:
3 - 补全倍率:
4 - 页面输入价格:
¥43.8000 / 1M Tokens - 页面补全价格:
¥175.2000 / 1M Tokens
若基础输入价记为¥14.6 / 1M Tokens,则:
- 输入价格 =
14.6 × 1 × 3 = 43.8 - 补全价格 =
43.8 × 4 = 175.2
与页面完全一致。
gpt-4o
- 模型倍率:
1.25 - 分组倍率:
1 - 补全倍率:
4 - 页面输入价格:
¥18.2500 / 1M Tokens - 页面补全价格:
¥73.0000 / 1M Tokens
计算:
- 输入价格 =
14.6 × 1.25 × 1 = 18.25 - 补全价格 =
18.25 × 4 = 73.0
也与页面一致。
gpt-5
- 模型倍率:
0.625 - 分组倍率:
3 - 补全倍率:
8 - 页面输入价格:
¥27.3750 / 1M Tokens - 页面补全价格:
¥219.0000 / 1M Tokens
计算:
- 输入价格 =
14.6 × 0.625 × 3 = 27.375 - 补全价格 =
27.375 × 8 = 219.0
仍然完全一致。
2.2 最终判断
因此,这个平台价格页中:
- 倍率列:用于解释价格是如何折算出来的
- 模型价格列:已经是折算后的最终价格
3. 三种倍率的含义
根据截图,倍率大概率有三层含义:
3.1 模型倍率
模型倍率 = 某个模型相对“基础输入单价”的价格系数
它反映的是:
- 这个模型本身贵不贵
- 同样是输入 token,不同模型的基础成本不同
例如:
gpt-4.1模型倍率 =1gpt-4o模型倍率 =1.25gpt-5模型倍率 =0.625
可以理解为:
1:标准价格1.25:比标准价高 25%0.625:按标准价的 62.5% 计
3.2 分组倍率
分组倍率 = 当前令牌分组对价格的额外放大系数
它反映的是:
- 同一个模型,放在不同的令牌分组下,最终卖价可能不同
- 平台使用它来统一不同模型组、不同通道、不同令牌组的计费方式
例如之前页面左侧可见的:
deepseek 1xdefault 1xgpt 3xclaude 3xgork 5x
这里的1x / 3x / 5x,本质上就对应“分组倍率”。
3.3 补全倍率
补全倍率 = 输出 token 相对于输入 token 的价格系数
它反映的是:
- 模型生成出来的 token,比输入 token 贵多少倍
例如:
gpt-4.1补全倍率 =4gpt-5补全倍率 =8
意思是:
- 如果输入价格先算出来
- 那么输出价格 = 输入价格 × 补全倍率
4. 价格计算公式
根据截图,最合理的价格结构是:
4.1 输入价格
输入价格 = 基础输入价 × 模型倍率 × 分组倍率4.2 补全价格
补全价格 = 输入价格 × 补全倍率4.3 实际调用费用
若按 token 计费,则一次请求的费用可表示为:
总费用 = 输入 tokens / 1,000,000 × 输入价格 + 输出 tokens / 1,000,000 × 补全价格 + 缓存读取 tokens / 1,000,000 × 缓存读取价格 + 缓存创建 tokens / 1,000,000 × 缓存创建价格5. 页面上的价格字段分别是什么意思
5.1 输入价格
输入价格 = 用户发给模型的 token 单价
包括但不限于:
- prompt
- system prompt
- 历史上下文
- 工具说明
- 文档内容
页面单位通常是:
¥X / 1M Tokens即:每 100 万输入 token 的价格。
5.2 补全价格
补全价格 = 模型生成输出 token 的单价
也就是模型回答内容的价格。
通常输出 token 比输入 token 更贵,因此会设置“补全倍率”。
5.3 缓存读取价格
缓存读取价格 = 已缓存内容被重复使用时的读取成本
适用于:
- 固定大段系统提示词
- 固定文档前缀
- 重复使用的工具描述
- 长上下文模板
其价格通常低于普通输入价格。
5.4 缓存创建价格
缓存创建价格 = 首次将某段内容写入缓存时的成本
特点:
- 第一次可能比普通输入更贵或不同
- 之后复用时可按缓存读取价计费
- 对高频重复调用场景更有意义
6. token 与价格的计算示例
下面给出两个例子,帮助理解 token 消耗与实际费用的关系。
6.1 示例一:不带缓存
假设某模型价格如下:
- 输入价格:
¥27.375 / 1M Tokens - 补全价格:
¥219.000 / 1M Tokens
一次请求消耗:
- 输入:
10,000 tokens - 输出:
2,000 tokens
则:
输入费用
10,000 / 1,000,000 × 27.375 = 0.01 × 27.375 = ¥0.27375输出费用
2,000 / 1,000,000 × 219 = 0.002 × 219 = ¥0.438总费用
¥0.27375 + ¥0.438 = ¥0.71175也就是说,这次调用大约消耗:
¥0.71175
6.2 示例二:带缓存
假设某模型价格如下:
- 输入价格:
¥9.000 / 1M Tokens - 补全价格:
¥45.000 / 1M Tokens - 缓存读取价格:
¥0.900 / 1M Tokens - 缓存创建价格:
¥11.250 / 1M Tokens
第一次调用:创建缓存
假设:
- 缓存创建:
30,000 tokens - 新输入:
5,000 tokens - 输出:
2,000 tokens
则:
缓存创建费用:
30,000 / 1,000,000 × 11.25 = ¥0.3375新输入费用:
5,000 / 1,000,000 × 9 = ¥0.045输出费用:
2,000 / 1,000,000 × 45 = ¥0.09总费用:
¥0.3375 + ¥0.045 + ¥0.09 = ¥0.4725第二次调用:复用缓存
假设第二次:
- 缓存读取:
30,000 tokens - 新输入:
5,000 tokens - 输出:
2,000 tokens
则:
缓存读取费用:
30,000 / 1,000,000 × 0.9 = ¥0.027新输入费用:
5,000 / 1,000,000 × 9 = ¥0.045输出费用:
2,000 / 1,000,000 × 45 = ¥0.09总费用:
¥0.027 + ¥0.045 + ¥0.09 = ¥0.162可以看到:
- 第一次:
¥0.4725 - 第二次:
¥0.162
这说明:
缓存的核心作用是:首次建立有成本,但重复调用时更便宜。
7. 如何阅读这个价格页
可以按以下顺序理解:
7.1 先看模型名和供应商
确认是:
- OpenAI
- Anthropic
- DeepSeek
- xAI
中的哪个模型。
7.2 再看计费类型
常见是:
- 按量计费:按 token 数收费
- 按次计费:按请求次数收费
从截图看,大多数文本模型是按量计费。
7.3 再看倍率
倍率帮助你理解:
- 模型本身的价格档次(模型倍率)
- 当前令牌分组会不会再加价(分组倍率)
- 输出 token 相比输入 token 贵多少(补全倍率)
7.4 最后看模型价格
最终真正需要拿来估算成本的是:
- 输入价格
- 补全价格
- 缓存读取价格
- 缓存创建价格
这些价格已是页面展示的最终折算价格。
8. 一句话总结
这个平台的价格体系可以概括为:
- 模型倍率:模型本身相对基础价贵多少
- 分组倍率:当前令牌分组再把价格放大多少
- 补全倍率:输出 token 相对于输入 token 贵多少
- 页面显示价格:已经包含倍率后的最终单价
- 实际计费:按页面显示价格和实际消耗 token 数量直接计算
9. 推荐对外说明模板
如果需要对用户简要解释,可使用如下表述:
本平台大多数模型采用按量计费,价格单位为“每 100 万 Tokens”。
页面展示的输入价、补全价、缓存读取价等,均为包含倍率后的最终价格。
其中模型倍率表示模型本身的价格系数,分组倍率表示令牌分组的加价系数,补全倍率表示输出 token 相对输入 token 的价格倍数。
实际费用根据输入 token、输出 token 以及缓存使用情况,按页面显示单价直接计算。