定价是在选择前沿 LLM 时影响最大的单一决策维度,而且也是大多数已发布对比在一季度内就会过时的维度。本文正是为此而写。下面给出截至 2026 年 5 月、带来源的最新视图:覆盖 2026 年占据生产级前沿模型流量大头的四个模型(OpenAI 的 GPT-5.5、Anthropic 的 Claude Sonnet 4.6、Google 的 Gemini 3.5 Flash、DeepSeek 的 V4)的输入与输出 token 定价,并附上那些在规模化时会显著改变账单的“杠杆”:提示缓存(prompt caching)、批处理(batch processing)以及长上下文附加费(long-context surcharges)。
本文围绕两个问题展开。第一:按目录价(list price),每个模型每百万 token 的成本是多少?且这些标称费率在真正驱动生产账单的输入与输出上如何对比?第二:当你套用一个代表性工作负载(每月 1 亿 token,80% 输入、20% 输出,并采用现实的缓存命中率)时,各模型的月度美元账单分别是多少?第一个答案建立“费率表”;第二个答案告诉你,当这张费率表落到真实生产使用形态上,实际会变成什么。
**快速结论:**在这几款前沿模型之间,目录价跨度大约接近两个数量级。DeepSeek V4 最便宜,输入为每百万 token $0.435;Claude Opus 4.7 最贵,输入为每百万 token $5.00。你的工作负载形态——尤其是缓存命中率与输入/输出比例——会改变“实际最便宜”的模型选择,且幅度往往超过费率表本身所暗示的差异。
为什么“同口径”的定价对比比看起来更难
各提供商的定价页面是写给自家客户看的,不是为横向比较四个选项的人写的。因此对比时会反复踩到三个坑:
- **各家“token”并不相同。**Claude Opus 4.7 使用了新的分词器(tokenizer),对同一段输入文本,可能比 Opus 4.6 多生成多达 35% 的 token。Gemini 的分词器也不同于 OpenAI。费率表按“每百万 token”计价,但同一提示词在不同提供商处 token 数不同,意味着标称费率只能作为相对成本的第一近似。
- **长上下文定价分层会制造成本“悬崖”。**OpenAI 的 GPT-5.5 系列针对短上下文与长上下文有不同费率,约在 270,000 token 左右触发。相反,Anthropic 在完整 1M 上下文窗口内保持同一每-token 费率。处在阈值附近的工作负载,与稳稳低于阈值的工作负载,定价会非常不同。
- **折扣是叠加的,而非互斥的。**提示缓存、批处理、以及各家特定的阶梯量价,都可能显著降低有效成本,而且可以叠加。Anthropic 上“缓存 + 批处理”的请求,成本可能低至标准非缓存请求的 5%。忽略这些杠杆的对比会高估目录成本,有时会高估一个数量级。
下面的对比会在可行处对这些陷阱做归一化处理;在不可归一化处则会明确标注。
2026 年前沿 LLM 定价对比
所有数字单位:每百万 token 的美元价格。数据来源:各提供商截至 2026 年 5 月的官方定价文档。
| 模型 | 输入 | 输出 | 缓存输入 | 批处理(5 折) | 上下文窗口 | 长上下文附加费 |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | 是(~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | 无 |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | 无 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | 是(200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | 不提供 | 384K | 无 |
如何读表:“缓存输入”是从提示缓存返回的 token 所支付的费率(通常是系统提示词、few-shot 示例、或在请求间重复出现的文档前缀)。 “批处理”是可接受最长 24 小时延迟的异步工作负载费率。 “长上下文附加费”表示提供商是否在超过某个上下文长度阈值后提高费率;若提高,则括号中给出阈值。
各模型的优势区间
GPT-5.5:用于高难推理与 agentic 工作的最高能力默认选项
GPT-5.5 是 OpenAI 面向复杂专业工作负载的前沿模型:编码代理(coding agents)、多步规划、长链路工具调用、以及以推理深度为主导的文档分析。它也是主要美国前沿模型中输入最贵(每百万 $5.00)、输出也最高(每百万 $30.00)的模型,因此它的优势在于:当替代方案是“为另一家旗舰同样付旗舰价,但解决问题不够可靠”时,GPT-5.5 的溢价在这些工作负载上是划算的。GPT-5.5 支持缓存(9 折优惠,即降至 10% 价格)、批处理(5 折),并且长上下文定价约在 270K token 左右开始生效——对超长代码库或全仓库上下文相关,但对典型 RAG 工作负载通常不构成影响。
Claude Sonnet 4.6:多数生产流量的推荐默认选择
Sonnet 4.6 是 Anthropic 推荐覆盖大多数生产工作负载的模型,关键在于其“价格/能力比”。输入每百万 $3、输出每百万 $15,在两项费率上都低于 GPT-5.5,同时在大多数生产系统的主流任务(编码、分析、RAG 流水线、面向客户的对话、结构化输出生成)上提供接近 Opus 的质量。Sonnet 在定价上的显著特征是:完整 1M 上下文窗口按标准费率计费(无长上下文附加费),使其在“偶尔需要吞入超长文档或全仓库”的工作负载上,成为最便宜且可信的选择。提示缓存可将缓存输入降至标准价的 10%,对具有稳定系统提示词的工作负载具有决定性作用。
Gemini 3.5 Flash:短上下文工作最激进定价的旗舰
Gemini 3.5 Flash 是主要美国提供商中原始 API 标价最便宜的旗舰级模型:输入每百万 $1.50、输出每百万 $9.00。对多数生产流量而言,这正是相关的定价档位,并且在两项上都显著低于 GPT-5.5 与 Claude Opus 4.7。相较此前 Flash 型号更高的价格,会在 token 密集的 agentic 场景中推高总体成本(相对 Gemini 3 Flash,由于定价 + 使用量原因,Intelligence Index 成本为 5.5 倍)。Gemini 的另一个显著特点是 Google AI Studio 的真正免费层,适合原型验证,但与生产成本模型无关。
DeepSeek V4:显著更便宜,但需要理解的注意事项
DeepSeek V4 标价为:输入每百万 $0.435、输出每百万 $0.87;与美国前沿模型相比,依据对比对象不同,便宜约 5 到 70 倍不等。模型在多项基准上具备竞争力,尤其是推理与代码。需要明确的注意事项包括:数据在中国处理,这对某些受监管工作负载是不可接受的;英文质量很强,但模型优化方向不同于美国前沿模型,因此必须在你的具体工作负载上进行正面对比测试——这是“必需”而非“可选”。若这些限制可接受,DeepSeek 的确会改变成本方程。
**关于 Claude Opus 4.7 与 Sonnet 4.6 的说明。**表中纳入 Opus 以求完整性,但对绝大多数生产流量而言,Sonnet 4.6 的经济性更好。Opus 在输入与输出上都是 Sonnet 的 1.67 倍;当 Sonnet 已足够(大多数情况如此)时,这份溢价没有对应收益。只有当评测显示 Sonnet 在特定任务类别上失败时才应选择 Opus:高度自治的编码代理、长时域专业工作流、以及在指令遵循边际上决定成败的任务。
示例测算:每月 1 亿 token 的真实成本
“每百万 token 的标价”在落到代表性工作负载之前意义有限。下面的示例使用一个接近中等规模生产系统的画像:每月 1 亿 token,总计 80% 输入(8000 万)与 20% 输出(2000 万),且输入部分有 30% 的缓存命中率。该形态大体代表了:具有稳定系统提示词与文档上下文的面向客户对话或 RAG 工作负载。
每个模型的计算:缓存输入成本 + 非缓存输入成本 + 输出成本。对提供缓存的厂商,缓存输入按标准价的 10% 计费。
| 模型 | 缓存输入(2400 万) | 非缓存输入(5600 万) | 输出(2000 万) | 月度总账单 |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
*该表告诉你的信息:*在一个代表性工作负载下,Sonnet 4.6 的成本大约是 GPT-5.5 的一半。DeepSeek 处在完全不同的成本量级。上述均为目录价;若可用并应用批处理,则输入与输出部分还可进一步各减半(但不包括缓存命中部分)。
两个值得延续的观察。第一:缓存是你能控制的最强杠杆。上面的示例假设缓存命中率为 30%;若提升到 60%(对具有稳定系统提示词的工作负载完全可达),总成本还会再下降约 25%。第二:输入/输出比例非常关键。输出占比高的工作负载(摘要、长文写作)更偏向输出费率更低的提供商;输入占比高的工作负载(长上下文分析、大型 RAG 检索)更偏向输入费率更低且无长上下文附加费的提供商。
定价页上看不到的隐性成本
目录价是地板,不是天花板。以下五类额外成本值得明确纳入预算,因为它们经常让从原型扩展到生产的团队措手不及:
- **推理 token(reasoning tokens)。**具备扩展推理模式的模型(GPT-5.5 Thinking、DeepSeek V4 thinking mode)会生成计入输出 token 的内部推理内容。一次在长提示词上的高强度推理调用,可能产生 20,000 个推理 token,仅 GPT-5.5 的输出成本就已是 $0.60,而此时可见回复尚未生成。应按工作负载预算,而非按请求次数预算。
- **长上下文附加费。**Gemini 3.5 Flash 与 GPT-5.5 都会在超过上下文长度阈值后提高费率。包含大文档的 RAG 流水线可能在无人察觉的情况下把每个请求都推入更高价档,直到账单到来才发现。需要在生产中测量真实提示词长度,并核对是否跨越阈值。
- **数据驻留(data residency)加价。**Anthropic 对 Opus 4.7 与 Sonnet 4.6 的仅美国推理(US-only inference)收取 10% 溢价。OpenAI 在 GPT-5.4 系列的数据驻留端点上增加 10% 加价。对受监管工作负载,应从第一天就把这项纳入费率表。
- **输出冗长漂移(output verbosity drift)。**当新模型版本默认更“详尽”(例如据称 Opus 4.7 相对 Opus 4.6 更详细),即使输入长度不变,每次响应的输出 token 也可能悄然上升。Anthropic 体系中输出价格是输入的 5 倍,因此输出冗长上升 20% 就是主成本驱动项上升 20%。
- **失败与重试请求。**大多数提供商不对 4xx 与 5xx 错误计费,但会对部分生成与第二次重试成功的请求计费。在带主动重试逻辑的生产系统里,这可能给账单带来几个百分点的额外成本。在对账时需要考虑这一点。
CometAPI 在其中的位置
上述四个模型以及另外 500+ 模型都可通过 CometAPI 以单一 OpenAI 兼容端点调用,使用一个凭据、统一计费、且无需分别开通各家账号。CometAPI 的计费按 token 计量,单模型的每-token 费率与底层提供商公开费率一致;通过预购积分并在目录中的任意模型间通用扣费。通过 CometAPI 路由的价值在于运维而非单 token:只需管理一个凭据、对账一张发票,并且只改一行代码里的模型字符串,就能在 GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash 与 DeepSeek V4 之间切换。
在某些工作负载上,直接接入提供商是更合适的选择:若你在单一提供商上以极高量运行单模型工作负载并签有谈判后的企业合同,直连的单位经济性更优;若你的合规姿态要求特定“记录供应商”(vendor-of-record)关系,聚合商会让沟通变复杂而非简化。但对多数运行多模型生产工作负载的团队而言,同时维护三到四家直连关系带来的运维摩擦本身就是显著成本,而费率表并不会体现这一点。
**把对比跑在你的工作负载上。**CometAPI 的免费层允许你从同一端点对 GPT-5.5、Sonnet 4.6、Gemini 3.5 Flash 与 DeepSeek V4 运行相同提示词,无需分别注册。对于与工作负载相关的成本决策,这一小时的实测价值高于任何已发布的定价对比文章。
如何使用这份对比
适合你的模型取决于费率表中哪一维对你的流量形态最重要。一个实用的决策框架:
- 若推理深度是瓶颈(agentic 工作流、复杂多步规划、最难的编码任务),从 GPT-5.5 或 Claude Opus 4.7 开始。溢价真实存在,但在这些工作负载上是值得的。
- **若你想要通用生产流量的最佳“价格/能力比”,**Claude Sonnet 4.6 是推荐默认:接近前沿的能力、完整 1M 上下文按标准费率计费、并具备强缓存支持。
- **若你对成本敏感且工作负载低于 200K 上下文,**Gemini 3.5 Flash 是主要美国提供商中最便宜且可信的旗舰级选择。
- **若你是高吞吐、成本主导的工作负载,并且可接受 DeepSeek 的数据驻留姿态,**V4 的成本优势大到足以值得严肃评测,尤其适合批处理形态的工作负载。
*想进一步做成本优化?*上述定价数据是“路由(routing)”的基础:依据不同查询由不同模型以最低成本完成任务。配套文章《将 LLM API 成本减半:2026 年生产工作负载的模型路由指南》会讲解将这张费率表转化为月度账单实际节省的路由模式。
