2026-07-03By M.R.

Claude Sonnet 5的新分词器：为什么你的成本在9月1日增加30%

Claude Sonnet 5 API costs tokenizer token counting LLM pricing

表面数字隐藏了真实情况

Claude Sonnet 5的定价与Claude Sonnet 4.6相同——每百万输入Token 3美元，每百万输出Token 15美元。相同的费率，相同的层级。从表面上看，迁移似乎没有任何问题。

但当你检查Token计数时，问题就出现了。相同的输入文本在Claude Sonnet 5上产生的Token数比Claude Sonnet 4.6多约30%。不是输出质量提升30%，而是相同输入的可计费Token增加30%。

这就是数学开始变得令人不安的地方。一个持续到2026年8月31日的介绍性定价窗口目前使这种成本保持中立。之后，今天成本较低的工作负载在9月1日将增加20-35%的成本——尽管费率表仍然显示"$3/$15，与Sonnet 4.6保持不变"。

分词器如何实际工作

具体增幅取决于内容。Anthropic公布了一个范围：根据输入内容的不同，Token增加大约1.0倍到1.35倍。代码、结构化数据和非英文文本受影响最大。一个10,000 Token的Python脚本可能变成13,500个Token。一段英文散文可能膨胀到11,000个Token。

这不是一个错误。Sonnet 5使用新的分词器，与Opus 4.7引入的相同，它以不同的方式处理文本以提高性能，代价是相同的文本映射到约30%更多的Token。

分词器更改是有意的。更精细的编码帮助模型在推理、编码和Agent任务上表现更好——基准测试显示整体有意义的改进。你获得能力提升；成本是以Token数衡量的。

三项重要的迁移检查

1. 上下文窗口容量

上下文窗口是1M Token，但每个Token平均覆盖的文本更少，所以相同的窗口比Claude Sonnet 4.6容纳的文本更少。如果你的Agent流水线已经在Sonnet 4.6中填充了900,000个Token的代码库上下文，迁移到Sonnet 5之前需要重新计算。相同的代码库可能不再适应相同的上下文窗口。

2. max_tokens预算

为Claude Sonnet 4.6优化的输出限制可能会在Claude Sonnet 5上截断等效的输出。如果你的代码设置`max_tokens=4096`来期望特定的响应长度，Sonnet 5可能会更早达到这个限制，因为它的推理步骤每步消耗更多Token。在部署前，根据真实流量测试你的输出限制。

3. Prompt缓存失效

Anthropic的Prompt缓存在模型级别存储Token序列。来自Claude Opus 4.8的缓存序列不会转移到Claude Fable 5，即使是相同的文本内容，因为不同的分词器版本之间的底层Token ID不同。这也适用于Sonnet 5。来自4.6的缓存系统Prompt、代码库和文档在Sonnet 5生产流量的第一天就变成了冷缓存。规划一个冷缓存预热期。

当介绍性费率过期时

目前（至2026年8月31日），每百万输入/输出Token 2美元/10美元的介绍性定价有效期至2026年8月31日，之后每百万输入/输出Token 3美元/15美元的标准定价将生效。

让我们测量这个悬崖的形状。假设你目前在Sonnet 4.6上运行每天500万输入Token和50万输出Token的真实工作负载：

时期	每日Token数	输入成本	输出成本	日成本总计
Sonnet 4.6（基线）	5M输入/0.5M输出	$15.00	$7.50	$22.50
Sonnet 5（7-8月，介绍性定价）	6.5M输入/0.65M输出	$13.00	$6.50	$19.50
Sonnet 5（9月1日+，标准定价）	6.5M输入/0.65M输出	$19.50	$9.75	$29.25

那个工作负载在7月每天节省3美元。然后在9月1日，它比基线每天多花6.75美元——而费率表看起来是平的。

大多数团队低估实际成本的地方

Claude Sonnet 5在等效任务上产生的Token比早期模型多约30%——其较低的单位Token价格并不会自动使其在实际应用中更便宜。对于单轮交互，这影响较小。对于Agent工作流，它会复合增长。

在Agent工作流中，冗长度在多个步骤中复合增长，特别是当启用扩展思考时，总Token消耗可能使Sonnet 5的实际成本高于Opus。如果每个步骤产生30%更多的输出，该输出就成为下一步骤的输入。一个两步Agent看到大约1.3× × 1.3× = 1.69×的总Token膨胀。

此外，自适应思考在Sonnet 5上默认启用。与Sonnet 4.6不同（你手动控制扩展思考预算），Sonnet 5会决定何时进行内部推理。这些推理步骤消耗单独计费的Token——它们不是可见响应的一部分，但它们确实会出现在你的账单上。

迁移前的实用检查清单

根据你计划使用的模型重新计算Prompt的Token数，而不是重复使用针对早期模型测量的计数。在真实流量的代表性样本上使用Token计数API，使用`model: "claude-sonnet-5"`——而不是合成Prompt。如果可以，批量处理100+个示例。

重新计算你的Token预算。如果你有迁移前Token检查或路由策略来强制执行每个提供商的阈值，将旧的阈值乘以0.77（1.3的倒数）以找到新分词器术语中等效的迁移前输入大小。

在真实工作负载上测试max_tokens限制。在Sonnet 4.6上在3,000 Token内完成的响应在Sonnet 5上可能需要3,900个Token。如果你的代码有硬编码的限制，你会截断有效的输出。

规划冷缓存。如果你使用Prompt缓存，预期在Sonnet 5流量的第一波期间延迟和成本会更高。将其视为预热期，而不是代表稳定状态。

这对你的预算意味着什么

Sonnet 5是真正的能力步进——基准测试在编码、推理和Agent任务中证实了这一点。但能力并不存在于经济之外。

三个数字很重要：介绍性费率（8月31日到期）、标准费率（9月1日生效）和分词器倍数（永久固化）。如果你现在正在测试Sonnet 5，你看到的是第一个数字。为第二个和第三个做准备。

不要重复使用针对早期模型测量的计数；根据Claude Sonnet 5重新计算。在9月1日定价而不是7月定价下衡量你自己的工作负载成本。"大致成本中立"和"贵30%"之间的区别在于你承诺之前测量的细节中。

参考来源

当每个模型都得分88%：基准测试饱和为何破坏了AI评估

任务特定模型选择：停止把AI当作商品——将模型与您实际构建的内容相匹配

$文档自动化数学：Claude Opus 4.7视觉升级如何改变ROI计算$

文档自动化数学：Claude Opus 4.7视觉升级如何改变ROI计算

微软Frontier Tuning框架详解：为何定制模型优于通用AI