AI Tech News
By M.R.

Claude Sonnet 5的新分词器:为什么你的成本在9月1日增加30%

Claude Sonnet 5的新分词器:为什么你的成本在9月1日增加30%

表面数字隐藏了真实情况

Claude Sonnet 5的定价与Claude Sonnet 4.6相同——每百万输入Token 3美元,每百万输出Token 15美元。相同的费率,相同的层级。从表面上看,迁移似乎没有任何问题。

但当你检查Token计数时,问题就出现了。相同的输入文本在Claude Sonnet 5上产生的Token数比Claude Sonnet 4.6多约30%。不是输出质量提升30%,而是相同输入的可计费Token增加30%。

这就是数学开始变得令人不安的地方。一个持续到2026年8月31日的介绍性定价窗口目前使这种成本保持中立。之后,今天成本较低的工作负载在9月1日将增加20-35%的成本——尽管费率表仍然显示"$3/$15,与Sonnet 4.6保持不变"。

分词器如何实际工作

具体增幅取决于内容。Anthropic公布了一个范围:根据输入内容的不同,Token增加大约1.0倍到1.35倍。代码、结构化数据和非英文文本受影响最大。一个10,000 Token的Python脚本可能变成13,500个Token。一段英文散文可能膨胀到11,000个Token。

这不是一个错误。Sonnet 5使用新的分词器,与Opus 4.7引入的相同,它以不同的方式处理文本以提高性能,代价是相同的文本映射到约30%更多的Token

分词器更改是有意的。更精细的编码帮助模型在推理、编码和Agent任务上表现更好——基准测试显示整体有意义的改进。你获得能力提升;成本是以Token数衡量的。

三项重要的迁移检查

1. 上下文窗口容量

上下文窗口是1M Token,但每个Token平均覆盖的文本更少,所以相同的窗口比Claude Sonnet 4.6容纳的文本更少。如果你的Agent流水线已经在Sonnet 4.6中填充了900,000个Token的代码库上下文,迁移到Sonnet 5之前需要重新计算。相同的代码库可能不再适应相同的上下文窗口。

2. max_tokens预算

为Claude Sonnet 4.6优化的输出限制可能会在Claude Sonnet 5上截断等效的输出。如果你的代码设置`max_tokens=4096`来期望特定的响应长度,Sonnet 5可能会更早达到这个限制,因为它的推理步骤每步消耗更多Token。在部署前,根据真实流量测试你的输出限制。

3. Prompt缓存失效

Anthropic的Prompt缓存在模型级别存储Token序列。来自Claude Opus 4.8的缓存序列不会转移到Claude Fable 5,即使是相同的文本内容,因为不同的分词器版本之间的底层Token ID不同。这也适用于Sonnet 5。来自4.6的缓存系统Prompt、代码库和文档在Sonnet 5生产流量的第一天就变成了冷缓存。规划一个冷缓存预热期。

当介绍性费率过期时

目前(至2026年8月31日),每百万输入/输出Token 2美元/10美元的介绍性定价有效期至2026年8月31日,之后每百万输入/输出Token 3美元/15美元的标准定价将生效

让我们测量这个悬崖的形状。假设你目前在Sonnet 4.6上运行每天500万输入Token和50万输出Token的真实工作负载:

时期 每日Token数 输入成本 输出成本 日成本总计
Sonnet 4.6(基线) 5M输入/0.5M输出 $15.00 $7.50 $22.50
Sonnet 5(7-8月,介绍性定价) 6.5M输入/0.65M输出 $13.00 $6.50 $19.50
Sonnet 5(9月1日+,标准定价) 6.5M输入/0.65M输出 $19.50 $9.75 $29.25

那个工作负载在7月每天节省3美元。然后在9月1日,它比基线每天多花6.75美元——而费率表看起来是平的。

大多数团队低估实际成本的地方

Claude Sonnet 5在等效任务上产生的Token比早期模型多约30%——其较低的单位Token价格并不会自动使其在实际应用中更便宜。对于单轮交互,这影响较小。对于Agent工作流,它会复合增长。

在Agent工作流中,冗长度在多个步骤中复合增长,特别是当启用扩展思考时,总Token消耗可能使Sonnet 5的实际成本高于Opus。如果每个步骤产生30%更多的输出,该输出就成为下一步骤的输入。一个两步Agent看到大约1.3× × 1.3× = 1.69×的总Token膨胀。

此外,自适应思考在Sonnet 5上默认启用。与Sonnet 4.6不同(你手动控制扩展思考预算),Sonnet 5会决定何时进行内部推理。这些推理步骤消耗单独计费的Token——它们不是可见响应的一部分,但它们确实会出现在你的账单上

迁移前的实用检查清单

根据你计划使用的模型重新计算Prompt的Token数,而不是重复使用针对早期模型测量的计数。在真实流量的代表性样本上使用Token计数API,使用`model: "claude-sonnet-5"`——而不是合成Prompt。如果可以,批量处理100+个示例。

重新计算你的Token预算。如果你有迁移前Token检查或路由策略来强制执行每个提供商的阈值,将旧的阈值乘以0.77(1.3的倒数)以找到新分词器术语中等效的迁移前输入大小

在真实工作负载上测试max_tokens限制。在Sonnet 4.6上在3,000 Token内完成的响应在Sonnet 5上可能需要3,900个Token。如果你的代码有硬编码的限制,你会截断有效的输出。

规划冷缓存。如果你使用Prompt缓存,预期在Sonnet 5流量的第一波期间延迟和成本会更高。将其视为预热期,而不是代表稳定状态。

这对你的预算意味着什么

Sonnet 5是真正的能力步进——基准测试在编码、推理和Agent任务中证实了这一点。但能力并不存在于经济之外。

三个数字很重要:介绍性费率(8月31日到期)、标准费率(9月1日生效)和分词器倍数(永久固化)。如果你现在正在测试Sonnet 5,你看到的是第一个数字。为第二个和第三个做准备。

不要重复使用针对早期模型测量的计数;根据Claude Sonnet 5重新计算。在9月1日定价而不是7月定价下衡量你自己的工作负载成本。"大致成本中立"和"贵30%"之间的区别在于你承诺之前测量的细节中。