Claude Sonnet 5の新しいトークナイザー:9月1日から始まる30%のコスト増加の理由
見出しが数字を隠している
Claude Sonnet 5の価格はClaude Sonnet 4.6と同じ。入力トークンは100万トークンあたり3円、出力トークンは100万トークンあたり15円です。同じレート、同じティア。紙の上では移行は簡単に見えます。
しかし、トークン数を確認するとどうなるか。同じ入力テキストは、Claude Sonnet 4.6よりも約30%多くのトークンを生成します。出力が30%良くなるわけではなく、同じ入力に対して請求可能なトークンが30%増えるのです。
ここで数学は快適ではなくなります。2026年8月31日までの導入期間の価格設定により、現在はコスト中立のままです。その後、今日より少ないコストで実行されるワークロードは、9月1日にはレートカードが「$3/$15で変わらない」と表示されていても、20~35%以上のコストがかかるようになります。
トークナイザーの実装方法
正確な増加量はコンテンツに応じて異なります。Anthropicは公開されている範囲を示しています。供給するものに応じて、およそ1.0倍から1.35倍のトークンになります。コード、構造化データ、非英語のテキストが最も影響を受けます。10,000トークンのPythonスクリプトは13,500トークンになる可能性があります。英文のテキストは約11,000トークンに増加する可能性があります。
これはバグではありません。Sonnet 5はOpus 4.7で導入された新しいトークナイザーを使用しており、テキストを異なる方法で処理してパフォーマンスを向上させます。その代わりに、同じテキストが約30%多くのトークンにマップされるというトレードオフがあります。
トークナイザーの変更は意図的なものです。より細粒度のエンコーディングにより、モデルは推論、コーディング、エージェントタスクのパフォーマンスが向上します。ベンチマークは全体で有意な改善を示しています。機能を向上させることができますが、代償はトークンで測定されます。
重要な3つの移行確認
1. コンテキストウィンドウの容量
コンテキストウィンドウは100万トークンですが、各トークンが平均してより少ないテキストをカバーするため、同じウィンドウにはClaude Sonnet 4.6よりも少ないテキストが保持されます。エージェントパイプラインが既にSonnet 4.6に900,000トークンのコードベースコンテキストを詰め込んでいる場合は、Sonnet 5に移行する前に再計算してください。同じコードベースは同じコンテキストウィンドウに収まらなくなる可能性があります。
2. max_tokensの予算
Claude Sonnet 4.6に調整された出力制限は、Claude Sonnet 5の同等の出力を切り詰める可能性があります。特定の応答長を期待して`max_tokens=4096`を設定するコードがある場合、Sonnet 5は推論ステップがステップあたり多くのトークンを消費するため、より早くこの上限に達する可能性があります。デプロイする前に、実際のトラフィックに対して出力制限をテストしてください。
3. プロンプトキャッシングの無効化
Anthropicのプロンプトキャッシュは、トークンシーケンスをモデル固有のレベルで保存します。Claude Opus 4.8からのキャッシュされたシーケンスは、同じテキストコンテンツであっても、基礎となるトークンIDがトークナイザーのバージョン間で異なるため、Claude Fable 5に引き継がれません。これはSonnet 5にも適用されます。4.6からのキャッシュされたシステムプロンプト、コードベース、ドキュメントは、Sonnet 5本番トラフィックの初日からコールドキャッシュになります。コールドキャッシュのバーンイン期間を計画してください。
導入期間の価格設定が期限切れになるとき
本日(2026年8月31日まで)、入出力トークンあたり100万トークンの導入価格は$2/$10で2026年8月31日まで有効で、その後は標準価格の$3/$15が適用されます。
その崖の形を測定しましょう。今日、Sonnet 4.6で1日あたり500万の入力トークンと50万の出力トークンを実行する実際のワークロードを実行しているとします:
| 期間 | 1日あたりのトークン | 入力コスト | 出力コスト | 1日の合計 |
|---|---|---|---|---|
| Sonnet 4.6(ベースライン) | 500万 入力 / 50万 出力 | ¥1,500 | ¥750 | ¥2,250 |
| Sonnet 5(7月~8月、導入価格) | 650万 入力 / 65万 出力 | ¥1,300 | ¥650 | ¥1,950 |
| Sonnet 5(9月1日以降、標準価格) | 650万 入力 / 65万 出力 | ¥1,950 | ¥975 | ¥2,925 |
そのワークロードは7月に1日あたり¥300節約できます。その後、9月1日には、ベースラインより1日あたり¥675以上コストがかかるようになります。レートカードは平坦に見えていますが。
ほとんどのチームが実際のコストを過少計算する場所
Claude Sonnet 5は、同等のタスクで以前のモデルよりも約30%多くのトークンを生成します。その低いトークンあたりの価格は、実際には自動的にそれを安くしません。1ターンのインタラクションでは、これは重要性が低い。エージェントワークフローでは、複合化します。
複数のステップをまたいで冗長性が複合化するエージェントワークフローで、特に拡張思考が有効化されている場合、合計トークン消費量はSonnet 5の実際のコストをOpusより上回る可能性があります。各ステップが出力を30%多く生成する場合、その出力は次のステップへの入力になります。2段階のエージェントは、およそ1.3倍×1.3倍=1.69倍の合計トークンインフレーションを見ます。
さらに、適応思考はSonnet 5ではデフォルトで有効化されています。Sonnet 4.6では、拡張思考予算を手動で制御していましたが、Sonnet 5は内部的に推論するタイミングを決定します。これらの推論ステップは個別に請求されるトークンを消費します。表示される応答の一部ではありませんが、請求書には表示されます。
移行前の実践的なチェックリスト
以前のモデルに対して測定されたカウントを再利用するのではなく、使用予定のモデルに対してプロンプトを再度カウントしてください。トークンカウントAPIを`model: "claude-sonnet-5"`で実際のトラフィックの代表的なサンプルに対して使用してください。合成プロンプトではありません。できれば100以上の例をバッチ処理してください。
トークン予算を再計算してください。事前フライトのトークン確認またはプロバイダーごとの閾値を強制するルーティングポリシーがある場合、古い閾値に0.77を掛け(1.3の逆数)、新しいトークナイザー用語での同等の移行前入力サイズを見つけてください。
実際のワークロードでmax_tokensの制限をテストしてください。Sonnet 4.6で3,000トークンで完了する応答は、Sonnet 5では3,900トークンが必要になる可能性があります。コードがハードコードされた制限を持っている場合、有効な出力を切り詰めてしまいます。
コールドキャッシュを計画してください。プロンプトキャッシングを使用する場合、Sonnet 5トラフィックの最初の波でレイテンシとコストが高くなることを予想してください。これを定常状態の代表ではなく、バーンイン期間として扱ってください。
予算に対する意味
Sonnet 5は本当の機能的な進歩です。ベンチマークはコーディング、推論、エージェントタスク全体で確認しています。しかし、機能は経済の外に存在しません。
3つの数字が重要です:導入レート(8月31日に期限切れ)、標準レート(9月1日に開始)、トークナイザー乗数(永遠に組み込まれている)。現在Sonnet 5をテストしている場合、最初の数字を見ています。2番目と3番目を計画してください。
以前のモデルに対して測定されたカウントを再利用しないでください。Claude Sonnet 5に対して再度カウントしてください。9月1日の価格でワークロードコストを測定し、7月の価格ではありません。「ほぼコスト中立」と「30%以上高コスト」の違いは、あなたがコミットする前に測定する詳細に存在します。