El nuevo tokenizador de Claude Sonnet 5: Por qué tu aumento de costos del 30% comienza el 1 de septiembre
El titular oculta las matemáticas
Los precios de Claude Sonnet 5 coinciden con Claude Sonnet 4.6 — 3 EUR por millón de tokens de entrada, 15 EUR por millón de tokens de salida. La misma tarifa, el mismo nivel. En el papel, la migración se ve sin problemas.
Luego revisas tus conteos de tokens. El mismo texto de entrada produce aproximadamente un 30% más de tokens que en Claude Sonnet 4.6. No un 30% mejor de salida. Un 30% más de tokens facturables para la misma entrada.
Aquí es donde las matemáticas dejan de ser cómodas. Una ventana de precios introductoria que se extiende hasta el 31 de agosto de 2026 mantiene esto neutral en costos por ahora. Después de eso, una carga de trabajo que cuesta menos hoy costará entre 20–35% más el 1 de septiembre — aunque la tarifa siga mostrando "3/15 EUR, sin cambios respecto a Sonnet 4.6".
Cómo funciona realmente el tokenizador
El aumento exacto depende del contenido. Anthropic publica un rango: aproximadamente 1,0× a 1,35× más tokens según lo que le proporciones. El código, los datos estructurados y el texto en idiomas distintos del inglés se ven más afectados. Un script de Python de 10.000 tokens podría convertirse en 13.500 tokens. Un pasaje de prosa en inglés podría inflarse a 11.000 tokens.
Esto no es un error. Sonnet 5 utiliza un nuevo tokenizador, el mismo que se introdujo con Opus 4.7, que procesa el texto de manera diferente para mejorar el rendimiento, con la compensación de que el mismo texto se asigna a aproximadamente un 30% más de tokens.
El cambio del tokenizador es intencional. Una codificación más granular ayuda al modelo a desempeñarse mejor en tareas de razonamiento, codificación y agentes — los benchmarks muestran mejoras significativas en todos los ámbitos. Ganas capacidad; el costo se mide en tokens.
Tres comprobaciones de migración que importan
1. Capacidad de la ventana de contexto
La ventana de contexto es de 1M tokens, pero cada token cubre menos texto en promedio, por lo que la misma ventana contiene menos texto que en Claude Sonnet 4.6. Si tus pipelines de agentes ya están metiendo 900.000 tokens de contexto de base de código en Sonnet 4.6, recalcula antes de pasar a Sonnet 5. La misma base de código podría no caber en la misma ventana de contexto ya.
2. Presupuestos de max_tokens
Un límite de salida ajustado para Claude Sonnet 4.6 puede truncar la salida equivalente en Claude Sonnet 5. Si tu código establece `max_tokens=4096` esperando una longitud de respuesta específica, Sonnet 5 podría alcanzar ese límite más temprano porque sus pasos de razonamiento consumen más tokens por paso. Prueba tus límites de salida contra tráfico real antes de desplegar.
3. Invalidación de almacenamiento en caché de prompts
El almacenamiento en caché de prompts de Anthropic almacena secuencias de tokens a nivel específico del modelo. Una secuencia en caché de Claude Opus 4.8 no se transfiere a Claude Fable 5, incluso para el mismo contenido de texto, porque los IDs de token subyacentes difieren entre versiones del tokenizador. Esto también se aplica a Sonnet 5. Los prompts de sistema, bases de código y documentos en caché de 4.6 se convierten en caché frío el primer día del tráfico de producción de Sonnet 5. Planifica un período de quemado de caché frío.
Cuando expire la tarifa introductoria
Hoy (hasta el 31 de agosto de 2026), la tarifa introductoria de 2/10 EUR por millón de tokens de entrada/salida está en vigor hasta el 31 de agosto de 2026, después de lo cual entrará en vigor la tarifa estándar de 3/15 EUR por millón de tokens de entrada/salida.
Midamos la forma de ese acantilado. Digamos que ejecutas una carga de trabajo real de 5 millones de tokens de entrada y 500.000 tokens de salida por día en Sonnet 4.6 hoy:
| Período | Tokens por día | Costo de entrada | Costo de salida | Total diario |
|---|---|---|---|---|
| Sonnet 4.6 (línea base) | 5M entrada / 0,5M salida | 15,00 EUR | 7,50 EUR | 22,50 EUR |
| Sonnet 5 (julio–ago, tarifa intro) | 6,5M entrada / 0,65M salida | 13,00 EUR | 6,50 EUR | 19,50 EUR |
| Sonnet 5 (1 de sept+, tarifa estándar) | 6,5M entrada / 0,65M salida | 19,50 EUR | 9,75 EUR | 29,25 EUR |
Esa carga de trabajo ahorra 3 EUR por día en julio. Luego el 1 de septiembre, cuesta 6,75 EUR más por día que la línea base — mientras que la tarifa parece plana.
Dónde la mayoría de los equipos subestiman el costo real
Claude Sonnet 5 genera aproximadamente un 30% más de tokens que los modelos anteriores en tareas equivalentes — su precio más bajo por token no lo hace automáticamente más barato en la práctica. Para interacciones de un solo turno, esto importa menos. Para flujos de trabajo de agentes, se compone.
En flujos de trabajo de agentes donde la verbosidad se compone en múltiples pasos, y especialmente cuando se habilita el pensamiento extendido, el consumo total de tokens puede empujar el costo real de Sonnet 5 por encima de Opus. Si cada paso produce un 30% más de salida, esa salida se convierte en entrada para el siguiente paso. Un agente de dos pasos ve aproximadamente 1,3× × 1,3× = 1,69× inflación total de tokens.
Además, el pensamiento adaptativo está activado por defecto en Sonnet 5. A diferencia de Sonnet 4.6, donde controlabas manualmente presupuestos de pensamiento extendido, Sonnet 5 decide cuándo razonar internamente. Estos pasos de razonamiento consumen tokens que se facturan por separado — no son parte de la respuesta visible pero sí aparecen en tu factura.
La lista de comprobación práctica antes de migrar
Vuelve a contar los prompts contra el modelo que planeas usar en lugar de reutilizar conteos medidos contra modelos anteriores. Utiliza la API de conteo de tokens con `model: "claude-sonnet-5"` en una muestra representativa de tu tráfico real — no un prompt sintético. Procesa 100+ ejemplos si puedes.
Recalcula tus presupuestos de tokens. Si tienes comprobaciones de tokens de vuelo previo o políticas de enrutamiento que hacen cumplir umbrales por proveedor, multiplica los umbrales antiguos por 0,77 (el inverso de 1,3) para encontrar el tamaño de entrada equivalente previo a la migración en los términos del nuevo tokenizador.
Prueba los límites de max_tokens en una carga de trabajo real. Una respuesta que se completa en 3.000 tokens en Sonnet 4.6 podría necesitar 3.900 tokens en Sonnet 5. Si tu código tiene límites codificados, truncarás la salida válida.
Planifica caché frío. Si utilizas almacenamiento en caché de prompts, espera que la latencia y el costo sean más altos durante la primera ola de tráfico de Sonnet 5. Trata eso como un período de quemado, no como representativo del estado estable.
Qué significa esto para tu presupuesto
Sonnet 5 es un verdadero paso adelante en capacidad — los benchmarks lo confirman en codificación, razonamiento y tareas de agentes. Pero la capacidad no se sitúa fuera de la economía.
Tres números importan: la tarifa introductoria (expira el 31 de agosto), la tarifa estándar (entra en vigor el 1 de septiembre) y el multiplicador del tokenizador (grabado para siempre). Si estás probando Sonnet 5 ahora, estás viendo el primer número. Planifica el segundo y el tercero.
No reutilices conteos medidos contra modelos anteriores; vuelve a contar contra Claude Sonnet 5. Mide los costos de tu propia carga de trabajo con precios del 1 de septiembre, no los de julio. La diferencia entre "aproximadamente neutral en costos" y "30% más caro" se encuentra en el detalle que midas antes de comprometerte.