2026-07-03By M.R.

Novo Tokenizador do Claude Sonnet 5: Por Que Seu Aumento de Custo de 30% Começa em 1º de Setembro

Claude Sonnet 5 API costs tokenizer token counting LLM pricing

A Manchete Esconde a Matemática

O preço do Claude Sonnet 5 corresponde ao Claude Sonnet 4.6 — R$ 15 (aproximadamente $3 USD) por milhão de tokens de entrada, R$ 75 (aproximadamente $15 USD) por milhão de tokens de saída. Mesma taxa, mesma categoria. No papel, a migração parece indolor.

Então você verifica suas contagens de tokens. O mesmo texto de entrada produz aproximadamente 30% mais tokens do que no Claude Sonnet 4.6. Não 30% melhor na saída. 30% mais tokens faturáveis para a mesma entrada.

É aqui que a matemática deixa de ser confortável. Uma janela de preço introdutório funcionando até 31 de agosto de 2026 mantém isso neutro em custo por enquanto. Depois disso, uma carga de trabalho que custa menos hoje custará 20–35% mais em 1º de setembro — mesmo que a tabela de preços ainda indique "R$ 15/R$ 75, inalterado em relação ao Sonnet 4.6".

Como o Tokenizador Realmente Funciona

O aumento exato depende do conteúdo. A Anthropic publica um intervalo: aproximadamente 1,0× a 1,35× mais tokens dependendo do que você fornece. Código, dados estruturados e texto em idiomas não-ingleses são os mais afetados. Um script Python com 10.000 tokens pode se tornar 13.500 tokens. Uma passagem de prosa em inglês pode inchar para 11.000 tokens.

Isso não é um bug. O Sonnet 5 usa um novo tokenizador, o mesmo introduzido com o Opus 4.7, que processa o texto de forma diferente para melhorar o desempenho, com o compromisso de que o mesmo texto mapeia para aproximadamente 30% mais tokens.

A mudança do tokenizador é intencional. Uma codificação mais granular ajuda o modelo a ter melhor desempenho em tarefas de raciocínio, codificação e agentic — os benchmarks mostram melhorias significativas em toda a linha. Você ganha capacidade; o custo é medido em tokens.

Três Verificações de Migração Que Importam

1. Capacidade da Janela de Contexto

A janela de contexto é de 1M tokens, mas cada token cobre menos texto em média, portanto a mesma janela contém menos texto do que no Claude Sonnet 4.6. Se seus pipelines de agentes já estão inserindo 900.000 tokens de contexto de base de código no Sonnet 4.6, recalcule antes de passar para o Sonnet 5. A mesma base de código pode não caber mais na mesma janela de contexto.

2. Orçamentos de max_tokens

Um limite de saída ajustado para Claude Sonnet 4.6 pode truncar saída equivalente no Claude Sonnet 5. Se seu código define `max_tokens=4096` esperando um comprimento de resposta específico, o Sonnet 5 pode atingir esse limite mais cedo porque suas etapas de raciocínio consomem mais tokens por etapa. Teste seus limites de saída contra tráfego real antes de implantar.

3. Invalidação de Cache de Prompt

O cache de prompt da Anthropic armazena sequências de tokens em um nível específico do modelo. Uma sequência em cache do Claude Opus 4.8 não é transferida para o Claude Fable 5, mesmo para o mesmo conteúdo de texto, porque os IDs de token subjacentes diferem entre versões de tokenizador. Isso também se aplica ao Sonnet 5. Prompts de sistema em cache, bases de código e documentos do 4.6 ficam com cache frio no primeiro dia do tráfego de produção do Sonnet 5. Planeje um período de aquecimento com cache frio.

Quando a Taxa Introdutória Expira

Hoje (até 31 de agosto de 2026), o preço introdutório de R$ 10 (aproximadamente $2 USD) / R$ 50 (aproximadamente $10 USD) por milhão de tokens de entrada/saída está em vigor até 31 de agosto de 2026, após o qual o preço padrão de R$ 15 (aproximadamente $3 USD) / R$ 75 (aproximadamente $15 USD) por milhão de tokens de entrada/saída entrará em vigor.

Vamos medir a forma desse precipício. Digamos que você execute uma carga de trabalho real com 5 milhões de tokens de entrada e 500.000 tokens de saída por dia no Sonnet 4.6 hoje:

Período	Tokens por Dia	Custo de Entrada	Custo de Saída	Total Diário
Sonnet 4.6 (linha de base)	5M entrada / 0,5M saída	R$ 75,00	R$ 37,50	R$ 112,50
Sonnet 5 (julho–ago, preço introdutório)	6,5M entrada / 0,65M saída	R$ 65,00	R$ 32,50	R$ 97,50
Sonnet 5 (1º de set+, preço padrão)	6,5M entrada / 0,65M saída	R$ 97,50	R$ 48,75	R$ 146,25

Essa carga de trabalho economiza R$ 15 por dia em julho. Então em 1º de setembro, ela custa R$ 33,75 a mais por dia do que a linha de base — enquanto a tabela de preços parece estar estagnada.

Onde a Maioria das Equipes Subestima o Custo Real

O Claude Sonnet 5 gera aproximadamente 30% mais tokens do que modelos anteriores em tarefas equivalentes — seu preço mais baixo por token não o torna automaticamente mais barato na prática. Para interações de turno único, isso importa menos. Para fluxos de trabalho agentic, é composto.

Em fluxos de trabalho agentic onde a verbosidade é composta em múltiplas etapas, e especialmente quando o pensamento estendido está ativado, o consumo total de tokens pode fazer o custo real do Sonnet 5 ser superior ao do Opus. Se cada etapa produz 30% mais saída, essa saída se torna entrada para a próxima etapa. Um agente de duas etapas vê aproximadamente 1,3× × 1,3× = 1,69× de inflação total de tokens.

Além disso, o pensamento adaptativo está ativado por padrão no Sonnet 5. Ao contrário do Sonnet 4.6, onde você controlava manualmente orçamentos de pensamento estendido, o Sonnet 5 decide quando fazer raciocínio interno. Essas etapas de raciocínio consomem tokens que são faturados separadamente — eles não fazem parte da resposta visível, mas aparecem em sua fatura.

A Lista de Verificação Prática Antes da Migração

Reconte os prompts contra o modelo que você planeja usar em vez de reutilizar contagens medidas contra modelos anteriores. Use a API de contagem de tokens com `model: "claude-sonnet-5"` em uma amostra representativa do seu tráfego real — não um prompt sintético. Faça lote com 100+ exemplos se possível.

Recalcule seus orçamentos de tokens. Se você tem verificações de pré-voo de tokens ou políticas de roteamento que impõem limites por provedor, multiplique os antigos limites por 0,77 (o inverso de 1,3) para encontrar o tamanho equivalente de entrada anterior à migração em termos do novo tokenizador.

Teste limites de max_tokens em uma carga de trabalho real. Uma resposta que se completa em 3.000 tokens no Sonnet 4.6 pode precisar de 3.900 tokens no Sonnet 5. Se seu código tem limites codificados, você truncará saída válida.

Planeje para cache frio. Se você usa cache de prompt, espere que latência e custo sejam maiores durante a primeira onda de tráfego do Sonnet 5. Trate isso como um período de aquecimento, não representativo do estado estacionário.

O Que Isso Significa para Seu Orçamento

O Sonnet 5 é um avanço real de capacidade — os benchmarks confirmam isso em codificação, raciocínio e tarefas agentic. Mas capacidade não fica fora da economia.

Três números importam: a taxa introdutória (expira em 31 de agosto), a taxa padrão (entra em vigor em 1º de setembro) e o multiplicador tokenizador (incorporado para sempre). Se você está testando o Sonnet 5 agora, está vendo o primeiro número. Planeje para o segundo e terceiro.

Não reutilize contagens medidas contra modelos anteriores; reconte contra o Claude Sonnet 5. Meça os custos da sua própria carga de trabalho com preços de 1º de setembro, não os de julho. A diferença entre "aproximadamente neutro em custo" e "30% mais caro" está no detalhe que você mede antes de se comprometer.

Fontes

Quando Todo Modelo Marca 88%: Por Que a Saturação de Benchmarks Está Quebrando a Avaliação de IA

Seleção de Modelos Específicos por Tarefa: Pare de Tratar IA como Commodity—Alinhe Modelos ao Que Você Realmente Constrói

$A Matemática da Automação de Documentos: Por Que a Atualização de Visão do Claude Opus 4.7 Muda o Cálculo de ROI$

A Matemática da Automação de Documentos: Por Que a Atualização de Visão do Claude Opus 4.7 Muda o Cálculo de ROI

Framework de Frontier Tuning da Microsoft Explicado: Por Que Modelos Personalizados Superam IA Genérica