Token
Token
O Que É Token
Token é a unidade básica de processamento de texto em modelos de linguagem. Não é exatamente uma palavra, nem um caractere — é algo intermediário, definido pelo algoritmo de tokenização de cada modelo. Uma palavra comum como “casa” pode ser um único token, enquanto uma palavra longa ou incomum como “extraordinariamente” pode ser dividida em três ou quatro tokens.
Para ter uma intuição prática: em português, um token equivale aproximadamente a 4 caracteres ou 0,75 palavras. Uma página de texto com 500 palavras tem aproximadamente 650 a 700 tokens. Uma conversa de 10 turnos com mensagens médias pode facilmente acumular 3.000 a 5.000 tokens, e documentos empresariais completos frequentemente chegam a dezenas de milhares.
Tokens são a unidade de conta do mundo de IA: APIs cobram por token processado, modelos têm limites de tokens por requisição, e a velocidade de processamento é medida em tokens por segundo. Entender tokens é fundamental para qualquer pessoa que trabalha com IA em produção — é a diferença entre otimizar custos e gastar desnecessariamente.
Como Funciona
O processo de tokenização converte texto em uma sequência de números inteiros que o modelo pode processar. Cada número corresponde a um token no vocabulário do modelo — uma tabela que pode ter 32.000 a 128.000 entradas dependendo do modelo.
Algoritmos modernos como BPE (Byte Pair Encoding) e SentencePiece criam vocabulários de subpalavras que equilibram eficiência e cobertura linguística. Palavras frequentes ficam como tokens únicos; palavras raras são decompostas em subpalavras. Isso permite que o modelo lide com palavras que nunca viu antes sem quebrar completamente.
Texto: "Inteligência Artificial"
Tokenização provável:
["Int", "elig", "ência", " Art", "ificial"]
= 5 tokens
Texto: "IA"
= 1 token (abreviação comum)
Texto: "OpenClaw é incrível!"
["Open", "Cl", "aw", " é", " incrível", "!"]
= 6 tokens
Uma consequência importante: texto em português tipicamente usa mais tokens do que o mesmo texto em inglês, porque os tokenizadores dos principais modelos foram treinados com maior proporção de inglês. Isso significa que prompts e respostas em português custam ligeiramente mais e consomem mais contexto do que equivalentes em inglês.
Exemplo Prático
Uma startup de RH em São Paulo automatizou a triagem de currículos com o OpenClaw. Cada currículo tem em média 600 palavras (aproximadamente 900 tokens). O prompt de análise tem 300 tokens. A resposta do modelo tem em média 400 tokens.
Custo por currículo: 1.600 tokens. Com Claude 3.5 Sonnet (aproximadamente $3 por 1M tokens de entrada + $15 por 1M de saída), o custo total fica em torno de R$ 0,02 por currículo. Para triar 1.000 currículos por mês, o custo de IA é de apenas R$ 20 — uma fração do tempo que um recrutador gastaria na mesma tarefa.
Esse cálculo só foi possível porque a equipe entendeu como estimar tokens antes de escolher o modelo e planejar a automação. Sem esse entendimento, podem surgir surpresas desagradáveis na fatura de API no final do mês.
Importância para Empresas
Para empresas que operam IA em escala, o custo por token é o principal componente do custo operacional de IA. Otimizar o uso de tokens — sem comprometer a qualidade das respostas — é uma disciplina em si. Isso inclui escrever system prompts concisos mas eficazes, implementar sumarização de histórico em conversas longas, usar RAG em vez de enviar documentos inteiros no contexto, e escolher o modelo menor que ainda atende a qualidade necessária.
O token limit também afeta diretamente o design dos sistemas. Chatbots de atendimento que mantêm histórico ilimitado vão eventualmente atingir o limite de contexto do modelo e precisarão de estratégias de gerenciamento. Sistemas de análise de documentos precisam de estratégias para lidar com arquivos que excedem o context window. Pensar em tokens desde o início do projeto evita retrabalho caro em produção.
Além do custo, tokens afetam a velocidade. Modelos processam tokens sequencialmente na geração (mesmo que a entrada seja paralela), então respostas mais longas demoram mais para chegar. Para experiências de usuário que exigem responsividade, configurar o max_tokens adequadamente e usar streaming são técnicas importantes que requerem entender o conceito de token.
Tokens no OpenClaw
O OpenClaw otimiza automaticamente o uso de tokens em várias dimensões. A plataforma monitora o uso de contexto em tempo real, comprime histórico de conversas quando necessário, e oferece um dashboard de uso que permite identificar quais fluxos consomem mais tokens e onde há oportunidade de otimização.
Você pode ver seu uso de tokens com /status dentro do OpenClaw. A plataforma também implementa cache de system prompts — uma funcionalidade da API da Anthropic que evita reprocessar o mesmo system prompt em cada requisição, gerando economia de até 90% no custo dos tokens de sistema.
Termos Relacionados
Perguntas Frequentes
Como contar tokens antes de enviar para a API?
Use a biblioteca tiktoken da OpenAI para modelos GPT, ou a biblioteca oficial da Anthropic para Claude. O OpenClaw exibe a contagem de tokens em tempo real no dashboard. Alternativamente, a regra de ouro é: palavras em português × 1,5 ≈ tokens.
Por que texto em português tem mais tokens que em inglês? Os tokenizadores dos principais modelos foram criados com datasets majoritariamente em inglês, então o vocabulário é mais eficiente para essa língua. Uma palavra em inglês tem maior probabilidade de ser um único token, enquanto palavras com acentos e conjugações do português são frequentemente divididas em mais tokens.
Tokens de entrada e saída custam o mesmo? Não. Na maioria das APIs, tokens de saída custam mais do que tokens de entrada — às vezes 3 a 5 vezes mais. Isso faz sentido: gerar texto é computacionalmente mais custoso do que processá-lo. Portanto, respostas longas aumentam desproporcionalmente o custo.
Imagens também consomem tokens? Sim. Modelos multimodais como GPT-4V e Claude 3 convertem imagens em tokens para processamento. Uma imagem em resolução padrão pode consumir de 300 a 1.700 tokens dependendo do tamanho e do modelo, o que pode ser significativo para aplicações que processam muitas imagens.
Tem como reduzir tokens sem perder qualidade?
Sim. Técnicas incluem: escrever system prompts concisos (sem repetições), usar RAG em vez de documentos completos no contexto, configurar max_tokens adequado para a tarefa, sumarizar histórico longo, e escolher o modelo certo para cada tarefa.