Custo por Token

Custo por Token

O Que É Custo por Token

Custo por token é o modelo de precificação adotado pelas principais APIs de IA. Em vez de cobrar uma mensalidade fixa, provedores como Anthropic, OpenAI e Google cobram pelo volume de texto processado — medido em tokens, que são as unidades básicas de processamento dos LLMs. Quanto mais texto você processa (envia e recebe), mais paga.

Um token corresponde aproximadamente a 4 caracteres em inglês ou a uma sílaba em português. Uma palavra em português equivale em média a 1,3-1,5 tokens. Um parágrafo de 100 palavras tem em torno de 130-150 tokens. Uma página de texto denso (400 palavras) tem aproximadamente 500-600 tokens. Os preços são geralmente cotados em dólares por 1.000 tokens ou por 1 milhão de tokens (MTok).

O modelo de precificação distingue entre tokens de entrada (input tokens — o texto que você envia ao modelo, incluindo o system prompt e o histórico da conversa) e tokens de saída (output tokens — o texto que o modelo gera como resposta). Tokens de saída geralmente custam entre 3x e 5x mais do que tokens de entrada, porque gerar texto é computacionalmente mais intensivo do que processá-lo.

Como Funciona

A fatura de uso de API de IA tem vários componentes que somam o custo total. O system prompt (as instruções que definem o comportamento do agente) é enviado em cada requisição — se seu system prompt tem 1.000 tokens e você faz 10.000 requisições por mês, são 10 milhões de tokens de entrada só de system prompt. O histórico da conversa é incluído em cada mensagem subsequente para manter contexto — quanto mais longa a conversa, mais tokens de entrada por requisição. A resposta gerada (output tokens) é geralmente a maior variável, dependendo de quanto texto o modelo precisa produzir.

Para calcular o custo de uma operação específica, some os tokens de entrada (system prompt + histórico + mensagem atual) multiplicados pelo preço de input, mais os tokens de saída multiplicados pelo preço de output. Ferramentas como o tokenizer da OpenAI ou a API da Anthropic permitem contar tokens antes de enviar requisições, facilitando a estimativa de custo.

Modelos diferentes têm preços muito diferentes. Claude Haiku e GPT-4o Mini custam uma fração de centavo por milhão de tokens e são adequados para tarefas simples como classificação e respostas curtas. Claude Sonnet e GPT-4o têm preço intermediário e oferecem boa qualidade para a maioria dos casos de uso. Claude Opus e GPT-4 têm o maior preço e são reservados para tarefas que exigem máxima capacidade de raciocínio.

Exemplo Prático

Uma startup de logística em Manaus usa IA para automatizar o atendimento ao cliente via WhatsApp. Antes de otimizar custos, o sistema usava Claude Opus para todas as interações — afinal, queriam a melhor qualidade possível. Com 5.000 conversas por mês, cada uma com média de 10 mensagens e respostas de 200 tokens, os custos chegaram a R$ 4.500/mês só de API.

Com uma estratégia de otimização, a equipe mapeou os tipos de mensagem: 60% eram consultas simples de rastreio ou status de entrega (respostas curtas, baixa complexidade), 30% eram dúvidas moderadas sobre horários e procedimentos, e 10% eram reclamações ou situações complexas que exigiam raciocínio elaborado.

Após a otimização: consultas simples passaram a usar Claude Haiku (10x mais barato), dúvidas moderadas passaram para Claude Sonnet (3x mais barato que Opus), e apenas situações complexas continuaram com Claude Opus. System prompts foram otimizados para remover informações redundantes. O custo caiu para R$ 1.100/mês — uma redução de 76% — sem impacto perceptível na qualidade das respostas para o usuário final.

Importância para Empresas

Custo por token é um dos principais fatores de viabilidade econômica de projetos de IA em produção. É comum empresas fazerem provas de conceito com modelos premium sem se preocupar com custo — e ficarem surpresas quando tentam escalar. Entender e otimizar o custo por token desde cedo é essencial para garantir que o projeto de IA seja economicamente sustentável.

O ROI de IA deve considerar tanto os benefícios (redução de custo operacional, aumento de receita, melhoria de qualidade) quanto os custos reais de API. Um agente que economiza 4 horas de trabalho humano por dia (ao custo de R$ 150/hora = R$ 600/dia) pode justificar facilmente um custo de API de R$ 50/dia. Mas um projeto que custa R$ 500/dia em API para economizar R$ 300 em trabalho humano é economicamente inviável.

Estratégias de otimização de custo incluem: usar modelos menores para tarefas simples e reservar modelos premium para tarefas complexas; cachear respostas para perguntas frequentes e idênticas (context caching da Anthropic pode reduzir custos em 90% para system prompts longos reutilizados); comprimir system prompts para remover informações redundantes; limitar o histórico de conversa incluído em cada requisição; e monitorar o consumo com dashboards para identificar ineficiências.

Custo por Token no OpenClaw

O OpenClaw foi projetado com gerenciamento de custos como funcionalidade nativa. O sistema permite configurar qual modelo usar para cada tipo de tarefa — você pode definir que consultas simples usem Claude Haiku, análises moderadas usem Claude Sonnet, e tarefas de alta complexidade usem Claude Opus. Essa configuração granular permite otimizar automaticamente o balanço entre qualidade e custo.

O OpenClaw também implementa context caching quando disponível pelo provedor de LLM, reduzindo o custo de system prompts longos que são reutilizados em muitas requisições. O dashboard de métricas mostra o consumo de tokens por tipo de tarefa, por canal e por modelo, permitindo identificar quais fluxos são mais custosos e priorizar otimizações. Alertas de budget configuraveis evitam surpresas na fatura ao final do mês.

Termos Relacionados

Perguntas Frequentes

Qual é o preço atual dos principais modelos de IA? Os preços mudam frequentemente, mas como referência aproximada (valores em USD por milhão de tokens, março de 2026): Claude Haiku 3.5 custa cerca de $0.80/MTok input e $4/MTok output; Claude Sonnet 3.5 custa cerca de $3/MTok input e $15/MTok output; Claude Opus 3 custa cerca de $15/MTok input e $75/MTok output. GPT-4o custa cerca de $5/MTok input e $15/MTok output. Sempre consulte as páginas de pricing oficiais dos provedores para valores atualizados.

Como estimar o custo mensal de um projeto de IA? Calcule: (número de requisições/mês) × (tokens médios de input por requisição × preço input + tokens médios de output por requisição × preço output). Inclua o system prompt nos tokens de input de cada requisição. Multiplique por um fator de segurança de 1.5x para variações de uso. Ferramentas como o Anthropic Pricing Calculator e o OpenAI Tokenizer ajudam a fazer estimativas antes de colocar em produção.

O que é context caching e como reduz custos? Context caching permite que o provedor armazene em cache um trecho do contexto (tipicamente o system prompt) e não cobre o custo completo de input quando esse trecho é reutilizado em requisições subsequentes dentro de uma janela de tempo. A Anthropic oferece context caching com desconto de 90% para tokens cacheados. Para aplicações com system prompts longos e muitas requisições, a economia pode ser substancial.

Tokens de reasoning (como Claude Extended Thinking) entram no custo? Sim. Tokens de reasoning — gerados internamente pelo modelo durante processos de raciocínio antes de produzir a resposta final — são cobrados como tokens de output. Modelos com capacidade de raciocínio estendido como Claude com Extended Thinking ou OpenAI o1 podem gerar muitos tokens de reasoning para problemas complexos, o que aumenta o custo. A qualidade superior das respostas precisa justificar esse custo adicional.

Faz sentido usar modelos open-source para reduzir custos? Pode fazer sentido para casos de uso específicos. Modelos como Llama 3, Mistral e Qwen rodando localmente ou em infraestrutura própria eliminam o custo de API. O trade-off é: custos de infraestrutura (servidor com GPU ou serviço de hospedagem especializado), menor qualidade em muitas tarefas comparado aos modelos premium, e responsabilidade pela manutenção e atualização. Para volumes muito altos, o ponto de equilíbrio pode favorecer modelos open-source; para a maioria das PMEs brasileiras, APIs pagas são mais custo-efetivas.