Context Window (Janela de Contexto)

Context Window (Janela de Contexto)

O Que É Context Window

Context window (janela de contexto) é o número máximo de tokens que um modelo de linguagem consegue processar em uma única interação. Tudo que o modelo pode “ver” e considerar ao gerar uma resposta precisa caber dentro dessa janela — o prompt do sistema, o histórico da conversa, os documentos fornecidos, a pergunta atual, e a resposta gerada. É, em essência, a “memória de trabalho” imediata do modelo.

A analogia com a memória humana é instrutiva, mas imperfeita. Imagine um consultor que pode se lembrar perfeitamente de tudo que foi dito na reunião atual, mas que ao sair da sala esquece tudo. A context window define o que entra nessa reunião. Se você tem uma conversa muito longa ou fornece documentos extensos, eventualmente o início da conversa “cai” para fora da janela e o modelo deixa de ter acesso a essa informação.

A evolução da context window foi uma das evoluções mais impactantes nos LLMs recentes. Os primeiros GPTs tinham janelas de 4.096 tokens (aproximadamente 3.000 palavras). Modelos modernos chegam a 200.000 tokens (Claude) e até 1 milhão de tokens (Gemini), o que significa poder processar livros inteiros, contratos extensos, ou históricos completos de projetos em uma única interação.

Como Funciona

Tokens são as unidades básicas de processamento dos LLMs. Uma palavra em português corresponde em média a 1,3-1,5 tokens (palavras maiores têm mais tokens, palavras curtas às vezes são um único token). Um parágrafo típico de 100 palavras corresponde a cerca de 130-150 tokens. Uma página A4 densa de texto corresponde a aproximadamente 500-700 tokens.

O custo computacional de processar tokens é quadrático em relação ao tamanho da context window — dobrar a janela custa aproximadamente 4 vezes mais computação. Por isso, mesmo com modelos que suportam janelas grandes, usar menos tokens quando possível é uma boa prática tanto para controle de custo quanto para latência.

Quando a quantidade de informação excede a context window, há duas abordagens. Truncamento: simplesmente corta as informações mais antigas para abrir espaço. O problema é que informações importantes podem ser perdidas. Sumarização: antes de truncar, sumariza o histórico mais antigo em um resumo compacto que preserva os pontos principais com menos tokens. O OpenClaw usa sumarização automática para gerenciar contexto em conversas longas.

Para casos onde você precisa de mais informação do que cabe na context window — por exemplo, analisar uma base de conhecimento inteira — a solução é RAG (Retrieval-Augmented Generation): em vez de colocar tudo na context window, você indexa os documentos e busca apenas os trechos mais relevantes para cada pergunta, incluindo apenas esses trechos no contexto.

Exemplo Prático

Um escritório de advocacia empresarial em São Paulo precisa que seu assistente de IA analise contratos comerciais complexos antes de reuniões com clientes. Um contrato típico tem 40-80 páginas — aproximadamente 20.000 a 40.000 tokens.

Com um modelo de context window pequena (4.096 tokens), seria impossível processar o contrato inteiro de uma vez. A solução seria dividir o contrato em partes e analisar cada parte separadamente — perdendo a visão de conjunto e possíveis inconsistências entre cláusulas distantes.

Com Claude (200.000 tokens de context window), o contrato inteiro pode ser processado em uma única chamada. O advogado faz perguntas como “há cláusulas contraditórias em relação a reajuste de preços?”, “qual é o regime de rescisão e se há assimetrias entre as partes?” e “existem cláusulas que limitam nossa capacidade de trabalhar com concorrentes do cliente?”. O modelo analisa todo o documento em contexto e responde com referências específicas às cláusulas relevantes.

Para documentos maiores que 200.000 tokens (como processos judiciais extensos), o escritório usa RAG: os documentos são indexados e o assistente busca os trechos relevantes para cada pergunta, mantendo a precisão sem precisar de janelas ainda maiores.

Importância para Empresas

O tamanho da context window afeta diretamente quais casos de uso são viáveis com IA. Uma context window pequena limita o assistente a conversas curtas e documentos simples. Uma context window grande abre possibilidades como análise de contratos extensos, revisão de código em projetos grandes, análise de relatórios financeiros completos e manutenção de contexto em conversas longas de suporte ao cliente.

Para decisões de arquitetura em projetos de IA, entender a context window é fundamental. Quanto do histórico de conversa precisa estar disponível para o modelo responder bem? Qual o tamanho máximo dos documentos que serão processados? Essas perguntas determinam se você pode usar um modelo com janela menor (mais barato) ou precisa de um com janela maior (mais caro).

O custo por token cresce com context windows maiores tanto no preço das APIs quanto no tempo de processamento (latência). Um modelo premium com context window de 200k tokens pode custar 5-10 vezes mais por token do que um modelo mais simples com 8k tokens. A estratégia correta é usar o modelo mais econômico adequado para cada tarefa: janela pequena para conversas simples, janela grande apenas quando a tarefa realmente requer processar muita informação de uma vez.

Context Window no OpenClaw

O OpenClaw gerencia automaticamente a context window para otimizar custo e qualidade nas interações. O sistema monitora o tamanho do contexto em cada conversa e aplica estratégias inteligentes quando o limite se aproxima: sumariza o histórico mais antigo, mantém os trechos mais relevantes da memória de longo prazo via RAG e instrui o modelo sobre quais informações priorizar quando o espaço é limitado.

Para skills que processam documentos extensos, o OpenClaw seleciona automaticamente o modelo mais adequado com base no tamanho do documento — usando modelos com context windows maiores apenas quando necessário. Esse gerenciamento automático permite que usuários não técnicos se beneficiem de análises de documentos complexos sem precisar entender os detalhes técnicos de tokens e janelas de contexto.

Termos Relacionados

Perguntas Frequentes

O que acontece quando minha conversa ultrapassa a context window? Depende da implementação. Sem tratamento, a API retorna um erro. Com tratamento adequado (como o OpenClaw faz), o sistema automaticamente sumariza ou remove o histórico mais antigo para liberar espaço, preservando as informações mais importantes. O modelo perde acesso ao histórico removido — por isso, em conversas muito longas, é bom periodicamente recapitular pontos importantes.

Qual a context window dos principais modelos em 2026? Claude tem context window de até 200.000 tokens. GPT-4 Turbo suporta 128.000 tokens. Gemini Pro 1.5 chega a 1 milhão de tokens. Modelos menores e mais econômicos como GPT-3.5 Turbo e versões compactas têm janelas menores, na faixa de 16.000 a 32.000 tokens. Esses números evoluem a cada nova geração de modelos.

Context window maior é sempre melhor? Não necessariamente. Modelos com context windows muito grandes ainda têm dificuldade para utilizar efetivamente informações no meio de contextos muito longos — fenômeno chamado de “lost in the middle”. Para muitos casos de uso, 32.000-100.000 tokens são suficientes, e usar um modelo menor com essa janela pode ser mais custo-efetivo do que um modelo premium com 1 milhão de tokens.

Como contar os tokens do meu prompt antes de enviar? OpenAI e Anthropic disponibilizam bibliotecas de tokenização (tiktoken para OpenAI, e a própria API Anthropic conta tokens). A regra prática em português: cada palavra equivale a aproximadamente 1,3-1,5 tokens. Para estimativas rápidas, divida o número de palavras por 0,7 para ter uma estimativa conservadora de tokens.

RAG versus context window grande: quando usar cada um? Use context window grande quando você precisa que o modelo analise um documento específico em sua totalidade com atenção a relações entre partes distantes do texto (análise de contrato, revisão de código). Use RAG quando você tem uma base de conhecimento grande (centenas de documentos) e precisa responder perguntas que são respondidas por um subconjunto pequeno dessa base. RAG é mais custo-efetivo para volumes grandes; context window grande é mais preciso para documentos individuais.