---
title: "Contexto (em IA)"
url: "https://openclaw.ia.br/glossario/contexto/"
markdown_url: "https://openclaw.ia.br/glossario/contexto.MD"
description: "O que é contexto em modelos de linguagem, como a janela de contexto funciona e por que entender contexto é essencial para usar IA com qualidade e custo controlado."
date: "2026-06-20"
author: ""
---

# Contexto (em IA)

O que é contexto em modelos de linguagem, como a janela de contexto funciona e por que entender contexto é essencial para usar IA com qualidade e custo controlado.


# Contexto (em IA)

## O Que É Contexto

**Contexto**, no uso de modelos de [linguagem (LLM)](/glossario/llm/), é o conjunto de informações que o modelo consegue levar em consideração ao gerar uma resposta numa única interação. Inclui o prompt que você escreveu, as mensagens anteriores da conversa, arquivos anexados, resultados de [ferramentas](/glossario/tool-use/) e qualquer system prompt que o produto injete por padrão. Tudo o que está dentro do contexto é visível ao modelo; tudo o que está fora, não existe para ele naquela resposta.

O conceito costuma confundir quem está começando porque "memória" na IA tem significados diferentes. Existe a **memória de treinamento** — o que o modelo aprendeu nos bilhões de tokens do pré-treinamento, que é fixa e difusa. E existe o **contexto** — a janela viva da conversa atual, que começa vazia a cada sessão e é preenchida conforme você troca mensagens. Quando alguém diz "a IA esqueceu o que eu falei", quase sempre o problema não é o modelo ter perdido dados, e sim o contexto ter estourado a capacidade da janela e os turnos antigos terem sido descartados.

Entender contexto é o que separa uso amador de uso profissional de IA. Quem sabe dosar o contexto coloca a informação certa na hora certa, gasta menos [tokens](/glossario/token/) e recebe respostas mais precisas. Quem apenas joga tudo no prompt recebe respostas genéricas, paga mais caro e culpa o modelo.

## Janela de Contexto

A **janela de contexto** (context window) é o limite máximo de tokens que um modelo consegue manter na memória de trabalho ao mesmo tempo. Cada modelo tem a sua: janelas pequenas (4K a 8K tokens) comportam poucas páginas de texto; janelas grandes (128K, 200K ou mais) chegam a engolir livros inteiros ou repositórios de código numa única chamada.

A janela funciona como uma fila: conforme novas mensagens entram, as mais antigas podem ser removidas quando o limite é atingido. O que isso significa na prática é que uma conversa longa não é "lembrada" integralmente — ela é truncada pela janela. Por isso, repetir a decisão importante no prompt atual, em vez de confiar que o modelo vai lembrar do turno de vinte mensagens atrás, é uma boa prática.

O tamanho da janela também impacta custo. Um modelo com janela de 128K tokens não cobra igual se você usar 2K ou 120K — normalmente, você paga por [token](/glossario/token/) de entrada efetivamente consumido. Então, jogar um PDF de 300 páginas num chat para fazer uma pergunta única pode custar centenas de vezes mais do que extrair a seção relevante antes. Para casos repetitivos, técnicas como [RAG](/glossario/rag/) ou o uso de [MEMORY.md](/glossario/memory-md/) resolvem o problema de forma mais econômica.

## Contexto de Sistema, de Usuário e de Ferramenta

Dentro da mesma janela, o contexto costuma ser dividido em três papéis:

1. **System prompt** — instruções fixas que definem comportamento, voz e regras. No OpenClaw, costuma carregar a identidade do agente, restrições de segurança e formatação esperada. Fica no topo do contexto e normalmente não muda durante a sessão.
2. **Mensagens de usuário e assistente** — o histórico da conversa, com cada turno ocupando tokens. É a parte que cresce e, eventualmente, precisa ser podada.
3. **Resultados de ferramentas** — quando o modelo chama uma [ferramenta](/glossario/tool-use/) (busca web, leitura de planilha, chamada de [API](/glossario/api/)), o resultado volta como contexto adicional. É por aqui que entra informação fresca e específica do negócio, e também por aqui que o custo explode se a ferramenta devolver dezenas de páginas.

A divisão importa porque o modelo lê tudo junto, mas dá peso diferente a cada parte. Um system prompt claro reduz a necessidade de repetir instruções em cada mensagem, economizando tokens e aumentando consistência.

## O Que Infla o Contexto (e Como Evitar)

Os maiores consumidores de contexto, em ordem prática:

- **Histórico longo de chat** — turnos antigos que não serão decisivos. Solução: resumir periodicamente, abrir nova sessão para tarefas distintas, mover decisão final para o [MEMORY.md](/glossario/memory-md/).
- **Anexos grandes** — PDFs e planilhas colados inteiros. Solução: extrair só a seção relevante ou usar [RAG](/glossario/rag/) para recuperação sob demanda.
- **Resultados de ferramentas verbosos** — logs, JSONs completos, respostas de [API](/glossario/api/) não filtradas. Solução: pedir à ferramenta um resumo ou campos específicos.
- **Prompts repetidos** — colar as mesmas instruções a cada turno. Solução: mover para system prompt ou [skill](/glossario/skills/).

Cada um desses pontos é também um ponto de custo. Reduzir contexto reduz [tokens](/glossario/token/) consumidos e, portanto, gasto por interação.

## Contexto vs. Conhecimento

Outra confusão comum é misturar contexto com conhecimento. O modelo "sabe" muita coisa do treinamento, mas só "enxerga" o que está no contexto da resposta atual. Isso explica três comportamentos típicos:

- **Alucinação em dados específicos** — o modelo inventa um número de telefone da sua empresa porque o número real não está no contexto. A solução não é um modelo melhor, é colocar o número no contexto (manualmente, via [RAG](/glossario/rag/) ou via ferramenta).
- **Resposta genérica** — o modelo responde como um professor distante porque falta contexto concreto (público, restrição, exemplo). Um parágrafo de contexto resolve.
- **Contradição na mesma sessão** — em conversas longas, o modelo pode contradizer o que disse antes porque aquela parte saiu da janela. Reintroduzir a decisão no contexto atual resolve.

A regra prática: se uma informação é decisiva para a resposta, ela precisa estar no contexto atual. Se é só "terno de fundo", pode ficar no [MEMORY.md](/glossario/memory-md/) ou num sistema de recuperação.

## Por Que Isso Importa para Automação

Em automação com agentes, o contexto é o que diferencia um fluxo robusto de um fluxo frágil. Um agente que carrega contexto correto — identidade do usuário, decisões anteriores, saída de ferramentas relevantes — age com coerência entre passos. Um agente que perde contexto no meio de um workflow repete perguntas, ignora restrições e gera retrabalho.

Por isso, ao montar qualquer automação com IA, vale pensar o contexto como um recurso finito e valioso: o que entra, o que fica, o que sai a cada passo. Produtos como o OpenClaw tratam isso explicitamente com [MEMORY.md](/glossario/memory-md/) para persistência entre sessões, [skills](/glossario/skills/) para instruções reutilizáveis e integrações que filtram o que devolvem ao contexto. O objetivo não é encher a janela, é preenchê-la com o que decide a resposta certa.