Guia de Modelos — Qual LLM Escolher?

Introdução

A escolha do modelo de IA é uma das decisões mais impactantes que você vai tomar ao configurar o OpenClaw. O modelo certo para a tarefa certa significa respostas melhores, mais rápidas e mais baratas. O modelo errado significa gastar 10x mais, esperar mais tempo, ou receber respostas aquém do esperado.

A boa notícia é que o OpenClaw suporta vários modelos e permite configurar qual usar por padrão, por tipo de tarefa, e até mudar dinamicamente durante uma conversa. Isso significa que você pode otimizar para cada caso de uso sem abrir mão de qualidade onde ela importa.

Este guia apresenta todos os modelos suportados pelo OpenClaw, suas diferenças práticas, custos comparativos, e um framework de decisão claro para ajudá-lo a escolher. Você também vai aprender como configurar múltiplos modelos em paralelo para diferentes propósitos.

Pré-requisitos

Para seguir este guia você precisa de:

OpenClaw instalado com pelo menos uma API key configurada
Familiaridade básica com o arquivo config.yaml
Noção de tokens e custos para contextualizar as comparações de preço

Modelos Anthropic (Claude) — Recomendados

A Anthropic é a empresa por trás do Claude, e é o provedor padrão do OpenClaw. Os modelos Claude se destacam por raciocínio complexo, seguimento de instruções longas e comportamento confiável e seguro.

Claude Opus 4 — O Mais Poderoso

Claude Opus 4 é o modelo mais capaz da Anthropic. Escolha-o quando a qualidade da resposta é mais importante que velocidade ou custo.

Características:

Raciocínio complexo superior a todos os outros modelos
Melhor desempenho em código difícil e arquitetura de software
Análise nuançada de documentos longos e complexos
Context window: 200.000 tokens
Velocidade: Lento (5-20 segundos por resposta)
Custo: $15/M tokens input, $75/M output — o mais caro

Melhor para:

Análise crítica de documentos jurídicos ou técnicos
Código complexo: arquitetura, refactoring, debugging difícil
Tomada de decisão com muitas variáveis
Escrita longa e nuançada (relatórios executivos, pesquisas)
Qualquer tarefa onde erros têm alto custo

Não use para:

Conversas casuais e perguntas simples
Tarefas repetitivas em volume
Respostas onde velocidade é crítica

Claude Sonnet 4 — O Equilíbrio Perfeito

Claude Sonnet 4 é o modelo que a maioria dos usuários deveria usar como padrão. Oferece qualidade próxima ao Opus a uma fração do custo.

Características:

Qualidade muito próxima ao Opus para 85% das tarefas
Consideravelmente mais rápido (2-5 segundos)
Context window: 200.000 tokens
Custo: $3/M tokens input, $15/M output — 5x mais barato que Opus

Melhor para:

Uso diário geral: escrita, análise, código moderado
Automações e pipelines onde qualidade e velocidade são importantes
Atendimento ao cliente e respostas contextualizadas
Processamento de documentos em volume moderado

Regra prática: Se você não sabe qual modelo usar, use Sonnet 4.

Claude Haiku 3.5 — Velocidade e Economia

Claude Haiku é otimizado para velocidade e baixo custo. Surpreendentemente capaz para sua faixa de preço.

Características:

Mais rápido de todos os modelos Claude (0.5-2 segundos)
Context window: 200.000 tokens
Custo: $0.80/M tokens input, $4/M output — 20x mais barato que Opus

Melhor para:

Triagem e classificação de mensagens
Respostas simples e factuais
Heartbeats e automações rotineiras
Primeiro passo de pipelines multi-etapa
Volume alto de requisições onde custo importa

Não espere de Haiku:

Raciocínio complexo ou análise profunda
Código avançado
Nuance em textos longos

Modelos OpenAI

GPT-4o — Concorrente Direto ao Sonnet

GPT-4o é o modelo principal da OpenAI e um concorrente forte ao Claude Sonnet.

Características:

Qualidade similar ao Claude Sonnet 4 na maioria das tarefas
Excelente para código e debugging
Muito bom em multimodal (imagens + texto)
Context window: 128.000 tokens
Velocidade: Rápido (1-4 segundos)
Custo: $2.50/M input, $10/M output

Quando preferir GPT-4o sobre Claude Sonnet:

Se você já tem créditos OpenAI e quer diversificar
Para código: alguns desenvolvedores preferem as sugestões do GPT-4
Se precisar de multimodal com suporte a GPT nativo
Para integrar com o ecossistema OpenAI (embeddings, fine-tuning, etc.)

GPT-4o-mini — O Mais Barato entre os Proprietários

GPT-4o-mini é notavelmente competente para seu preço, tornando-o excelente para volume alto.

Características:

Custo: $0.15/M input, $0.60/M output — extremamente barato
Velocidade: Muito rápido
Context window: 128.000 tokens
Qualidade: Boa para tarefas simples e moderadas

Melhor para:

Volume muito alto com orçamento limitado
Tarefas de classificação, extração de dados, formatação
Como fallback econômico quando rate limit atinge

Modelos Locais com Ollama

Ollama permite rodar modelos diretamente no seu hardware, sem custo de API e com privacidade total.

Quando Usar Modelos Locais

Privacidade total: Dados nunca saem da sua máquina
Zero custo de API: Apenas custo de hardware e energia
Sem rate limits: Processe o quanto quiser
Independência: Funciona sem internet após instalação

Configuração do Ollama

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Baixar modelos recomendados
ollama pull llama3.1:8b       # Leve, bom para uso geral
ollama pull llama3.1:70b      # Mais capaz, precisa de 64GB+ RAM
ollama pull mistral:7b        # Excelente para código
ollama pull gemma2:9b         # Boa qualidade no geral
ollama pull phi3.5:mini       # Muito leve, adequado para tarefas simples

# Configurar no OpenClaw
openclaw config set model.local.provider ollama
openclaw config set model.local.endpoint http://localhost:11434

Modelos Locais Recomendados

Modelo	Parâmetros	RAM Necessária	Melhor Para
Phi 3.5 Mini	3.8B	4GB	Tarefas muito simples, hardware fraco
Mistral 7B	7B	8GB	Código, boa relação qualidade/recurso
Llama 3.1 8B	8B	8GB	Uso geral, boa qualidade
Gemma 2 9B	9B	10GB	Qualidade sólida, texto em português
Llama 3.1 70B	70B	64GB	Qualidade próxima a APIs proprietárias

Limitações dos modelos locais:

Qualidade inferior aos modelos Claude e GPT em tarefas complexas
Precisam de hardware significativo para modelos maiores
Temperatura e configurações precisam de ajuste fino
Português pode ser mais fraco em modelos menores

Framework de Decisão

Use este fluxo para escolher o modelo certo:

Qual é a prioridade principal?

├── Qualidade Máxima
│   └── Claude Opus 4

├── Equilíbrio (maioria das tarefas)
│   └── Claude Sonnet 4

├── Velocidade e Custo (tarefas simples)
│   ├── Claude Haiku 3.5
│   └── GPT-4o-mini

└── Privacidade Total / Sem Custo de API
    └── Ollama (Llama, Mistral, Gemma)

Configuração de Modelos por Tarefa

Aproveite ao máximo o OpenClaw configurando modelos diferentes para diferentes tipos de tarefa:

agents:
  defaults:
    model:
      primary: "claude-sonnet-4"     # Padrão para uso geral

  profiles:
    # Para análise crítica
    deep-analysis:
      model:
        primary: "claude-opus-4"

    # Para tarefas rápidas e baratas
    quick:
      model:
        primary: "claude-haiku-3-5"

    # Para privacidade total
    private:
      model:
        primary: "ollama/llama3.1:8b"

    # Para código
    coding:
      model:
        primary: "claude-sonnet-4"
        fallback: "gpt-4o"           # Fallback para outro provedor

# Roteamento automático por palavras-chave
routing:
  rules:
    - keywords: ["analise", "contrato", "critico", "juridico"]
      profile: "deep-analysis"

    - keywords: ["qual", "quando", "onde", "quanto", "clima"]
      profile: "quick"

    - keywords: ["privado", "confidencial", "offline"]
      profile: "private"

Mudar de Modelo Durante a Conversa

# Via comando no chat
/model claude-opus-4      # Mudar para Opus
/model claude-haiku-3-5   # Mudar para Haiku
/model ollama/llama3.1:8b # Mudar para local

# Via CLI
openclaw config set agents.defaults.model.primary claude-haiku-3-5
openclaw gateway reload

Comparativo Final

Característica	Opus 4	Sonnet 4	Haiku 3.5	GPT-4o	GPT-4o-mini	Llama 8B
Raciocínio	Excelente	Muito bom	Bom	Muito bom	Regular	Regular
Código	Excelente	Muito bom	Bom	Muito bom	Bom	Regular
Velocidade	Lenta	Rápida	Muito rápida	Rápida	Muito rápida	Variável
Custo input	$15/M	$3/M	$0.80/M	$2.50/M	$0.15/M	Zero
Context	200k	200k	200k	128k	128k	Variável
Privacidade	Nuvem	Nuvem	Nuvem	Nuvem	Nuvem	Local

Erros Comuns e Soluções

Situação	Problema	Solução
Respostas medíocres com Haiku	Tarefa complexa demais	Mude para Sonnet ou Opus para essa tarefa específica
Custo alto com Opus no uso diário	Usando Opus como padrão desnecessariamente	Configure Sonnet como padrão; Opus apenas para tarefas críticas
Rate limit frequente	Limite de requisições por minuto	Configure fallback para outro modelo; use Haiku para triagem
Modelo local lento	Hardware insuficiente	Use modelo menor (Phi 3.5, Mistral 7B) ou modelo em nuvem
Ollama não conecta	Serviço não está rodando	`ollama serve` para iniciar; `ollama list` para verificar modelos
Resposta em inglês quando esperava português	Modelo não configurado para PT-BR	Adicione instrução no SOUL.md: “Sempre responda em português brasileiro”

Boas Práticas

Comece com Sonnet e ajuste: A maioria das tarefas vai funcionar muito bem com Claude Sonnet 4. Só migre para Opus quando você perceber que Sonnet não está entregando a qualidade necessária para tarefas específicas.
Use Haiku para o volume: Heartbeats, triagem de mensagens, respostas simples e automações de rotina devem usar Haiku. A economia é significativa sem sacrificar qualidade onde ela não é necessária.
Configure routing automático: Em vez de mudar manualmente de modelo, configure regras de roteamento no config.yaml para o modelo certo ser selecionado automaticamente baseado no tipo de tarefa.
Monitore qualidade vs. custo: Mantenha um registro de quais modelos você usou para cada tipo de tarefa e qual foi a qualidade. Com o tempo, você vai calibrar melhor o que precisa de Opus vs. o que Sonnet resolve.
Ollama como complemento: Para usuários com bom hardware, Ollama para tarefas de baixo impacto (onde privacidade não é crítica mas custo importa) pode economizar bastante.
Teste novos modelos em ambiente controlado: Quando a Anthropic ou OpenAI lançar novos modelos, teste em paralelo com casos de uso reais antes de migrar seu ambiente de produção.
Tenha fallback configurado: Se o seu modelo principal atingir rate limit, um fallback bem configurado garante que o assistente continue funcionando.

Perguntas Frequentes

Claude Opus realmente vale o preço 5x maior que Sonnet? Depende do caso de uso. Para análise de documentos jurídicos, decisões de negócio importantes, ou código crítico de produção: sim, a diferença de qualidade é perceptível e o custo adicional é justificável. Para conversas do dia a dia e automações rotineiras: não, Sonnet é suficiente.

Ollama é uma alternativa viável para substituir Claude completamente? Para uso simples: possivelmente, especialmente com modelos maiores como Llama 70B. Para uso avançado com raciocínio complexo, código sofisticado ou nuance em português: ainda não. A diferença de qualidade entre Llama 8B e Claude Sonnet é significativa. Use Ollama como complemento, não substituto.

Como saber qual modelo está sendo usado em cada resposta? Ative o modo verbose ou use openclaw status --model para ver o modelo atual. Configure também logging de modelo nas respostas: logging.includeModel: true para ver qual modelo gerou cada resposta nos logs.

Os modelos Claude são seguros para dados sensíveis? A Anthropic tem políticas de privacidade mais rígidas que muitos concorrentes e não usa dados de API para treinar modelos (por padrão). Para dados altamente sensíveis, use Ollama (dados nunca saem do seu hardware). Consulte o guia de privacidade para análise completa.

Como lidar com o rate limit durante picos de uso? Configure fallback automático: quando o modelo primário atinge rate limit, o OpenClaw automaticamente usa o fallback configurado. Combine Claude Sonnet como primário com GPT-4o como fallback para cobertura robusta.

Próximos Passos

Guia de Custos — Calcule o custo real de cada modelo para seu caso de uso
Context Window — Como usar o contexto de 200k tokens eficientemente
Comparações — Análises detalhadas modelo a modelo
Privacidade — Implicações de privacidade de cada modelo
Performance — Otimize velocidade além da escolha de modelo
Glossário: LLM — Entenda como os modelos de linguagem funcionam

Primeiros Passos

Conectar

Aprender

Ajuda

Recursos

Buscar

Comunidade

Guia de Modelos — Qual LLM Escolher?

Guia de Modelos — Qual LLM Escolher?

Introdução

Pré-requisitos

Modelos Anthropic (Claude) — Recomendados

Claude Opus 4 — O Mais Poderoso

Claude Sonnet 4 — O Equilíbrio Perfeito

Claude Haiku 3.5 — Velocidade e Economia

Modelos OpenAI

GPT-4o — Concorrente Direto ao Sonnet

GPT-4o-mini — O Mais Barato entre os Proprietários

Modelos Locais com Ollama

Quando Usar Modelos Locais

Configuração do Ollama

Modelos Locais Recomendados

Framework de Decisão

Configuração de Modelos por Tarefa

Mudar de Modelo Durante a Conversa

Comparativo Final

Erros Comuns e Soluções

Boas Práticas

Perguntas Frequentes

Próximos Passos