Guia de Modelos — Qual LLM Escolher?

Guia de Modelos — Qual LLM Escolher?

Introdução

A escolha do modelo de IA é uma das decisões mais impactantes que você vai tomar ao configurar o OpenClaw. O modelo certo para a tarefa certa significa respostas melhores, mais rápidas e mais baratas. O modelo errado significa gastar 10x mais, esperar mais tempo, ou receber respostas aquém do esperado.

A boa notícia é que o OpenClaw suporta vários modelos e permite configurar qual usar por padrão, por tipo de tarefa, e até mudar dinamicamente durante uma conversa. Isso significa que você pode otimizar para cada caso de uso sem abrir mão de qualidade onde ela importa.

Este guia apresenta todos os modelos suportados pelo OpenClaw, suas diferenças práticas, custos comparativos, e um framework de decisão claro para ajudá-lo a escolher. Você também vai aprender como configurar múltiplos modelos em paralelo para diferentes propósitos.

Pré-requisitos

Para seguir este guia você precisa de:

  • OpenClaw instalado com pelo menos uma API key configurada
  • Familiaridade básica com o arquivo config.yaml
  • Noção de tokens e custos para contextualizar as comparações de preço

Modelos Anthropic (Claude) — Recomendados

A Anthropic é a empresa por trás do Claude, e é o provedor padrão do OpenClaw. Os modelos Claude se destacam por raciocínio complexo, seguimento de instruções longas e comportamento confiável e seguro.

Claude Opus 4 — O Mais Poderoso

Claude Opus 4 é o modelo mais capaz da Anthropic. Escolha-o quando a qualidade da resposta é mais importante que velocidade ou custo.

Características:

  • Raciocínio complexo superior a todos os outros modelos
  • Melhor desempenho em código difícil e arquitetura de software
  • Análise nuançada de documentos longos e complexos
  • Context window: 200.000 tokens
  • Velocidade: Lento (5-20 segundos por resposta)
  • Custo: $15/M tokens input, $75/M output — o mais caro

Melhor para:

  • Análise crítica de documentos jurídicos ou técnicos
  • Código complexo: arquitetura, refactoring, debugging difícil
  • Tomada de decisão com muitas variáveis
  • Escrita longa e nuançada (relatórios executivos, pesquisas)
  • Qualquer tarefa onde erros têm alto custo

Não use para:

  • Conversas casuais e perguntas simples
  • Tarefas repetitivas em volume
  • Respostas onde velocidade é crítica

Claude Sonnet 4 — O Equilíbrio Perfeito

Claude Sonnet 4 é o modelo que a maioria dos usuários deveria usar como padrão. Oferece qualidade próxima ao Opus a uma fração do custo.

Características:

  • Qualidade muito próxima ao Opus para 85% das tarefas
  • Consideravelmente mais rápido (2-5 segundos)
  • Context window: 200.000 tokens
  • Custo: $3/M tokens input, $15/M output — 5x mais barato que Opus

Melhor para:

  • Uso diário geral: escrita, análise, código moderado
  • Automações e pipelines onde qualidade e velocidade são importantes
  • Atendimento ao cliente e respostas contextualizadas
  • Processamento de documentos em volume moderado

Regra prática: Se você não sabe qual modelo usar, use Sonnet 4.

Claude Haiku 3.5 — Velocidade e Economia

Claude Haiku é otimizado para velocidade e baixo custo. Surpreendentemente capaz para sua faixa de preço.

Características:

  • Mais rápido de todos os modelos Claude (0.5-2 segundos)
  • Context window: 200.000 tokens
  • Custo: $0.80/M tokens input, $4/M output — 20x mais barato que Opus

Melhor para:

  • Triagem e classificação de mensagens
  • Respostas simples e factuais
  • Heartbeats e automações rotineiras
  • Primeiro passo de pipelines multi-etapa
  • Volume alto de requisições onde custo importa

Não espere de Haiku:

  • Raciocínio complexo ou análise profunda
  • Código avançado
  • Nuance em textos longos

Modelos OpenAI

GPT-4o — Concorrente Direto ao Sonnet

GPT-4o é o modelo principal da OpenAI e um concorrente forte ao Claude Sonnet.

Características:

  • Qualidade similar ao Claude Sonnet 4 na maioria das tarefas
  • Excelente para código e debugging
  • Muito bom em multimodal (imagens + texto)
  • Context window: 128.000 tokens
  • Velocidade: Rápido (1-4 segundos)
  • Custo: $2.50/M input, $10/M output

Quando preferir GPT-4o sobre Claude Sonnet:

  • Se você já tem créditos OpenAI e quer diversificar
  • Para código: alguns desenvolvedores preferem as sugestões do GPT-4
  • Se precisar de multimodal com suporte a GPT nativo
  • Para integrar com o ecossistema OpenAI (embeddings, fine-tuning, etc.)

GPT-4o-mini — O Mais Barato entre os Proprietários

GPT-4o-mini é notavelmente competente para seu preço, tornando-o excelente para volume alto.

Características:

  • Custo: $0.15/M input, $0.60/M output — extremamente barato
  • Velocidade: Muito rápido
  • Context window: 128.000 tokens
  • Qualidade: Boa para tarefas simples e moderadas

Melhor para:

  • Volume muito alto com orçamento limitado
  • Tarefas de classificação, extração de dados, formatação
  • Como fallback econômico quando rate limit atinge

Modelos Locais com Ollama

Ollama permite rodar modelos diretamente no seu hardware, sem custo de API e com privacidade total.

Quando Usar Modelos Locais

  • Privacidade total: Dados nunca saem da sua máquina
  • Zero custo de API: Apenas custo de hardware e energia
  • Sem rate limits: Processe o quanto quiser
  • Independência: Funciona sem internet após instalação

Configuração do Ollama

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Baixar modelos recomendados
ollama pull llama3.1:8b       # Leve, bom para uso geral
ollama pull llama3.1:70b      # Mais capaz, precisa de 64GB+ RAM
ollama pull mistral:7b        # Excelente para código
ollama pull gemma2:9b         # Boa qualidade no geral
ollama pull phi3.5:mini       # Muito leve, adequado para tarefas simples

# Configurar no OpenClaw
openclaw config set model.local.provider ollama
openclaw config set model.local.endpoint http://localhost:11434

Modelos Locais Recomendados

ModeloParâmetrosRAM NecessáriaMelhor Para
Phi 3.5 Mini3.8B4GBTarefas muito simples, hardware fraco
Mistral 7B7B8GBCódigo, boa relação qualidade/recurso
Llama 3.1 8B8B8GBUso geral, boa qualidade
Gemma 2 9B9B10GBQualidade sólida, texto em português
Llama 3.1 70B70B64GBQualidade próxima a APIs proprietárias

Limitações dos modelos locais:

  • Qualidade inferior aos modelos Claude e GPT em tarefas complexas
  • Precisam de hardware significativo para modelos maiores
  • Temperatura e configurações precisam de ajuste fino
  • Português pode ser mais fraco em modelos menores

Framework de Decisão

Use este fluxo para escolher o modelo certo:

Qual é a prioridade principal?

├── Qualidade Máxima
│   └── Claude Opus 4

├── Equilíbrio (maioria das tarefas)
│   └── Claude Sonnet 4

├── Velocidade e Custo (tarefas simples)
│   ├── Claude Haiku 3.5
│   └── GPT-4o-mini

└── Privacidade Total / Sem Custo de API
    └── Ollama (Llama, Mistral, Gemma)

Configuração de Modelos por Tarefa

Aproveite ao máximo o OpenClaw configurando modelos diferentes para diferentes tipos de tarefa:

agents:
  defaults:
    model:
      primary: "claude-sonnet-4"     # Padrão para uso geral

  profiles:
    # Para análise crítica
    deep-analysis:
      model:
        primary: "claude-opus-4"

    # Para tarefas rápidas e baratas
    quick:
      model:
        primary: "claude-haiku-3-5"

    # Para privacidade total
    private:
      model:
        primary: "ollama/llama3.1:8b"

    # Para código
    coding:
      model:
        primary: "claude-sonnet-4"
        fallback: "gpt-4o"           # Fallback para outro provedor

# Roteamento automático por palavras-chave
routing:
  rules:
    - keywords: ["analise", "contrato", "critico", "juridico"]
      profile: "deep-analysis"

    - keywords: ["qual", "quando", "onde", "quanto", "clima"]
      profile: "quick"

    - keywords: ["privado", "confidencial", "offline"]
      profile: "private"

Mudar de Modelo Durante a Conversa

# Via comando no chat
/model claude-opus-4      # Mudar para Opus
/model claude-haiku-3-5   # Mudar para Haiku
/model ollama/llama3.1:8b # Mudar para local

# Via CLI
openclaw config set agents.defaults.model.primary claude-haiku-3-5
openclaw gateway reload

Comparativo Final

CaracterísticaOpus 4Sonnet 4Haiku 3.5GPT-4oGPT-4o-miniLlama 8B
RaciocínioExcelenteMuito bomBomMuito bomRegularRegular
CódigoExcelenteMuito bomBomMuito bomBomRegular
VelocidadeLentaRápidaMuito rápidaRápidaMuito rápidaVariável
Custo input$15/M$3/M$0.80/M$2.50/M$0.15/MZero
Context200k200k200k128k128kVariável
PrivacidadeNuvemNuvemNuvemNuvemNuvemLocal

Erros Comuns e Soluções

SituaçãoProblemaSolução
Respostas medíocres com HaikuTarefa complexa demaisMude para Sonnet ou Opus para essa tarefa específica
Custo alto com Opus no uso diárioUsando Opus como padrão desnecessariamenteConfigure Sonnet como padrão; Opus apenas para tarefas críticas
Rate limit frequenteLimite de requisições por minutoConfigure fallback para outro modelo; use Haiku para triagem
Modelo local lentoHardware insuficienteUse modelo menor (Phi 3.5, Mistral 7B) ou modelo em nuvem
Ollama não conectaServiço não está rodandoollama serve para iniciar; ollama list para verificar modelos
Resposta em inglês quando esperava portuguêsModelo não configurado para PT-BRAdicione instrução no SOUL.md: “Sempre responda em português brasileiro”

Boas Práticas

  • Comece com Sonnet e ajuste: A maioria das tarefas vai funcionar muito bem com Claude Sonnet 4. Só migre para Opus quando você perceber que Sonnet não está entregando a qualidade necessária para tarefas específicas.

  • Use Haiku para o volume: Heartbeats, triagem de mensagens, respostas simples e automações de rotina devem usar Haiku. A economia é significativa sem sacrificar qualidade onde ela não é necessária.

  • Configure routing automático: Em vez de mudar manualmente de modelo, configure regras de roteamento no config.yaml para o modelo certo ser selecionado automaticamente baseado no tipo de tarefa.

  • Monitore qualidade vs. custo: Mantenha um registro de quais modelos você usou para cada tipo de tarefa e qual foi a qualidade. Com o tempo, você vai calibrar melhor o que precisa de Opus vs. o que Sonnet resolve.

  • Ollama como complemento: Para usuários com bom hardware, Ollama para tarefas de baixo impacto (onde privacidade não é crítica mas custo importa) pode economizar bastante.

  • Teste novos modelos em ambiente controlado: Quando a Anthropic ou OpenAI lançar novos modelos, teste em paralelo com casos de uso reais antes de migrar seu ambiente de produção.

  • Tenha fallback configurado: Se o seu modelo principal atingir rate limit, um fallback bem configurado garante que o assistente continue funcionando.

Perguntas Frequentes

Claude Opus realmente vale o preço 5x maior que Sonnet? Depende do caso de uso. Para análise de documentos jurídicos, decisões de negócio importantes, ou código crítico de produção: sim, a diferença de qualidade é perceptível e o custo adicional é justificável. Para conversas do dia a dia e automações rotineiras: não, Sonnet é suficiente.

Ollama é uma alternativa viável para substituir Claude completamente? Para uso simples: possivelmente, especialmente com modelos maiores como Llama 70B. Para uso avançado com raciocínio complexo, código sofisticado ou nuance em português: ainda não. A diferença de qualidade entre Llama 8B e Claude Sonnet é significativa. Use Ollama como complemento, não substituto.

Como saber qual modelo está sendo usado em cada resposta? Ative o modo verbose ou use openclaw status --model para ver o modelo atual. Configure também logging de modelo nas respostas: logging.includeModel: true para ver qual modelo gerou cada resposta nos logs.

Os modelos Claude são seguros para dados sensíveis? A Anthropic tem políticas de privacidade mais rígidas que muitos concorrentes e não usa dados de API para treinar modelos (por padrão). Para dados altamente sensíveis, use Ollama (dados nunca saem do seu hardware). Consulte o guia de privacidade para análise completa.

Como lidar com o rate limit durante picos de uso? Configure fallback automático: quando o modelo primário atinge rate limit, o OpenClaw automaticamente usa o fallback configurado. Combine Claude Sonnet como primário com GPT-4o como fallback para cobertura robusta.

Próximos Passos