Guia de Modelos — Qual LLM Escolher?
Guia de Modelos — Qual LLM Escolher?
Introdução
A escolha do modelo de IA é uma das decisões mais impactantes que você vai tomar ao configurar o OpenClaw. O modelo certo para a tarefa certa significa respostas melhores, mais rápidas e mais baratas. O modelo errado significa gastar 10x mais, esperar mais tempo, ou receber respostas aquém do esperado.
A boa notícia é que o OpenClaw suporta vários modelos e permite configurar qual usar por padrão, por tipo de tarefa, e até mudar dinamicamente durante uma conversa. Isso significa que você pode otimizar para cada caso de uso sem abrir mão de qualidade onde ela importa.
Este guia apresenta todos os modelos suportados pelo OpenClaw, suas diferenças práticas, custos comparativos, e um framework de decisão claro para ajudá-lo a escolher. Você também vai aprender como configurar múltiplos modelos em paralelo para diferentes propósitos.
Pré-requisitos
Para seguir este guia você precisa de:
- OpenClaw instalado com pelo menos uma API key configurada
- Familiaridade básica com o arquivo
config.yaml - Noção de tokens e custos para contextualizar as comparações de preço
Modelos Anthropic (Claude) — Recomendados
A Anthropic é a empresa por trás do Claude, e é o provedor padrão do OpenClaw. Os modelos Claude se destacam por raciocínio complexo, seguimento de instruções longas e comportamento confiável e seguro.
Claude Opus 4 — O Mais Poderoso
Claude Opus 4 é o modelo mais capaz da Anthropic. Escolha-o quando a qualidade da resposta é mais importante que velocidade ou custo.
Características:
- Raciocínio complexo superior a todos os outros modelos
- Melhor desempenho em código difícil e arquitetura de software
- Análise nuançada de documentos longos e complexos
- Context window: 200.000 tokens
- Velocidade: Lento (5-20 segundos por resposta)
- Custo: $15/M tokens input, $75/M output — o mais caro
Melhor para:
- Análise crítica de documentos jurídicos ou técnicos
- Código complexo: arquitetura, refactoring, debugging difícil
- Tomada de decisão com muitas variáveis
- Escrita longa e nuançada (relatórios executivos, pesquisas)
- Qualquer tarefa onde erros têm alto custo
Não use para:
- Conversas casuais e perguntas simples
- Tarefas repetitivas em volume
- Respostas onde velocidade é crítica
Claude Sonnet 4 — O Equilíbrio Perfeito
Claude Sonnet 4 é o modelo que a maioria dos usuários deveria usar como padrão. Oferece qualidade próxima ao Opus a uma fração do custo.
Características:
- Qualidade muito próxima ao Opus para 85% das tarefas
- Consideravelmente mais rápido (2-5 segundos)
- Context window: 200.000 tokens
- Custo: $3/M tokens input, $15/M output — 5x mais barato que Opus
Melhor para:
- Uso diário geral: escrita, análise, código moderado
- Automações e pipelines onde qualidade e velocidade são importantes
- Atendimento ao cliente e respostas contextualizadas
- Processamento de documentos em volume moderado
Regra prática: Se você não sabe qual modelo usar, use Sonnet 4.
Claude Haiku 3.5 — Velocidade e Economia
Claude Haiku é otimizado para velocidade e baixo custo. Surpreendentemente capaz para sua faixa de preço.
Características:
- Mais rápido de todos os modelos Claude (0.5-2 segundos)
- Context window: 200.000 tokens
- Custo: $0.80/M tokens input, $4/M output — 20x mais barato que Opus
Melhor para:
- Triagem e classificação de mensagens
- Respostas simples e factuais
- Heartbeats e automações rotineiras
- Primeiro passo de pipelines multi-etapa
- Volume alto de requisições onde custo importa
Não espere de Haiku:
- Raciocínio complexo ou análise profunda
- Código avançado
- Nuance em textos longos
Modelos OpenAI
GPT-4o — Concorrente Direto ao Sonnet
GPT-4o é o modelo principal da OpenAI e um concorrente forte ao Claude Sonnet.
Características:
- Qualidade similar ao Claude Sonnet 4 na maioria das tarefas
- Excelente para código e debugging
- Muito bom em multimodal (imagens + texto)
- Context window: 128.000 tokens
- Velocidade: Rápido (1-4 segundos)
- Custo: $2.50/M input, $10/M output
Quando preferir GPT-4o sobre Claude Sonnet:
- Se você já tem créditos OpenAI e quer diversificar
- Para código: alguns desenvolvedores preferem as sugestões do GPT-4
- Se precisar de multimodal com suporte a GPT nativo
- Para integrar com o ecossistema OpenAI (embeddings, fine-tuning, etc.)
GPT-4o-mini — O Mais Barato entre os Proprietários
GPT-4o-mini é notavelmente competente para seu preço, tornando-o excelente para volume alto.
Características:
- Custo: $0.15/M input, $0.60/M output — extremamente barato
- Velocidade: Muito rápido
- Context window: 128.000 tokens
- Qualidade: Boa para tarefas simples e moderadas
Melhor para:
- Volume muito alto com orçamento limitado
- Tarefas de classificação, extração de dados, formatação
- Como fallback econômico quando rate limit atinge
Modelos Locais com Ollama
Ollama permite rodar modelos diretamente no seu hardware, sem custo de API e com privacidade total.
Quando Usar Modelos Locais
- Privacidade total: Dados nunca saem da sua máquina
- Zero custo de API: Apenas custo de hardware e energia
- Sem rate limits: Processe o quanto quiser
- Independência: Funciona sem internet após instalação
Configuração do Ollama
# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Baixar modelos recomendados
ollama pull llama3.1:8b # Leve, bom para uso geral
ollama pull llama3.1:70b # Mais capaz, precisa de 64GB+ RAM
ollama pull mistral:7b # Excelente para código
ollama pull gemma2:9b # Boa qualidade no geral
ollama pull phi3.5:mini # Muito leve, adequado para tarefas simples
# Configurar no OpenClaw
openclaw config set model.local.provider ollama
openclaw config set model.local.endpoint http://localhost:11434
Modelos Locais Recomendados
| Modelo | Parâmetros | RAM Necessária | Melhor Para |
|---|---|---|---|
| Phi 3.5 Mini | 3.8B | 4GB | Tarefas muito simples, hardware fraco |
| Mistral 7B | 7B | 8GB | Código, boa relação qualidade/recurso |
| Llama 3.1 8B | 8B | 8GB | Uso geral, boa qualidade |
| Gemma 2 9B | 9B | 10GB | Qualidade sólida, texto em português |
| Llama 3.1 70B | 70B | 64GB | Qualidade próxima a APIs proprietárias |
Limitações dos modelos locais:
- Qualidade inferior aos modelos Claude e GPT em tarefas complexas
- Precisam de hardware significativo para modelos maiores
- Temperatura e configurações precisam de ajuste fino
- Português pode ser mais fraco em modelos menores
Framework de Decisão
Use este fluxo para escolher o modelo certo:
Qual é a prioridade principal?
├── Qualidade Máxima
│ └── Claude Opus 4
├── Equilíbrio (maioria das tarefas)
│ └── Claude Sonnet 4
├── Velocidade e Custo (tarefas simples)
│ ├── Claude Haiku 3.5
│ └── GPT-4o-mini
└── Privacidade Total / Sem Custo de API
└── Ollama (Llama, Mistral, Gemma)
Configuração de Modelos por Tarefa
Aproveite ao máximo o OpenClaw configurando modelos diferentes para diferentes tipos de tarefa:
agents:
defaults:
model:
primary: "claude-sonnet-4" # Padrão para uso geral
profiles:
# Para análise crítica
deep-analysis:
model:
primary: "claude-opus-4"
# Para tarefas rápidas e baratas
quick:
model:
primary: "claude-haiku-3-5"
# Para privacidade total
private:
model:
primary: "ollama/llama3.1:8b"
# Para código
coding:
model:
primary: "claude-sonnet-4"
fallback: "gpt-4o" # Fallback para outro provedor
# Roteamento automático por palavras-chave
routing:
rules:
- keywords: ["analise", "contrato", "critico", "juridico"]
profile: "deep-analysis"
- keywords: ["qual", "quando", "onde", "quanto", "clima"]
profile: "quick"
- keywords: ["privado", "confidencial", "offline"]
profile: "private"
Mudar de Modelo Durante a Conversa
# Via comando no chat
/model claude-opus-4 # Mudar para Opus
/model claude-haiku-3-5 # Mudar para Haiku
/model ollama/llama3.1:8b # Mudar para local
# Via CLI
openclaw config set agents.defaults.model.primary claude-haiku-3-5
openclaw gateway reload
Comparativo Final
| Característica | Opus 4 | Sonnet 4 | Haiku 3.5 | GPT-4o | GPT-4o-mini | Llama 8B |
|---|---|---|---|---|---|---|
| Raciocínio | Excelente | Muito bom | Bom | Muito bom | Regular | Regular |
| Código | Excelente | Muito bom | Bom | Muito bom | Bom | Regular |
| Velocidade | Lenta | Rápida | Muito rápida | Rápida | Muito rápida | Variável |
| Custo input | $15/M | $3/M | $0.80/M | $2.50/M | $0.15/M | Zero |
| Context | 200k | 200k | 200k | 128k | 128k | Variável |
| Privacidade | Nuvem | Nuvem | Nuvem | Nuvem | Nuvem | Local |
Erros Comuns e Soluções
| Situação | Problema | Solução |
|---|---|---|
| Respostas medíocres com Haiku | Tarefa complexa demais | Mude para Sonnet ou Opus para essa tarefa específica |
| Custo alto com Opus no uso diário | Usando Opus como padrão desnecessariamente | Configure Sonnet como padrão; Opus apenas para tarefas críticas |
| Rate limit frequente | Limite de requisições por minuto | Configure fallback para outro modelo; use Haiku para triagem |
| Modelo local lento | Hardware insuficiente | Use modelo menor (Phi 3.5, Mistral 7B) ou modelo em nuvem |
| Ollama não conecta | Serviço não está rodando | ollama serve para iniciar; ollama list para verificar modelos |
| Resposta em inglês quando esperava português | Modelo não configurado para PT-BR | Adicione instrução no SOUL.md: “Sempre responda em português brasileiro” |
Boas Práticas
Comece com Sonnet e ajuste: A maioria das tarefas vai funcionar muito bem com Claude Sonnet 4. Só migre para Opus quando você perceber que Sonnet não está entregando a qualidade necessária para tarefas específicas.
Use Haiku para o volume: Heartbeats, triagem de mensagens, respostas simples e automações de rotina devem usar Haiku. A economia é significativa sem sacrificar qualidade onde ela não é necessária.
Configure routing automático: Em vez de mudar manualmente de modelo, configure regras de roteamento no config.yaml para o modelo certo ser selecionado automaticamente baseado no tipo de tarefa.
Monitore qualidade vs. custo: Mantenha um registro de quais modelos você usou para cada tipo de tarefa e qual foi a qualidade. Com o tempo, você vai calibrar melhor o que precisa de Opus vs. o que Sonnet resolve.
Ollama como complemento: Para usuários com bom hardware, Ollama para tarefas de baixo impacto (onde privacidade não é crítica mas custo importa) pode economizar bastante.
Teste novos modelos em ambiente controlado: Quando a Anthropic ou OpenAI lançar novos modelos, teste em paralelo com casos de uso reais antes de migrar seu ambiente de produção.
Tenha fallback configurado: Se o seu modelo principal atingir rate limit, um fallback bem configurado garante que o assistente continue funcionando.
Perguntas Frequentes
Claude Opus realmente vale o preço 5x maior que Sonnet? Depende do caso de uso. Para análise de documentos jurídicos, decisões de negócio importantes, ou código crítico de produção: sim, a diferença de qualidade é perceptível e o custo adicional é justificável. Para conversas do dia a dia e automações rotineiras: não, Sonnet é suficiente.
Ollama é uma alternativa viável para substituir Claude completamente? Para uso simples: possivelmente, especialmente com modelos maiores como Llama 70B. Para uso avançado com raciocínio complexo, código sofisticado ou nuance em português: ainda não. A diferença de qualidade entre Llama 8B e Claude Sonnet é significativa. Use Ollama como complemento, não substituto.
Como saber qual modelo está sendo usado em cada resposta?
Ative o modo verbose ou use openclaw status --model para ver o modelo atual. Configure também logging de modelo nas respostas: logging.includeModel: true para ver qual modelo gerou cada resposta nos logs.
Os modelos Claude são seguros para dados sensíveis? A Anthropic tem políticas de privacidade mais rígidas que muitos concorrentes e não usa dados de API para treinar modelos (por padrão). Para dados altamente sensíveis, use Ollama (dados nunca saem do seu hardware). Consulte o guia de privacidade para análise completa.
Como lidar com o rate limit durante picos de uso? Configure fallback automático: quando o modelo primário atinge rate limit, o OpenClaw automaticamente usa o fallback configurado. Combine Claude Sonnet como primário com GPT-4o como fallback para cobertura robusta.
Próximos Passos
- Guia de Custos — Calcule o custo real de cada modelo para seu caso de uso
- Context Window — Como usar o contexto de 200k tokens eficientemente
- Comparações — Análises detalhadas modelo a modelo
- Privacidade — Implicações de privacidade de cada modelo
- Performance — Otimize velocidade além da escolha de modelo
- Glossário: LLM — Entenda como os modelos de linguagem funcionam