Como Usar OpenClaw com Modelos Locais (Ollama, Qwen, Llama)
Uma das vantagens do OpenClaw: você não precisa usar APIs pagas. Com Ollama, você roda modelos de IA localmente, com custo zero e privacidade total.
Este guia mostra como configurar.
Por Que Usar Modelos Locais?
Vantagens:
- Custo zero após setup
- Privacidade total (nada sai da sua máquina)
- Funciona offline
- Sem rate limits
Desvantagens:
- Requer GPU decente (ou CPU potente)
- Modelos menores que Claude/GPT-4
- Setup mais complexo
Requisitos de Hardware
Mínimo (modelos pequenos)
- RAM: 8GB
- GPU: Não necessária
- Modelos: Llama 3.2 3B, Qwen 2.5 3B
Recomendado (modelos médios)
- RAM: 16GB
- GPU: 8GB VRAM (RTX 3060, 4060)
- Modelos: Llama 3.1 8B, Qwen 2.5 14B
Ideal (modelos grandes)
- RAM: 32GB
- GPU: 24GB VRAM (RTX 4090, A100)
- Modelos: Llama 3.1 70B, Qwen 2.5 72B
Passo 1: Instalar Ollama
macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
Baixe o instalador em ollama.com/download.
Verificar Instalação
ollama --version
Passo 2: Baixar um Modelo
Modelos Recomendados
# Leve e rápido (3B parâmetros)
ollama pull llama3.2:3b
# Equilíbrio qualidade/velocidade (8B)
ollama pull llama3.1:8b
# Melhor qualidade local (14B, requer 16GB+ RAM)
ollama pull qwen2.5:14b
# Especializado em código
ollama pull codellama:13b
Testar o Modelo
ollama run llama3.1:8b "Olá, você está funcionando?"
Passo 3: Configurar OpenClaw
Edite seu config.yaml:
# Modelo principal: local via Ollama
model: ollama/llama3.1:8b
# URL do Ollama (padrão: localhost)
ollama:
baseUrl: http://localhost:11434
Configuração Híbrida (Recomendado)
Use modelo local para tarefas simples, API para complexas:
# Modelo padrão: local
model: ollama/llama3.1:8b
# Override para tarefas específicas
modelOverrides:
code: anthropic/claude-3-5-sonnet-20241022
complex: anthropic/claude-3-5-sonnet-20241022
Passo 4: Reiniciar OpenClaw
openclaw gateway restart
Teste enviando uma mensagem pelo seu canal configurado.
Modelos Populares para OpenClaw
Llama 3.1/3.2 (Meta)
O mais popular. Bom equilíbrio geral.
ollama pull llama3.1:8b # 8B - recomendado
ollama pull llama3.2:3b # 3B - mais leve
ollama pull llama3.1:70b # 70B - melhor qualidade
Qwen 2.5 (Alibaba)
Excelente para código e raciocínio. Recentemente testado com OpenClaw no r/LocalLLaMA.
ollama pull qwen2.5:7b # 7B
ollama pull qwen2.5:14b # 14B - muito bom
ollama pull qwen2.5:32b # 32B
CodeLlama (Meta)
Especializado em programação.
ollama pull codellama:7b
ollama pull codellama:13b
ollama pull codellama:34b
Mistral/Mixtral
Rápido e eficiente.
ollama pull mistral:7b
ollama pull mixtral:8x7b # MoE - muito bom
Tool Calling com Modelos Locais
O OpenClaw usa tool calling para executar ações. Nem todos os modelos suportam bem.
Modelos com Bom Suporte a Tools
- Qwen 2.5 (14B+) - excelente
- Llama 3.1 (8B+) - bom
- Mistral 7B v0.3 - bom
Configuração para Tools
model: ollama/qwen2.5:14b
ollama:
# Formato de tools compatível
toolFormat: auto
Performance: Dicas
1. Use Quantização
Modelos quantizados são menores e mais rápidos:
# Q4 = menor, mais rápido
ollama pull llama3.1:8b-q4_0
# Q8 = maior, melhor qualidade
ollama pull llama3.1:8b-q8_0
2. Configure Contexto
Limite o contexto para respostas mais rápidas:
ollama:
numCtx: 4096 # Padrão: 2048
3. GPU Offloading
Se tem GPU, certifique-se que Ollama está usando:
ollama run llama3.1:8b --verbose
# Deve mostrar "GPU" nos logs
Comparativo: Local vs API
| Aspecto | Ollama (Local) | Claude API |
|---|---|---|
| Custo | $0 | ~$0.003/1K tokens |
| Velocidade | Depende do hardware | Rápido |
| Qualidade (8B) | Boa | Excelente |
| Qualidade (70B) | Muito boa | Excelente |
| Privacidade | Total | Dados vão para nuvem |
| Tools | Limitado | Completo |
| Offline | Sim | Não |
Troubleshooting
Ollama não responde
# Verificar se está rodando
ollama list
# Reiniciar
systemctl restart ollama # Linux
brew services restart ollama # macOS
Modelo muito lento
- Use modelo menor (3B/7B em vez de 14B/70B)
- Use quantização Q4
- Reduza contexto
Erros de memória
- Feche outros programas
- Use modelo menor
- Adicione swap (Linux)
Tools não funcionam
- Use Qwen 2.5 14B+ (melhor suporte)
- Atualize Ollama:
ollama upgrade
Conclusão
Modelos locais são uma excelente opção para:
- Quem quer privacidade total
- Quem quer custo zero
- Quem tem hardware adequado
Para a maioria dos usuários, recomendo:
- Llama 3.1 8B para uso geral
- Qwen 2.5 14B para código e tools
- Configuração híbrida para melhor dos dois mundos
Dúvidas sobre configuração? Veja a documentação oficial do Ollama ou acesse nosso Discord.