Como Usar OpenClaw com Modelos Locais (Ollama, Qwen, Llama)

Guia completo para rodar OpenClaw com modelos locais via Ollama. Zero custo de API, privacidade total. Configuração passo a passo.

Uma das vantagens do OpenClaw: você não precisa usar APIs pagas. Com Ollama, você roda modelos de IA localmente, com custo zero e privacidade total.

🔒 Quer o guia completo 100% local? Temos uma seção dedicada com setup simples, Docker Compose, modo offline e Raspberry Pi: Guias 100% Local →

Este guia mostra como configurar.

Por Que Usar Modelos Locais?

Vantagens:

  • Custo zero após setup
  • Privacidade total (nada sai da sua máquina)
  • Funciona offline
  • Sem rate limits

Desvantagens:

  • Requer GPU decente (ou CPU potente)
  • Modelos menores que Claude/GPT-4
  • Setup mais complexo
Requisitos de HardwareMínimo (modelos pequenos)
  • RAM: 8GB
  • GPU: Não necessária
  • Modelos: Llama 3.2 3B, Qwen 2.5 3B
Recomendado (modelos médios)
  • RAM: 16GB
  • GPU: 8GB VRAM (RTX 3060, 4060)
  • Modelos: Llama 3.1 8B, Qwen 2.5 14B
Ideal (modelos grandes)
  • RAM: 32GB
  • GPU: 24GB VRAM (RTX 4090, A100)
  • Modelos: Llama 3.1 70B, Qwen 2.5 72B
Passo 1: Instalar OllamamacOS/Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows

Baixe o instalador em ollama.com/download.

Verificar Instalação
ollama --version
Passo 2: Baixar um ModeloModelos Recomendados
# Leve e rápido (3B parâmetros)
ollama pull llama3.2:3b

# Equilíbrio qualidade/velocidade (8B)
ollama pull llama3.1:8b

# Melhor qualidade local (14B, requer 16GB+ RAM)
ollama pull qwen2.5:14b

# Especializado em código
ollama pull codellama:13b
Testar o Modelo
ollama run llama3.1:8b "Olá, você está funcionando?"
Passo 3: Configurar OpenClaw

Edite seu config.yaml:

# Modelo principal: local via Ollama
model: ollama/llama3.1:8b

# URL do Ollama (padrão: localhost)
ollama:
  baseUrl: http://localhost:11434
Configuração Híbrida (Recomendado)

Use modelo local para tarefas simples, API para complexas:

# Modelo padrão: local
model: ollama/llama3.1:8b

# Override para tarefas específicas
modelOverrides:
  code: anthropic/claude-3-5-sonnet-20241022
  complex: anthropic/claude-3-5-sonnet-20241022
Passo 4: Reiniciar OpenClaw
openclaw gateway restart

Teste enviando uma mensagem pelo seu canal configurado.

Modelos Populares para OpenClawLlama 3.1/3.2 (Meta)

O mais popular. Bom equilíbrio geral.

ollama pull llama3.1:8b      # 8B - recomendado
ollama pull llama3.2:3b      # 3B - mais leve
ollama pull llama3.1:70b     # 70B - melhor qualidade
Qwen 2.5 (Alibaba)

Excelente para código e raciocínio. Recentemente testado com OpenClaw no r/LocalLLaMA.

ollama pull qwen2.5:7b       # 7B
ollama pull qwen2.5:14b      # 14B - muito bom
ollama pull qwen2.5:32b      # 32B
CodeLlama (Meta)

Especializado em programação.

ollama pull codellama:7b
ollama pull codellama:13b
ollama pull codellama:34b
Mistral/Mixtral

Rápido e eficiente.

ollama pull mistral:7b
ollama pull mixtral:8x7b     # MoE - muito bom
Tool Calling com Modelos Locais

O OpenClaw usa tool calling para executar ações. Nem todos os modelos suportam bem.

Modelos com Bom Suporte a Tools
  • Qwen 2.5 (14B+) - excelente
  • Llama 3.1 (8B+) - bom
  • Mistral 7B v0.3 - bom
Configuração para Tools
model: ollama/qwen2.5:14b

ollama:
  # Formato de tools compatível
  toolFormat: auto
Performance: Dicas1. Use Quantização

Modelos quantizados são menores e mais rápidos:

# Q4 = menor, mais rápido
ollama pull llama3.1:8b-q4_0

# Q8 = maior, melhor qualidade
ollama pull llama3.1:8b-q8_0
2. Configure Contexto

Limite o contexto para respostas mais rápidas:

ollama:
  numCtx: 4096  # Padrão: 2048
3. GPU Offloading

Se tem GPU, certifique-se que Ollama está usando:

ollama run llama3.1:8b --verbose
# Deve mostrar "GPU" nos logs
Comparativo: Local vs API
AspectoOllama (Local)Claude API
Custo$0~$0.003/1K tokens
VelocidadeDepende do hardwareRápido
Qualidade (8B)BoaExcelente
Qualidade (70B)Muito boaExcelente
PrivacidadeTotalDados vão para nuvem
ToolsLimitadoCompleto
OfflineSimNão
TroubleshootingOllama não responde
# Verificar se está rodando
ollama list

# Reiniciar
systemctl restart ollama  # Linux
brew services restart ollama  # macOS
Modelo muito lento
  • Use modelo menor (3B/7B em vez de 14B/70B)
  • Use quantização Q4
  • Reduza contexto
Erros de memória
  • Feche outros programas
  • Use modelo menor
  • Adicione swap (Linux)
Tools não funcionam
  • Use Qwen 2.5 14B+ (melhor suporte)
  • Atualize Ollama: ollama upgrade
Conclusão

Modelos locais são uma excelente opção para:

  • Quem quer privacidade total
  • Quem quer custo zero
  • Quem tem hardware adequado

Para a maioria dos usuários, recomendo:

  • Llama 3.1 8B para uso geral
  • Qwen 2.5 14B para código e tools
  • Configuração híbrida para melhor dos dois mundos

Dúvidas sobre configuração? Veja a documentação oficial do Ollama ou acesse nosso Discord.


📚 Continue Aprendendo