Como Usar OpenClaw com Modelos Locais (Ollama, Qwen, Llama)

Uma das vantagens do OpenClaw: você não precisa usar APIs pagas. Com Ollama, você roda modelos de IA localmente, com custo zero e privacidade total.

Este guia mostra como configurar.

Por Que Usar Modelos Locais?

Vantagens:

  • Custo zero após setup
  • Privacidade total (nada sai da sua máquina)
  • Funciona offline
  • Sem rate limits

Desvantagens:

  • Requer GPU decente (ou CPU potente)
  • Modelos menores que Claude/GPT-4
  • Setup mais complexo

Requisitos de Hardware

Mínimo (modelos pequenos)

  • RAM: 8GB
  • GPU: Não necessária
  • Modelos: Llama 3.2 3B, Qwen 2.5 3B

Recomendado (modelos médios)

  • RAM: 16GB
  • GPU: 8GB VRAM (RTX 3060, 4060)
  • Modelos: Llama 3.1 8B, Qwen 2.5 14B

Ideal (modelos grandes)

  • RAM: 32GB
  • GPU: 24GB VRAM (RTX 4090, A100)
  • Modelos: Llama 3.1 70B, Qwen 2.5 72B

Passo 1: Instalar Ollama

macOS/Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Baixe o instalador em ollama.com/download.

Verificar Instalação

ollama --version

Passo 2: Baixar um Modelo

Modelos Recomendados

# Leve e rápido (3B parâmetros)
ollama pull llama3.2:3b

# Equilíbrio qualidade/velocidade (8B)
ollama pull llama3.1:8b

# Melhor qualidade local (14B, requer 16GB+ RAM)
ollama pull qwen2.5:14b

# Especializado em código
ollama pull codellama:13b

Testar o Modelo

ollama run llama3.1:8b "Olá, você está funcionando?"

Passo 3: Configurar OpenClaw

Edite seu config.yaml:

# Modelo principal: local via Ollama
model: ollama/llama3.1:8b

# URL do Ollama (padrão: localhost)
ollama:
  baseUrl: http://localhost:11434

Configuração Híbrida (Recomendado)

Use modelo local para tarefas simples, API para complexas:

# Modelo padrão: local
model: ollama/llama3.1:8b

# Override para tarefas específicas
modelOverrides:
  code: anthropic/claude-3-5-sonnet-20241022
  complex: anthropic/claude-3-5-sonnet-20241022

Passo 4: Reiniciar OpenClaw

openclaw gateway restart

Teste enviando uma mensagem pelo seu canal configurado.

Modelos Populares para OpenClaw

Llama 3.1/3.2 (Meta)

O mais popular. Bom equilíbrio geral.

ollama pull llama3.1:8b      # 8B - recomendado
ollama pull llama3.2:3b      # 3B - mais leve
ollama pull llama3.1:70b     # 70B - melhor qualidade

Qwen 2.5 (Alibaba)

Excelente para código e raciocínio. Recentemente testado com OpenClaw no r/LocalLLaMA.

ollama pull qwen2.5:7b       # 7B
ollama pull qwen2.5:14b      # 14B - muito bom
ollama pull qwen2.5:32b      # 32B

CodeLlama (Meta)

Especializado em programação.

ollama pull codellama:7b
ollama pull codellama:13b
ollama pull codellama:34b

Mistral/Mixtral

Rápido e eficiente.

ollama pull mistral:7b
ollama pull mixtral:8x7b     # MoE - muito bom

Tool Calling com Modelos Locais

O OpenClaw usa tool calling para executar ações. Nem todos os modelos suportam bem.

Modelos com Bom Suporte a Tools

  • Qwen 2.5 (14B+) - excelente
  • Llama 3.1 (8B+) - bom
  • Mistral 7B v0.3 - bom

Configuração para Tools

model: ollama/qwen2.5:14b

ollama:
  # Formato de tools compatível
  toolFormat: auto

Performance: Dicas

1. Use Quantização

Modelos quantizados são menores e mais rápidos:

# Q4 = menor, mais rápido
ollama pull llama3.1:8b-q4_0

# Q8 = maior, melhor qualidade
ollama pull llama3.1:8b-q8_0

2. Configure Contexto

Limite o contexto para respostas mais rápidas:

ollama:
  numCtx: 4096  # Padrão: 2048

3. GPU Offloading

Se tem GPU, certifique-se que Ollama está usando:

ollama run llama3.1:8b --verbose
# Deve mostrar "GPU" nos logs

Comparativo: Local vs API

AspectoOllama (Local)Claude API
Custo$0~$0.003/1K tokens
VelocidadeDepende do hardwareRápido
Qualidade (8B)BoaExcelente
Qualidade (70B)Muito boaExcelente
PrivacidadeTotalDados vão para nuvem
ToolsLimitadoCompleto
OfflineSimNão

Troubleshooting

Ollama não responde

# Verificar se está rodando
ollama list

# Reiniciar
systemctl restart ollama  # Linux
brew services restart ollama  # macOS

Modelo muito lento

  • Use modelo menor (3B/7B em vez de 14B/70B)
  • Use quantização Q4
  • Reduza contexto

Erros de memória

  • Feche outros programas
  • Use modelo menor
  • Adicione swap (Linux)

Tools não funcionam

  • Use Qwen 2.5 14B+ (melhor suporte)
  • Atualize Ollama: ollama upgrade

Conclusão

Modelos locais são uma excelente opção para:

  • Quem quer privacidade total
  • Quem quer custo zero
  • Quem tem hardware adequado

Para a maioria dos usuários, recomendo:

  • Llama 3.1 8B para uso geral
  • Qwen 2.5 14B para código e tools
  • Configuração híbrida para melhor dos dois mundos

Dúvidas sobre configuração? Veja a documentação oficial do Ollama ou acesse nosso Discord.