---
title: "Como Usar OpenClaw com Modelos Locais (Ollama, Qwen, Llama)"
url: "https://openclaw.ia.br/blog/openclaw-modelos-locais-ollama-guia/"
markdown_url: "https://openclaw.ia.br/blog/openclaw-modelos-locais-ollama-guia.MD"
description: "Guia completo para rodar OpenClaw com modelos locais via Ollama. Zero custo de API, privacidade total. Configuração passo a passo."
date: "2026-01-31"
author: ""
---

# Como Usar OpenClaw com Modelos Locais (Ollama, Qwen, Llama)

Guia completo para rodar OpenClaw com modelos locais via Ollama. Zero custo de API, privacidade total. Configuração passo a passo.


Uma das vantagens do OpenClaw: você não precisa usar APIs pagas. Com **Ollama**, você roda modelos de IA localmente, com custo zero e privacidade total.

Este guia mostra como configurar.

## Por Que Usar Modelos Locais?

**Vantagens:**
- Custo zero após setup
- Privacidade total (nada sai da sua máquina)
- Funciona offline
- Sem rate limits

**Desvantagens:**
- Requer GPU decente (ou CPU potente)
- Modelos menores que Claude/GPT-4
- Setup mais complexo

## Requisitos de Hardware

### Mínimo (modelos pequenos)
- RAM: 8GB
- GPU: Não necessária
- Modelos: Llama 3.2 3B, Qwen 2.5 3B

### Recomendado (modelos médios)
- RAM: 16GB
- GPU: 8GB VRAM (RTX 3060, 4060)
- Modelos: Llama 3.1 8B, Qwen 2.5 14B

### Ideal (modelos grandes)
- RAM: 32GB
- GPU: 24GB VRAM (RTX 4090, A100)
- Modelos: Llama 3.1 70B, Qwen 2.5 72B

## Passo 1: Instalar Ollama

### macOS/Linux

```bash
curl -fsSL https://ollama.com/install.sh | sh
```

### Windows

Baixe o instalador em [ollama.com/download](https://ollama.com/download).

### Verificar Instalação

```bash
ollama --version
```

## Passo 2: Baixar um Modelo

### Modelos Recomendados

```bash
# Leve e rápido (3B parâmetros)
ollama pull llama3.2:3b

# Equilíbrio qualidade/velocidade (8B)
ollama pull llama3.1:8b

# Melhor qualidade local (14B, requer 16GB+ RAM)
ollama pull qwen2.5:14b

# Especializado em código
ollama pull codellama:13b
```

### Testar o Modelo

```bash
ollama run llama3.1:8b "Olá, você está funcionando?"
```

## Passo 3: Configurar OpenClaw

Edite seu `config.yaml`:

```yaml
# Modelo principal: local via Ollama
model: ollama/llama3.1:8b

# URL do Ollama (padrão: localhost)
ollama:
  baseUrl: http://localhost:11434
```

### Configuração Híbrida (Recomendado)

Use modelo local para tarefas simples, API para complexas:

```yaml
# Modelo padrão: local
model: ollama/llama3.1:8b

# Override para tarefas específicas
modelOverrides:
  code: anthropic/claude-3-5-sonnet-20241022
  complex: anthropic/claude-3-5-sonnet-20241022
```

## Passo 4: Reiniciar OpenClaw

```bash
openclaw gateway restart
```

Teste enviando uma mensagem pelo seu canal configurado.

## Modelos Populares para OpenClaw

### Llama 3.1/3.2 (Meta)

O mais popular. Bom equilíbrio geral.

```bash
ollama pull llama3.1:8b      # 8B - recomendado
ollama pull llama3.2:3b      # 3B - mais leve
ollama pull llama3.1:70b     # 70B - melhor qualidade
```

### Qwen 2.5 (Alibaba)

Excelente para código e raciocínio. Recentemente testado com OpenClaw no r/LocalLLaMA.

```bash
ollama pull qwen2.5:7b       # 7B
ollama pull qwen2.5:14b      # 14B - muito bom
ollama pull qwen2.5:32b      # 32B
```

### CodeLlama (Meta)

Especializado em programação.

```bash
ollama pull codellama:7b
ollama pull codellama:13b
ollama pull codellama:34b
```

### Mistral/Mixtral

Rápido e eficiente.

```bash
ollama pull mistral:7b
ollama pull mixtral:8x7b     # MoE - muito bom
```

## Tool Calling com Modelos Locais

O OpenClaw usa tool calling para executar ações. Nem todos os modelos suportam bem.

### Modelos com Bom Suporte a Tools

- Qwen 2.5 (14B+) - excelente
- Llama 3.1 (8B+) - bom
- Mistral 7B v0.3 - bom

### Configuração para Tools

```yaml
model: ollama/qwen2.5:14b

ollama:
  # Formato de tools compatível
  toolFormat: auto
```

## Performance: Dicas

### 1. Use Quantização

Modelos quantizados são menores e mais rápidos:

```bash
# Q4 = menor, mais rápido
ollama pull llama3.1:8b-q4_0

# Q8 = maior, melhor qualidade
ollama pull llama3.1:8b-q8_0
```

### 2. Configure Contexto

Limite o contexto para respostas mais rápidas:

```yaml
ollama:
  numCtx: 4096  # Padrão: 2048
```

### 3. GPU Offloading

Se tem GPU, certifique-se que Ollama está usando:

```bash
ollama run llama3.1:8b --verbose
# Deve mostrar "GPU" nos logs
```

## Comparativo: Local vs API

| Aspecto | Ollama (Local) | Claude API |
|---------|----------------|------------|
| Custo | $0 | ~$0.003/1K tokens |
| Velocidade | Depende do hardware | Rápido |
| Qualidade (8B) | Boa | Excelente |
| Qualidade (70B) | Muito boa | Excelente |
| Privacidade | Total | Dados vão para nuvem |
| Tools | Limitado | Completo |
| Offline | Sim | Não |

## Troubleshooting

### Ollama não responde

```bash
# Verificar se está rodando
ollama list

# Reiniciar
systemctl restart ollama  # Linux
brew services restart ollama  # macOS
```

### Modelo muito lento

- Use modelo menor (3B/7B em vez de 14B/70B)
- Use quantização Q4
- Reduza contexto

### Erros de memória

- Feche outros programas
- Use modelo menor
- Adicione swap (Linux)

### Tools não funcionam

- Use Qwen 2.5 14B+ (melhor suporte)
- Atualize Ollama: `ollama upgrade`

## Conclusão

Modelos locais são uma excelente opção para:
- Quem quer privacidade total
- Quem quer custo zero
- Quem tem hardware adequado

Para a maioria dos usuários, recomendo:
- **Llama 3.1 8B** para uso geral
- **Qwen 2.5 14B** para código e tools
- **Configuração híbrida** para melhor dos dois mundos

---

Dúvidas sobre configuração? Veja a [documentação oficial do Ollama](https://ollama.com/library) ou acesse nosso [Discord](https://discord.gg/clawd).
