Ollama (Local) — IA 100% Privada
Ollama (Local)
Rode modelos de IA no seu próprio hardware — sem custo de API e sem dados saindo do seu computador.
Introdução
O Ollama permite executar modelos de linguagem grandes (LLMs) localmente, diretamente no seu computador ou servidor. Para usuários do OpenClaw, isso significa três coisas: privacidade total (nenhum dado enviado para terceiros), custo zero de API e funcionamento offline.
Essa opção é especialmente relevante para quem lida com dados sensíveis — advogados processando casos confidenciais, médicos analisando prontuários, empresas com dados regulados pela LGPD ou qualquer situação onde enviar dados para APIs externas não é aceitável.
A contrapartida é real: modelos locais têm qualidade inferior aos modelos de ponta na nuvem (Claude Opus, GPT-4), exigem hardware significativo para rodar bem e são mais lentos. Para a maioria dos casos de uso cotidianos, a diferença de qualidade é perceptível. Mas para dados que não podem sair do seu ambiente, o trade-off faz sentido.
Antes de decidir, veja o comparativo completo de modelos para entender quando Ollama é a escolha certa.
Características Principais
Privacidade total: O modelo roda no seu hardware, os dados nunca saem do seu ambiente. Ideal para conformidade com LGPD, HIPAA ou outras regulações de proteção de dados.
Custo zero de API: Sem cobranças por token ou por chamada. O único custo é o hardware e a energia elétrica.
Funcionamento offline: Funciona sem conexão à internet após o download inicial do modelo. Útil para ambientes com restrições de rede ou viagens.
Variedade de modelos: O Ollama suporta dezenas de modelos — Llama, Mistral, CodeLlama, Phi, Gemma e muitos outros. Você escolhe o modelo mais adequado para cada caso de uso.
Controle total: Você controla qual versão do modelo usa, como configura os parâmetros e onde os dados são armazenados.
Vantagens
- 100% privado — dados nunca saem do computador
- Sem custo de API
- Funciona offline após download
- Sem limites de uso (rate limits)
- Total controle sobre o modelo e os dados
Desvantagens
- Qualidade inferior aos modelos de ponta (Claude, GPT-4)
- Requer hardware potente (GPU dedicada recomendada)
- Mais lento que APIs na nuvem
- Modelos maiores exigem muito RAM/VRAM
- Configuração inicial mais complexa
Como Funciona
O Ollama roda um servidor local (por padrão em localhost:11434) que expõe uma API compatível com o formato da OpenAI. O OpenClaw se conecta a esse servidor local exatamente como se conecta a uma API remota, mas sem que nenhum dado saia do seu ambiente.
Instalação
Instalar o Ollama
# Linux e macOS
curl -fsSL https://ollama.ai/install.sh | sh
# Windows
# Baixe o instalador em ollama.ai/download
Baixar um Modelo
# Modelo básico (mais leve)
ollama pull llama3
# Modelo maior e melhor
ollama pull llama3.1:70b
# Modelo especializado em código
ollama pull codellama
# Modelo equilibrado (recomendado para começar)
ollama pull mixtral
Verificar que Está Funcionando
# Listar modelos instalados
ollama list
# Testar o modelo
ollama run llama3 "Olá, tudo bem?"
# Verificar servidor
curl http://localhost:11434/api/tags
Configuração no OpenClaw
Configuração Básica
agents:
defaults:
model:
primary: "ollama/llama3"
Configuração Completa
# config.yaml
provider: ollama
ollama:
base_url: http://localhost:11434
model: llama3.1:70b
# Temperatura
temperature: 0.7
# Contexto (em tokens)
num_ctx: 8192
Multi-Modelo: Ollama para Dados Sensíveis
Use Ollama apenas para dados sensíveis, mantendo Claude para o restante:
models:
default: claude-3-5-sonnet # Uso geral
local: ollama/llama3.1 # Dados confidenciais
code: ollama/codellama # Código privado
"Use modelo local: analise esse contrato confidencial"
"Use modelo code: revise esse código com dados de produção"
Modelos Recomendados
| Modelo | RAM Mínima | Melhor Para |
|---|---|---|
| llama3 (8B) | 8GB | Uso geral básico, testes |
| llama3.1 (8B) | 8GB | Uso geral com melhor tool calling |
| llama3.1 (70B) | 40GB RAM ou 24GB VRAM | Melhor qualidade local |
| mixtral (8x7B) | 24GB | Bom equilíbrio qualidade/velocidade |
| codellama | 8GB | Código, programação |
| phi-3 | 4GB | Hardware muito limitado |
Recomendação para começar: llama3.1:8b — roda em hardware comum, tem bom suporte a tool calling e qualidade adequada para tarefas básicas.
Requisitos de Hardware
Mínimo (experiência limitada)
- 8GB RAM
- CPU moderna (i7/Ryzen 7 ou superior)
- SSD com 10GB livres por modelo
Recomendado (experiência satisfatória)
- 16GB RAM (32GB para modelos 70B)
- GPU NVIDIA com 8GB+ VRAM
- SSD rápido
Ideal (experiência próxima a APIs na nuvem)
- 32GB+ RAM
- GPU NVIDIA com 16-24GB VRAM (RTX 3090, RTX 4090, A100)
- Modelos 70B+ rodando inteiramente na GPU
Nota sobre GPUs: Sem GPU, os modelos rodam na CPU — funciona, mas é muito mais lento. Com GPU NVIDIA (CUDA), a velocidade melhora dramaticamente. GPUs AMD funcionam com suporte experimental.
Casos de Uso Ideais
Dados de saúde (médicos, clínicas): Prontuários, diagnósticos e informações de pacientes nunca devem sair do ambiente controlado. Com Ollama, você mantém conformidade com o sigilo médico e com a LGPD para dados de saúde.
Dados jurídicos (advogados, escritórios): Estratégias de caso, documentos confidenciais e informações de clientes ficam no seu servidor. Sem risco de violação do sigilo profissional por terceiros.
Propriedade intelectual (empresas de tecnologia): Código fonte, algoritmos proprietários e segredos industriais não precisam ser enviados para APIs externas para análise.
Ambientes sem internet: Locais com restrições de rede, data centers isolados ou situações de contingência onde a internet não está disponível.
Limitações para Uso com OpenClaw
Tool calling: Modelos locais têm suporte variável a tool calling. O Llama 3.1 tem suporte razoável, mas pode ser menos confiável que Claude ou GPT-4 em workflows com muitas ferramentas encadeadas.
Contexto: Modelos locais tipicamente têm contexto menor (4K-32K tokens por padrão, configurável). Para documentos muito longos, você pode precisar fragmentar o conteúdo.
Velocidade: Mesmo com GPU, modelos 70B são mais lentos que APIs na nuvem. Para automações que precisam de resposta rápida, isso pode ser um limitador.
Qualidade: Para tarefas criativas, análise complexa ou decisões estratégicas, a diferença de qualidade em relação a Claude Opus ou GPT-4 é perceptível. Para tarefas estruturadas e bem definidas, a diferença é menor.
FAQ
Q: Ollama funciona em Windows? Sim. O Ollama tem instalador para Windows disponível em ollama.ai/download. O suporte a GPU (CUDA) também funciona no Windows.
Q: Quais modelos têm melhor tool calling local? Llama 3.1 (especialmente o 70B) e Mistral/Mixtral têm melhor suporte a tool calling entre os modelos locais disponíveis. Para use cases críticos, teste antes de adotar em produção.
Q: Posso usar Ollama em um servidor da empresa? Sim. Instale o Ollama no servidor, configure para aceitar conexões da rede local e aponte o OpenClaw para o endereço do servidor em vez de localhost. Isso permite que múltiplos usuários compartilhem o modelo.
Q: O Ollama funciona em Mac com chip Apple Silicon? Sim, e com ótima performance. Os chips M1, M2 e M3 Pro/Max têm memória unificada que permite rodar modelos grandes de forma eficiente sem GPU separada. Um Mac com 16GB de RAM unificada roda o Llama 3.1 8B com velocidade satisfatória.
Q: Como atualizar um modelo para a versão mais recente?
ollama pull llama3.1 # Baixa a versão mais recente
ollama rm llama3.1:old # Remove versão antiga se necessário
Q: Usar Ollama já garante conformidade com a LGPD? Usar Ollama elimina o risco de exposição de dados a APIs externas, mas a conformidade com LGPD depende de múltiplos fatores além disso: controles de acesso internos, políticas de retenção, base legal para o tratamento, etc. Leia o guia completo de LGPD para uma avaliação completa.
Próximos Passos
- Comparativo de modelos — Compare com Claude e GPT
- Claude (Anthropic) — Melhor qualidade geral
- LGPD e conformidade — Uso responsável de dados
- Boas práticas de segurança — Segurança além do modelo
- Guia de instalação — Configure o OpenClaw completo