Ollama (Local) — IA 100% Privada

Ollama (Local)

Rode modelos de IA no seu próprio hardware — sem custo de API e sem dados saindo do seu computador.

Introdução

O Ollama permite executar modelos de linguagem grandes (LLMs) localmente, diretamente no seu computador ou servidor. Para usuários do OpenClaw, isso significa três coisas: privacidade total (nenhum dado enviado para terceiros), custo zero de API e funcionamento offline.

Essa opção é especialmente relevante para quem lida com dados sensíveis — advogados processando casos confidenciais, médicos analisando prontuários, empresas com dados regulados pela LGPD ou qualquer situação onde enviar dados para APIs externas não é aceitável.

A contrapartida é real: modelos locais têm qualidade inferior aos modelos de ponta na nuvem (Claude Opus, GPT-4), exigem hardware significativo para rodar bem e são mais lentos. Para a maioria dos casos de uso cotidianos, a diferença de qualidade é perceptível. Mas para dados que não podem sair do seu ambiente, o trade-off faz sentido.

Antes de decidir, veja o comparativo completo de modelos para entender quando Ollama é a escolha certa.

Características Principais

Privacidade total: O modelo roda no seu hardware, os dados nunca saem do seu ambiente. Ideal para conformidade com LGPD, HIPAA ou outras regulações de proteção de dados.

Custo zero de API: Sem cobranças por token ou por chamada. O único custo é o hardware e a energia elétrica.

Funcionamento offline: Funciona sem conexão à internet após o download inicial do modelo. Útil para ambientes com restrições de rede ou viagens.

Variedade de modelos: O Ollama suporta dezenas de modelos — Llama, Mistral, CodeLlama, Phi, Gemma e muitos outros. Você escolhe o modelo mais adequado para cada caso de uso.

Controle total: Você controla qual versão do modelo usa, como configura os parâmetros e onde os dados são armazenados.

Vantagens

  • 100% privado — dados nunca saem do computador
  • Sem custo de API
  • Funciona offline após download
  • Sem limites de uso (rate limits)
  • Total controle sobre o modelo e os dados

Desvantagens

  • Qualidade inferior aos modelos de ponta (Claude, GPT-4)
  • Requer hardware potente (GPU dedicada recomendada)
  • Mais lento que APIs na nuvem
  • Modelos maiores exigem muito RAM/VRAM
  • Configuração inicial mais complexa

Como Funciona

O Ollama roda um servidor local (por padrão em localhost:11434) que expõe uma API compatível com o formato da OpenAI. O OpenClaw se conecta a esse servidor local exatamente como se conecta a uma API remota, mas sem que nenhum dado saia do seu ambiente.

Instalação

Instalar o Ollama

# Linux e macOS
curl -fsSL https://ollama.ai/install.sh | sh

# Windows
# Baixe o instalador em ollama.ai/download

Baixar um Modelo

# Modelo básico (mais leve)
ollama pull llama3

# Modelo maior e melhor
ollama pull llama3.1:70b

# Modelo especializado em código
ollama pull codellama

# Modelo equilibrado (recomendado para começar)
ollama pull mixtral

Verificar que Está Funcionando

# Listar modelos instalados
ollama list

# Testar o modelo
ollama run llama3 "Olá, tudo bem?"

# Verificar servidor
curl http://localhost:11434/api/tags

Configuração no OpenClaw

Configuração Básica

agents:
  defaults:
    model:
      primary: "ollama/llama3"

Configuração Completa

# config.yaml
provider: ollama

ollama:
  base_url: http://localhost:11434
  model: llama3.1:70b

  # Temperatura
  temperature: 0.7

  # Contexto (em tokens)
  num_ctx: 8192

Multi-Modelo: Ollama para Dados Sensíveis

Use Ollama apenas para dados sensíveis, mantendo Claude para o restante:

models:
  default: claude-3-5-sonnet    # Uso geral
  local: ollama/llama3.1        # Dados confidenciais
  code: ollama/codellama        # Código privado
"Use modelo local: analise esse contrato confidencial"
"Use modelo code: revise esse código com dados de produção"

Modelos Recomendados

ModeloRAM MínimaMelhor Para
llama3 (8B)8GBUso geral básico, testes
llama3.1 (8B)8GBUso geral com melhor tool calling
llama3.1 (70B)40GB RAM ou 24GB VRAMMelhor qualidade local
mixtral (8x7B)24GBBom equilíbrio qualidade/velocidade
codellama8GBCódigo, programação
phi-34GBHardware muito limitado

Recomendação para começar: llama3.1:8b — roda em hardware comum, tem bom suporte a tool calling e qualidade adequada para tarefas básicas.

Requisitos de Hardware

Mínimo (experiência limitada)

  • 8GB RAM
  • CPU moderna (i7/Ryzen 7 ou superior)
  • SSD com 10GB livres por modelo

Recomendado (experiência satisfatória)

  • 16GB RAM (32GB para modelos 70B)
  • GPU NVIDIA com 8GB+ VRAM
  • SSD rápido

Ideal (experiência próxima a APIs na nuvem)

  • 32GB+ RAM
  • GPU NVIDIA com 16-24GB VRAM (RTX 3090, RTX 4090, A100)
  • Modelos 70B+ rodando inteiramente na GPU

Nota sobre GPUs: Sem GPU, os modelos rodam na CPU — funciona, mas é muito mais lento. Com GPU NVIDIA (CUDA), a velocidade melhora dramaticamente. GPUs AMD funcionam com suporte experimental.

Casos de Uso Ideais

Dados de saúde (médicos, clínicas): Prontuários, diagnósticos e informações de pacientes nunca devem sair do ambiente controlado. Com Ollama, você mantém conformidade com o sigilo médico e com a LGPD para dados de saúde.

Dados jurídicos (advogados, escritórios): Estratégias de caso, documentos confidenciais e informações de clientes ficam no seu servidor. Sem risco de violação do sigilo profissional por terceiros.

Propriedade intelectual (empresas de tecnologia): Código fonte, algoritmos proprietários e segredos industriais não precisam ser enviados para APIs externas para análise.

Ambientes sem internet: Locais com restrições de rede, data centers isolados ou situações de contingência onde a internet não está disponível.

Limitações para Uso com OpenClaw

Tool calling: Modelos locais têm suporte variável a tool calling. O Llama 3.1 tem suporte razoável, mas pode ser menos confiável que Claude ou GPT-4 em workflows com muitas ferramentas encadeadas.

Contexto: Modelos locais tipicamente têm contexto menor (4K-32K tokens por padrão, configurável). Para documentos muito longos, você pode precisar fragmentar o conteúdo.

Velocidade: Mesmo com GPU, modelos 70B são mais lentos que APIs na nuvem. Para automações que precisam de resposta rápida, isso pode ser um limitador.

Qualidade: Para tarefas criativas, análise complexa ou decisões estratégicas, a diferença de qualidade em relação a Claude Opus ou GPT-4 é perceptível. Para tarefas estruturadas e bem definidas, a diferença é menor.

FAQ

Q: Ollama funciona em Windows? Sim. O Ollama tem instalador para Windows disponível em ollama.ai/download. O suporte a GPU (CUDA) também funciona no Windows.

Q: Quais modelos têm melhor tool calling local? Llama 3.1 (especialmente o 70B) e Mistral/Mixtral têm melhor suporte a tool calling entre os modelos locais disponíveis. Para use cases críticos, teste antes de adotar em produção.

Q: Posso usar Ollama em um servidor da empresa? Sim. Instale o Ollama no servidor, configure para aceitar conexões da rede local e aponte o OpenClaw para o endereço do servidor em vez de localhost. Isso permite que múltiplos usuários compartilhem o modelo.

Q: O Ollama funciona em Mac com chip Apple Silicon? Sim, e com ótima performance. Os chips M1, M2 e M3 Pro/Max têm memória unificada que permite rodar modelos grandes de forma eficiente sem GPU separada. Um Mac com 16GB de RAM unificada roda o Llama 3.1 8B com velocidade satisfatória.

Q: Como atualizar um modelo para a versão mais recente?

ollama pull llama3.1  # Baixa a versão mais recente
ollama rm llama3.1:old  # Remove versão antiga se necessário

Q: Usar Ollama já garante conformidade com a LGPD? Usar Ollama elimina o risco de exposição de dados a APIs externas, mas a conformidade com LGPD depende de múltiplos fatores além disso: controles de acesso internos, políticas de retenção, base legal para o tratamento, etc. Leia o guia completo de LGPD para uma avaliação completa.

Próximos Passos