Benchmark Latência OpenClaw — Tempo de Resposta
Benchmark: Latência
Quanto tempo o OpenClaw leva para responder? Métricas detalhadas.
Metodologia
- Ambiente: Ubuntu 22.04, 4 vCPU, 8GB RAM
- Conexão: 100 Mbps fibra, São Paulo
- Medição: 1000 requests por cenário
- Métricas: p50, p95, p99
Por Modelo
Claude 3.5 Sonnet (Recomendado)
| Cenário | p50 | p95 | p99 |
|---|---|---|---|
| Resposta curta | 1.2s | 2.1s | 3.5s |
| Resposta média | 2.8s | 4.5s | 6.2s |
| Resposta longa | 5.1s | 8.3s | 12.1s |
| Com tool call | 3.2s | 5.8s | 8.4s |
Claude 3 Haiku (Rápido)
| Cenário | p50 | p95 | p99 |
|---|---|---|---|
| Resposta curta | 0.4s | 0.8s | 1.2s |
| Resposta média | 0.9s | 1.5s | 2.1s |
| Resposta longa | 1.8s | 3.2s | 4.5s |
| Com tool call | 1.1s | 2.0s | 3.0s |
GPT-4 Turbo
| Cenário | p50 | p95 | p99 |
|---|---|---|---|
| Resposta curta | 1.5s | 2.8s | 4.2s |
| Resposta média | 3.2s | 5.5s | 7.8s |
| Resposta longa | 6.2s | 10.1s | 14.5s |
| Com tool call | 4.0s | 7.2s | 10.5s |
Por Canal
- Overhead: +200-500ms (websocket relay)
- Delivery: 500-2000ms (rede do WhatsApp)
- Total percebido: API time + ~1s
Telegram
- Overhead: +50-100ms
- Delivery: 100-500ms
- Total percebido: API time + ~300ms
CLI
- Overhead: ~10ms
- Total percebido: ~= API time
Por Operação
Apenas Chat
Input → API → Output
Total: 1-5s dependendo do modelo
Com Tool Call
Input → API → Tool → API → Output
Total: 2-10s (depende da tool)
Com Memória
Input → Memory Search → API → Output
Overhead: +100-300ms para busca
Otimização
Use Modelo Adequado
# config.yaml
models:
default: claude-3-5-sonnet # Balanceado
fast: claude-3-haiku # Tarefas simples
Streaming
Streaming mostra resposta conforme gera:
streaming:
enabled: true # Percepção de velocidade
Cache
cache:
enabled: true
ttl: 3600 # 1 hora
Região da API
Latência varia por região:
- US East: Melhor para Anthropic
- Mais perto = mais rápido
Comparação com Alternativas
| Solução | Latência Típica |
|---|---|
| OpenClaw | 1-5s |
| ChatGPT Web | 2-8s |
| Copilot | 1-3s |
| API direta | 0.5-3s |
OpenClaw adiciona overhead mínimo (~100ms) sobre API direta.
Monitoramento
Ver Latência
"Qual a latência média das minhas respostas?"
Logs
openclaw logs | grep "latency\|ms"
Métricas
metrics:
enabled: true
endpoint: /metrics # Prometheus format
Fatores que Afetam
- Tamanho do contexto - Mais tokens = mais lento
- Complexidade - Raciocínio leva tempo
- Horário - APIs ficam lentas em picos
- Sua conexão - Latência de rede
- Modelo - Haiku « Sonnet « Opus