Quantização de Modelos de IA
O que é quantização em IA, como reduz o tamanho de modelos sem perder qualidade e como rodar LLMs no seu computador.
O Que É Quantização de Modelos de IA
Quantização é a técnica de reduzir a precisão numérica dos pesos de um modelo de IA (por exemplo, de 32 bits para 4 bits), diminuindo drasticamente o tamanho e o consumo de memória sem perda significativa de qualidade. É o que permite rodar modelos como Llama e Mistral em computadores comuns.
Como Funciona
A quantização funciona convertendo os pesos do modelo:
| Formato | Bits | Tamanho (7B params) | RAM Necessária |
|---|---|---|---|
| FP32 | 32 | ~28 GB | 32+ GB |
| FP16 | 16 | ~14 GB | 16+ GB |
| INT8 | 8 | ~7 GB | 8+ GB |
| INT4 (Q4) | 4 | ~3.5 GB | 6+ GB |
Métodos populares:
- GPTQ — quantização pós-treinamento com calibração
- GGUF — formato otimizado para CPU (usado pelo Ollama)
- AWQ — quantização com awareness de ativação
- BitsAndBytes — quantização dinâmica para fine-tuning
Exemplo Prático
Com quantização, você roda o Llama 3.1 8B no seu MacBook:
# Via Ollama (já usa quantização GGUF)
ollama pull llama3.1
# Modelo de ~8GB roda em ~6GB de RAM
Sem quantização, esse mesmo modelo precisaria de 16GB+ de RAM e uma GPU dedicada.
No OpenClaw
O OpenClaw integra com Ollama, que usa modelos quantizados no formato GGUF. Isso significa que você pode rodar modelos de IA 100% local, sem enviar dados para a nuvem, usando quantização Q4 ou Q5 para o melhor equilíbrio entre qualidade e performance.
Veja Também
- Modelo Local — rodando IA no seu próprio hardware
- GPU vs CPU — qual hardware usar para IA
- VRAM — memória de vídeo para modelos de IA
- Guia: Modelos Locais — configure modelos no seu PC
- Tutorial: Ollama — rode IA local com OpenClaw