Quantização de Modelos de IA

O que é quantização em IA, como reduz o tamanho de modelos sem perder qualidade e como rodar LLMs no seu computador.

O Que É Quantização de Modelos de IA

Quantização é a técnica de reduzir a precisão numérica dos pesos de um modelo de IA (por exemplo, de 32 bits para 4 bits), diminuindo drasticamente o tamanho e o consumo de memória sem perda significativa de qualidade. É o que permite rodar modelos como Llama e Mistral em computadores comuns.

Como Funciona

A quantização funciona convertendo os pesos do modelo:

FormatoBitsTamanho (7B params)RAM Necessária
FP3232~28 GB32+ GB
FP1616~14 GB16+ GB
INT88~7 GB8+ GB
INT4 (Q4)4~3.5 GB6+ GB

Métodos populares:

  • GPTQ — quantização pós-treinamento com calibração
  • GGUF — formato otimizado para CPU (usado pelo Ollama)
  • AWQ — quantização com awareness de ativação
  • BitsAndBytes — quantização dinâmica para fine-tuning
Exemplo Prático

Com quantização, você roda o Llama 3.1 8B no seu MacBook:

# Via Ollama (já usa quantização GGUF)
ollama pull llama3.1
# Modelo de ~8GB roda em ~6GB de RAM

Sem quantização, esse mesmo modelo precisaria de 16GB+ de RAM e uma GPU dedicada.

No OpenClaw

O OpenClaw integra com Ollama, que usa modelos quantizados no formato GGUF. Isso significa que você pode rodar modelos de IA 100% local, sem enviar dados para a nuvem, usando quantização Q4 ou Q5 para o melhor equilíbrio entre qualidade e performance.

Veja Também