VRAM (Memória de Vídeo)

O Que É VRAM

VRAM (Video RAM, ou Memória de Vídeo) é o tipo de memória de acesso rápido integrada às GPUs (placas de vídeo). Para computação de IA, a VRAM é o recurso mais crítico de hardware: ela determina quais modelos você pode rodar localmente, com que velocidade, e quão complexas podem ser as operações. Toda a computação de inferência de um modelo de IA acontece nos núcleos da GPU, e os dados precisam estar na VRAM para serem processados — dados em RAM comum ou SSD são ordens de magnitude mais lentos para essa finalidade.

A demanda por VRAM cresce proporcionalmente ao tamanho dos modelos. Um modelo de 7 bilhões de parâmetros em precisão float16 ocupa aproximadamente 14 GB de VRAM. Com quantização Q4 (4 bits por parâmetro), esse mesmo modelo cabe em cerca de 4-5 GB. Um modelo de 70 bilhões de parâmetros exige 35-40 GB em Q4, o que ultrapassa a VRAM de qualquer GPU consumer disponível no mercado.

Para empresas e desenvolvedores brasileiros interessados em rodar modelos de IA localmente — por razões de privacidade, custo em larga escala ou ausência de dependência de APIs externas — entender VRAM é fundamental para escolher hardware adequado e decidir quais modelos são viáveis on-premise.

Como Funciona

Quando você executa inferência em um modelo de LLM local, a GPU precisa manter na VRAM:

Pesos do modelo: os parâmetros treinados, que determinam o comportamento do modelo. São a parte maior — um modelo de 13B parâmetros em float16 ocupa 26 GB.

KV Cache: durante a geração de texto, o modelo precisa reter os estados de atenção de todos os tokens processados (o “contexto”). Esse cache cresce com o tamanho do contexto e pode ocupar gigabytes para conversas longas ou context windows grandes.

Activations: valores intermediários calculados durante o processamento. Variam conforme o tamanho do batch e a arquitetura do modelo.

Framework overhead: PyTorch, CUDA e outras ferramentas ocupam alguns GB adicionais.

A fórmula prática para estimar VRAM necessária para inferência: (parâmetros em bilhões) × (bits por parâmetro / 8) × 1.2 GB, onde o fator 1.2 cobre o overhead. Para um modelo de 13B em Q4 (4 bits): 13 × 0.5 × 1.2 = 7.8 GB. Uma RTX 3060 de 12 GB o rodaria com folga.

Exemplo Prático

Uma startup de HealthTech em Belo Horizonte precisa processar dados sensíveis de pacientes e não pode enviar essas informações para APIs de cloud por razões de compliance com a ANVISA e LGPD. A solução foi montar um servidor local com IA.

Análise de requisitos: o modelo precisa ter qualidade suficiente para análise de laudos médicos em português, com contexto de pelo menos 8.000 tokens. Escolheram o Llama 3.1 70B (alta qualidade para o domínio médico) com quantização Q4_K_M. Requisito: ~42 GB de VRAM.

Hardware escolhido: servidor com duas NVIDIA A40 (48 GB VRAM cada) em configuração de tensor parallelism — o modelo é dividido entre as duas GPUs, somando 96 GB de VRAM disponível com performance excelente. Custo do servidor: R$ 120.000. Payback estimado: 18 meses comparado ao custo de APIs cloud para o volume projetado de requisições.

Para startups com orçamento menor, GPUs consumer como RTX 4090 (24 GB) permitem rodar modelos até 13-20B parâmetros em qualidade razoável por ~R$ 8.000-12.000.

Importância para Empresas

A decisão entre usar APIs de cloud (sem necessidade de VRAM própria) versus rodar modelos localmente (VRAM própria) é uma das mais impactantes no design de sistemas de IA. Para a maioria das empresas brasileiras, APIs cloud são a escolha inicial por simplicidade e custo de capital zero. Porém, à medida que o volume cresce, o custo de API pode superar o custo de hardware próprio.

O ponto de inflexão varia por caso de uso, mas uma regra de ouro: se você está gastando mais de R$ 15.000-20.000 por mês em APIs de LLM, provavelmente vale fazer a análise financeira de hardware próprio. Para volumes menores, cloud é mais econômico considerando o custo de capital, manutenção, eletricidade e expertise técnica necessária.

Privacidade e compliance são frequentemente o fator decisivo, independente de custo. Setores regulados como saúde, financeiro e jurídico podem ter restrições que tornam o processamento local obrigatório, independente do análise financeira.

VRAM no OpenClaw

O OpenClaw suporta integração com modelos locais via Ollama, que gerencia automaticamente a alocação de VRAM e suporta múltiplas GPUs. Você configura qual modelo Ollama usar no soul.md e o OpenClaw roteia as requisições adequadamente — local para dados sensíveis, cloud para tarefas sem restrição.

Para quem não quer investir em hardware próprio mas precisa de mais controle do que APIs públicas oferecem, o OpenClaw também suporta integração com instâncias de GPU em cloud como RunPod, Lambda Labs e Vast.ai — mais baratas que instâncias de ML na AWS ou GCP, com VRAM dedicada e modelos rodando na sua própria instância isolada.

Termos Relacionados

Perguntas Frequentes

Quanto VRAM preciso para começar com IA local? Para experimentos e desenvolvimento: uma RTX 3060 ou RTX 4060 Ti com 12-16 GB VRAM permite rodar modelos até 13B parâmetros em quantização Q4. Para produção com qualidade razoável: RTX 4090 (24 GB) roda modelos até 34B em Q4. Para modelos de fronteira (70B+): precisa de múltiplas GPUs ou hardware enterprise (A100, H100).

VRAM e RAM comum são a mesma coisa? Não. VRAM é memória dedicada na GPU, com largura de banda muito maior que RAM comum (até 900 GB/s para H100 vs ~50 GB/s para RAM DDR5). Modelos de IA precisam estar na VRAM — usar RAM comum para inferência (via técnicas de offloading) é possível mas drasticamente mais lento.

Dá pra rodar LLM sem GPU, só com CPU? Sim, mas muito mais lento. llama.cpp permite rodar LLMs em CPU com velocidade de 1-10 tokens por segundo (comparado a 50-100+ tokens/s em GPU). Para uso pessoal e desenvolvimento, pode ser aceitável. Para produção com múltiplos usuários, geralmente inviável.

Quantização piora muito a qualidade do modelo? Quantização Q4 (4 bits) geralmente reduz qualidade em 5-10% comparado ao modelo completo em float16. Quantização Q8 (8 bits) perde menos de 1%. Para a maioria das aplicações práticas, Q4_K_M é um ótimo equilíbrio entre tamanho e qualidade. Modelos de 70B em Q4 frequentemente superam modelos de 13B em float16.

O que é tensor parallelism e como ajuda com VRAM? Tensor parallelism divide as operações do modelo entre múltiplas GPUs, permitindo que modelos maiores que qualquer GPU individual sejam executados. Com 4 GPUs de 24 GB, você tem efetivamente 96 GB de VRAM disponível para um único modelo. Frameworks como vLLM e llama.cpp suportam essa configuração.

Primeiros Passos

Conectar

Aprender

Ajuda

Recursos

Buscar

Comunidade