Guardrails (Proteções de IA)

O que são guardrails em IA, como proteger seu assistente de respostas inadequadas e configurar limites seguros.

O Que É Guardrails

Guardrails são mecanismos de proteção que limitam e controlam o comportamento de sistemas de IA. Assim como grades de proteção em estradas, guardrails em IA previnem que o modelo gere conteúdo prejudicial, execute ações perigosas ou ultrapasse limites definidos pelo usuário.

Como Funciona

Guardrails operam em múltiplas camadas:

  1. Input Guardrails — filtram e validam entradas do usuário antes de chegar ao modelo
  2. Output Guardrails — verificam a resposta do modelo antes de entregar ao usuário
  3. Behavioral Guardrails — definem regras de conduta (“nunca revelar dados pessoais”)
  4. Action Guardrails — limitam quais ações o modelo pode executar
  5. Cost Guardrails — controlam gastos com API (rate limiting, budgets)

Implementações populares incluem o NeMo Guardrails da NVIDIA, Constitutional AI da Anthropic, e filtros customizados por aplicação.

Exemplo Prático

No OpenClaw, guardrails protegem seu assistente:

  • Allowlist de skills: apenas skills autorizados podem ser executados
  • Rate limiting: máximo de N mensagens por minuto
  • Content filter: bloqueia comandos potencialmente perigosos
  • Budget cap: limite de gastos mensais com API

Exemplo: se alguém tentar usar seu bot para gerar spam, os guardrails bloqueiam automaticamente.

No OpenClaw

O OpenClaw implementa guardrails em várias camadas: o sistema de allowlist controla quais skills podem ser ativados, o rate limiting previne abuso, e você pode configurar regras personalizadas no arquivo soul.md para definir exatamente o que seu assistente pode ou não fazer.

Veja Também