Workflow: Resposta a Incidentes

Automatize a resposta a incidentes para minimizar impacto e acelerar resolução.

Visão Geral do Fluxo

Alerta → Triagem → Investigação → Mitigação → Resolução → Postmortem

Configuração1. Fontes de Alertas

# Conecte suas ferramentas de monitoramento
integracoes:
  - datadog
  - pagerduty
  - sentry
  - aws_cloudwatch

2. Regras de Escalação

Configure escalação:

P1 (Crítico) - Produção down:
- 0min: Notifica on-call
- 5min: Escala para backup
- 15min: Escala para engineering manager
- 30min: Escala para CTO

P2 (Alto) - Degradação:
- 0min: Notifica on-call
- 30min: Escala para backup

P3 (Médio) - Problema não-urgente:
- Notifica canal Slack
- Review no próximo dia útil

Fases do Incidente1. Detecção e Alerta

🚨 INCIDENTE DETECTADO

Severidade: P1 - Crítico
Serviço: API de Pagamentos
Erro: Taxa de erro > 10%
Início: 14:32 UTC

Métricas:
• Error rate: 15% (normal: <1%)
• Latência p99: 5.2s (normal: 200ms)
• Requests afetados: ~500/min

 Notificando: @diego (on-call)
 Escalação em 5min se não ack

2. Triagem

"Classifique o incidente:
- Impacto: Quantos usuários afetados?
- Severidade: P1/P2/P3
- Causa suspeita inicial"

3. Investigação

"Me dê contexto:
- Últimos deploys (24h)
- Mudanças de infra recentes
- Incidentes similares anteriores
- Logs relevantes"

4. Comunicação

Durante incidente, poste updates a cada 30min:
- Status atual
- O que estamos investigando
- ETA de resolução (se conhecida)

5. Resolução

Incidente resolvido:
- Confirme métricas normalizadas
- Notifique stakeholders
- Agende postmortem

AutomaçõesAlerta Inteligente

Quando alerta P1 disparar:
1. Notifique on-call no PagerDuty
2. Crie canal Slack #incident-[timestamp]
3. Poste contexto inicial (métricas, deploys)
4. Comece timer de escalação

Contexto Automático

Ao iniciar investigação, compile:
- Deploys últimas 24h
- Alertas relacionados
- Dashboards relevantes (screenshot)
- Runbooks aplicáveis

Status Page

Se incidente > 10min:
- Crie entrada no Statuspage
- Atualize a cada 15min
- Feche quando resolver

Postmortem

24h após incidente resolvido:
- Crie doc de postmortem com template
- Preencha dados conhecidos
- Agende reunião de review
- Assigne action items

Template de Postmortem

"Gere postmortem:

# Incidente: [Título]

## Resumo
Data: [data]
Duração: [tempo]
Impacto: [descrição]

## Timeline
[Eventos em ordem cronológica]

## Causa Raiz
[Análise]

## O que funcionou
[Lista]

## O que não funcionou
[Lista]

## Action Items
[ ] Item 1 - Responsável - Prazo
[ ] Item 2 - Responsável - Prazo"

Comandos Úteis

"Status do incidente atual"
"Quem está de plantão?"
"Escale para próximo nível"
"Poste update no canal"
"Contexto: últimos deploys"
"Feche incidente com resumo"

Métricas de IncidentesAcompanhar

"Métricas de incidentes do mês:
- MTTR (tempo médio de resolução)
- MTTA (tempo médio de ack)
- Quantidade por severidade
- Serviços mais afetados"

Integrações

Próximos Passos

Primeiros Passos

Conectar

Aprender

Ajuda

Recursos

Comunidade

Workflow Resposta a Incidentes — SRE com IA

Workflow: Resposta a Incidentes

📄 Mais em Workflows

Workflow Deploy de Código — CI/CD com IA

Workflow Lead Nurturing — Qualificação IA

Workflow Onboarding de Clientes — Customer Success

Workflow Pesquisa — Research com IA

🚀 Pronto para comecar?

Workflow: Resposta a Incidentes

📚 Continue aprendendo

Integração PagerDuty — Incidentes por Chat

Como Automatizar Resposta a Incidentes com IA

Workflow Deploy de Código — CI/CD com IA

Como Automatizar Deploy com IA

Integração Opsgenie — Alertas por Chat

Integração Statuspage — Incidentes por Chat

📄 Mais em Workflows

Workflow Deploy de Código — CI/CD com IA

Workflow Lead Nurturing — Qualificação IA

Workflow Onboarding de Clientes — Customer Success

Workflow Pesquisa — Research com IA

🚀 Pronto para comecar?