queirozsc
11/30/2017 - 1:51 AM

Template de Postmortem

Template de Postmortem

Data

YYYY-MM-dd

Autores

  • @fulano
  • @ciclano

CheckPoints

  • RCA criado e devidamente preenchido
  • Encontrado a causa raiz
  • Ações de mitigação concluidas
  • Todas ações concluidas

Resumo

Resuma em uma ou duas linhas o que aconteceu

Impacto

X tempo fora do ar, Y informações perdidas, etc, sistema W caiu, etc

Causas Raízes

Descreva as causas raízes do problema

Gatilho

O que causou o problema? Uma nota com um XML inválido? Um pico de acessos?

Resolução

O que foi feito para resolver temporariamente o problema?

Detecção

Quais alertas foram disparados?

Ações

Lições aprendidas

Pontos positivos e/ou onde tivemos sorte

  • O monitoramento nos alertou cedo, e pudemos agir rápido para resolver o problema
  • Não duplicou notas
  • O outro jobs continuou funcionando

Pontos negativos

  • Ocorreram muitas filas no atendimento
  • Não funcionou o monitoramento

Timeline

YYYY-MM-dd (all times GMT-3)

TimeDescription
HH:mmBlah
HH:mmOUTAGE BEGINS, Caiu alguma coisa
HH:mmNotificamos fulano e ciclano
HH:mmBlah
HH:mmBlah
HH:mmBlah
HH:mmOUTAGE MITIGATED, blah
HH:mmOUTAGE ENDS, blah
HH:mmINCIDENT ENDS, blah

Informações adicionais de suporte