
Sessenta contêineres em um servidor
Uma caixa bare-metal executa dezenas a centenas de contêineres Hoody. KSM e BTRFS dedup fazem o custo marginal próximo a zero.
PagerDuty acorda você. Você não se levanta. Abra o marcador para o terminal de produção. PATCH o snapshot de antes do bad deploy. Produção está de volta. Sem bastion, sem VPN, sem notebook.
On-call é um trabalho de triage, não um trabalho de debug. A URL do terminal entra. O PATCH de snapshot sai. A manhã é para o fix real.
Alerta chega. Tela do telefone acorda, luz da cama apaga.
Abra a URL terminal-1. tail o log. Identifique a mudança de env-var do deploy das 11pm.
PATCH /containers/[id]/snapshots/pre-deploy-2255. O contêiner reverte.
Taxa de erro cai de volta para o baseline. Atualização de canal enviada. Luzes apagadas.
Editar no telefone é inferno, então a correção preguiçosa é a correção certa. Restaure o contêiner para o snapshot que você tirou antes do bad deploy. O post-mortem das 11am pode decidir o que realmente mudar.
A mesma janela, embutida no navegador do seu telefone. Baseline, deploy, spike, restauração, plano. Vinte e oito segundos para o snapshot voltar.
Às 03:47 você não corrige bugs. Você corrige disponibilidade.
A rotina on-call não é uma sessão de debug. É uma sessão de triage. Snapshots tornam o triage instantâneo para que o debugging real aconteça às 11am, por humanos que dormiram.
A maioria dos rituais on-call é tecido de cicatrizes da infraestrutura que não era navegável em um telefone. A URL HTTPS mais um PATCH de snapshot substitui uma pilha deles.
Você abriu uma URL no seu telefone e corrigiu produção.