Pular para o conteúdo
use-cases / emergency-fix-from-phone / hero
TERMINAL · SNAPSHOTS · 03:47

Correção de produção de emergência do seu telefone

PagerDuty acorda você. Você não se levanta. Abra o marcador para o terminal de produção. PATCH o snapshot de antes do bad deploy. Produção está de volta. Sem bastion, sem VPN, sem notebook.

use-cases / emergency-fix-from-phone / rollback

Quatro movimentos do pager para plano

On-call é um trabalho de triage, não um trabalho de debug. A URL do terminal entra. O PATCH de snapshot sai. A manhã é para o fix real.

Caminho de incidente somente telefone4 PASSOS · 5 MINUTOS
0103:42PAGER

Alerta chega. Tela do telefone acorda, luz da cama apaga.

0203:43TERMINAL

Abra a URL terminal-1. tail o log. Identifique a mudança de env-var do deploy das 11pm.

0303:46RESTORE

PATCH /containers/[id]/snapshots/pre-deploy-2255. O contêiner reverte.

0403:47FLAT

Taxa de erro cai de volta para o baseline. Atualização de canal enviada. Luzes apagadas.

Editar no telefone é inferno, então a correção preguiçosa é a correção certa. Restaure o contêiner para o snapshot que você tirou antes do bad deploy. O post-mortem das 11am pode decidir o que realmente mudar.

use-cases / emergency-fix-from-phone / chart

O que o dashboard mostrou

A mesma janela, embutida no navegador do seu telefone. Baseline, deploy, spike, restauração, plano. Vinte e oito segundos para o snapshot voltar.

dashboard.…hoody.com/error-rate
erros / minutoúltimas 6 horas
23:00 · bad deploy03:42 · pager03:47 · snapshot restaurado
spike da variável de ambiente ruimPATCH em /snapshots/pre-deploy-2255
use-cases / emergency-fix-from-phone / philosophy

Às 03:47 você não corrige bugs. Você corrige disponibilidade.

A rotina on-call não é uma sessão de debug. É uma sessão de triage. Snapshots tornam o triage instantâneo para que o debugging real aconteça às 11am, por humanos que dormiram.

  • triage agora
  • diagnostique depois
  • durma hoje à noite
use-cases / emergency-fix-from-phone / replaces

O que isto substitui

A maioria dos rituais on-call é tecido de cicatrizes da infraestrutura que não era navegável em um telefone. A URL HTTPS mais um PATCH de snapshot substitui uma pilha deles.

  • A caixa bastionUm hop extra com suas próprias credenciais
  • Túnel VPN da camaDois fatores e um timeout para começar a lutar
  • Ritual de acordar o notebookCinco minutos de fricção antes de qualquer keystroke contar
  • PDF do binder on-callPágina 14 do runbook em uma tela de 6 polegadas
  • Scripts de jump-host caseirosSSH chains frágeis que o new hire não consegue rodar
  • Pager o engenheiro sêniorAcorde um segundo humano para compartilhar a URL
use-cases / emergency-fix-from-phone / cta

Você abriu uma URL no seu telefone e corrigiu produção.

use-cases / emergency-fix-from-phone / related

Leia os outros