Ir al contenido
use-cases / emergency-fix-from-phone / hero
TERMINAL · SNAPSHOTS · 03:47

Arreglo de emergencia en producción desde tu teléfono

PagerDuty te despierta. No te levantes. Abre el marcador para el terminal de producción. PATCH el snapshot de antes del despliegue malo. La producción está de vuelta. Sin bastion, sin VPN, sin portátil.

use-cases / emergency-fix-from-phone / rollback

Cuatro movidas de pager a plano

On-call es un trabajo de triage, no un trabajo de depuración. La URL del terminal te permite entrar. El PATCH de snapshot te saca. La mañana es para el arreglo real.

Ruta de incidente solo en teléfono4 PASOS · 5 MINUTOS
0103:42PAGER

Llega la alerta. Pantalla del teléfono encendida, luz de la cama apagada.

0203:43TERMINAL

Abre la URL terminal-1. Tail del registro. Localiza el cambio de variable de entorno del despliegue de las 11pm.

0303:46RESTORE

PATCH /containers/[id]/snapshots/pre-deploy-2255. El contenedor se revierte.

0403:47FLAT

La tasa de errores vuelve a la línea base. Actualización de canal enviada. Luces apagadas.

Editar en el teléfono es un infierno, así que el arreglo perezoso es el arreglo correcto. Restaura el contenedor al snapshot que tomaste antes del despliegue malo. El post-mortem de las 11am puede decidir qué cambiar realmente.

use-cases / emergency-fix-from-phone / chart

Lo que mostró el panel

La misma ventana, incrustada en tu navegador del teléfono. Línea base, despliegue, pico, restauración, plana. Veintiocho segundos para que vuelva el snapshot.

dashboard.…hoody.com/error-rate
errores / minutoúltimas 6 horas
23:00 · despliegue malo03:42 · pager03:47 · snapshot restaurado
pico de la variable de entorno malaPATCH en /snapshots/pre-deploy-2255
use-cases / emergency-fix-from-phone / philosophy

A las 03:47 no arreglas errores. Arreglas disponibilidad.

La rotación de on-call no es una sesión de depuración. Es una sesión de triage. Los snapshots hacen que el triage sea instantáneo así que la depuración real sucede a las 11am, por humanos que durmieron.

  • triage ahora
  • diagnostica después
  • duerme esta noche
use-cases / emergency-fix-from-phone / replaces

Lo que esto reemplaza

La mayoría de los rituales de on-call son tejido de cicatrices de infraestructura que no era navegable en un teléfono. La URL HTTPS más un PATCH de snapshot reemplazan un montón de ellos.

  • La caja bastionUn salto extra con sus propias credenciales
  • Túnel VPN desde la camaDos factores y un tiempo de espera antes de empezar a luchar
  • Ritual de despertar el portátilCinco minutos de fricción antes de que cualquier pulsación cuente
  • PDF del manual de on-callPágina 14 del runbook en una pantalla de 6 pulgadas
  • Scripts caseros de jump-hostCadenas SSH frágiles que el nuevo contratado no puede ejecutar
  • Llamar por pager al ingeniero seniorDespierta a un segundo humano para compartir la URL
use-cases / emergency-fix-from-phone / cta

Abriste una URL en tu teléfono y arreglaste la producción.

Lee la guía de snapshots
use-cases / emergency-fix-from-phone / related

Lee los otros