Aller au contenu
use-cases / emergency-fix-from-phone / hero
TERMINAL · SNAPSHOTS · 03:47

Correction d'urgence en production depuis votre téléphone

PagerDuty vous réveille. Vous ne vous levez pas. Ouvrez le signet pour le terminal de production. PATCH le snapshot d'avant le mauvais déploiement. La production est de retour. Pas de bastion, pas de VPN, pas de laptop.

use-cases / emergency-fix-from-phone / rollback

Quatre mouvements du pager à plat

L'astreinte est une tâche de triage, pas une tâche de débogage. L'URL du terminal vous fait rentrer. Le PATCH snapshot vous fait sortir. Le matin est pour le vrai fix.

Chemin d'incident sur téléphone uniquement4 ÉTAPES · 5 MINUTES
0103:42PAGER

L'alerte arrive. L'écran du téléphone s'allume, la lumière du lit s'éteint.

0203:43TERMINAL

Ouvrir l'URL terminal-1. Tail le journal. Repérer le changement de variable d'env du déploiement 23:00.

0303:46RESTORE

PATCH /containers/[id]/snapshots/pre-deploy-2255. Le conteneur revient.

0403:47FLAT

Le taux d'erreur revient à la ligne de base. Mise à jour du canal envoyée. Lumières éteintes.

L'édition sur téléphone est un enfer, donc le fix paresseux est le bon fix. Restaurer le conteneur au snapshot que vous avez pris avant le mauvais déploiement. La post-mortem de 11:00 peut décider ce qu'il faut réellement changer.

use-cases / emergency-fix-from-phone / chart

Ce que le tableau de bord a montré

La même fenêtre, intégrée dans le navigateur de votre téléphone. Ligne de base, déploiement, pointe, restauration, plate. Vingt-huit secondes pour le snapshot de revenir.

dashboard.…hoody.com/error-rate
erreurs / minute6 dernières heures
23:00 · mauvais déploiement03:42 · pager03:47 · snapshot restauré
pointe de la mauvaise variable d'environnementPATCH sur /snapshots/pre-deploy-2255
use-cases / emergency-fix-from-phone / philosophy

À 03:47 vous ne réparez pas les bugs. Vous réparez la disponibilité.

La rotation d'astreinte n'est pas une session de débogage. C'est une session de triage. Les snapshots rendent le triage instantané pour que le vrai débogage se passe à 11 heures, par des humains qui ont dormi.

  • trier maintenant
  • diagnostiquer plus tard
  • dormir ce soir
use-cases / emergency-fix-from-phone / replaces

Ce que cela remplace

La plupart des rituels d'astreinte sont des cicatrices d'une infrastructure qui ne pouvait pas être parcourue sur un téléphone. L'URL HTTPS plus un PATCH snapshot remplace une pile d'entre eux.

  • La boîte bastionUn saut supplémentaire avec ses propres identifiants
  • Tunnel VPN depuis le litDeux facteurs et un délai avant de commencer à vous battre
  • Rituel de réveil du laptopCinq minutes de friction avant que chaque frappe compte
  • PDF du classeur d'astreintePage 14 du runbook sur un écran de 6 pouces
  • Scripts d'hôte de saut maisonChaînes SSH fragiles que la nouvelle recrue ne peut pas exécuter
  • Pager l'ingénieur seniorRéveiller un second humain pour partager l'URL
use-cases / emergency-fix-from-phone / cta

Vous avez ouvert une URL sur votre téléphone et réparé la production.

Lire le guide des snapshots
use-cases / emergency-fix-from-phone / related

Découvrez les autres