
Soixante conteneurs sur un seul serveur
Une machine bare-metal exécute des dizaines à des centaines de conteneurs Hoody. La dédupplication KSM et BTRFS rend le coût marginal quasi nul.
PagerDuty vous réveille. Vous ne vous levez pas. Ouvrez le signet pour le terminal de production. PATCH le snapshot d'avant le mauvais déploiement. La production est de retour. Pas de bastion, pas de VPN, pas de laptop.
L'astreinte est une tâche de triage, pas une tâche de débogage. L'URL du terminal vous fait rentrer. Le PATCH snapshot vous fait sortir. Le matin est pour le vrai fix.
L'alerte arrive. L'écran du téléphone s'allume, la lumière du lit s'éteint.
Ouvrir l'URL terminal-1. Tail le journal. Repérer le changement de variable d'env du déploiement 23:00.
PATCH /containers/[id]/snapshots/pre-deploy-2255. Le conteneur revient.
Le taux d'erreur revient à la ligne de base. Mise à jour du canal envoyée. Lumières éteintes.
L'édition sur téléphone est un enfer, donc le fix paresseux est le bon fix. Restaurer le conteneur au snapshot que vous avez pris avant le mauvais déploiement. La post-mortem de 11:00 peut décider ce qu'il faut réellement changer.
La même fenêtre, intégrée dans le navigateur de votre téléphone. Ligne de base, déploiement, pointe, restauration, plate. Vingt-huit secondes pour le snapshot de revenir.
À 03:47 vous ne réparez pas les bugs. Vous réparez la disponibilité.
La rotation d'astreinte n'est pas une session de débogage. C'est une session de triage. Les snapshots rendent le triage instantané pour que le vrai débogage se passe à 11 heures, par des humains qui ont dormi.
La plupart des rituels d'astreinte sont des cicatrices d'une infrastructure qui ne pouvait pas être parcourue sur un téléphone. L'URL HTTPS plus un PATCH snapshot remplace une pile d'entre eux.
Vous avez ouvert une URL sur votre téléphone et réparé la production.