Soixante conteneurs sur un seul serveur
Une seule machine bare-metal fait tourner des dizaines à des centaines de conteneurs Hoody. La déduplication KSM et BTRFS rend le coût marginal quasi nul.
PagerDuty vous réveille. vous ne vous levez pas. vous ouvrez le bookmark du terminal de production. PATCH du snapshot d'avant le mauvais déploiement. La prod est de retour. Pas de bastion, pas de VPN, pas de laptop.
L'astreinte, c'est du triage, pas du debug. L'URL terminal vous fait entrer. Le PATCH snapshot vous fait sortir. Le matin, c'est pour le vrai correctif.
Alerte qui arrive. Écran allumé, lampe de chevet éteinte.
Ouvrez l'URL de terminal-1. tail du log. Repérez le changement d'env-var du déploiement de 23h.
PATCH /containers/[id]/snapshots/snap-20260504-035647. Le conteneur revient en arrière.
Le taux d'erreur retombe au niveau de base. Update envoyée sur le canal. Lumière éteinte.
Éditer sur téléphone, c'est l'enfer — donc le fix paresseux est le bon. Restaurez le conteneur au snapshot pris avant le mauvais déploiement. Le post-mortem de 11h décidera quoi changer pour de vrai.
La même fenêtre, embarquée dans le navigateur de votre téléphone. Baseline, déploiement, pic, restore, calme plat. Vingt-huit secondes pour que le snapshot revienne.
À 03:47 vous ne corrigez pas les bugs. vous rétablissez la disponibilité.
L'astreinte n'est pas une session de debug. C'est une session de triage. Les snapshots rendent le triage instantané, pour que le vrai debug se passe à 11h, par des humains qui ont dormi.
La plupart des rituels d'astreinte sont les cicatrices d'une infra qui n'était pas accessible depuis un téléphone. L'URL HTTPS plus un PATCH de snapshot remplace toute une pile.
vous avez ouvert une URL sur votre téléphone et restauré la prod.