
Sechzig Container auf einem Server
Eine Bare-Metal-Box führt Dutzende bis Hunderte von Hoody-Containern aus. KSM und BTRFS-Dedup machen die Marginalkosten nahezu null.
PagerDuty weckt dich auf. Du stehst nicht auf. Öffne das Lesezeichen für das Production Terminal. PATCH einen Snapshot von vor dem Bad Deploy. Production ist zurück. Kein Bastion, kein VPN, kein Laptop.
On-Call ist ein Triage-Job, kein Debug-Job. Die Terminal-URL bringt dich rein. Der Snapshot PATCH bringt dich raus. Der Morgen ist für den echten Fix.
Alert kommt an. Telefonbildschirm an, Bettlicht aus.
Öffne terminal-1 URL. tail das Log. Erkenne die Env-Var-Änderung aus dem 23:00 Deploy.
PATCH /containers/[id]/snapshots/pre-deploy-2255. Der Container reverts.
Error Rate fällt zurück zur Baseline. Channel Update gesendet. Lichter aus.
Bearbeite-auf-Telefon ist die Hölle, also ist der faule Fix der richtige Fix. Stelle den Container zu dem Snapshot wieder her, den du vor dem Bad Deploy genommen hast. Das 11:00 Uhr Post-Mortem kann entscheiden, was du tatsächlich ändern solltest.
Das gleiche Fenster, eingebettet in deinen Telefon-Browser. Baseline, Deploy, Spitze, Restore, Flat. Achtundzwanzig Sekunden für den Snapshot zum Zurückkommen.
Um 03:47 fixst du keine Bugs. Du fixst Verfügbarkeit.
Die On-Call-Rotation ist keine Debug-Sitzung. Es ist eine Triage-Sitzung. Snapshots machen Triage augenblicklich, also passiert das echte Debugging um 11:00 Uhr von Menschen, die schlafen gingen.
Die meisten On-Call-Rituale sind Narbengewebe von Infrastruktur, die nicht auf einem Telefon browsebar war. Die HTTPS-URL plus ein Snapshot PATCH ersetzt einen Stack davon.
Du öffnetest eine URL auf deinem Telefon und fixtest Production.