Zum Inhalt springen
use-cases / emergency-fix-from-phone / hero
TERMINAL · SNAPSHOTS · 03:47

Notfall-Fix für Production vom Telefon aus

PagerDuty weckt dich auf. Du stehst nicht auf. Öffne das Lesezeichen für das Production Terminal. PATCH einen Snapshot von vor dem Bad Deploy. Production ist zurück. Kein Bastion, kein VPN, kein Laptop.

use-cases / emergency-fix-from-phone / rollback

Vier Züge von Pager zu Flat

On-Call ist ein Triage-Job, kein Debug-Job. Die Terminal-URL bringt dich rein. Der Snapshot PATCH bringt dich raus. Der Morgen ist für den echten Fix.

Nur-Telefon Incident Path4 SCHRITTE · 5 MINUTEN
0103:42PAGER

Alert kommt an. Telefonbildschirm an, Bettlicht aus.

0203:43TERMINAL

Öffne terminal-1 URL. tail das Log. Erkenne die Env-Var-Änderung aus dem 23:00 Deploy.

0303:46RESTORE

PATCH /containers/[id]/snapshots/pre-deploy-2255. Der Container reverts.

0403:47FLAT

Error Rate fällt zurück zur Baseline. Channel Update gesendet. Lichter aus.

Bearbeite-auf-Telefon ist die Hölle, also ist der faule Fix der richtige Fix. Stelle den Container zu dem Snapshot wieder her, den du vor dem Bad Deploy genommen hast. Das 11:00 Uhr Post-Mortem kann entscheiden, was du tatsächlich ändern solltest.

use-cases / emergency-fix-from-phone / chart

Was das Dashboard zeigte

Das gleiche Fenster, eingebettet in deinen Telefon-Browser. Baseline, Deploy, Spitze, Restore, Flat. Achtundzwanzig Sekunden für den Snapshot zum Zurückkommen.

dashboard.…hoody.com/error-rate
Fehler / Minuteletzte 6 Stunden
23:00 · Bad Deploy03:42 · Pager03:47 · Snapshot wiederhergestellt
Spitze aus der Bad Env VarPATCH auf /snapshots/pre-deploy-2255
use-cases / emergency-fix-from-phone / philosophy

Um 03:47 fixst du keine Bugs. Du fixst Verfügbarkeit.

Die On-Call-Rotation ist keine Debug-Sitzung. Es ist eine Triage-Sitzung. Snapshots machen Triage augenblicklich, also passiert das echte Debugging um 11:00 Uhr von Menschen, die schlafen gingen.

  • Triage jetzt
  • Diagnose später
  • schlaf heute Nacht
use-cases / emergency-fix-from-phone / replaces

Was das ersetzt

Die meisten On-Call-Rituale sind Narbengewebe von Infrastruktur, die nicht auf einem Telefon browsebar war. Die HTTPS-URL plus ein Snapshot PATCH ersetzt einen Stack davon.

  • Die Bastion BoxEin extra Hop mit seinen eigenen Credentials
  • VPN Tunnel vom BettZwei Faktoren und ein Timeout zum Anfang des Kämpfens
  • Aufwach-Laptop RitualFünf Minuten Reibung bevor ein Tastendruck zählt
  • On-Call Binder PDFSeite 14 des Runbooks auf einem 6-Zoll-Bildschirm
  • Homegrown Jump-Host ScriptsBrüchige SSH-Ketten, die der Neuling nicht laufen lassen kann
  • Pager den Senior EngineerWecke einen zweiten Menschen, um die URL zu teilen
use-cases / emergency-fix-from-phone / cta

Du öffnetest eine URL auf deinem Telefon und fixtest Production.

use-cases / emergency-fix-from-phone / related

Lies die anderen