コンテンツにスキップ
use-cases / emergency-fix-from-phone / hero
ターミナル · スナップショット · 03:47

電話から本番環境を緊急修復

PagerDuty があなたを起こします。あなたは起きません。本番環境ターミナルのブックマークを開きます。不正なデプロイ前のスナップショットをPATCH します。本番環境は復旧しました。Bastion なし、VPN なし、ラップトップなし。

use-cases / emergency-fix-from-phone / rollback

Pager からフラットまでの 4 つの動き

オンコールはデバッグジョブではなく、トリアージジョブです。ターミナル URL があなたを入れます。スナップショット PATCH があなたを出します。朝は実際の修正のためのものです。

電話のみのインシデント パス4 ステップ · 5 分
0103:42PAGER

アラートが到着します。電話の画面が付き、ベッドのライトが消えます。

0203:43ターミナル

terminal-1 URL を開きます。ログをテールします。11pm デプロイからの env-var の変更をスポットします。

0303:46復元

PATCH /containers/[id]/snapshots/pre-deploy-2255。コンテナが復帰します。

0403:47FLAT

エラー率は基準に戻ります。チャネル更新が送信されます。ライトが消えます。

電話での編集は地獄なので、怠け者の修正が正しい修正です。コンテナを不正なデプロイ前に取ったスナップショットに復元します。11am ポストモーテムは実際に変更することを決定できます。

use-cases / emergency-fix-from-phone / chart

ダッシュボードが表示したもの

同じウィンドウが、電話のブラウザーに埋め込まれています。基準値、デプロイ、スパイク、復元、フラット。スナップショットが戻るまで 28 秒。

dashboard.…hoody.com/error-rate
エラー / 分過去 6 時間
23:00 · 不正なデプロイ03:42 · pager03:47 · スナップショット復元
悪い env 変数からのスパイク/snapshots/pre-deploy-2255 の PATCH
use-cases / emergency-fix-from-phone / philosophy

03:47 でバグを修復しません。可用性を修復します。

オンコール当番ローテーションはデバッグセッションではありません。トリアージセッションです。スナップショットはトリアージを瞬間的にするので、実際のデバッグは寝た人間によって 11 時に起こります。

  • 今すぐトリアージ
  • 後で診断
  • 今晩寝る
use-cases / emergency-fix-from-phone / replaces

これが置き換わるもの

ほとんどのオンコール儀式は、電話で閲覧できなかったインフラストラクチャからの傷跡です。HTTPS URL とスナップショット PATCH は、それらの多くを置き換えます。

  • Bastion ボックス独自の認証情報を持つ追加ホップ
  • ベッドからの VPN トンネル2 つのファクタと戦闘開始のタイムアウト
  • ラップトップの起動儀式任意のキーストロークがカウントされる前に 5 分間の摩擦
  • オンコール バインダー PDF6 インチの画面上のランブックの 14 ページ
  • 自家製ジャンプホストスクリプト新入社員が実行できない脆い SSH チェーン
  • Pager シニアエンジニアURL を共有するために 2 番目の人間を起こす
use-cases / emergency-fix-from-phone / cta

電話で URL を開いて本番環境を修復しました。

スナップショット ガイドを読む
use-cases / emergency-fix-from-phone / related

他のユースケースを読む