
1 つのサーバーで 60 のコンテナ
1 つのベアメタルボックスで数十から数百の Hoody コンテナを実行。KSM と BTRFS のデデュプでマージナルコストはほぼゼロ。
PagerDuty があなたを起こします。あなたは起きません。本番環境ターミナルのブックマークを開きます。不正なデプロイ前のスナップショットをPATCH します。本番環境は復旧しました。Bastion なし、VPN なし、ラップトップなし。
オンコールはデバッグジョブではなく、トリアージジョブです。ターミナル URL があなたを入れます。スナップショット PATCH があなたを出します。朝は実際の修正のためのものです。
アラートが到着します。電話の画面が付き、ベッドのライトが消えます。
terminal-1 URL を開きます。ログをテールします。11pm デプロイからの env-var の変更をスポットします。
PATCH /containers/[id]/snapshots/pre-deploy-2255。コンテナが復帰します。
エラー率は基準に戻ります。チャネル更新が送信されます。ライトが消えます。
電話での編集は地獄なので、怠け者の修正が正しい修正です。コンテナを不正なデプロイ前に取ったスナップショットに復元します。11am ポストモーテムは実際に変更することを決定できます。
同じウィンドウが、電話のブラウザーに埋め込まれています。基準値、デプロイ、スパイク、復元、フラット。スナップショットが戻るまで 28 秒。
03:47 でバグを修復しません。可用性を修復します。
オンコール当番ローテーションはデバッグセッションではありません。トリアージセッションです。スナップショットはトリアージを瞬間的にするので、実際のデバッグは寝た人間によって 11 時に起こります。
ほとんどのオンコール儀式は、電話で閲覧できなかったインフラストラクチャからの傷跡です。HTTPS URL とスナップショット PATCH は、それらの多くを置き換えます。
電話で URL を開いて本番環境を修復しました。