
一台服务器上运行 60 个容器
一个裸金属服务器运行数十到数百个 Hoody 容器。KSM 和 BTRFS 去重使边际成本接近零。
PagerDuty 唤醒你。你不用起床。打开生产终端的书签。从坏部署前修补快照。生产已恢复。无堡垒主机,无 VPN,无笔记本电脑。
当班是分诊工作,不是调试工作。终端 URL 让你进入。快照 PATCH 让你出去。早上是真正的修复。
警报到达。手机屏幕亮,床灯关。
打开 terminal-1 URL。tail 日志。发现 11pm 部署中的 env-var 变化。
PATCH /containers/[id]/snapshots/pre-deploy-2255。容器恢复。
错误率回到基线。频道更新已发送。灯关。
在手机上编辑是地狱,所以懒惰的修复是正确的修复。将容器恢复到坏部署前拍摄的快照。11am 事后分析可以决定实际改变什么。
同一个窗口,嵌入在你的手机浏览器中。基线、部署、尖峰、恢复、平坦。快照返回用时二十八秒。
在 03:47,你不修复 bug。你修复可用性。
当班轮班不是调试会话。这是分诊会话。快照使分诊瞬间完成,所以实际调试在 11am 进行,由睡过觉的人类进行。
大多数当班仪式是来自在手机上无法浏览的基础设施的疤痕组织。HTTPS URL 加上快照 PATCH 替代了其中的一堆。
你在手机上打开一个 URL 并修复了生产。