跳转到内容
use-cases / emergency-fix-from-phone / hero
TERMINAL · SNAPSHOTS · 03:47

从手机进行生产紧急修复

PagerDuty 唤醒你。你不用起床。打开生产终端的书签。从坏部署前修补快照。生产已恢复。无堡垒主机,无 VPN,无笔记本电脑。

阅读快照文档
use-cases / emergency-fix-from-phone / rollback

从寻呼机到平坦的四个动作

当班是分诊工作,不是调试工作。终端 URL 让你进入。快照 PATCH 让你出去。早上是真正的修复。

仅手机事件路径4 步 · 5 分钟
0103:42寻呼机

警报到达。手机屏幕亮,床灯关。

0203:43TERMINAL

打开 terminal-1 URL。tail 日志。发现 11pm 部署中的 env-var 变化。

0303:46RESTORE

PATCH /containers/[id]/snapshots/pre-deploy-2255。容器恢复。

0403:47FLAT

错误率回到基线。频道更新已发送。灯关。

在手机上编辑是地狱,所以懒惰的修复是正确的修复。将容器恢复到坏部署前拍摄的快照。11am 事后分析可以决定实际改变什么。

use-cases / emergency-fix-from-phone / chart

仪表盘显示的是什么

同一个窗口,嵌入在你的手机浏览器中。基线、部署、尖峰、恢复、平坦。快照返回用时二十八秒。

dashboard.…hoody.com/error-rate
错误 / 分钟最后 6 小时
23:00 · 坏部署03:42 · 寻呼机03:47 · 快照已恢复
来自坏 env var 的尖峰PATCH on /snapshots/pre-deploy-2255
use-cases / emergency-fix-from-phone / philosophy

在 03:47,你不修复 bug。你修复可用性。

当班轮班不是调试会话。这是分诊会话。快照使分诊瞬间完成,所以实际调试在 11am 进行,由睡过觉的人类进行。

  • 现在分诊
  • 稍后诊断
  • 今晚睡眠
use-cases / emergency-fix-from-phone / replaces

这替代了什么

大多数当班仪式是来自在手机上无法浏览的基础设施的疤痕组织。HTTPS URL 加上快照 PATCH 替代了其中的一堆。

  • 堡垒主机一个有自己凭证的额外跳转
  • 从床上的 VPN 隧道两个因素和一个超时才能开始战斗
  • 唤醒笔记本电脑的仪式五分钟的摩擦力才能使任何按键计数
  • 当班活页夹 PDF6 英寸屏幕上运行册第 14 页
  • 自制跳转主机脚本脆弱的 SSH 链条,新入职者无法运行
  • 寻呼机高级工程师唤醒第二个人来共享 URL
use-cases / emergency-fix-from-phone / cta

你在手机上打开一个 URL 并修复了生产。

阅读快照指南
use-cases / emergency-fix-from-phone / related

阅读其他内容