Inkwell 现场信息记录模板
本文档面向维护者,用于在这些场景里快速记录关键信息:
- 线上排障
- 部署迁移
- 备份恢复
- 长时间搁置后重新接手
- 交接给下一位维护者
它不是排障手册,也不是命令索引。
它要解决的问题是:
当你已经在现场处理问题时,哪些信息必须先记录下来,才能避免后续判断反复走回头路?
如果你现在需要的是:
- 看日志与运行态排查顺序:看
docs/monitoring-and-logs.md - 选维护方向:看
docs/maintenance-decisions.md - 升级与回滚:看
docs/upgrade-and-rollback.md - 首次上线验收:看
docs/first-deployment-checklist.md - 长期维护节奏:看
docs/long-term-maintenance.md - 交接前最少要留下什么:看
docs/handoff-checklist.md
1. 什么时候应该使用这份模板
适合:
- 你正在处理线上异常
- 你准备迁移、恢复或升级实例
- 你接手了一个很久没动过的项目
- 你准备把当前维护状态交给下一个人
- 你不想把关键事实只留在聊天记录、脑子里或零散命令历史里
不适合:
- 只是查单个命令
- 只是阅读项目概览
- 只做一次很小的文档改动
2. 最小原则
2.1 先记录事实,再下判断
优先记录:
- 当前版本
- 当前部署方式
- 当前症状
- 当前验证结果
不要一开始就只写结论,例如:
- “像是数据库问题”
- “可能是 Nginx”
- “大概是配置错了”
2.2 把“当前已知可用状态”记下来
排障或恢复时,最有价值的信息之一是:
- 上一个已知正常的版本是什么
- 上一个已知正常的部署方式是什么
- 上一个已知正常的入口与链路是什么
2.3 记录“你已经试过什么”
否则下一个维护者很容易重复:
- 重跑同一条命令
- 重复确认同一条日志
- 重复走一遍已经排除的方向
3. 最小现场信息模板
下面这份模板不需要每次全部填满,但至少建议先把前 6 部分补齐。
markdown
## 现场记录
### 1. 基本背景
- 日期:
- 场景:排障 / 迁移 / 恢复 / 重新接手 / 交接
- 维护者:
- 当前目标:
### 2. 当前实例事实
- 部署方式:VPS 宿主机 / Docker Compose
- 域名或访问入口:
- 文档站地址:
- 仓库路径或服务器路径:
- 当前代码版本 / commit:
- 上一个已知可用版本 / commit:
### 3. 关键配置事实
- 后台真实入口路径(admin_path):
- scheduled publish 主要入口:CLI / internal API
- HTTPS / 证书方式:
- 反向代理:Nginx / Caddy / 其他
- `.env` 或环境注入位置:
- 备份目录位置:
### 4. 当前症状
- 用户可见现象:
- 最早发现时间:
- 影响范围:首页 / 后台 / 搜索 / 备份恢复 / 定时发布 / 全站
- 是否稳定复现:是 / 否
- 当前最像哪一类问题:部署 / 配置 / 数据 / 搜索 / 代理 / 未确定
### 5. 已确认的事实
- `GET /api/health`:正常 / 异常
- 首页:正常 / 异常
- 后台登录:正常 / 异常
- 搜索:正常 / 异常
- 备份导出:正常 / 异常
- 备份恢复:正常 / 异常 / 未验证
- scheduled publish:正常 / 异常 / 未验证
### 6. 已执行的动作
- 已看过的文档:
- 已执行的命令:
- 已检查的日志:
- 已排除的方向:
- 尚未检查的方向:
### 7. 关键输出 / 证据
- 错误信息:
- 关键日志片段:
- 关键 HTTP 返回:
- 关键命令输出:
### 8. 当前判断
- 当前最可疑原因:
- 为什么这样判断:
- 当前不建议做的动作:
### 9. 下一步建议
- 立刻要做:
- 如果失败,下一条分支:
- 需要他人补充的信息:
### 10. 关闭条件
- 什么情况下可以认为这次问题已解决:
- 解决后需要同步哪些文档:
- 解决后是否要补长期维护记录:4. 哪些字段最不能留空
如果你来不及完整记录,至少别漏掉这些:
- 当前代码版本 / commit
- 部署方式(VPS / Compose)
- 当前后台真实入口路径
- 当前症状与影响范围
GET /api/health、首页、后台登录、搜索 这几项状态- 已经执行过的关键命令
- 已经看过的关键日志
- 下一步准备做什么
5. 各场景下最值得先补的字段
5.1 线上排障
优先补:
- 当前症状
- 影响范围
- 健康检查 / 首页 / 后台登录 / 搜索状态
- 已看过的日志
- 已排除的方向
搭配阅读:
docs/monitoring-and-logs.mddocs/troubleshooting.md
5.2 升级或迁移
优先补:
- 当前版本 / 上一个已知可用版本
- 部署方式
- 备份是否已完成
- migration 是否已执行
- 回退点是什么
搭配阅读:
docs/upgrade-and-rollback.mddocs/release-checklist.md
5.3 备份恢复
优先补:
- 备份目录位置
- 备份对应版本
- 恢复命令与参数
- 恢复后 smoke 结果
- 搜索是否已重建
搭配阅读:
docs/upgrade-and-rollback.mddocs/operations-reference.mddocs/troubleshooting.md
5.4 长时间搁置后重新接手
优先补:
- 当前部署方式
- 当前可访问入口
- 当前后台真实入口路径
- 当前 scheduled publish 依赖 CLI 还是 internal API
- 当前备份与证书续期方式
- 当前已知风险与未验证项
搭配阅读:
docs/long-term-maintenance.mddocs/maintenance-decisions.md
5.5 交接给下一位维护者
优先补:
- 当前已知可用版本
- 当前部署结构
- 当前最重要的 3 个入口
- 当前未解决的问题
- 当前绝对不要忘的风险点
6. 现场记录时最常见的错误
- 只写结论,不写证据
- 只记“已经坏了”,不记影响范围
- 只记错误,不记当前仍正常的链路
- 只记做了什么,不记为什么做
- 没记版本、路径、入口,导致别人无法复现上下文
- 问题解决后不补“关闭条件”和文档同步项
7. 推荐搭配阅读
- 维护入口总览:
docs/README.md - 运维入口速查:
docs/operations-reference.md - 运行态排查:
docs/monitoring-and-logs.md - 故障排查:
docs/troubleshooting.md - 升级与回滚:
docs/upgrade-and-rollback.md - 长期维护:
docs/long-term-maintenance.md - 维护决策:
docs/maintenance-decisions.md