Skip to content

SOP:可观测性反馈闭环

当调试太慢、agent 总在没证据的情况下宣布成功、或者运行时行为比代码本身还难看懂时,就用这份 SOP。

目标

给 agent 一套本地闭环,让它可以基于 logs、metrics、traces 和可重复 workload 来判断系统,而不是只靠看代码猜。

最小可用栈

  • 应用输出结构化日志
  • 条件允许时输出 metrics 和 traces
  • 本地采集或 fan-out 层
  • 可查询 logs / metrics / traces 的接口
  • 每次改动后都能重跑的 workload 或 user journey

执行 SOP

  1. 先定义最重要的黄金运行旅程。
  2. 给启动流程和关键路径补结构化日志。
  3. 在合适位置补 latency、failure count、queue depth 之类的 metrics。
  4. 为慢路径或多阶段流程补 traces 或 timing 标记。
  5. 让这些信号能从本地开发环境查询到。
  6. 给 agent 一条可以反复重跑的 workload 或场景。
  7. 强制执行这条闭环:query -> correlate -> reason -> implement -> restart -> rerun -> verify。

调试会话检查清单

  • 到底哪里失败了?
  • 哪条信号能证明它失败?
  • 失败归属哪一层?
  • 修复后哪条信号发生了变化?
  • App 是否能干净重启?
  • 同一 workload 重跑后是否通过?

完成定义

  • agent 能用运行证据解释失败模式。
  • 每次改动后都能重跑同一 workload。
  • restart 与 rerun 已经成为正常任务循环的一部分。
  • 可靠性信号已经记录到 docs/RELIABILITY.md