SOP：可观测性反馈闭环

当调试太慢、agent 总在没证据的情况下宣布成功、或者运行时行为比代码本身还难看懂时，就用这份 SOP。

目标

给 agent 一套本地闭环，让它可以基于 logs、metrics、traces 和可重复 workload 来判断系统，而不是只靠看代码猜。

最小可用栈

应用输出结构化日志
条件允许时输出 metrics 和 traces
本地采集或 fan-out 层
可查询 logs / metrics / traces 的接口
每次改动后都能重跑的 workload 或 user journey

执行 SOP

先定义最重要的黄金运行旅程。
给启动流程和关键路径补结构化日志。
在合适位置补 latency、failure count、queue depth 之类的 metrics。
为慢路径或多阶段流程补 traces 或 timing 标记。
让这些信号能从本地开发环境查询到。
给 agent 一条可以反复重跑的 workload 或场景。
强制执行这条闭环：query -> correlate -> reason -> implement -> restart -> rerun -> verify。

调试会话检查清单

到底哪里失败了？
哪条信号能证明它失败？
失败归属哪一层？
修复后哪条信号发生了变化？
App 是否能干净重启？
同一 workload 重跑后是否通过？

完成定义

agent 能用运行证据解释失败模式。
每次改动后都能重跑同一 workload。
restart 与 rerun 已经成为正常任务循环的一部分。
可靠性信号已经记录到 docs/RELIABILITY.md。