SOP:可觀測性回饋迴圈
當除錯速度太慢、代理在沒有證據時反覆宣稱成功,或執行期行為比程式碼本身更難觀察時,就使用這份 SOP。
目標
給代理一個涵蓋 logs、metrics、traces 與可重跑 workload 的本地回饋迴圈,讓它根據執行結果推理,而不是只靠閱讀程式碼。
最低配置
- 應用程式會輸出結構化 logs
- 可行時輸出 metrics 與 traces
- 本地 fan-out 或採集層
- 可查詢 logs、metrics 與 traces 的介面
- 每次變更後都能重跑的 workload 或使用者旅程
執行 SOP
- 定義最重要的黃金執行期旅程。
- 在啟動流程與關鍵路徑加入結構化 logs。
- 在合適位置加入 latency、失敗次數或佇列深度等 metrics。
- 為緩慢或多步驟流程加入 traces 或計時標記。
- 讓這些訊號能從本地開發環境查詢。
- 給代理一個可重複執行的 workload 或情境。
- 要求採用這個迴圈,
query -> correlate -> reason -> implement -> restart -> rerun -> verify。
除錯工作階段檢查清單
- 哪裡失敗了?
- 哪個訊號能證明失敗?
- 哪一層負責這個失敗?
- 修復後哪些訊號改變了?
- 應用程式是否已乾淨重啟?
- 同一個 workload 在重跑後是否通過?
完成定義
- 代理能根據執行期證據說明失敗模式。
- 每次變更後都能重跑同一個 workload。
- 重啟與重跑已成為正常工作流程的一部分。
- 可靠性訊號已記錄在
docs/RELIABILITY.md。