SOP：可觀測性回饋迴圈

當除錯速度太慢、代理在沒有證據時反覆宣稱成功，或執行期行為比程式碼本身更難觀察時，就使用這份 SOP。

目標

給代理一個涵蓋 logs、metrics、traces 與可重跑 workload 的本地回饋迴圈，讓它根據執行結果推理，而不是只靠閱讀程式碼。

最低配置

應用程式會輸出結構化 logs
可行時輸出 metrics 與 traces
本地 fan-out 或採集層
可查詢 logs、metrics 與 traces 的介面
每次變更後都能重跑的 workload 或使用者旅程

執行 SOP

定義最重要的黃金執行期旅程。
在啟動流程與關鍵路徑加入結構化 logs。
在合適位置加入 latency、失敗次數或佇列深度等 metrics。
為緩慢或多步驟流程加入 traces 或計時標記。
讓這些訊號能從本地開發環境查詢。
給代理一個可重複執行的 workload 或情境。
要求採用這個迴圈，query -> correlate -> reason -> implement -> restart -> rerun -> verify。

除錯工作階段檢查清單

哪裡失敗了？
哪個訊號能證明失敗？
哪一層負責這個失敗？
修復後哪些訊號改變了？
應用程式是否已乾淨重啟？
同一個 workload 在重跑後是否通過？

完成定義

代理能根據執行期證據說明失敗模式。
每次變更後都能重跑同一個 workload。
重啟與重跑已成為正常工作流程的一部分。
可靠性訊號已記錄在 docs/RELIABILITY.md。