SOP: オブザーバビリティフィードバックループ

この SOP は、デバッグが遅い、エージェントが証拠なしに成功を主張し続ける、またはランタイムの動作がコードよりも確認が難しい場合に使用します。

目標

エージェントにログ、メトリクス、トレース、実行可能なワークロードに対するローカルフィードバックループを提供し、コードの検査だけでなく、実行結果から推論できるようにする。

最小スタック

アプリケーションが構造化ログを出力する
可能な場合、アプリケーションがメトリクスとトレースを出力する
ローカルのファンアウトまたはコレクションレイヤー
ログ、メトリクス、トレース用のクエリインターフェース
各変更後に再実行するための再現可能なワークロードまたはユーザージャーニー

実行 SOP

最も重要なゴールデンランタイムジャーニーを定義する。
スタートアップとクリティカルパスに構造化ログを追加する。
レイテンシ、失敗数、キューサイズなどの有用なメトリクスを追加する。
遅いまたは複数ステップのフローにトレースまたはタイミングマーカーを追加する。
ローカル開発環境からシグナルをクエリ可能にする。
エージェントに再実行するための再現可能なワークロードまたはシナリオを1つ与える。
ループを必須にする: クエリ -> 相関 -> 推論 -> 実装 -> 再起動 -> 再実行 -> 検証。

デバッグセッションチェックリスト

何が失敗したか?
どのシグナルが失敗を証明しているか?
どのレイヤーが失敗を担当しているか?
修正後に何が変更されたか?
アプリは正常に再起動したか?
同じワークロードは再実行後に成功したか?

完了の定義

エージェントがランタイムの証拠から障害モードを説明できる。
同じワークロードを各変更後に再実行できる。
再起動と再実行が通常のタスクループの一部である。
信頼性シグナルが docs/RELIABILITY.md に文書化されている。