SOP: オブザーバビリティフィードバックループ
この SOP は、デバッグが遅い、エージェントが証拠なしに成功を主張し続ける、 またはランタイムの動作がコードよりも確認が難しい場合に使用します。
目標
エージェントにログ、メトリクス、トレース、実行可能なワークロードに対する ローカルフィードバックループを提供し、コードの検査だけでなく、 実行結果から推論できるようにする。
最小スタック
- アプリケーションが構造化ログを出力する
- 可能な場合、アプリケーションがメトリクスとトレースを出力する
- ローカルのファンアウトまたはコレクションレイヤー
- ログ、メトリクス、トレース用のクエリインターフェース
- 各変更後に再実行するための再現可能なワークロードまたはユーザージャーニー
実行 SOP
- 最も重要なゴールデンランタイムジャーニーを定義する。
- スタートアップとクリティカルパスに構造化ログを追加する。
- レイテンシ、失敗数、キューサイズなどの有用なメトリクスを追加する。
- 遅いまたは複数ステップのフローにトレースまたはタイミングマーカーを追加する。
- ローカル開発環境からシグナルをクエリ可能にする。
- エージェントに再実行するための再現可能なワークロードまたはシナリオを1つ与える。
- ループを必須にする: クエリ -> 相関 -> 推論 -> 実装 -> 再起動 -> 再実行 -> 検証。
デバッグセッションチェックリスト
- 何が失敗したか?
- どのシグナルが失敗を証明しているか?
- どのレイヤーが失敗を担当しているか?
- 修正後に何が変更されたか?
- アプリは正常に再起動したか?
- 同じワークロードは再実行後に成功したか?
完了の定義
- エージェントがランタイムの証拠から障害モードを説明できる。
- 同じワークロードを各変更後に再実行できる。
- 再起動と再実行が通常のタスクループの一部である。
- 信頼性シグナルが
docs/RELIABILITY.mdに文書化されている。