Skip to content

SOP: オブザーバビリティフィードバックループ

この SOP は、デバッグが遅い、エージェントが証拠なしに成功を主張し続ける、 またはランタイムの動作がコードよりも確認が難しい場合に使用します。

目標

エージェントにログ、メトリクス、トレース、実行可能なワークロードに対する ローカルフィードバックループを提供し、コードの検査だけでなく、 実行結果から推論できるようにする。

最小スタック

  • アプリケーションが構造化ログを出力する
  • 可能な場合、アプリケーションがメトリクスとトレースを出力する
  • ローカルのファンアウトまたはコレクションレイヤー
  • ログ、メトリクス、トレース用のクエリインターフェース
  • 各変更後に再実行するための再現可能なワークロードまたはユーザージャーニー

実行 SOP

  1. 最も重要なゴールデンランタイムジャーニーを定義する。
  2. スタートアップとクリティカルパスに構造化ログを追加する。
  3. レイテンシ、失敗数、キューサイズなどの有用なメトリクスを追加する。
  4. 遅いまたは複数ステップのフローにトレースまたはタイミングマーカーを追加する。
  5. ローカル開発環境からシグナルをクエリ可能にする。
  6. エージェントに再実行するための再現可能なワークロードまたはシナリオを1つ与える。
  7. ループを必須にする: クエリ -> 相関 -> 推論 -> 実装 -> 再起動 -> 再実行 -> 検証。

デバッグセッションチェックリスト

  • 何が失敗したか?
  • どのシグナルが失敗を証明しているか?
  • どのレイヤーが失敗を担当しているか?
  • 修正後に何が変更されたか?
  • アプリは正常に再起動したか?
  • 同じワークロードは再実行後に成功したか?

完了の定義

  • エージェントがランタイムの証拠から障害モードを説明できる。
  • 同じワークロードを各変更後に再実行できる。
  • 再起動と再実行が通常のタスクループの一部である。
  • 信頼性シグナルが docs/RELIABILITY.md に文書化されている。