Skip to content

SOP: Цикл зворотного зв'язку спостережуваності

Використовуйте цей SOP, коли налагодження повільне, агенти продовжують заявляти про успіх без доказів або runtime-поведінка важча для інспекції, ніж сам код.

Мета

Надати агенту локальний цикл зворотного зв'язку через логи, метрики, трейси та відтворювані навантаження, щоб він міг міркувати на основі виконання, а не лише інспекції коду.

Мінімальний стек

  • застосунок видає структуровані логи
  • застосунок видає метрики та трейси там, де це доцільно
  • локальний шар збору або розподілу сигналів
  • інтерфейси запитів для логів, метрик і трейсів
  • відтворюване навантаження або шлях користувача для повторного запуску після кожної зміни

Виконання SOP

  1. Визначити золоті runtime-шляхи, які мають найбільше значення.
  2. Додати структуровані логи до запуску та критичного шляху.
  3. Додати метрики для затримки, кількості збоїв або глибини черги там, де це корисно.
  4. Додати трейси або маркери часу для повільних або багатокрокових потоків.
  5. Зробити сигнали доступними для запиту з локального середовища розробки.
  6. Надати агенту одне відтворюване навантаження або сценарій для повторного запуску.
  7. Вимагати цикл: запит -> кореляція -> міркування -> реалізація -> перезапуск -> повторний запуск -> верифікація.

Контрольний список сесії налагодження

  • Що не вдалось?
  • Який сигнал доводить збій?
  • Якому шару належить збій?
  • Що змінилось після виправлення?
  • Чи перезапустився застосунок чисто?
  • Чи пройшло те саме навантаження після повторного запуску?

Визначення завершення

  • Агент може пояснити режим збою на основі runtime-свідчень.
  • Те саме навантаження можна повторно запустити після кожної зміни.
  • Перезапуск і повторний запуск є частиною нормального циклу завдання.
  • Сигнали надійності задокументовані в docs/RELIABILITY.md.