SOP: Цикл зворотного зв'язку спостережуваності
Використовуйте цей SOP, коли налагодження повільне, агенти продовжують заявляти про успіх без доказів або runtime-поведінка важча для інспекції, ніж сам код.
Мета
Надати агенту локальний цикл зворотного зв'язку через логи, метрики, трейси та відтворювані навантаження, щоб він міг міркувати на основі виконання, а не лише інспекції коду.
Мінімальний стек
- застосунок видає структуровані логи
- застосунок видає метрики та трейси там, де це доцільно
- локальний шар збору або розподілу сигналів
- інтерфейси запитів для логів, метрик і трейсів
- відтворюване навантаження або шлях користувача для повторного запуску після кожної зміни
Виконання SOP
- Визначити золоті runtime-шляхи, які мають найбільше значення.
- Додати структуровані логи до запуску та критичного шляху.
- Додати метрики для затримки, кількості збоїв або глибини черги там, де це корисно.
- Додати трейси або маркери часу для повільних або багатокрокових потоків.
- Зробити сигнали доступними для запиту з локального середовища розробки.
- Надати агенту одне відтворюване навантаження або сценарій для повторного запуску.
- Вимагати цикл: запит -> кореляція -> міркування -> реалізація -> перезапуск -> повторний запуск -> верифікація.
Контрольний список сесії налагодження
- Що не вдалось?
- Який сигнал доводить збій?
- Якому шару належить збій?
- Що змінилось після виправлення?
- Чи перезапустився застосунок чисто?
- Чи пройшло те саме навантаження після повторного запуску?
Визначення завершення
- Агент може пояснити режим збою на основі runtime-свідчень.
- Те саме навантаження можна повторно запустити після кожної зміни.
- Перезапуск і повторний запуск є частиною нормального циклу завдання.
- Сигнали надійності задокументовані в
docs/RELIABILITY.md.