SOP: Observability Feedback Loop
Используйте этот SOP, когда отладка идёт медленно, агенты постоянно заявляют об успехе без доказательств, или поведение в рантайме сложнее инспектировать, чем сам код.
Цель
Дать агенту локальный feedback-loop по логам, метрикам, трейсам и запускаемой нагрузке, чтобы он мог рассуждать от исполнения, а не только от инспекции кода.
Минимальный стек
- приложение эмитит структурированные логи
- приложение эмитит метрики и трейсы, когда возможно
- локальный fan-out или collection-слой
- интерфейсы запросов для логов, метрик и трейсов
- повторяемая нагрузка или пользовательский сценарий, который можно перезапустить после каждого изменения
SOP исполнения
- Определите golden рантайм-сценарии, которые важнее всего.
- Добавьте структурированные логи на запуск и критический путь.
- Добавьте метрики для латентности, числа сбоев или глубины очереди, где это полезно.
- Добавьте трейсы или временны́е маркеры для медленных или многошаговых потоков.
- Сделайте сигналы запрашиваемыми из локального dev-окружения.
- Дайте агенту одну повторяемую нагрузку или сценарий для перезапуска.
- Требуйте цикл: запрос -> корреляция -> рассуждение -> реализация -> перезапуск -> повтор -> верификация.
Чеклист сессии отладки
- Что упало?
- Какой сигнал доказывает сбой?
- Какому слою принадлежит сбой?
- Что изменилось после исправления?
- Чисто ли перезапустилось приложение?
- Прошла ли та же нагрузка после повторного запуска?
Definition Of Done
- Агент может объяснить режим сбоя по рантайм-доказательствам.
- Одну и ту же нагрузку можно перезапустить после каждого изменения.
- Перезапуск и повторный прогон — часть обычного цикла задачи.
- Сигналы надёжности задокументированы в
docs/RELIABILITY.md.