Skip to content

SOP: Observability Feedback Loop

Используйте этот SOP, когда отладка идёт медленно, агенты постоянно заявляют об успехе без доказательств, или поведение в рантайме сложнее инспектировать, чем сам код.

Цель

Дать агенту локальный feedback-loop по логам, метрикам, трейсам и запускаемой нагрузке, чтобы он мог рассуждать от исполнения, а не только от инспекции кода.

Минимальный стек

  • приложение эмитит структурированные логи
  • приложение эмитит метрики и трейсы, когда возможно
  • локальный fan-out или collection-слой
  • интерфейсы запросов для логов, метрик и трейсов
  • повторяемая нагрузка или пользовательский сценарий, который можно перезапустить после каждого изменения

SOP исполнения

  1. Определите golden рантайм-сценарии, которые важнее всего.
  2. Добавьте структурированные логи на запуск и критический путь.
  3. Добавьте метрики для латентности, числа сбоев или глубины очереди, где это полезно.
  4. Добавьте трейсы или временны́е маркеры для медленных или многошаговых потоков.
  5. Сделайте сигналы запрашиваемыми из локального dev-окружения.
  6. Дайте агенту одну повторяемую нагрузку или сценарий для перезапуска.
  7. Требуйте цикл: запрос -> корреляция -> рассуждение -> реализация -> перезапуск -> повтор -> верификация.

Чеклист сессии отладки

  • Что упало?
  • Какой сигнал доказывает сбой?
  • Какому слою принадлежит сбой?
  • Что изменилось после исправления?
  • Чисто ли перезапустилось приложение?
  • Прошла ли та же нагрузка после повторного запуска?

Definition Of Done

  • Агент может объяснить режим сбоя по рантайм-доказательствам.
  • Одну и ту же нагрузку можно перезапустить после каждого изменения.
  • Перезапуск и повторный прогон — часть обычного цикла задачи.
  • Сигналы надёжности задокументированы в docs/RELIABILITY.md.