SOP: Observability-Feedback-Schleife
Verwenden Sie diese SOP, wenn Debugging langsam ist, Agenten ständig Erfolg ohne Nachweise behaupten oder das Laufzeitverhalten schwerer zu inspizieren ist als der Code selbst.
Ziel
Dem Agenten eine lokale Feedback-Schleife über Logs, Metriken, Traces und ausführbare Workloads geben, damit er aus der Ausführung heraus argumentieren kann, nicht nur aus der Code-Inspektion.
Minimaler Stack
- Anwendung sendet strukturierte Logs
- Anwendung sendet Metriken und Traces, wenn machbar
- lokaler Fan-out- oder Sammelschicht
- Abfrageschnittstellen für Logs, Metriken und Traces
- wiederholbarer Workload oder Benutzer-Journey, um nach jeder Änderung erneut auszuführen
Ausführungs-SOP
- Die Golden Runtime-Journeys definieren, die am wichtigsten sind.
- Strukturierte Logs zum Start und zum kritischen Pfad hinzufügen.
- Metriken für Latenz, Fehleranzahlen oder Warteschlangentiefe hinzufügen, wo nützlich.
- Traces oder Timing-Marker für langsame oder mehrstufige Abläufe hinzufügen.
- Die Signale aus der lokalen Entwicklungsumgebung abfragbar machen.
- Dem Agenten einen wiederholbaren Workload oder ein Szenario zum erneuten Ausführen geben.
- Die Schleife einfordern: abfragen -> korrelieren -> argumentieren -> implementieren -> neustarten -> erneut ausführen -> verifizieren.
Debug-Sitzungs-Checkliste
- Was ist fehlgeschlagen?
- Welches Signal beweist den Fehler?
- Welche Schicht ist für den Fehler verantwortlich?
- Was hat sich nach dem Fix geändert?
- Ist die App sauber neugestartet?
- Hat derselbe Workload nach erneutem Ausfahren bestanden?
Definition von Fertig
- Der Agent kann einen Fehlermodus aus Laufzeitnachweisen erklären.
- Derselbe Workload kann nach jeder Änderung erneut ausgeführt werden.
- Neustart und erneutes Ausführen sind Teil der normalen Aufgaben-Schleife.
- Zuverlässigkeitssignale sind in
docs/RELIABILITY.mddokumentiert.