RELIABILITY.md
이 파일은 시스템이 어떻게 건강하고 재시작 가능함을 증명하는지를 정의합니다.
신뢰성(reliability) 문서는 에이전트(agent)가 기능 구현 후 시스템이 깨끗하게 재시작될 수 있는지, 그리고 런타임 실패가 진단 가능한지를 확인하는 데 필요한 경로와 신호를 제공합니다. 신뢰성을 가드레일로 정의함으로써 기능 추가 시 시스템 안정성이 묵시적으로 저하되는 것을 방지합니다.
표준 경로
- 부트스트랩(Bootstrap):
[명령어] - 검증(Verification):
[명령어] - 앱 또는 서비스 시작:
[명령어] - 런타임 디버그 또는 검사:
[명령어]
필수 런타임 신호
- 시작 및 중요 흐름에 대한 구조화된 로그
- 주요 서비스에 대한 헬스 체크(health check)
- 가능한 경우 느린 경로에 대한 트레이스 또는 타이밍 데이터
- 복구 가능한 실패에 대한 사용자 가시적 오류 상태
황금 여정(Golden Journey)
[여정 1][여정 2][여정 3]
각 황금 여정에는 반복 가능한 검증 경로와 명확한 실패 신호가 있어야 합니다.
신뢰성 규칙
- 시스템이 이후에 깔끔하게 재시작될 수 없으면 어떤 기능도 완료된 것이 아니다.
- 런타임 실패는 저장소 로컬 신호로 진단 가능해야 한다.
- 반복되는 실패 모드가 나타나면 해당 모드에 대한 벤치마크 또는 가드레일을 추가한다.
- 정리(cleanup)는 신뢰성의 일부이며 별도의 관심사가 아니다.