Skip to content

RELIABILITY.md

이 파일은 시스템이 어떻게 건강하고 재시작 가능함을 증명하는지를 정의합니다.

신뢰성(reliability) 문서는 에이전트(agent)가 기능 구현 후 시스템이 깨끗하게 재시작될 수 있는지, 그리고 런타임 실패가 진단 가능한지를 확인하는 데 필요한 경로와 신호를 제공합니다. 신뢰성을 가드레일로 정의함으로써 기능 추가 시 시스템 안정성이 묵시적으로 저하되는 것을 방지합니다.

표준 경로

  • 부트스트랩(Bootstrap): [명령어]
  • 검증(Verification): [명령어]
  • 앱 또는 서비스 시작: [명령어]
  • 런타임 디버그 또는 검사: [명령어]

필수 런타임 신호

  • 시작 및 중요 흐름에 대한 구조화된 로그
  • 주요 서비스에 대한 헬스 체크(health check)
  • 가능한 경우 느린 경로에 대한 트레이스 또는 타이밍 데이터
  • 복구 가능한 실패에 대한 사용자 가시적 오류 상태

황금 여정(Golden Journey)

  • [여정 1]
  • [여정 2]
  • [여정 3]

각 황금 여정에는 반복 가능한 검증 경로와 명확한 실패 신호가 있어야 합니다.

신뢰성 규칙

  • 시스템이 이후에 깔끔하게 재시작될 수 없으면 어떤 기능도 완료된 것이 아니다.
  • 런타임 실패는 저장소 로컬 신호로 진단 가능해야 한다.
  • 반복되는 실패 모드가 나타나면 해당 모드에 대한 벤치마크 또는 가드레일을 추가한다.
  • 정리(cleanup)는 신뢰성의 일부이며 별도의 관심사가 아니다.