평가자 루브릭 (Evaluator Rubric)

구현 후, 최종 수락 전에 이 루브릭(rubric)을 사용하십시오. 에이전트(agent)는 자기 평가에 약한 경향이 있으므로, 이 점수표(scorecard)를 반복적으로 보정(calibration)하여 인간의 판단과 일치하도록 만들어야 합니다.

범주 (Category)	질문 (Question)	점수 (0-2)	비고 (Notes)
정확성 (Correctness)	구현된 동작이 요청된 기능과 일치하는가?
검증 (Verification)	필요한 검사가 증거(evidence)와 함께 실제로 실행되었는가?
범위 규율 (Scope discipline)	세션이 선택된 기능 범위 내에 머물렀는가?
신뢰성 (Reliability)	결과가 재시작 또는 재실행 후에도 수정 없이 유지되는가?
유지보수성 (Maintainability)	코드와 문서가 다음 세션에서 충분히 이해 가능한가?
핸드오프 준비성 (Handoff readiness)	새 세션이 저장소 산출물(repo artifacts)만으로 작업을 계속할 수 있는가?

판정 (Verdict)