평가자 루브릭 (Evaluator Rubric)
구현 후, 최종 수락 전에 이 루브릭(rubric)을 사용하십시오. 에이전트(agent)는 자기 평가에 약한 경향이 있으므로, 이 점수표(scorecard)를 반복적으로 보정(calibration)하여 인간의 판단과 일치하도록 만들어야 합니다.
| 범주 (Category) | 질문 (Question) | 점수 (0-2) | 비고 (Notes) |
|---|---|---|---|
| 정확성 (Correctness) | 구현된 동작이 요청된 기능과 일치하는가? | ||
| 검증 (Verification) | 필요한 검사가 증거(evidence)와 함께 실제로 실행되었는가? | ||
| 범위 규율 (Scope discipline) | 세션이 선택된 기능 범위 내에 머물렀는가? | ||
| 신뢰성 (Reliability) | 결과가 재시작 또는 재실행 후에도 수정 없이 유지되는가? | ||
| 유지보수성 (Maintainability) | 코드와 문서가 다음 세션에서 충분히 이해 가능한가? | ||
| 핸드오프 준비성 (Handoff readiness) | 새 세션이 저장소 산출물(repo artifacts)만으로 작업을 계속할 수 있는가? |
판정 (Verdict)
- Accept
- Revise
- Block
필수 후속 조치 (Required Follow-Up)
- Missing evidence:
- Required fixes:
- Next review trigger: