Plantilla de Comparación de Benchmark
Harness A:
- tasa de completitud
- reintentos promedio
- bugs detectados antes de la revisión humana
Harness B:
- tasa de completitud
- reintentos promedio
- bugs detectados antes de la revisión humana
Interpretación:
- ¿Qué harness cambió el resultado?
- ¿Qué harness cambió el costo de obtener el resultado?