Skip to content

Plantilla de Comparación de Benchmark

Harness A:

  • tasa de completitud
  • reintentos promedio
  • bugs detectados antes de la revisión humana

Harness B:

  • tasa de completitud
  • reintentos promedio
  • bugs detectados antes de la revisión humana

Interpretación:

  • ¿Qué harness cambió el resultado?
  • ¿Qué harness cambió el costo de obtener el resultado?