Skip to content

基準比較模板

Harness A:

  • 完成率
  • 平均重試次數
  • 人工審查前捕捉到的錯誤數

Harness B:

  • 完成率
  • 平均重試次數
  • 人工審查前捕捉到的錯誤數

解讀:

  • 哪個 harness 改變了結果?
  • 哪個 harness 改變了獲得結果的成本?