Project 06. 搭建完整的代理工作環境

相關講義：L11. 讓 agent 的執行過程可觀測 · L12. 每次工作階段結束前都做好交接本篇範本檔案：templates/

你要做什麼

這是結業專案。把前五個專案學到的所有東西組裝起來，執行一次完整的基準測試，然後做一輪清理，驗證品質是可以持續維護的。

你要用一套固定的多功能任務集，涵蓋知識庫應用的完整產品切片，包括匯入文件、建構索引、附引用的問答、執行時期可觀測性、可讀可重啟的儲存庫狀態。先執行一次弱 harness 基線，再執行一次你組裝的最強 harness，然後做一輪清理和重新執行。最後還要做一次 harness 精簡實驗——刪掉一個組件，觀察結果是否變差，判斷哪些組件是真正有用的、哪些是多餘的開銷。

使用倉庫內建專案

倉庫路徑：projects/project-06/

目錄	內容	怎麼用 / 比較什麼
`starter/`	產品功能基本完整，但 harness 表面刻意削弱（只有基礎 `AGENTS.md`，沒有 `feature_list.json` / `session-handoff.md` / `clean-state-checklist.md`，也沒有 benchmark/cleanup 腳本）。	起始版本刻意不包含基準測試腳本。手動記錄弱 harness 基線行為（錯誤定位速度、是否過早宣告完成等）。
`solution/`	最大化 harness：`AGENTS.md`、`CLAUDE.md`、`feature_list.json`、`init.sh`、`session-handoff.md`、`clean-state-checklist.md`、品質/評估文檔、benchmark 與 cleanup 腳本。	在 `projects/project-06/solution/` 下跑 `./scripts/benchmark.sh` 與 `./scripts/cleanup-scanner.sh`，再對照品質文檔證據。

與前幾個專案不同，這份結業起始版本在產品功能上基本完整，主要缺口在於應用外圍的 harness 運作機制。

用什麼工具

Claude Code 或 Codex
Git
Node.js + Electron
品質文件範本（docs/zh-TW/resources/templates/quality-document.md）
評估量表（docs/zh-TW/resources/templates/evaluator-rubric.md）
前五個專案積累的所有 harness 組件

Harness 機制

完整 harness：所有機制 + 可觀測性 + 消融實驗

具體步驟

準備工作

以 P05 完成後的程式碼為基礎，從同一個 commit 出發。
建立兩個分支：p06-baseline 和 p06-improved。
以品質文件範本為目前程式碼進行初始評分（每個產品領域和架構層的等級）。
定義一套固定的基準任務集和評分表——在執行任何代理之前先定好，執行過程中不更改。

基準任務集至少包括：

匯入一篇文件
建構或重新整理索引
回答一個附引用的問題
查看執行時期日誌確認可觀測性
關閉再重新啟動後狀態仍保留

第一次執行（弱 harness）

切到 p06-baseline 分支。

用課程早期階段的弱 harness（沒有完整交接檔案、沒有嚴格驗證、可觀測性不足）。
以代理執行完整個基準任務集。
立刻評分。記錄每個任務的完成狀態、重試次數、缺陷數。
更新品質文件，記錄每個領域和層的等級變化。

第二次執行（強 harness）

切到 p06-improved 分支。

用你在這門課裡組裝的最強 harness：交接檔案和啟動腳本、明確的範圍和驗證關卡、執行時期訊號和架構約束、評估者或多角色審查、品質文件追蹤。
同樣的基準任務集，同樣的模型和預算。
立刻評分，記錄結果，更新品質文件。

清理和重跑

在 p06-improved 分支上：

做一輪清理：刪除無用程式碼、修正不清楚的文件、理順不穩定的執行路徑。
清理後重新執行同樣的基準任務集，重新評分。
更新品質文件。

比對三個快照的品質文件：基線、強 harness、清理後。

Harness 精簡實驗

從 p06-improved 分支中刪掉一個 harness 組件（比如刪掉 sprint contract，或者刪掉顯式範圍關卡）。
重新執行基準任務集。
如果結果沒變差，表示這個組件是多餘的開銷，可以去掉。
如果結果變差了，表示這個組件是承重的，必須保留。
記錄實驗結果。可以多試幾個組件。

怎麼衡量結果

指標	說明
基準完成率	基準任務集中成功完成的比例
重試次數	每個任務需要重試幾次
缺陷數	人工干預前發現的缺陷數量
清理工作量	清理花了多長時間、改了多少檔案
清理後可讀性和重啟成功率	清理後儲存庫的可維護程度
品質文檔等級變化	三個快照的等級對比
Harness 精簡結果	哪些組件可以刪、哪些是承重的

要交什麼

品質文件的三個快照（基線、強 harness、清理後）
基線基準測試記錄：評分和證據
強 harness 基準測試記錄：評分和證據
清理執行記錄：清理前後評分變化
Harness 精簡日誌：刪了什麼組件、基準結果、決定保留還是刪
最終結業總結：關鍵經驗教訓

Project 06. 搭建完整的代理工作環境 ​

你要做什麼 ​

使用倉庫內建專案 ​

用什麼工具 ​

Harness 機制 ​

具體步驟 ​

準備工作 ​

第一次執行（弱 harness） ​

第二次執行（強 harness） ​

清理和重跑 ​

Harness 精簡實驗 ​

怎麼衡量結果 ​

要交什麼 ​

對應講義 ​