Project 01. 只寫提示詞讓 agent 做,和定好規則再讓它做,差多少
相關講義:L01. 模型能力強,不等於執行可靠 · L02. Harness 到底是什麼 本篇範本檔案:templates/
你要做什麼
用 Electron 搭一個最簡的知識庫應用殼子——能啟動窗口、左邊顯示文檔列表、右邊顯示問答面板、本地有一個數據目錄。任務本身不復雜,複雜的是你怎麼讓 agent 完成它。
你需要跑兩次。第一次只給一段提示詞,什麼都不準備,看 agent 能做到什麼程度。第二次提前在倉庫裡放好 AGENTS.md、init.sh、feature_list.json,用結構化的方式告訴 agent 該幹什麼、怎麼驗證、什麼時候算做完。然後對比兩次結果。
這個項目的核心不是寫代碼,是搞清楚"提前花 15 分鐘準備規則"和"上來就讓 agent 幹"之間到底差多少。
用什麼工具
- Claude Code 或 Codex(選一個,兩次都用同一個)
- Git(管理分支和對比)
- Node.js + Electron(項目技術棧)
- 一個計時器(記錄每次運行時間)
具體步驟
準備工作
- 從一個乾淨的 commit 出發,記錄 commit hash。
- 創建兩個分支:
p01-baseline和p01-improved。 - 準備同一段任務提示詞,內容是:"用 Electron 做一個知識庫應用,窗口左邊是文檔列表區域,右邊是問答面板區域,應用需要創建並使用本地數據目錄。"
第一次運行(弱 harness)
切到 p01-baseline 分支。
- 只用上面那段提示詞啟動 agent。
- 不提供
AGENTS.md,不提供啟動腳本,不提供驗收標準。 - 設定相同的時間上限和輪次上限(建議 30 分鐘 / 20 輪)。
- agent 停下後,運行
npm start(或對應啟動命令),看應用能不能跑起來。 - 記錄:終端輸出、關鍵 diff、agent 的最終總結。
- 不要手動修代碼。跑不起來就是跑不起來,如實記錄。
第二次運行(強 harness)
切到 p01-improved 分支。在啟動 agent 之前,先在倉庫裡準備好:
AGENTS.md:寫明項目結構、啟動命令、Electron 層邊界規則init.sh:一鍵恢復可運行狀態(npm install && npm start)feature_list.json:列出四個功能點及其完成狀態
然後用和第一次相同的提示詞啟動 agent,同樣的時間上限和輪次上限。agent 停下後,跑 ./init.sh,記錄結果。
怎麼衡量結果
| 指標 | 說明 |
|---|---|
| 完成狀態 | 完全完成 / 部分完成 / 失敗 |
| 首次成功啟動時間 | 從開始到 npm start 第一次成功運行 |
| 重試次數 | 中間需要人工干預幾次才能跑起來 |
| 遺漏項 | agent 宣佈完成時還有哪些功能沒做 |
| 過早停止 | agent 是否在不可運行狀態就宣佈完成 |
要交什麼
- 弱 harness 運行記錄:提示詞、日誌/對話記錄、最終 diff、啟動證據
- 強 harness 運行記錄:同上,加上你準備的 harness 檔案
- 一份對比筆記(1-2 頁):兩次運行的差異、數據、結論