Bài giảng liên quan: Bài 09. Ngăn agent tuyên bố hoàn thành quá sớm · Bài 10. Chỉ testing end-to-end mới là xác minh thực sự Tệp mẫu: templates/
Dự án 05. Để Agent Xác minh Công việc của Chính nó
Bạn Làm Gì
Triển khai phân tách vai trò — một generator thực hiện, một evaluator review, và tùy chọn một planner. Chạy ba lần để đo lường tác động của mỗi vai trò được thêm vào.
Chọn một tính năng nâng cấp thực chất (hội thoại đa lượt, thiết kế lại citation panel, hoặc lọc tài liệu) và giữ nó nhất quán qua tất cả các lần chạy.
Công cụ
- Claude Code hoặc Codex
- Git
- Node.js + Electron
Cơ chế Harness
Tự xác minh + Q&A có grounding + hoàn thành dựa trên bằng chứng