Пов'язані лекції: Лекція 09. Зупиніть агентів від передчасного оголошення перемоги · Лекція 10. Лише повний прогін конвеєра вважається справжньою верифікацією Файли шаблонів: templates/
Проєкт 05. Змусьте агента верифікувати власну роботу
Що ви робите
Реалізуйте розподіл ролей — генератор, який реалізує, оцінювач, який перевіряє, та опційно планувальник. Запустіть тричі, щоб виміряти ефект кожної доданої ролі.
Оберіть суттєве покращення функціональності (багатоходова розмова, редизайн панелі цитат або фільтрація документів) і підтримуйте його незмінним у всіх запусках.
Інструменти
- Claude Code або Codex
- Git
- Node.js + Electron
Механізм harness
Самоверифікація + grounded Q&A + завершення на основі доказів
Використовуйте зафіксований у репозиторії проєкт
Шлях у репозиторії: projects/project-05/
| Директорія | Що містить | Що порівнювати |
|---|---|---|
starter/ | Застосунок на основі проєкту 04 до оновлення функції збереження історії розмови. | Відправна точка, якщо ви хочете самостійно перезапустити три варіанти. |
solution/single-role/ | Один агент планує, реалізує та самостійно перевіряє. | Оцінка evaluator-rubric.md: 1,6/5 і перелік дефектів. |
solution/gen-eval/ | Генератор плюс оцінювач із доказами ревізії. | Оцінка evaluator-rubric.md: 3,3/5 і нотатки щодо ревізій. |
solution/plan-gen-eval/ | Планувальник плюс генератор плюс оцінювач. | sprint-contract.md, оцінка evaluator-rubric.md: 4,9/5. |
Зафіксована в репозиторії функція — збереження історії багатоходової розмови Q&A. Підтримуйте цю функцію незмінною у всіх трьох варіантах, щоб єдиною змінною був розподіл ролей.