İlgili dersler: Ders 09. Ajanların zaferi erken ilan etmesini durdurun · Ders 10. Yalnızca tam hat çalıştırması gerçek doğrulama sayılır Şablon dosyaları: templates/

Proje 05. Ajanın kendi işini doğrulamasını sağlayın

Ne Yapacaksınız

Rol ayrımını uygulayın — uygulamayı yapan bir üretici, inceleyen bir değerlendirici ve isteğe bağlı olarak bir planlayıcı. Eklenen her rolün etkisini ölçmek için üç kez çalıştırın.

Esaslı bir özellik yükseltmesi seçin (çok turlu konuşma, alıntı paneli yeniden tasarımı veya doküman filtreleme) ve tüm çalıştırmalarda tutarlı tutun.

Depodaki projeyi kullanın

Depo yolu: projects/project-05/

Dizin	İçerik	Nasıl kullanılır
`starter/`	ConversationHistory yükseltmesinden önceki Project 04 uygulaması.	Üç varyantı kendiniz yeniden çalıştırmak istiyorsanız buradan başlayın.
`solution/single-role/`	Tek agent planlar, uygular ve kendini değerlendirir.	`evaluator-rubric.md` içinde 1.6/5 puan ve hata listesi vardır.
`solution/gen-eval/`	Üretici + değerlendirici; revizyon kanıtı içerir.	`evaluator-rubric.md` içinde 3.3/5 puan ve revizyon kaydı vardır.
`solution/plan-gen-eval/`	Planlayıcı + üretici + değerlendirici.	`sprint-contract.md` ve `evaluator-rubric.md` içinde 4.9/5 puan vardır.

Amaç, aynı ürün yükseltmesini üç farklı harness yapısıyla karşılaştırmaktır; rastgele farklı özellikler seçerseniz puanlar karşılaştırılamaz.

Araçlar

Claude Code veya Codex
Git
Node.js + Electron

Harness Mekanizması

Öz-doğrulama + dayanaklı Soru-Cevap + kanıta dayalı tamamlama

Proje 05. Ajanın kendi işini doğrulamasını sağlayın ​

Ne Yapacaksınız ​

Depodaki projeyi kullanın ​

Araçlar ​

Harness Mekanizması ​

Proje 05. Ajanın kendi işini doğrulamasını sağlayın

Ne Yapacaksınız

Depodaki projeyi kullanın

Araçlar

Harness Mekanizması