Skip to content

中文版本 →

İlgili dersler: Ders 09. Ajanların zaferi erken ilan etmesini durdurun · Ders 10. Yalnızca tam hat çalıştırması gerçek doğrulama sayılır Şablon dosyaları: templates/

Proje 05. Ajanın kendi işini doğrulamasını sağlayın

Ne Yapacaksınız

Rol ayrımını uygulayın — uygulamayı yapan bir üretici, inceleyen bir değerlendirici ve isteğe bağlı olarak bir planlayıcı. Eklenen her rolün etkisini ölçmek için üç kez çalıştırın.

Esaslı bir özellik yükseltmesi seçin (çok turlu konuşma, alıntı paneli yeniden tasarımı veya doküman filtreleme) ve tüm çalıştırmalarda tutarlı tutun.

Depodaki projeyi kullanın

Depo yolu: projects/project-05/

DizinİçerikNasıl kullanılır
starter/ConversationHistory yükseltmesinden önceki Project 04 uygulaması.Üç varyantı kendiniz yeniden çalıştırmak istiyorsanız buradan başlayın.
solution/single-role/Tek agent planlar, uygular ve kendini değerlendirir.evaluator-rubric.md içinde 1.6/5 puan ve hata listesi vardır.
solution/gen-eval/Üretici + değerlendirici; revizyon kanıtı içerir.evaluator-rubric.md içinde 3.3/5 puan ve revizyon kaydı vardır.
solution/plan-gen-eval/Planlayıcı + üretici + değerlendirici.sprint-contract.md ve evaluator-rubric.md içinde 4.9/5 puan vardır.

Amaç, aynı ürün yükseltmesini üç farklı harness yapısıyla karşılaştırmaktır; rastgele farklı özellikler seçerseniz puanlar karşılaştırılamaz.

Araçlar

  • Claude Code veya Codex
  • Git
  • Node.js + Electron

Harness Mekanizması

Öz-doğrulama + dayanaklı Soru-Cevap + kanıta dayalı tamamlama