Bài giảng

Chào mừng

Tại sao các Agent mạnh vẫn thất bại

Harness thực sự là gì

Tại sao Repository phải trở thành Nguồn sự thật

Tại sao một file hướng dẫn khổng lồ lại thất bại

Tại sao các tác vụ dài hạn lại mất tính liên tục

Tại sao quá trình khởi tạo cần một giai đoạn riêng

Tại sao Agent làm quá giới hạn và chưa hoàn thành

Tại sao Feature List là nguyên lý cốt lõi của Harness

Tại sao Agent tuyên bố thành công quá sớm

Tại sao kiểm thử End-to-End thay đổi kết quả

Tại sao tính quan sát thuộc về bên trong Harness

Tại sao mỗi phiên làm việc phải để lại trạng thái sạch

On this page

Ví dụ Rubric Evaluator

Sử dụng tính điểm 1-5 cho mỗi chiều:

Pager