Ví dụ Rubric Evaluator
Sử dụng tính điểm 1-5 cho mỗi chiều:
- Grounding: câu trả lời có được gắn rõ ràng với các nguồn đã import không?
- Chất lượng trích dẫn: các tham chiếu nguồn có hiển thị và cụ thể không?
- Chức năng: người dùng có thể hoàn thành luồng hỏi-đáp không?
- Sự nhất quán sản phẩm: workflow có cảm giác tích hợp không?