Skip to content

中文版本 →

関連講義: 講義 11. エージェントのランタイムを観測可能にする · 講義 12. すべてのセッション終了時にきれいな引き継ぎを残す テンプレートファイル: templates/

プロジェクト 06. 完全なエージェント harness を構築する(総合課題)

やること

これは総合プロジェクトです。最初の 5 つのプロジェクトで学んだすべてを組み合わせ、完全なベンチマークを実行し、その後クリーンアップを行って品質が維持可能かを検証します。

ドキュメントインポート、インデックス、引用付き Q&A、ランタイム観測性、読みやすく再開可能なリポジトリ状態を含む、固定された複数機能タスクセットを使います。まず弱い harness のベースラインで実行し、次に最も強い harness で実行し、その後クリーンアップして再実行します。最後に harness の ablation 実験を行い、コンポーネントを 1 つずつ外して、どれが本当に重要かを確認します。

ツール

  • Claude Code または Codex
  • Git
  • Node.js + Electron
  • 品質ドキュメントテンプレート
  • 評価ルーブリック
  • 最初の 5 プロジェクトで積み上げたすべての harness コンポーネント

Harness メカニズム

完全な harness: すべてのメカニズム + 観測性 + ablation study