Referência em Português
Estas notas explicam como usar os modelos como um harness de trabalho, em vez de apenas uma pilha de arquivos soltos.
Notas de Referência Interna
method-map.md: mapeia modos de falha comuns em execuções de longa duração para o artefato ou política que os aborda primeiro.initializer-agent-playbook.md: o que o inicializador deve deixar preparado antes do início do trabalho no recurso.coding-agent-startup-flow.md: fluxo fixo de início de sessão para execuções de codificação posteriores.prompt-calibration.md: como manter as instruções de raiz afiadas sem torná-las inchadas e frágeis.
Artigos Principais
Esta lista é intencionalmente restrita. Um harness significa o sistema de execução em torno do modelo: o loop do agente, execução de ferramentas, sandboxing, estado, contexto, verificação, terminação, orquestração e observabilidade. Artigos gerais de engenharia de prompt ou de frameworks amplos de agentes não pertencem à lista principal.
Os três artigos originais continuam sendo a espinha dorsal do curso:
- OpenAI: Engenharia de Harness: alavancando o Codex em um mundo focado em agentes (11-02-2026): repositórios focados em agentes, contexto local do repositório, linting personalizado e salvaguardas estruturais.
- Anthropic: Harnesses eficazes para agentes de longa duração (26-11-2025): agente inicializador, agente de codificação, lista de recursos, log de progresso e entrega (handoff) entre janelas de contexto.
- Anthropic: Design de Harness para desenvolvimento de aplicações de longa duração (24-03-2026): papéis de planejador / gerador / avaliador, resets de contexto, simplificação de harness e suposições obsoletas.
Apenas alguns artigos altamente relevantes de 2026 foram adicionados:
- OpenAI: Desenrolando o loop do agente Codex (23-01-2026): o harness de runtime do Codex, chamadas de ferramentas, crescimento de contexto e terminação do loop.
- Anthropic: Desmistificando avaliações para agentes de IA (09-01-2026): avaliando o modelo e o harness juntos, e distinguindo harnesses de avaliação de harnesses de agentes.
- LangChain: Melhorando Agentes Profundos com engenharia de harness (17-02-2026): mantendo o modelo fixo enquanto melhora prompts do sistema, ferramentas, middleware, rastreamento e autoverificação para mover um agente de codificação do Top 30 para o Top 5 no Terminal Bench 2.0.
- Thoughtworks / Martin Fowler: Engenharia de harness para usuários de agentes de codificação (02-04-2026): harnesses de usuários de agentes de codificação como guias de feedforward e sensores de feedback, com controles determinísticos e inferenciais.
- Cursor: Melhorando continuamente nosso harness de agente (30-04-2026): tratando o harness como um sistema de produto continuamente aprimorado com avaliações offline, métricas online, taxonomia de erros de ferramentas, ajuste específico do modelo e troca de modelo durante o chat.
Referências Estendidas de 2026
Estas não são fontes centrais do curso, mas são úteis ao projetar módulos específicos de harness. Esta seção mantém apenas fontes cujo corpo cobre diretamente o loop do agente, execução de ferramentas, gerenciamento de contexto, verificação, sandboxing, camadas de controle ou governança de regressão. Produtos puros de agentes, anúncios de plataformas, estudos de caso de equipes e benchmarks estão excluídos.
- OpenAI: Desbloqueando o harness do Codex: como construímos o App Server (04-02-2026): o harness como um protocolo de App Server reutilizável com ciclo de vida de threads, retomada, fork, diffs e integrações de clientes.
- OpenAI Developers: Execute tarefas de longo horizonte com o Codex (23-02-2026): memória durável do projeto, validação de marcos e exemplos de "quando está pronto" para tarefas de longa duração.
- OpenAI: A próxima evolução do SDK de Agentes (15-04-2026): harnesses nativos do modelo, execução em sandbox e execução de arquivos/comandos.
- OpenAI: Uma especificação de código aberto para orquestração do Codex: Symphony (27-04-2026): transformando um rastreador de problemas ou quadro do Linear em um plano de controle multi-agente.
- Anthropic: Construindo um compilador C com uma equipe de Claudes paralelos (05-02-2026): equipes de agentes paralelas, bloqueios de tarefas, sincronização git, isolamento de contêineres e loops autônomos.
- Anthropic: Escalonando Agentes Gerenciados: Desacoplando o cérebro das mãos (08-04-2026): uma visão de meta-harness que separa sessão, harness e sandbox como interfaces intercambiáveis.
- Anthropic: Uma atualização sobre relatórios recentes de qualidade do Claude Code (23-04-2026): esforço de raciocínio, poda de contexto e prompts do sistema como mudanças de harness que precisam de governança de regressão.
- LangChain: Gerenciamento de Contexto para Agentes Profundos (28-01-2026): descarregamento do sistema de arquivos, truncamento de chamadas de ferramentas, sumarização e avaliações direcionadas para harnesses de gerenciamento de contexto.
- LangChain: Ajustando Agentes Profundos para Funcionarem Bem com Diferentes Modelos (29-04-2026): perfis de harness específicos do modelo para prompts, nomes de ferramentas, middleware e configuração de subagentes.
- LangChain: Aprendizado contínuo para agentes de IA (05-04-2026): dividindo a melhoria do agente em camadas de modelo, harness e contexto, alimentadas por rastreamentos.
- Microsoft: Agent Harness no Agent Framework (12-03-2026): harnesses de shell/sistema de arquivos, fluxo de aprovação, execução de shell hospedada e compactação de contexto.
- Google: Anunciando ADK para Java 1.0.0 (30-03-2026): plugins, compactação de eventos, HITL, serviços de sessão/memória e A2A como primitivas de harness reutilizáveis.
- GitHub: Automatize tarefas de repositório com GitHub Agentic Workflows (13-02-2026): GitHub Actions como um executor de fluxo de trabalho agentic com saídas seguras, sandboxing, permissões e revisão.
- AWS: Agentes de IA em empresas: Melhores práticas com Amazon Bedrock AgentCore (03-02-2026): camadas de harness empresariais em Runtime, Memória, Gateway, Identidade/Política, Observabilidade e Avaliações.
- Stripe: Minions: agentes de codificação de ponta a ponta da Stripe (09-02-2026) e Parte 2 (19-02-2026): isolamento de devbox, harnesses de agentes personalizados, máquinas de estado de blueprint, arquivos de regras, curadoria de ferramentas MCP, controles de segurança e loops de feedback pré-push/CI.
- Cognition: O que aprendemos construindo Agentes em Nuvem (23-04-2026): isolamento de VM, instantâneo/retomada de sessão, orquestração, governança, registro de auditoria e integrações para runtimes de agentes em nuvem.
- Cognition: Multi-Agentes: O que realmente está funcionando (22-04-2026): loops de gerador-verificador, revisores de contexto limpo, roteamento de "amigo inteligente", coordenação gerente-filho e limites de comunicação entre agentes.
- Replit: Orientação em tempo de decisão: Mantendo o Agente Replit confiável (20-01-2026, atualizado em 23-01-2026): um classificador leve injeta orientação situacional curta no ponto de decisão em vez de colocar todas as regras no prompt do sistema.
- Vercel: Como tornamos o v0 um agente de codificação eficaz (07-01-2026): prompts de sistema dinâmicos, uma camada de reescrita em streaming e autofixadores determinísticos/orientados por modelo.
- Vercel: Apresentando deepsec (04-05-2026): um harness de agente de codificação focado em segurança com etapas de varredura, investigação, revalidação, enriquecimento, exportação, plugin e verificador de recusa.
- Sourcegraph: CodeScaleBench (03-03-2026): uma referência de harness de avaliação/ferramentas cobrindo adoção de ferramentas MCP, transcrições de uso de ferramentas, QA de benchmark, portões de verificador/reprodutibilidade e iteração de prompt/preâmbulo.
Referências gerais estritamente de 2025 foram excluídas da lista principal. O artigo original de harness da Anthropic de 2025 permanece porque é uma fonte fundamental para o curso.
Ordem de Leitura Sugerida
method-map.mdinitializer-agent-playbook.mdcoding-agent-startup-flow.mdprompt-calibration.md- OpenAI Engenharia de Harness
- Anthropic Harnesses eficazes
- Anthropic Design de Harness para desenvolvimento de aplicações de longa duração
- OpenAI Loop do agente Codex
- Anthropic Avaliações de agentes
- LangChain Melhorando Agentes Profundos
- Thoughtworks / Martin Fowler Engenharia de harness para usuários de agentes de codificação
- Cursor Melhorando continuamente nosso harness de agente