Referência em Português

Estas notas explicam como usar os modelos como um harness de trabalho, em vez de apenas uma pilha de arquivos soltos.

Notas de Referência Interna

method-map.md: mapeia modos de falha comuns em execuções de longa duração para o artefato ou política que os aborda primeiro.
initializer-agent-playbook.md: o que o inicializador deve deixar preparado antes do início do trabalho no recurso.
coding-agent-startup-flow.md: fluxo fixo de início de sessão para execuções de codificação posteriores.
prompt-calibration.md: como manter as instruções de raiz afiadas sem torná-las inchadas e frágeis.

Artigos Principais

Esta lista é intencionalmente restrita. Um harness significa o sistema de execução em torno do modelo: o loop do agente, execução de ferramentas, sandboxing, estado, contexto, verificação, terminação, orquestração e observabilidade. Artigos gerais de engenharia de prompt ou de frameworks amplos de agentes não pertencem à lista principal.

Os três artigos originais continuam sendo a espinha dorsal do curso:

OpenAI: Engenharia de Harness: alavancando o Codex em um mundo focado em agentes (11-02-2026): repositórios focados em agentes, contexto local do repositório, linting personalizado e salvaguardas estruturais.
Anthropic: Harnesses eficazes para agentes de longa duração (26-11-2025): agente inicializador, agente de codificação, lista de recursos, log de progresso e entrega (handoff) entre janelas de contexto.
Anthropic: Design de Harness para desenvolvimento de aplicações de longa duração (24-03-2026): papéis de planejador / gerador / avaliador, resets de contexto, simplificação de harness e suposições obsoletas.

Apenas alguns artigos altamente relevantes de 2026 foram adicionados:

OpenAI: Desenrolando o loop do agente Codex (23-01-2026): o harness de runtime do Codex, chamadas de ferramentas, crescimento de contexto e terminação do loop.
Anthropic: Desmistificando avaliações para agentes de IA (09-01-2026): avaliando o modelo e o harness juntos, e distinguindo harnesses de avaliação de harnesses de agentes.
LangChain: Melhorando Agentes Profundos com engenharia de harness (17-02-2026): mantendo o modelo fixo enquanto melhora prompts do sistema, ferramentas, middleware, rastreamento e autoverificação para mover um agente de codificação do Top 30 para o Top 5 no Terminal Bench 2.0.
Thoughtworks / Martin Fowler: Engenharia de harness para usuários de agentes de codificação (02-04-2026): harnesses de usuários de agentes de codificação como guias de feedforward e sensores de feedback, com controles determinísticos e inferenciais.
Cursor: Melhorando continuamente nosso harness de agente (30-04-2026): tratando o harness como um sistema de produto continuamente aprimorado com avaliações offline, métricas online, taxonomia de erros de ferramentas, ajuste específico do modelo e troca de modelo durante o chat.

Referências Estendidas de 2026

Estas não são fontes centrais do curso, mas são úteis ao projetar módulos específicos de harness. Esta seção mantém apenas fontes cujo corpo cobre diretamente o loop do agente, execução de ferramentas, gerenciamento de contexto, verificação, sandboxing, camadas de controle ou governança de regressão. Produtos puros de agentes, anúncios de plataformas, estudos de caso de equipes e benchmarks estão excluídos.

OpenAI: Desbloqueando o harness do Codex: como construímos o App Server (04-02-2026): o harness como um protocolo de App Server reutilizável com ciclo de vida de threads, retomada, fork, diffs e integrações de clientes.
OpenAI Developers: Execute tarefas de longo horizonte com o Codex (23-02-2026): memória durável do projeto, validação de marcos e exemplos de "quando está pronto" para tarefas de longa duração.
OpenAI: A próxima evolução do SDK de Agentes (15-04-2026): harnesses nativos do modelo, execução em sandbox e execução de arquivos/comandos.
OpenAI: Uma especificação de código aberto para orquestração do Codex: Symphony (27-04-2026): transformando um rastreador de problemas ou quadro do Linear em um plano de controle multi-agente.
Anthropic: Construindo um compilador C com uma equipe de Claudes paralelos (05-02-2026): equipes de agentes paralelas, bloqueios de tarefas, sincronização git, isolamento de contêineres e loops autônomos.
Anthropic: Escalonando Agentes Gerenciados: Desacoplando o cérebro das mãos (08-04-2026): uma visão de meta-harness que separa sessão, harness e sandbox como interfaces intercambiáveis.
Anthropic: Uma atualização sobre relatórios recentes de qualidade do Claude Code (23-04-2026): esforço de raciocínio, poda de contexto e prompts do sistema como mudanças de harness que precisam de governança de regressão.
LangChain: Gerenciamento de Contexto para Agentes Profundos (28-01-2026): descarregamento do sistema de arquivos, truncamento de chamadas de ferramentas, sumarização e avaliações direcionadas para harnesses de gerenciamento de contexto.
LangChain: Ajustando Agentes Profundos para Funcionarem Bem com Diferentes Modelos (29-04-2026): perfis de harness específicos do modelo para prompts, nomes de ferramentas, middleware e configuração de subagentes.
LangChain: Aprendizado contínuo para agentes de IA (05-04-2026): dividindo a melhoria do agente em camadas de modelo, harness e contexto, alimentadas por rastreamentos.
Microsoft: Agent Harness no Agent Framework (12-03-2026): harnesses de shell/sistema de arquivos, fluxo de aprovação, execução de shell hospedada e compactação de contexto.
Google: Anunciando ADK para Java 1.0.0 (30-03-2026): plugins, compactação de eventos, HITL, serviços de sessão/memória e A2A como primitivas de harness reutilizáveis.
GitHub: Automatize tarefas de repositório com GitHub Agentic Workflows (13-02-2026): GitHub Actions como um executor de fluxo de trabalho agentic com saídas seguras, sandboxing, permissões e revisão.
AWS: Agentes de IA em empresas: Melhores práticas com Amazon Bedrock AgentCore (03-02-2026): camadas de harness empresariais em Runtime, Memória, Gateway, Identidade/Política, Observabilidade e Avaliações.
Stripe: Minions: agentes de codificação de ponta a ponta da Stripe (09-02-2026) e Parte 2 (19-02-2026): isolamento de devbox, harnesses de agentes personalizados, máquinas de estado de blueprint, arquivos de regras, curadoria de ferramentas MCP, controles de segurança e loops de feedback pré-push/CI.
Cognition: O que aprendemos construindo Agentes em Nuvem (23-04-2026): isolamento de VM, instantâneo/retomada de sessão, orquestração, governança, registro de auditoria e integrações para runtimes de agentes em nuvem.
Cognition: Multi-Agentes: O que realmente está funcionando (22-04-2026): loops de gerador-verificador, revisores de contexto limpo, roteamento de "amigo inteligente", coordenação gerente-filho e limites de comunicação entre agentes.
Replit: Orientação em tempo de decisão: Mantendo o Agente Replit confiável (20-01-2026, atualizado em 23-01-2026): um classificador leve injeta orientação situacional curta no ponto de decisão em vez de colocar todas as regras no prompt do sistema.
Vercel: Como tornamos o v0 um agente de codificação eficaz (07-01-2026): prompts de sistema dinâmicos, uma camada de reescrita em streaming e autofixadores determinísticos/orientados por modelo.
Vercel: Apresentando deepsec (04-05-2026): um harness de agente de codificação focado em segurança com etapas de varredura, investigação, revalidação, enriquecimento, exportação, plugin e verificador de recusa.
Sourcegraph: CodeScaleBench (03-03-2026): uma referência de harness de avaliação/ferramentas cobrindo adoção de ferramentas MCP, transcrições de uso de ferramentas, QA de benchmark, portões de verificador/reprodutibilidade e iteração de prompt/preâmbulo.

Referências gerais estritamente de 2025 foram excluídas da lista principal. O artigo original de harness da Anthropic de 2025 permanece porque é uma fonte fundamental para o curso.

Ordem de Leitura Sugerida

method-map.md
initializer-agent-playbook.md
coding-agent-startup-flow.md
prompt-calibration.md
OpenAI Engenharia de Harness
Anthropic Harnesses eficazes
Anthropic Design de Harness para desenvolvimento de aplicações de longa duração
OpenAI Loop do agente Codex
Anthropic Avaliações de agentes
LangChain Melhorando Agentes Profundos
Thoughtworks / Martin Fowler Engenharia de harness para usuários de agentes de codificação
Cursor Melhorando continuamente nosso harness de agente

Referência em Português ​

Notas de Referência Interna ​

Artigos Principais ​

Referências Estendidas de 2026 ​

Ordem de Leitura Sugerida ​

Referência em Português

Notas de Referência Interna

Artigos Principais

Referências Estendidas de 2026

Ordem de Leitura Sugerida