Sciensa
O que é um harness de IA e por que harness engineering não basta para colocar agentes em produção corporativa
Maturidade em IA22 de junho de 2026·20 min de leitura

O que é um harness de IA e por que harness engineering não basta para colocar agentes em produção corporativa

Um harness de IA é tudo no sistema de agentes exceto o modelo. Entenda seus componentes, o Enterprise Deployment Gap e os controles que colocam agentes em produção corporativa com segurança.

Equipe Sciensa

O que é um harness de IA e por que harness engineering não basta para colocar agentes em produção corporativa

TL;DR: Um harness de IA é tudo no sistema de agentes exceto o modelo: orquestração, memória, ferramentas, guardrails e observabilidade. A fórmula consolidada no mercado é Agente = Modelo + Harness. O harness importa mais que o modelo porque é ele que determina se o sistema funciona em produção. Mas existe um segundo nível, ainda não resolvido pela maioria das arquiteturas: o harness enterprise, que adiciona governança, regras de negócio determinísticas, FinOps granular, auditoria imutável e deployment regulado, os controles que separam um piloto funcional de uma operação que banco ou seguradora pode colocar em produção de verdade.

Quando um piloto de IA trava antes de chegar à produção, a decisão mais comum da mesa é trocar o modelo. Talvez o GPT-4 resolva. Talvez o Claude. Talvez um modelo mais recente, com janela de contexto maior, treine melhor nos dados internos. Em todos esses casos, o modelo não era o gargalo.

O piloto funcionou em homologação porque o ambiente estava controlado. Travou antes da produção porque o ambiente real exige integração com core bancário, governança de quem aprova cada ação, trilha de auditoria reconstruível para o regulador, custo previsível por operação e compliance com BACEN 4.658, LGPD e EU AI Act. Nenhuma dessas exigências tem a ver com o modelo. Todas têm a ver com o harness.

Este artigo cobre o fundamento completo: o que é um harness de IA, como ele se distingue de prompt engineering e context engineering, quais são seus componentes canônicos, e onde o harness de dev para de resolver e começa o problema real do harness enterprise.


Por que 88% dos pilotos de IA enterprise travam antes da produção

Enterprise Deployment Gap: barreira entre piloto de IA e produção corporativa

Resposta direta: Segundo levantamentos independentes de Adnan Masood e da Atlan (2026), 88% dos projetos de agentes enterprise não chegam à produção. A causa não é técnica no sentido usual: os modelos funcionam, os pilotos demonstram valor. O bloqueio está na barreira operacional entre homologação e produção, o que o campo nomeia como Enterprise Deployment Gap.

Esse gap tem cinco componentes. Integração com o real: agentes precisam consultar core bancário, ERP, CRM e bases de dados sensíveis, não apenas uma API de playground. Governança e permissão: quem pode criar, aprovar, publicar, executar e auditar cada agente e cada ação que ele toma? Rastreabilidade: toda decisão precisa ser reconstruível, com registro do que entrou, o que foi decidido e por quê. Custo previsível: sem limites e atribuição de consumo por agente, tenant e operação, o custo vira risco financeiro sem teto. E compliance regulatório: operar dentro de BACEN 4.658, LGPD/ANPD, SUSEP, EU AI Act e ISO 42001 não é opcional em setores regulados.

Esse gap não é teórico. O Banco do Brasil opera 800 agentes de IA em produção em ambiente regulado pelo BACEN, provando que a escala já existe no Brasil. O que separa esses 800 agentes de um piloto descartado não é a qualidade do modelo, mas a camada de governança e operação que sustenta a frota em produção contínua.

Cada piloto que não atravessa esse gap é capex evaporado. O investimento em modelos, dados e engenharia existe; o que falta é a camada que transforma o agente num sistema operacional confiável.


O que é harness de IA: a definição que o mercado consolidou

Resposta direta: Um harness de IA é tudo no sistema de agentes exceto o modelo em si. Ferramentas para ações externas, memória para persistência de estado, guardrails para segurança, verificação para precisão e orquestração para fluxos com múltiplos passos. A fórmula Agente = Modelo + Harness foi atribuída a Mitchell Hashimoto (HashiCorp) e popularizada pela OpenAI em fevereiro de 2026. Hoje é o frame dominante do campo.

A definição por exclusão da deepset é a mais clara: o harness não é um componente adicional ao lado dos outros; é a camada que coordena memória, ferramentas e protocolos num sistema que funciona e que responde quando algo falha.

Por que o harness importa mais que o modelo? A resposta está na separação de responsabilidades. O modelo é, nas palavras de Vishal Mysore, uma "frozen utility": uma calculadora de raciocínio stateless e intercambiável. Entre sessões, o modelo começa do zero: sem memória acumulada, sem acesso a sistemas externos, sem regras de negócio embutidas, sem registro do que executou. Tudo isso precisa estar no harness.

A consequência prática: quando um agente performa mal em produção, o reflexo de ajustar o prompt ou trocar o modelo resolve apenas se o problema for de qualidade de resposta. Se o problema for um sistema frágil, acoplado ao modelo errado ou difícil de depurar, o ponto de falha está no harness. O modelo estava compensando o que deveria ser tratado estruturalmente.


Como o harness se diferencia de prompt engineering e context engineering

Resposta direta: As três disciplinas evoluíram em sequência. Prompt engineering (2023) otimiza a instrução dada ao modelo em cada interação. Context engineering (2024-2025) gerencia o que entra na janela de contexto: memória, documentos, histórico de ferramentas. Harness engineering (2026) projeta o ambiente completo em que o agente opera: os sistemas externos, as restrições de comportamento, os ciclos de feedback e os mecanismos de verificação que as duas camadas anteriores não cobrem.

O Anthropic Engineering documenta isso em "Effective context engineering for AI agents": context engineering trata o contexto como recurso finito gerenciado com retrieval just-in-time, compaction e sub-agentes. Harness engineering define o ambiente estrutural que torna esse gerenciamento possível em escala.

A distinção importa porque as empresas frequentemente tratam como problema de prompt o que é problema de harness. Um agente que comete erros em situações de borda raramente precisa de um prompt mais longo. Quase sempre precisa de verificação estruturada, guardrails explícitos e uma camada que classifica o tipo de falha antes de decidir como corrigi-la.

A deepset descreve isso bem: quando o prompt começa a compensar o que deveria ser tratado estruturalmente, o resultado é um sistema frágil, difícil de depurar e acoplado ao modelo que está rodando naquele momento. A limpeza vem de mover a lógica para a camada certa do harness.

Agentes bem-constrangidos produzem resultados de melhor qualidade porque o escopo de possibilidades foi reduzido a priori, antes que o agente encontre territórios que criam problemas a jusante.


Os componentes canônicos de um harness de IA

Componentes canônicos de um harness de IA

Resposta direta: Os componentes recorrentes em todas as referências técnicas são: orquestração (coordenação de fluxos com múltiplos passos), tool calling (interface com sistemas e APIs externos), memória e contexto (persistência de estado entre sessões e turnos), guardrails (restrições de comportamento e segurança), verificação (validação de saídas antes de agir), observabilidade (instrumentação de qualidade e performance) e sandbox (isolamento de execução). Cada um resolve uma classe de falha específica.

Orquestração determina a sequência de passos, quando usar ferramentas, como lidar com falhas intermediárias e como manter o fluxo coerente em tarefas longas. Sem orquestração determinística, o agente improvisa e o resultado varia de uma execução para outra.

Memória hierárquica é o que evita o "context rot", a degradação progressiva da qualidade do raciocínio quando o contexto acumula informação desnecessária ou contraditória. Um bom harness externaliza o trabalho cognitivo que não precisa estar na janela de contexto do modelo. A Glean nomeia essa função em "The harness as the context manager": o harness como sistema distribuído de gerenciamento de contexto, com programmatic tool calling, compaction ativa e skill discovery por busca semântica. O Anthropic Engineering aprofunda em "Effective harnesses for long-running agents": em tarefas de longa duração, o harness precisa gerenciar estado via estruturas externas como git-driven checkpoints, porque o contexto isolado do modelo colapsa antes que a tarefa termine.

Guardrails são restrições explícitas de comportamento. Tópicos negados, redação de PII em tempo real, proteção contra prompt injection. No nível dev, guardrails são lógica de validação. No nível enterprise, são políticas declarativas gerenciadas por tenant.

Observabilidade fecha o ciclo de melhoria. Sem instrumentação completa, falhas ficam invisíveis até que causem dano real. A deepset usa o frame do "living system": o harness evolui por ciclos de observação, classificação de falhas por camada e correção na camada certa.


Por que o harness de dev não resolve o problema enterprise

Até aqui, cobrimos o que o mercado já documentou. Todo engenheiro de IA que leu deepset, Adnan Masood ou Vishal Mysore sabe que o harness importa mais que o modelo.

O problema que segue sem solução é outro: o harness de dev foi projetado para um engenheiro construindo um agente. O harness enterprise precisa servir a uma organização inteira operando uma frota de agentes em produção, dentro de ambientes regulados, com múltiplos tenants, ciclos de aprovação humana, regras de negócio determinísticas versionadas e auditoria que um regulador possa inspecionar.

Adnan Masood descreve esse segundo nível como "control plane": a camada de operação de uma frota, análoga à combinação de CI/CD, IAM e observabilidade que qualquer CTO já opera para sistemas convencionais. Quando falta um desses três sistemas num ambiente de software corporativo, as consequências são conhecidas: deploys imprevisíveis, acesso sem controle, falhas invisíveis. A mesma lógica vale para agentes de IA em produção.

Os cinco problemas que ficam sem solução num harness de dev são:

RBAC granular no ciclo de vida do agente. Quem pode criar um agente, quem aprova sua publicação, quem pode executá-lo, quem pode auditá-lo? Frameworks open-source não têm gestão de permissão por ciclo de vida.

BRMS (Business Rules Management System). Para decisões críticas, a inferência do modelo não basta. Em crédito, underwriting, compliance e cobrança, o LLM precisa propor, mas uma regra determinística precisa decidir e registrar a justificativa. Sem BRMS, a decisão é probabilística e não auditável.

FinOps granular. Tokens de agentes custam 3 a 10 vezes mais que chatbots simples. Sem quotas por tenant, agente e ambiente, o custo de IA em produção vira risco financeiro sem teto. A Waxell documentou US$400 milhões de vazamento coletivo em empresas Fortune 500, com casos de US$47 mil gerados por um único loop descontrolado. Frameworks de dev não resolvem isso.

Auditoria imutável com replay. O "log everything" dos frameworks de dev não satisfaz requisitos regulatórios. Um regulador precisa de event sourcing de ponta a ponta: qualquer execução deve ser reconstruível passo a passo, com o estado exato em cada momento, para investigação e auditoria.

Deployment regulado. Cloud gerenciado, dedicated cloud, BYOC (Bring Your Own Cloud) e on-premise/air-gapped são opções com trade-offs reais de soberania de dados, velocidade e custo. Um banco com exigência de residência de dados no Brasil não pode operar num cloud compartilhado. Frameworks de dev não tratam isso.


Os controles que qualquer harness enterprise precisa ter

Os 8 controles de produção de um harness enterprise: Runtime, RBAC, Audit Trail, BRMS, FinOps, Observability, Enterprise Connectors, Secure Deployment

Colocar agentes em produção corporativa exige uma camada de controle que vai além do que frameworks de dev oferecem. Os oito controles abaixo são requisitos de engenharia que qualquer arquitetura enterprise precisa cobrir, seja construída internamente, seja adquirida de um fornecedor. Para cada controle, o que importa é o problema que ele resolve.

Controle 1: Runtime determinístico com replay

Orquestração determinística significa que um fluxo é reproduzível, não emergente. Cada execução percorre etapas definidas: classificação de intenção, validação de políticas, validação de regra de negócio, acionamento de ferramenta ou sistema externo, persistência de estado, registro de auditoria. O replay permite reconstruir qualquer execução passo a passo para depuração e investigação. Sem isso, uma falha em produção fica essencialmente invisível: você sabe que aconteceu, mas não consegue reproduzir as condições exatas.

Controle 2: RBAC no ciclo de vida do agente

Controle de acesso baseado em papel precisa cobrir todo o ciclo de vida do agente: quem pode criá-lo, quem aprova sua entrada em produção, quem pode executá-lo e quem pode auditá-lo. Frameworks open-source tipicamente oferecem autenticação de usuário, não gestão de permissão por fase do ciclo. A distinção importa porque os papéis são diferentes: quem constrói um agente não deve ter autoridade automática para publicá-lo em produção, e quem audita uma execução não precisa de acesso de escrita a nada.

Além de RBAC, o harness enterprise aplica políticas declarativas por tenant: tópicos negados, redação de PII em tempo real e aprovação em quatro olhos para ações sensíveis. Credenciais ficam isoladas por tenant com rotação automática.

Controle 3: Audit trail imutável

A distinção entre log e audit trail não é de vocabulário. Um log diz o que aconteceu; um audit trail com event sourcing mostra como aconteceu, com o estado exato em cada momento da execução. Para um regulador, a diferença entre "provavelmente dentro das regras" e "demonstravelmente dentro das regras" passa por aqui. O audit trail precisa ser imutável porque um log que pode ser editado não serve como evidência.

Padrões regulatórios como BACEN 4.658, LGPD/ANPD, SUSEP, HIPAA, EU AI Act e ISO 42001 precisam existir como controles implementados; documentação em política sem controle operacional não satisfaz inspeção regulatória.

Controle 4: BRMS para decisões críticas

Para decisões críticas, a inferência do LLM não é suficiente. O padrão que funciona em ambientes regulados é: o modelo propõe, a regra determinística decide. Um Business Rules Management System usa decision tables editáveis, versionadas, com hot reload. Negócio atualiza as regras sem reescrever código. Cada decisão registra sua justificativa.

Em crédito bancário, análise de sinistros, underwriting e compliance, isso é o que torna a decisão auditável por construção, sem precisar reconstituir a trilha depois do fato. O LLM interpreta a intenção com linguagem natural; o BRMS valida com regras determinísticas e registra a justificativa automaticamente. Bancos e seguradoras já usam BRMS há mais de 20 anos para crédito e underwriting. A integração com agentes aproveita uma disciplina que essas organizações já conhecem, conectando as regras existentes ao fluxo de linguagem natural.

Controle 5: FinOps granular

Sem visibilidade de custo por tenant, agente e ambiente, a IA em produção vira risco financeiro sem teto. A Waxell documentou US$400 milhões de vazamento coletivo em empresas Fortune 500, com casos de US$47 mil gerados por um único loop descontrolado. Tokens de agentes custam 3 a 10 vezes mais que chatbots simples, e o consumo pode escalar sem aviso.

O que um harness enterprise precisa oferecer aqui são quotas hard e soft por tenant, agente e ambiente; burst tokens para absorver picos controlados sem elevar o teto permanente; atribuição de custo por canal e operação; e alertas em tempo real antes que o problema apareça na fatura do fim do mês.

Controle 6: Observabilidade de comportamento

Monitoramento de latência e taxa de erro é necessário, mas não suficiente. Um harness enterprise monitora também deriva de comportamento, qualidade de resposta por fluxo e anomalias antes que o usuário final as perceba. Em sistemas críticos, a observabilidade é o que permite operar com confiança porque o time sabe o que está acontecendo antes que o problema escale. Sem isso, o agente pode estar funcionando tecnicamente, mas entregando resultados que deterioram silenciosamente.

Controle 7: Conectores enterprise

Agentes que operam só em playground de API não chegam à produção corporativa. A integração com core bancário, ERP, CRM, data layer e ferramentas internas da empresa é o que transforma o agente de demonstração em agente que faz algo real. Conectores enterprise implicam autenticação gerenciada, controle de credenciais por tenant e isolamento de acesso por agente.

Controle 8: Deployment seguro em múltiplos modelos

Quatro modelos de deployment cobrem o espectro de requisitos regulatórios e de risco em setores como financeiro, saúde e governo:

  • Cloud gerenciado: setup em dias, isolamento lógico por tenant, atualizações automáticas. Indicado para times que querem chegar rápido à primeira operação em produção.
  • Dedicated cloud (VPC dedicada): 1 a 3 semanas, sem compartilhamento de infraestrutura. Isolamento físico por tenant, mas ainda com operação gerenciada.
  • BYOC (Bring Your Own Cloud): 4 a 8 semanas, deploy na cloud do cliente, dados que nunca saem do ambiente do cliente, acesso via IAM com escopo e revogação.
  • On-premise/air-gapped: 1 a 2 meses, controle total, opção zero inbound/outbound. Para os requisitos mais estritos, como data centers de bancos com exigências específicas do BACEN.

O trade-off central é velocidade de chegada à produção versus soberania de dados. A maioria dos times começa no cloud gerenciado, valida a operação e migra para um modelo com mais isolamento conforme os requisitos regulatórios evoluem. Em todos os modelos, o mínimo esperado é: dados em trânsito com TLS 1.2+, dados em repouso com AES-256, isolamento por tenant em cada camada.

Comparativo de modelos de deployment de harness enterprise: Cloud, Dedicated, BYOC, On-premise


Uma arquitetura de referência em camadas

Arquitetura de referência de um harness enterprise em cinco camadas

Os oito controles acima podem ser organizados numa arquitetura de referência com cinco camadas, que vai desde onde os agentes vivem até onde o sistema roda.

Camada de agentes e canais. Onde os agentes existem e como chegam ao usuário ou ao sistema: conversacional, programático, orientado a eventos, agent-to-agent e agendado.

Runtime de orquestração. Motor de execução: orquestrador, tool calling, memória e contexto, ciclo de vida do agente. É aqui que os fluxos são executados.

Governança e controle. RBAC, políticas, BRMS, quotas, secrets e audit trail. Esta é a camada que transforma um agente capaz num agente governado. É o centro gravitacional de qualquer harness enterprise.

Integração enterprise. Sistemas core, ERP, CRM, data layer e ferramentas internas. A camada que conecta o agente ao que a empresa já opera.

Camada de deployment. Cloud, dedicated, BYOC, on-premise e air-gapped. A camada que resolve onde e como o sistema roda, com as garantias de soberania de dados que cada setor exige.

Uma observação sobre modelos de LLM: a camada de modelos deve ser agnóstica por design, compatível com Anthropic, OpenAI, Google e modelos privados. Quando o harness está certo, a troca de modelo vira decisão operacional. O ativo que permanece na empresa, que acumula políticas, histórico de auditoria e regras de negócio, é o harness. Esse é o ativo que permanece e acumula valor enquanto os modelos são atualizados e substituídos.


O que o rollcage explica melhor que qualquer outra metáfora

Vishal Mysore usa a imagem do rollcage para descrever o harness: o cérebro é o modelo, as mãos são as ferramentas, e o rollcage é o harness. O rollcage não desacelera o carro de corrida. Ele garante que se o carro capotar, o piloto sobrevive, independente de como o acidente começou.

A distinção é importante. O harness enterprise funciona pela mesma lógica: não existe configuração do modelo que replique o que o BRMS e o RBAC fazem por design.

Num banco, a diferença entre "provavelmente dentro das regras" e "demonstravelmente dentro das regras" é a diferença entre uma operação que passa pelo regulador e uma que não passa. O BRMS garante que certas decisões não podem acontecer sem validação determinística. O RBAC bloqueia ações sensíveis até que o papel correto aprove. O Audit Trail permite reconstruir qualquer execução passo a passo. O deployment regulado mantém os dados dentro do ambiente contratado. Nenhum desses controles depende do modelo escolhido.

O campo está convergindo nessa direção. Em maio de 2026, a Fiserv lançou o agentOS, descrito como o primeiro sistema operacional para agentes voltado especificamente ao setor bancário, com governance nativo, policy controls, auditability e human oversight embutidos. Quando uma das maiores empresas de tecnologia financeira do mundo chega à mesma arquitetura de forma independente, é confirmação de categoria, não de coincidência.


Takeaway

O padrão que se repete é este: o piloto trava porque o harness não cobre o que produção exige.

Quando o harness está certo, o modelo vira commodity no sentido útil da palavra: você pode trocá-lo, atualizar a versão, rodar Anthropic em produção e OpenAI em staging, sem reescrever a arquitetura. O que fica com a empresa é o harness: as políticas de governança, o histórico de auditoria, as regras de negócio versionadas, as integrações com sistemas críticos. Esse é o ativo que acumula valor ao longo do tempo.

O frame do "environment designer" da deepset nomeia bem o que está acontecendo: a competência que diferencia times de IA em 2026 é saber projetar o ambiente em que o modelo opera, não apenas calibrar prompts. No nível enterprise, esse ambiente tem escala de organização, exigências regulatórias reais e consequências de negócio mensuráveis.

O piloto que funciona em homologação já está resolvido. O problema que 88% das empresas não consegue resolver sozinha é o que vem depois: a operação contínua, auditável, governada e economicamente previsível. Esse é o Enterprise Deployment Gap, o bloqueio que a maioria não atravessa sem uma camada de controle dedicada.

Na Tessera, é exatamente esse conjunto de controles que implementamos. Se quiser receber os próximos conteúdos da série diretamente, inscreva-se na newsletter da Sciensa.


FAQ: Perguntas frequentes sobre harness de IA

O que é um AI harness e por que ele importa mais do que o modelo?

Um harness de IA é tudo no sistema de agentes exceto o modelo: orquestração, ferramentas, memória, guardrails, verificação e observabilidade. Ele importa mais que o modelo porque determina se o sistema é confiável, depurável e seguro em produção. O modelo raciocina; o harness mantém o sistema operando dentro das regras.

Qual é a diferença entre harness engineering, prompt engineering e context engineering?

Prompt engineering otimiza a instrução para o modelo. Context engineering gerencia o que entra na janela de contexto. Harness engineering projeta o ambiente completo de operação do agente: sistemas externos, restrições de comportamento, ciclos de feedback e mecanismos de verificação. Cada camada resolve o que a anterior não alcança.

Por que a maioria dos pilotos de IA não chega à produção?

Segundo fontes independentes, 88% dos projetos de agentes enterprise travam antes da produção. O motivo não está no modelo. São as barreiras operacionais do Enterprise Deployment Gap: falta de integração com sistemas reais, governança de permissões, rastreabilidade auditável, custo previsível por operação e compliance regulatório.

Quais são os controles operacionais necessários para colocar agentes em produção com segurança?

São oito controles: Runtime determinístico com replay, RBAC no ciclo de vida do agente, Audit Trail imutável, BRMS para decisões críticas, FinOps granular por tenant e agente, Observabilidade de comportamento, Conectores enterprise e Deployment seguro em múltiplos modelos. Cada um resolve uma classe de falha específica que frameworks de dev não tratam.

Como governar agentes de IA em setores regulados como bancos e seguradoras?

A governança precisa cobrir o ciclo completo de vida do agente: criar, aprovar, publicar, executar e auditar. Para decisões críticas, o BRMS garante que o LLM propõe e uma regra determinística decide e registra justificativa. O audit trail com event sourcing permite que qualquer execução seja reconstruída passo a passo. Padrões como BACEN 4.658, LGPD/ANPD, SUSEP e EU AI Act precisam ser traduzidos em controles implementados, não apenas documentados.

O que é FinOps de agentes de IA e como controlar o custo por agente?

FinOps de agentes envolve quotas hard e soft por tenant, agente e ambiente; burst tokens para absorver picos sem elevar o teto permanente; e atribuição de custo por canal e operação. Sem isso, tokens de agentes, que custam 3 a 10 vezes mais que chatbots simples, podem estourar o budget sem aviso. A visibilidade granular é o que transforma IA em produção num custo gerenciável.

Como funciona um Enterprise AgentOS e o que diferencia de frameworks open-source como LangGraph ou CrewAI?

Frameworks como LangGraph e CrewAI são projetados para construir agentes individuais. Um Enterprise AgentOS opera uma frota de agentes dentro de uma organização, com governança multi-tenant, RBAC no ciclo de vida, BRMS, FinOps granular, auditoria regulatória e deployment em múltiplos ambientes. A diferença está no escopo: framework de construção versus plataforma de operação corporativa.

O que é BRMS no contexto de agentes de IA e por que decisões determinísticas importam?

BRMS, Business Rules Management System, é a camada de regras determinísticas que valida decisões críticas antes de executá-las. No contexto de agentes, o LLM compõe a decisão com linguagem natural, mas o BRMS valida com regras de negócio versionadas e registra a justificativa. Em bancos e seguradoras, que já usam BRMS há mais de 20 anos para crédito e underwriting, isso é o que torna a decisão do agente auditável por natureza.