O Problema Real: Dados Presos em Documentos

Para organizações de saúde e serviços financeiros, contratos não são apenas documentos legais — são a espinha dorsal operacional. No entanto, informações críticas de negócios permanecem presas em formatos não estruturados: PDFs, cópias digitalizadas, tabelas complexas e anexos aninhados. A revisão manual é lenta, propensa a erros e cara. Sistemas tradicionais de CLM capturam apenas campos predefinidos, perdendo os termos sutis que determinam taxas de reembolso, descontos de fornecedores e obrigações de conformidade. O resultado? Economias perdidas, atrasos em pagamentos e ineficiências operacionais que custam milhões.

O Doczy.ai, desenvolvido pela AArete na AWS, ataca diretamente esse problema. Em vez de tratar documentos como texto plano, a solução usa uma abordagem híbrida patenteada que preserva a estrutura hierárquica e o significado semântico. A arquitetura orquestra Amazon S3, Lambda, Textract, Bedrock, ECS, CloudWatch e Secrets Manager para criar um pipeline totalmente automatizado, do upload do documento ao dashboard acionável.

A Arquitetura: Smart Chunking + Agrupamento Duplo

A inovação central está em dois estágios: smart chunking e agrupamento duplo.

Smart Chunking

Após o Amazon Textract extrair texto bruto e metadados, um algoritmo proprietário não apenas divide por parágrafos. Ele usa busca semântica e por palavras-chave para decompor o texto em chunks contextuais, preservando relacionamentos um-para-muitos (por exemplo, uma cláusula que se aplica a vários níveis de serviço). Identificadores sequenciais e agrupamento orientado por metadados organizam esses chunks em grupos de campos, detectando sobreposições e removendo duplicações.

Motor de Agrupamento Duplo

É aqui que o Doczy.ai se diferencia. Duas lentes analisam cada documento simultaneamente:

  • Agrupamento semântico: O texto é convertido em embeddings (representações numéricas de significado). Ideias semelhantes são agrupadas mesmo quando expressas em palavras diferentes.
  • Agrupamento estrutural: Algoritmos de reconhecimento de padrões identificam tipos de cláusulas, convenções de formatação, layouts de tabelas e organização hierárquica. Um anexo de três níveis aninhados é tratado de forma diferente de um apêndice simples.

Algoritmos de projeção então comparam ambos os clusters lado a lado, sintetizando-os em um modelo unificado que captura significado e contexto. Essa convergência impulsiona a taxa de 99% de precisão.

Métricas-Chave que Importam

MétricaValor
Documentos processados (22 meses)2,5 milhões (50M páginas)
Chamadas de API do Amazon Bedrock137 milhões
Total de tokens processados442 bilhões
Economia acumulada para clientes~US$ 330 milhões
Redução no tempo de processamento manual97%
Precisão vs. sistemas baseados em regras99% (vs. 55%)

Limitações e Considerações

Embora impressionante, essa arquitetura não é uma bala de prata. O smart chunking e o agrupamento duplo exigem configuração inicial significativa e ajuste específico para cada domínio. Organizações com formatos de documentos altamente irregulares (por exemplo, anotações manuscritas, modelos não padronizados) podem ver precisão menor. Além disso, a dependência do Amazon Bedrock significa que os custos escalam com o uso de tokens — a 442 bilhões de tokens, esta não é uma solução barata para implantações de pequena escala. A latência também pode ser uma preocupação para processamento em tempo real de grandes volumes.

Próximos Passos para Aprendizado

Se você está construindo pipelines similares de inteligência documental, comece experimentando com Amazon Textract e os modelos Claude ou Titan do Bedrock para extração. Depois, foque na sua estratégia de chunking — é onde está a maior alavancagem arquitetural. Use metadados para preservar a estrutura do documento e sempre valide com uma abordagem dupla (semântica + estrutural) para capturar casos extremos.

Para leitura adicional, confira este mergulho profundo no acelerador de inferência AI Microsoft Maia 200 para entender aceleração de hardware para LLMs, ou explore como o Nemotron-Personas-Brazil está construindo datasets de IA culturalmente fundamentados — uma abordagem diferente, mas complementar, para IA soberana.

AI-powered contract intelligence dashboard showing document analysis and insights on AWS Technical Structure Concept

# Exemplo: Simulando a lógica de agrupamento duplo em Python
# Esta é uma ilustração simplificada, não código de produção.

from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
import re

# Simula chunks extraídos do Amazon Textract
chunks = [
    "Fornecedor concorda em reembolsar 85% dos valores cobrados",
    "Prazo: 12 meses, renovação automática",
    "Cláusula de confidencialidade: ambas as partes devem manter...",
    "Termos de pagamento: líquido 30 dias a partir da data da fatura",
    "Rescisão: aviso prévio de 60 dias por escrito necessário",
]

# Agrupamento semântico usando embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(chunks)
semantic_labels = KMeans(n_clusters=2, random_state=42).fit_predict(embeddings)

# Agrupamento estrutural usando expressões regulares (simplificado)
structural_labels = []
for chunk in chunks:
    if re.search(r'reembolso|pagamento|fatura', chunk, re.IGNORECASE):
        structural_labels.append(0)  # cláusula financeira
    elif re.search(r'rescisão|confidencial|renovação', chunk, re.IGNORECASE):
        structural_labels.append(1)  # cláusula legal
    else:
        structural_labels.append(2)

# Projeção: combina os dois agrupamentos
final_labels = []
for sem, struc in zip(semantic_labels, structural_labels):
    # No sistema real, isso é um mapeamento aprendido
    combined = f"sem{sem}_struc{struc}"
    final_labels.append(combined)

print("Rótulos de cluster combinados:", final_labels)
# Saída: ['sem0_struc0', 'sem1_struc1', ...]

Cloud architecture diagram of Doczy.ai on AWS with Lambda, Bedrock, S3 and Textract services Developer Related Image

O Impacto nos Negócios: Além da Precisão

A redução de 97% no tempo de processamento manual do Doczy.ai não é apenas uma métrica de economia de custos — ela muda fundamentalmente como as organizações operam. Planos de saúde agora podem configurar sistemas de sinistros automaticamente a partir dos termos do contrato, eliminando erros de entrada manual de dados e configuração. A verificação de faturas de fornecedores torna-se em tempo real, detectando discrepâncias antes do pagamento. O repositório centralizado de metadados permite análise contínua de contratos, identificando oportunidades para renegociar termos ou consolidar fornecedores.

No entanto, adotar um sistema desses requer prontidão organizacional. As equipes devem ser treinadas para confiar nos resultados da IA, e um ciclo de feedback para casos extremos é essencial. O Doczy.ai usa prompting few-shot e multi-shot, editando continuamente os prompts com base em resultados reais — essa melhoria composta de precisão é uma prática recomendada para qualquer sistema de IA em produção.

Melhores Práticas Arquiteturais para Adotar

  • Use metadados para preservar a hierarquia do documento – não achate seus chunks.
  • Combine agrupamento semântico e estrutural – significado sem estrutura é frágil.
  • Instrumente tudo com CloudWatch – monitore uso de tokens, latência e taxas de erro.
  • Proteja segredos cedo com Secrets Manager – não deixe a segurança para depois.
  • Projete para melhoria contínua – use resultados reais para refinar prompts e modelos.

Data flow visualization from unstructured contracts to structured insights with 99% accuracy Software Concept Art

Conclusão

O Doczy.ai na AWS demonstra como serviços modernos de nuvem podem resolver problemas complexos com muitos documentos. A combinação patenteada de smart chunking, agrupamento duplo e otimização de prompts oferece 99% de precisão em escala massiva — processando 2,5 milhões de documentos e gerando US$ 330 milhões em economia ao longo de 22 meses. Para qualquer organização afogada em contratos não estruturados, esta arquitetura fornece um blueprint comprovado.

Comece pequeno: escolha um tipo de contrato, construa um pipeline com Textract e Bedrock, e itere na sua estratégia de chunking. A tecnologia está pronta — agora é sobre execução.

Leitura Relacionada

Este conteúdo foi elaborado com o auxílio de ferramentas de IA, com base em fontes confiáveis, e revisado pela nossa equipe editorial antes da publicação. Não substitui o aconselhamento de um profissional especializado.