O Problema Real: Dados Presos em Documentos
Para organizações de saúde e serviços financeiros, contratos não são apenas documentos legais — são a espinha dorsal operacional. No entanto, informações críticas de negócios permanecem presas em formatos não estruturados: PDFs, cópias digitalizadas, tabelas complexas e anexos aninhados. A revisão manual é lenta, propensa a erros e cara. Sistemas tradicionais de CLM capturam apenas campos predefinidos, perdendo os termos sutis que determinam taxas de reembolso, descontos de fornecedores e obrigações de conformidade. O resultado? Economias perdidas, atrasos em pagamentos e ineficiências operacionais que custam milhões.
O Doczy.ai, desenvolvido pela AArete na AWS, ataca diretamente esse problema. Em vez de tratar documentos como texto plano, a solução usa uma abordagem híbrida patenteada que preserva a estrutura hierárquica e o significado semântico. A arquitetura orquestra Amazon S3, Lambda, Textract, Bedrock, ECS, CloudWatch e Secrets Manager para criar um pipeline totalmente automatizado, do upload do documento ao dashboard acionável.
A Arquitetura: Smart Chunking + Agrupamento Duplo
A inovação central está em dois estágios: smart chunking e agrupamento duplo.
Smart Chunking
Após o Amazon Textract extrair texto bruto e metadados, um algoritmo proprietário não apenas divide por parágrafos. Ele usa busca semântica e por palavras-chave para decompor o texto em chunks contextuais, preservando relacionamentos um-para-muitos (por exemplo, uma cláusula que se aplica a vários níveis de serviço). Identificadores sequenciais e agrupamento orientado por metadados organizam esses chunks em grupos de campos, detectando sobreposições e removendo duplicações.
Motor de Agrupamento Duplo
É aqui que o Doczy.ai se diferencia. Duas lentes analisam cada documento simultaneamente:
- Agrupamento semântico: O texto é convertido em embeddings (representações numéricas de significado). Ideias semelhantes são agrupadas mesmo quando expressas em palavras diferentes.
- Agrupamento estrutural: Algoritmos de reconhecimento de padrões identificam tipos de cláusulas, convenções de formatação, layouts de tabelas e organização hierárquica. Um anexo de três níveis aninhados é tratado de forma diferente de um apêndice simples.
Algoritmos de projeção então comparam ambos os clusters lado a lado, sintetizando-os em um modelo unificado que captura significado e contexto. Essa convergência impulsiona a taxa de 99% de precisão.
Métricas-Chave que Importam
| Métrica | Valor |
|---|---|
| Documentos processados (22 meses) | 2,5 milhões (50M páginas) |
| Chamadas de API do Amazon Bedrock | 137 milhões |
| Total de tokens processados | 442 bilhões |
| Economia acumulada para clientes | ~US$ 330 milhões |
| Redução no tempo de processamento manual | 97% |
| Precisão vs. sistemas baseados em regras | 99% (vs. 55%) |
Limitações e Considerações
Embora impressionante, essa arquitetura não é uma bala de prata. O smart chunking e o agrupamento duplo exigem configuração inicial significativa e ajuste específico para cada domínio. Organizações com formatos de documentos altamente irregulares (por exemplo, anotações manuscritas, modelos não padronizados) podem ver precisão menor. Além disso, a dependência do Amazon Bedrock significa que os custos escalam com o uso de tokens — a 442 bilhões de tokens, esta não é uma solução barata para implantações de pequena escala. A latência também pode ser uma preocupação para processamento em tempo real de grandes volumes.
Próximos Passos para Aprendizado
Se você está construindo pipelines similares de inteligência documental, comece experimentando com Amazon Textract e os modelos Claude ou Titan do Bedrock para extração. Depois, foque na sua estratégia de chunking — é onde está a maior alavancagem arquitetural. Use metadados para preservar a estrutura do documento e sempre valide com uma abordagem dupla (semântica + estrutural) para capturar casos extremos.
Para leitura adicional, confira este mergulho profundo no acelerador de inferência AI Microsoft Maia 200 para entender aceleração de hardware para LLMs, ou explore como o Nemotron-Personas-Brazil está construindo datasets de IA culturalmente fundamentados — uma abordagem diferente, mas complementar, para IA soberana.

# Exemplo: Simulando a lógica de agrupamento duplo em Python
# Esta é uma ilustração simplificada, não código de produção.
from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
import re
# Simula chunks extraídos do Amazon Textract
chunks = [
"Fornecedor concorda em reembolsar 85% dos valores cobrados",
"Prazo: 12 meses, renovação automática",
"Cláusula de confidencialidade: ambas as partes devem manter...",
"Termos de pagamento: líquido 30 dias a partir da data da fatura",
"Rescisão: aviso prévio de 60 dias por escrito necessário",
]
# Agrupamento semântico usando embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(chunks)
semantic_labels = KMeans(n_clusters=2, random_state=42).fit_predict(embeddings)
# Agrupamento estrutural usando expressões regulares (simplificado)
structural_labels = []
for chunk in chunks:
if re.search(r'reembolso|pagamento|fatura', chunk, re.IGNORECASE):
structural_labels.append(0) # cláusula financeira
elif re.search(r'rescisão|confidencial|renovação', chunk, re.IGNORECASE):
structural_labels.append(1) # cláusula legal
else:
structural_labels.append(2)
# Projeção: combina os dois agrupamentos
final_labels = []
for sem, struc in zip(semantic_labels, structural_labels):
# No sistema real, isso é um mapeamento aprendido
combined = f"sem{sem}_struc{struc}"
final_labels.append(combined)
print("Rótulos de cluster combinados:", final_labels)
# Saída: ['sem0_struc0', 'sem1_struc1', ...]

O Impacto nos Negócios: Além da Precisão
A redução de 97% no tempo de processamento manual do Doczy.ai não é apenas uma métrica de economia de custos — ela muda fundamentalmente como as organizações operam. Planos de saúde agora podem configurar sistemas de sinistros automaticamente a partir dos termos do contrato, eliminando erros de entrada manual de dados e configuração. A verificação de faturas de fornecedores torna-se em tempo real, detectando discrepâncias antes do pagamento. O repositório centralizado de metadados permite análise contínua de contratos, identificando oportunidades para renegociar termos ou consolidar fornecedores.
No entanto, adotar um sistema desses requer prontidão organizacional. As equipes devem ser treinadas para confiar nos resultados da IA, e um ciclo de feedback para casos extremos é essencial. O Doczy.ai usa prompting few-shot e multi-shot, editando continuamente os prompts com base em resultados reais — essa melhoria composta de precisão é uma prática recomendada para qualquer sistema de IA em produção.
Melhores Práticas Arquiteturais para Adotar
- Use metadados para preservar a hierarquia do documento – não achate seus chunks.
- Combine agrupamento semântico e estrutural – significado sem estrutura é frágil.
- Instrumente tudo com CloudWatch – monitore uso de tokens, latência e taxas de erro.
- Proteja segredos cedo com Secrets Manager – não deixe a segurança para depois.
- Projete para melhoria contínua – use resultados reais para refinar prompts e modelos.

Conclusão
O Doczy.ai na AWS demonstra como serviços modernos de nuvem podem resolver problemas complexos com muitos documentos. A combinação patenteada de smart chunking, agrupamento duplo e otimização de prompts oferece 99% de precisão em escala massiva — processando 2,5 milhões de documentos e gerando US$ 330 milhões em economia ao longo de 22 meses. Para qualquer organização afogada em contratos não estruturados, esta arquitetura fornece um blueprint comprovado.
Comece pequeno: escolha um tipo de contrato, construa um pipeline com Textract e Bedrock, e itere na sua estratégia de chunking. A tecnologia está pronta — agora é sobre execução.
Leitura Relacionada
- Mergulho Profundo no Acelerador de Inferência AI Microsoft Maia 200 – aceleração de hardware para LLMs
- Nemotron-Personas-Brazil: O Dataset Aberto para Construir IA Culturalmente Fundamentada – abordagem complementar para IA soberana