El Problema Real: Datos Atrapados en Documentos
Para organizaciones de salud y servicios financieros, los contratos no son solo documentos legales—son la columna vertebral operativa. Sin embargo, la información crítica del negocio permanece encerrada en formatos no estructurados: PDFs, copias escaneadas, tablas complejas y anexos anidados. La revisión manual es lenta, propensa a errores y costosa. Los sistemas CLM tradicionales solo capturan campos predefinidos, perdiendo los términos sutiles que determinan tasas de reembolso, descuentos de proveedores y obligaciones de cumplimiento. ¿El resultado? Ahorros perdidos, retrasos en pagos e ineficiencias operativas que cuestan millones.
Doczy.ai, construido por AArete en AWS, ataca directamente este problema. En lugar de tratar los documentos como texto plano, la solución utiliza un enfoque híbrido patentado que preserva la estructura jerárquica y el significado semántico. La arquitectura orquesta Amazon S3, Lambda, Textract, Bedrock, ECS, CloudWatch y Secrets Manager para crear un pipeline completamente automatizado, desde la carga del documento hasta el dashboard accionable.
La Arquitectura: Smart Chunking + Agrupamiento Dual
La innovación central está en dos etapas: smart chunking y agrupamiento dual.
Smart Chunking
Después de que Amazon Textract extrae texto bruto y metadatos, un algoritmo propietario no solo divide por párrafos. Utiliza búsqueda semántica y por palabras clave para descomponer el texto en chunks contextuales, preservando relaciones uno-a-muchos (por ejemplo, una cláusula que aplica a múltiples niveles de servicio). Identificadores secuenciales y agrupamiento orientado por metadatos organizan estos chunks en grupos de campos, detectando superposiciones y eliminando duplicaciones.
Motor de Agrupamiento Dual
Aquí es donde Doczy.ai se diferencia. Dos lentes analizan cada documento simultáneamente:
- Agrupamiento semántico: El texto se convierte en embeddings (representaciones numéricas de significado). Ideas similares se agrupan incluso cuando se expresan con palabras diferentes.
- Agrupamiento estructural: Algoritmos de reconocimiento de patrones identifican tipos de cláusulas, convenciones de formato, diseños de tablas y organización jerárquica. Un anexo de tres niveles anidados se trata de manera diferente a un apéndice simple.
Algoritmos de proyección luego comparan ambos clusters lado a lado, sintetizándolos en un modelo unificado que captura significado y contexto. Esta convergencia impulsa la tasa de 99% de precisión.
Métricas Clave que Importan
| Métrica | Valor |
|---|---|
| Documentos procesados (22 meses) | 2.5 millones (50M páginas) |
| Llamadas API de Amazon Bedrock | 137 millones |
| Total de tokens procesados | 442 mil millones |
| Ahorro acumulado para clientes | ~$330 millones USD |
| Reducción en tiempo de procesamiento manual | 97% |
| Precisión vs. sistemas basados en reglas | 99% (vs. 55%) |
Limitaciones y Consideraciones
Aunque impresionante, esta arquitectura no es una bala de plata. El smart chunking y el agrupamiento dual requieren una configuración inicial significativa y ajuste específico para cada dominio. Las organizaciones con formatos de documentos altamente irregulares (por ejemplo, notas manuscritas, plantillas no estandarizadas) pueden ver una precisión menor. Además, la dependencia de Amazon Bedrock significa que los costos escalan con el uso de tokens—a 442 mil millones de tokens, esta no es una solución barata para implementaciones a pequeña escala. La latencia también puede ser una preocupación para el procesamiento en tiempo real de grandes volúmenes.
Próximos Pasos para Aprender
Si estás construyendo pipelines similares de inteligencia documental, comienza experimentando con Amazon Textract y los modelos Claude o Titan de Bedrock para extracción. Luego, enfócate en tu estrategia de chunking—ahí es donde está el mayor apalancamiento arquitectónico. Usa metadatos para preservar la estructura del documento y siempre valida con un enfoque dual (semántico + estructural) para capturar casos extremos.
Para lectura adicional, checa este análisis profundo del acelerador de inferencia AI Microsoft Maia 200 para entender la aceleración de hardware para LLMs, o explora cómo Nemotron-Personas-Brazil está construyendo datasets de IA culturalmente fundamentados—un enfoque diferente pero complementario para IA soberana.

# Ejemplo: Simulando la lógica de agrupamiento dual en Python
# Esta es una ilustración simplificada, no código de producción.
from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
import re
# Simula chunks extraídos de Amazon Textract
chunks = [
"Proveedor acepta reembolsar el 85% de los cargos facturados",
"Plazo: 12 meses, renovación automática",
"Cláusula de confidencialidad: ambas partes deben mantener...",
"Términos de pago: neto 30 días a partir de la fecha de factura",
"Terminación: aviso por escrito de 60 días requerido",
]
# Agrupamiento semántico usando embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(chunks)
semantic_labels = KMeans(n_clusters=2, random_state=42).fit_predict(embeddings)
# Agrupamiento estructural usando expresiones regulares (simplificado)
structural_labels = []
for chunk in chunks:
if re.search(r'reembolso|pago|factura', chunk, re.IGNORECASE):
structural_labels.append(0) # cláusula financiera
elif re.search(r'terminación|confidencial|renovación', chunk, re.IGNORECASE):
structural_labels.append(1) # cláusula legal
else:
structural_labels.append(2)
# Proyección: combina los dos agrupamientos
final_labels = []
for sem, struc in zip(semantic_labels, structural_labels):
# En el sistema real, esto es un mapeo aprendido
combined = f"sem{sem}_struc{struc}"
final_labels.append(combined)
print("Etiquetas de cluster combinadas:", final_labels)
# Salida: ['sem0_struc0', 'sem1_struc1', ...]

El Impacto en el Negocio: Más Allá de la Precisión
La reducción del 97% en el tiempo de procesamiento manual de Doczy.ai no es solo una métrica de ahorro de costos—cambia fundamentalmente cómo operan las organizaciones. Los planes de salud ahora pueden configurar sistemas de reclamos automáticamente a partir de los términos del contrato, eliminando errores de entrada manual de datos y configuración. La verificación de facturas de proveedores se vuelve en tiempo real, detectando discrepancias antes del pago. El repositorio centralizado de metadatos permite un análisis continuo de contratos, identificando oportunidades para renegociar términos o consolidar proveedores.
Sin embargo, adoptar un sistema así requiere preparación organizacional. Los equipos deben ser entrenados para confiar en los resultados de la IA, y un ciclo de retroalimentación para casos extremos es esencial. Doczy.ai utiliza prompting few-shot y multi-shot, editando continuamente los prompts basándose en resultados reales—esta mejora compuesta de precisión es una mejor práctica para cualquier sistema de IA en producción.
Mejores Prácticas Arquitectónicas para Robar
- Usa metadatos para preservar la jerarquía del documento – no aplastes tus chunks.
- Combina agrupamiento semántico y estructural – el significado sin estructura es frágil.
- Instrumenta todo con CloudWatch – monitorea uso de tokens, latencia y tasas de error.
- Asegura los secretos temprano con Secrets Manager – no dejes la seguridad para después.
- Diseña para mejora continua – usa resultados reales para refinar prompts y modelos.

Conclusión
Doczy.ai en AWS demuestra cómo los servicios modernos en la nube pueden resolver problemas complejos con muchos documentos. La combinación patentada de smart chunking, agrupamiento dual y optimización de prompts ofrece 99% de precisión a escala masiva—procesando 2.5 millones de documentos y generando $330 millones USD en ahorros durante 22 meses. Para cualquier organización ahogada en contratos no estructurados, esta arquitectura proporciona un blueprint probado.
Empieza pequeño: elige un tipo de contrato, construye un pipeline con Textract y Bedrock, e itera en tu estrategia de chunking. La tecnología está lista—ahora se trata de ejecución.
Lectura Relacionada
- Análisis Profundo del Acelerador de Inferencia AI Microsoft Maia 200 – aceleración de hardware para LLMs
- Nemotron-Personas-Brazil: El Dataset Abierto para Construir IA Culturalmente Fundamentada – enfoque complementario para IA soberana