Doczy.ai en AWS Cómo Lograr 99% de Precisión en Inteligencia de Contratos

El Problema Real: Datos Atrapados en Documentos

Para organizaciones de salud y servicios financieros, los contratos no son solo documentos legales—son la columna vertebral operativa. Sin embargo, la información crítica del negocio permanece encerrada en formatos no estructurados: PDFs, copias escaneadas, tablas complejas y anexos anidados. La revisión manual es lenta, propensa a errores y costosa. Los sistemas CLM tradicionales solo capturan campos predefinidos, perdiendo los términos sutiles que determinan tasas de reembolso, descuentos de proveedores y obligaciones de cumplimiento. ¿El resultado? Ahorros perdidos, retrasos en pagos e ineficiencias operativas que cuestan millones.

Doczy.ai, construido por AArete en AWS, ataca directamente este problema. En lugar de tratar los documentos como texto plano, la solución utiliza un enfoque híbrido patentado que preserva la estructura jerárquica y el significado semántico. La arquitectura orquesta Amazon S3, Lambda, Textract, Bedrock, ECS, CloudWatch y Secrets Manager para crear un pipeline completamente automatizado, desde la carga del documento hasta el dashboard accionable.

La Arquitectura: Smart Chunking + Agrupamiento Dual

La innovación central está en dos etapas: smart chunking y agrupamiento dual.

Smart Chunking

Después de que Amazon Textract extrae texto bruto y metadatos, un algoritmo propietario no solo divide por párrafos. Utiliza búsqueda semántica y por palabras clave para descomponer el texto en chunks contextuales, preservando relaciones uno-a-muchos (por ejemplo, una cláusula que aplica a múltiples niveles de servicio). Identificadores secuenciales y agrupamiento orientado por metadatos organizan estos chunks en grupos de campos, detectando superposiciones y eliminando duplicaciones.

Motor de Agrupamiento Dual

Aquí es donde Doczy.ai se diferencia. Dos lentes analizan cada documento simultáneamente:

Agrupamiento semántico: El texto se convierte en embeddings (representaciones numéricas de significado). Ideas similares se agrupan incluso cuando se expresan con palabras diferentes.
Agrupamiento estructural: Algoritmos de reconocimiento de patrones identifican tipos de cláusulas, convenciones de formato, diseños de tablas y organización jerárquica. Un anexo de tres niveles anidados se trata de manera diferente a un apéndice simple.

Algoritmos de proyección luego comparan ambos clusters lado a lado, sintetizándolos en un modelo unificado que captura significado y contexto. Esta convergencia impulsa la tasa de 99% de precisión.

Métricas Clave que Importan

Métrica	Valor
Documentos procesados (22 meses)	2.5 millones (50M páginas)
Llamadas API de Amazon Bedrock	137 millones
Total de tokens procesados	442 mil millones
Ahorro acumulado para clientes	~$330 millones USD
Reducción en tiempo de procesamiento manual	97%
Precisión vs. sistemas basados en reglas	99% (vs. 55%)

Limitaciones y Consideraciones

Aunque impresionante, esta arquitectura no es una bala de plata. El smart chunking y el agrupamiento dual requieren una configuración inicial significativa y ajuste específico para cada dominio. Las organizaciones con formatos de documentos altamente irregulares (por ejemplo, notas manuscritas, plantillas no estandarizadas) pueden ver una precisión menor. Además, la dependencia de Amazon Bedrock significa que los costos escalan con el uso de tokens—a 442 mil millones de tokens, esta no es una solución barata para implementaciones a pequeña escala. La latencia también puede ser una preocupación para el procesamiento en tiempo real de grandes volúmenes.

Próximos Pasos para Aprender

Si estás construyendo pipelines similares de inteligencia documental, comienza experimentando con Amazon Textract y los modelos Claude o Titan de Bedrock para extracción. Luego, enfócate en tu estrategia de chunking—ahí es donde está el mayor apalancamiento arquitectónico. Usa metadatos para preservar la estructura del documento y siempre valida con un enfoque dual (semántico + estructural) para capturar casos extremos.

Para lectura adicional, checa este análisis profundo del acelerador de inferencia AI Microsoft Maia 200 para entender la aceleración de hardware para LLMs, o explora cómo Nemotron-Personas-Brazil está construyendo datasets de IA culturalmente fundamentados—un enfoque diferente pero complementario para IA soberana.

AI-powered contract intelligence dashboard showing document analysis and insights on AWS Coding Session Visual

# Ejemplo: Simulando la lógica de agrupamiento dual en Python
# Esta es una ilustración simplificada, no código de producción.

from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
import re

# Simula chunks extraídos de Amazon Textract
chunks = [
    "Proveedor acepta reembolsar el 85% de los cargos facturados",
    "Plazo: 12 meses, renovación automática",
    "Cláusula de confidencialidad: ambas partes deben mantener...",
    "Términos de pago: neto 30 días a partir de la fecha de factura",
    "Terminación: aviso por escrito de 60 días requerido",
]

# Agrupamiento semántico usando embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(chunks)
semantic_labels = KMeans(n_clusters=2, random_state=42).fit_predict(embeddings)

# Agrupamiento estructural usando expresiones regulares (simplificado)
structural_labels = []
for chunk in chunks:
    if re.search(r'reembolso|pago|factura', chunk, re.IGNORECASE):
        structural_labels.append(0)  # cláusula financiera
    elif re.search(r'terminación|confidencial|renovación', chunk, re.IGNORECASE):
        structural_labels.append(1)  # cláusula legal
    else:
        structural_labels.append(2)

# Proyección: combina los dos agrupamientos
final_labels = []
for sem, struc in zip(semantic_labels, structural_labels):
    # En el sistema real, esto es un mapeo aprendido
    combined = f"sem{sem}_struc{struc}"
    final_labels.append(combined)

print("Etiquetas de cluster combinadas:", final_labels)
# Salida: ['sem0_struc0', 'sem1_struc1', ...]

Cloud architecture diagram of Doczy.ai on AWS with Lambda, Bedrock, S3 and Textract services Algorithm Concept Visual

El Impacto en el Negocio: Más Allá de la Precisión

La reducción del 97% en el tiempo de procesamiento manual de Doczy.ai no es solo una métrica de ahorro de costos—cambia fundamentalmente cómo operan las organizaciones. Los planes de salud ahora pueden configurar sistemas de reclamos automáticamente a partir de los términos del contrato, eliminando errores de entrada manual de datos y configuración. La verificación de facturas de proveedores se vuelve en tiempo real, detectando discrepancias antes del pago. El repositorio centralizado de metadatos permite un análisis continuo de contratos, identificando oportunidades para renegociar términos o consolidar proveedores.

Sin embargo, adoptar un sistema así requiere preparación organizacional. Los equipos deben ser entrenados para confiar en los resultados de la IA, y un ciclo de retroalimentación para casos extremos es esencial. Doczy.ai utiliza prompting few-shot y multi-shot, editando continuamente los prompts basándose en resultados reales—esta mejora compuesta de precisión es una mejor práctica para cualquier sistema de IA en producción.

Mejores Prácticas Arquitectónicas para Robar

Usa metadatos para preservar la jerarquía del documento – no aplastes tus chunks.
Combina agrupamiento semántico y estructural – el significado sin estructura es frágil.
Instrumenta todo con CloudWatch – monitorea uso de tokens, latencia y tasas de error.
Asegura los secretos temprano con Secrets Manager – no dejes la seguridad para después.
Diseña para mejora continua – usa resultados reales para refinar prompts y modelos.

Data flow visualization from unstructured contracts to structured insights with 99% accuracy Developer Related Image

Conclusión

Doczy.ai en AWS demuestra cómo los servicios modernos en la nube pueden resolver problemas complejos con muchos documentos. La combinación patentada de smart chunking, agrupamiento dual y optimización de prompts ofrece 99% de precisión a escala masiva—procesando 2.5 millones de documentos y generando $330 millones USD en ahorros durante 22 meses. Para cualquier organización ahogada en contratos no estructurados, esta arquitectura proporciona un blueprint probado.

Empieza pequeño: elige un tipo de contrato, construye un pipeline con Textract y Bedrock, e itera en tu estrategia de chunking. La tecnología está lista—ahora se trata de ejecución.

Lectura Relacionada

Análisis Profundo del Acelerador de Inferencia AI Microsoft Maia 200 – aceleración de hardware para LLMs
Nemotron-Personas-Brazil: El Dataset Abierto para Construir IA Culturalmente Fundamentada – enfoque complementario para IA soberana

Este contenido fue redactado con la asistencia de herramientas de IA, basándose en fuentes confiables, y fue revisado por nuestro equipo editorial antes de su publicación. No reemplaza el asesoramiento de un profesional especializado.

Doczy.ai en AWS Cómo Lograr 99% de Precisión en Inteligencia de Contratos

El Problema Real: Datos Atrapados en Documentos

La Arquitectura: Smart Chunking + Agrupamiento Dual

Smart Chunking

Motor de Agrupamiento Dual

Métricas Clave que Importan

Limitaciones y Consideraciones

Próximos Pasos para Aprender

El Impacto en el Negocio: Más Allá de la Precisión

Mejores Prácticas Arquitectónicas para Robar

Conclusión

Lectura Relacionada

Compartir

¿Te fue útil este post?
¡Es un gran apoyo para el autor!

Suscribirse

Feed RSS / Atom

Alertas en Tiempo Real

Comentarios 0

El Problema Real: Datos Atrapados en Documentos

La Arquitectura: Smart Chunking + Agrupamiento Dual

Smart Chunking

Motor de Agrupamiento Dual

Métricas Clave que Importan

Limitaciones y Consideraciones

Próximos Pasos para Aprender

El Impacto en el Negocio: Más Allá de la Precisión

Mejores Prácticas Arquitectónicas para Robar

Conclusión

Lectura Relacionada

Compartir

¿Te fue útil este post?¡Es un gran apoyo para el autor!

Suscribirse

Feed RSS / Atom

Alertas en Tiempo Real

Comentarios 0

¿Te fue útil este post?
¡Es un gran apoyo para el autor!