계약 문서, AI가 해결해야 할 마지막 난제

의료, 금융, 법률 분야에서 수천 건의 계약서를 수동으로 검토하는 일은 여전히 큰 고통입니다. 핵심 비즈니스 정보가 비정형 문서 속에 갇혀 있어, 수작업으로 추출하는 과정은 오류에 취약하고 막대한 비용이 소모되죠. 글로벌 컨설팅 회사인 AArete는 이 문제를 해결하기 위해 Doczy.ai라는 생성형 AI 기반 계약 인텔리전스 솔루션을 AWS 위에 구축했습니다.

이번 포스트에서는 Doczy.ai가 어떻게 AWS의 다양한 서비스를 오케스트레이션하여 비정형 계약서를 구조화된 인사이트로 변환하는지, 그 아키텍처와 핵심 기술을 집중 분석합니다. 단순한 문서 처리 툴이 아니라, 비즈니스 프로세스 자동화의 새로운 기준을 제시한 사례입니다.

근거자료: AWS Architecture Blog 원문

AI-powered document analysis system extracting data from contracts on AWS cloud Technical Structure Concept

Doczy.ai 아키텍처: 3단계로 보는 계약서 자동 분석 파이프라인

Doczy.ai의 핵심은 AWS의 관리형 서비스를 유기적으로 연결한 3단계 파이프라인입니다.

1단계: 문서 수집 및 텍스트 추출 (Ingestion & Extraction)

  • 사용자는 Next.js 기반 프론트엔드를 통해 문서를 업로드합니다.
  • Amazon Cognito가 인증/인가를 처리하고, 파일은 Amazon S3에 안전하게 저장됩니다.
  • AWS Lambda가 트리거되어 Amazon Textract를 호출, 문서에서 텍스트와 메타데이터를 추출합니다.

2단계: 지능형 청킹(Chunking)과 이중 클러스터링 (Dual Clustering) — 핵심 기술

여기서 Doczy.ai의 차별화가 드러납니다. 단순히 텍스트를 자르는 것이 아니라, '스마트 청킹(Smart Chunking)' 이라는 특허 기술을 사용합니다.

# Doczy.ai의 스마트 청킹 개념을 단순화한 의사 코드
# 실제 알고리즘은 특허 기술로 보호됨

def smart_chunk(document_text: str, metadata: dict):
    """
    문서의 계층 구조를 보존하며 의미 있는 청크(chunk)로 분할
    """
    # 1. 문서 구조 분석 (목차, 섹션, 표 등)
    structure = analyze_hierarchy(document_text)
    
    # 2. 의미 기반 청킹 (Semantic Chunking)
    semantic_chunks = []
    for section in structure.sections:
        # 임베딩을 사용해 의미적으로 유사한 문장 그룹화
        embeddings = generate_embeddings(section.text)
        clusters = cluster_semantic_groups(embeddings)
        semantic_chunks.extend(clusters)
    
    # 3. 구조 기반 청킹 (Structural Chunking)
    structural_chunks = []
    for clause in structure.clauses:
        # 조항 유형(예: '해지 조항', '배상 조항')을 패턴 인식으로 식별
        clause_type = identify_clause_type(clause.text)
        structural_chunks.append({
            'type': clause_type,
            'text': clause.text,
            'level': clause.nesting_level  # 3중 첨부 vs 단순 부속서 구분
        })
    
    # 4. 이중 클러스터링 결과를 투영(Projection)하여 통합
    unified_model = project_clusters(semantic_chunks, structural_chunks)
    return unified_model

스마트 청킹은 단순히 페이지를 자르는 것이 아니라, 문서의 계층 구조(목차, 조항, 표, 첨부 등)를 보존합니다. 예를 들어, 3중으로 중첩된 별첨(Exhibit)과 단순 부속서(Schedule)를 완전히 다른 의미로 이해합니다.

이후 이중 클러스터링 엔진이 두 가지 관점에서 문서를 분석합니다:

  1. 의미론적(Semantic) 관점: 텍스트를 임베딩으로 변환하고, 같은 의미의 단어(예: 'termination'과 'cancellation')를 그룹화합니다.
  2. 구조적(Structural) 관점: 조항 유형, 서식 규칙, 표 레이아웃 등을 패턴 인식으로 식별합니다.

두 분석 결과는 투영 알고리즘(Projection Algorithm) 을 통해 합성되어, 의미와 맥락을 모두 포착한 통합 문서 모델을 만듭니다. 이 과정이 99% 정확도의 핵심입니다.

3단계: LLM 기반 구조화 출력 및 피드백 루프

  • 통합 모델을 바탕으로 Amazon Bedrock의 대규모 언어 모델(LLM)이 Few-shot / Multi-shot 프롬프팅을 통해 구조화된 데이터를 생성합니다.
  • 결과는 Snowflake에 저장되어 대시보드와 인사이트를 제공합니다.
  • Amazon CloudWatch가 전체 파이프라인을 모니터링하고, AWS Secrets Manager가 민감 정보를 보호합니다.

Cloud architecture diagram of Doczy.ai showing AWS services integration for contract intelligence

성능 비교: AI 도입 전후의 혁신적 차이

Doczy.ai의 성능을 수치로 확인해보겠습니다. 22개월 동안 250만 건의 계약 문서(5,000만 페이지) 를 처리하며, Amazon Bedrock에 1억 3,700만 회 API 호출4,420억 토큰을 사용했습니다. 결과는 다음과 같습니다.

항목전통적 규칙 기반 시스템Doczy.ai (AI 기반)개선율
정확도약 55%99%+80%
수동 처리 시간기준97% 감소20분의 1 수준
주간 처리량제한적최대 25만 건무제한 확장 가능
누적 절감액 (22개월)-약 3억 3,000만 달러-

이 표에서 주목할 점은 정확도 99% 입니다. 인간이 수작업으로 하면 피로도와 집중력 문제로 95% 이상을 유지하기 어렵습니다. Doczy.ai는 규칙 기반 시스템의 55%에 비해 거의 완벽에 가까운 정확도를 달성했습니다.

한국 개발 생태계에서의 적용 맥락

국내에서도 금융권, 의료법인, 대형 SI 프로젝트에서 계약서 검토 자동화에 대한 수요가 높습니다. 특히 전자문서법 개정클라우드 보안 인증(CSAP) 의 영향으로, AWS 기반 솔루션 도입 시 보안과 규제 준수를 먼저 확인해야 합니다. Doczy.ai의 아키텍처는 Amazon S3 + Secrets Manager 조합으로 데이터 암호화를 기본으로 하므로, 국내 규제 환경에서도 비교적 수월하게 적용할 수 있습니다.

이 기술의 한계 및 주의사항

  • 초기 설정 비용: 특허 기술인 스마트 청킹과 도메인 특화 프롬프트 튜닝에 상당한 초기 투자가 필요합니다.
  • 다국어 처리: 한국어 계약서의 경우 조사, 존댓말, 한자어 등으로 인해 청킹 정확도가 영어보다 낮을 수 있습니다. 별도의 한국어 특화 튜닝이 필요합니다.
  • 법적 효력: AI가 추출한 정보를 법적 분쟁의 근거로 사용할 수 있는지는 별도의 법률 검토가 필요합니다.

Data analyst dashboard showing contract insights and savings from automated document processing Developer Related Image

결론: 계약 문서가 전략적 자산이 되는 순간

Doczy.ai는 단순한 문서 처리 자동화를 넘어, 비정형 데이터를 정형화된 비즈니스 인텔리전스로 전환하는 플랫폼입니다. 99% 정확도와 97%의 처리 시간 단축은 더 이상 '미래의 이야기'가 아닙니다. AWS의 관리형 서비스를 오케스트레이션하여, 복잡한 계약 검토 업무를 완전히 자동화할 수 있습니다.

다음 단계로 관심이 있다면, 아래 주제를 학습해보세요:

  • Amazon Bedrock의 다양한 파운데이션 모델 비교 (Claude, Llama 등)
  • LangChain을 활용한 문서 기반 RAG(Retrieval-Augmented Generation) 시스템 구축
  • 국내 SaaS 형태의 계약 인텔리전스 솔루션 (예: 마음AI, 리걸플러스)과의 기능 비교

함께 보면 좋은 글

본 콘텐츠는 신뢰할 수 있는 출처를 바탕으로 AI 도구를 활용하여 초안이 작성되었으며, 편집자의 검토를 거쳐 발행되었습니다. 전문가의 조언을 대체하지 않습니다.