契約書、AIが解決すべき最後の難題
医療、金融、法務分野では、数千件もの契約書を手動でレビューする作業が依然として大きな負担です。重要なビジネス情報が非構造化文書に閉じ込められ、手作業での抽出はエラーが多く、膨大なコストがかかります。グローバルコンサルティング企業AAreteは、この課題を解決するために、Doczy.aiという生成AIベースの契約インテリジェンスソリューションをAWS上に構築しました。
本記事では、Doczy.aiがどのようにAWSの多様なサービスをオーケストレーションし、非構造化契約書を構造化インサイトに変換するのか、そのアーキテクチャと中核技術を集中的に分析します。単なる文書処理ツールではなく、ビジネスプロセス自動化の新たな基準を示した事例です。
根拠資料: AWS Architecture Blog 原文

Doczy.ai アーキテクチャ:3段階で見る契約書自動分析パイプライン
Doczy.aiの中核は、AWSのマネージドサービスを有機的に接続した3段階パイプラインです。
第1段階:文書収集とテキスト抽出 (Ingestion & Extraction)
- ユーザーはNext.jsベースのフロントエンドから文書をアップロードします。
- Amazon Cognitoが認証/認可を処理し、ファイルはAmazon S3に安全に保管されます。
- AWS Lambdaがトリガーされ、Amazon Textractを呼び出して文書からテキストとメタデータを抽出します。
第2段階:インテリジェントチャンキングとデュアルクラスタリング — 中核技術
ここでDoczy.aiの差別化が明確になります。単にテキストを区切るのではなく、「スマートチャンキング(Smart Chunking)」 という特許技術を使用します。
# Doczy.aiのスマートチャンキング概念を簡略化した擬似コード
# 実際のアルゴリズムは特許技術で保護されています
def smart_chunk(document_text: str, metadata: dict):
"""
文書の階層構造を保持しながら意味のあるチャンクに分割
"""
# 1. 文書構造分析 (目次、セクション、表など)
structure = analyze_hierarchy(document_text)
# 2. 意味ベースチャンキング (Semantic Chunking)
semantic_chunks = []
for section in structure.sections:
# 埋め込みを使用して意味的に類似した文をグループ化
embeddings = generate_embeddings(section.text)
clusters = cluster_semantic_groups(embeddings)
semantic_chunks.extend(clusters)
# 3. 構造ベースチャンキング (Structural Chunking)
structural_chunks = []
for clause in structure.clauses:
# 条項タイプ(例: '解約条項', '賠償条項')をパターン認識で識別
clause_type = identify_clause_type(clause.text)
structural_chunks.append({
'type': clause_type,
'text': clause.text,
'level': clause.nesting_level # 3重別添 vs 単純付属書を区別
})
# 4. デュアルクラスタリング結果を投影(Projection)して統合
unified_model = project_clusters(semantic_chunks, structural_chunks)
return unified_model
スマートチャンキングは単にページを区切るのではなく、文書の階層構造(目次、条項、表、添付など)を保持します。例えば、3重にネストされた別添(Exhibit)と単純な付属書(Schedule)を全く異なる意味として理解します。
その後、デュアルクラスタリングエンジンが2つの観点から文書を分析します:
- 意味論的(Semantic)観点: テキストを埋め込みに変換し、同じ意味の単語(例:'termination'と'cancellation')をグループ化します。
- 構造的(Structural)観点: 条項タイプ、書式ルール、表レイアウトなどをパターン認識で識別します。
2つの分析結果は投影アルゴリズム(Projection Algorithm) によって合成され、意味とコンテキストの両方を捉えた統合文書モデルを生成します。このプロセスが99%精度の核心です。
第3段階:LLMベースの構造化出力とフィードバックループ
- 統合モデルを基に、Amazon Bedrockの大規模言語モデル(LLM)がFew-shot / Multi-shotプロンプティングを通じて構造化データを生成します。
- 結果はSnowflakeに保存され、ダッシュボードとインサイトを提供します。
- Amazon CloudWatchがパイプライン全体を監視し、AWS Secrets Managerが機密情報を保護します。

性能比較:AI導入前後の革新的差異
Doczy.aiの性能を数値で確認します。22ヶ月間で250万件の契約文書(5000万ページ) を処理し、Amazon Bedrockへの1億3700万回のAPI呼び出しと4420億トークンを使用しました。結果は以下の通りです。
| 項目 | 従来のルールベースシステム | Doczy.ai (AIベース) | 改善率 |
|---|---|---|---|
| 精度 | 約55% | 99% | +80% |
| 手動処理時間 | 基準 | 97%削減 | 20分の1 |
| 週間処理量 | 限定的 | 最大25万件 | 無制限に拡張可能 |
| 累積削減額 (22ヶ月) | - | 約3億3000万ドル | - |
この表で注目すべきは精度99% です。人間が手作業で行うと疲労や集中力の問題で95%以上を維持するのは困難です。Doczy.aiはルールベースシステムの55%に比べてほぼ完璧な精度を達成しました。
日本市場における適用コンテキスト
日本でも金融機関、医療法人、大規模SIプロジェクトにおいて契約書レビュー自動化への需要が高まっています。特に電子帳簿保存法やクラウドセキュリティ認証の影響で、AWSベースのソリューション導入時にはセキュリティとコンプライアンスを事前に確認する必要があります。Doczy.aiのアーキテクチャはAmazon S3 + Secrets Managerの組み合わせでデータ暗号化を基本としているため、日本の規制環境でも比較的スムーズに適用できます。
本技術の限界と注意点
- 初期設定コスト: 特許技術であるスマートチャンキングとドメイン特化プロンプトチューニングに相当な初期投資が必要です。
- 多言語処理: 日本語の契約書の場合、助詞、敬語、漢字などによりチャンキング精度が英語より低下する可能性があります。別途日本語特化チューニングが必要です。
- 法的効力: AIが抽出した情報を法的紛争の根拠として使用できるかは、別途弁護士による確認が必要です。

結論:契約書が戦略的資産になる瞬間
Doczy.aiは単なる文書処理自動化を超え、非構造化データを定型化されたビジネスインテリジェンスに変換するプラットフォームです。99%の精度と97%の処理時間短縮はもはや「未来の話」ではありません。AWSのマネージドサービスをオーケストレーションすることで、複雑な契約レビュー業務を完全に自動化できます。
次のステップとして興味があれば、以下のトピックを学習してみてください:
- Amazon Bedrockの各種ファンデーションモデル比較(Claude、Llama等)
- LangChainを活用した文書ベースRAG(Retrieval-Augmented Generation)システム構築
- 国内SaaS型契約インテリジェンスソリューション(例:LegalForce、AI-CONTRACT等)との機能比較