ooligo
claude-skill

Claude を使った任意の契約書からの条項抽出

Difficulty
初級
Setup time
20min
For
legal-ops · in-house-counsel · paralegal · contract-manager
Legal Ops

Stack

単一の締結済み契約書(.docx またはテキストレイヤー付き .pdf)を受け取り、CLM が実際にキーとする条項を含む引用根拠付き JSON レコードを出力する Claude スキルです。準拠法、責任上限、補償、期間、自動更新、解除トリガー、支払い条件、IP 所有権、秘密保持期間に加え、設定したカスタムフィールド(データ所在地、最恵国待遇、支配権の変更、権利譲渡)を抽出します。抽出されたすべての値に逐語的な抜粋、{page, char_span} 引用、信頼スコアが付くため、下流のレビュアーは契約書を読み直すことなく数秒で確認できます。

このページでは実行するタイミング、明示的に実行しないタイミング、コスト、本番リポジトリに向ける前にサイズを測るべき名前付きの失敗モードをカバーします。

使用するタイミング

特権クリアランスを既に通過した契約書に対して構造化された出力が必要な場合にこのスキルを使用します:

  • CLM データのバックフィル。 フラットファイルのリポジトリ(Box、SharePoint、ネットワークドライブ)を継承し、パラリーガルの四半期分を消費せずに Ironclad または Agiloft のメタデータフィールドを作成する必要がある場合。
  • 条項ライブラリの構築。 ポートフォリオ全体のすべての「責任上限」条項が欲しく、条項ライブラリがプレイブックの定めた立場ではなく実際に合意したことを反映するようにしたい場合。
  • デューデリジェンス。 ディールがクローズする前に 48 時間で対象会社の契約セット全体の支配権の変更、権利譲渡、最恵国顧客条項を表面化する必要がある場合。
  • 更新のトリアージ。 通知期間日数フィールドが入力された状態で、今後 90 日以内に自動更新されるすべての契約書にフラグを立てる必要がある場合。

アーティファクトバンドルは apps/web/public/artifacts/clause-extraction-claude-skill/ にあります:

  • SKILL.md — 方法、出力フォーマット、注意事項を含むスキル定義
  • references/1-clause-taxonomy.md — 契約タイプごとに抽出する条項(見出しと同義語を含む)
  • references/2-output-schema.json — すべてのレコードが検証される JSON スキーマ(バージョンに固定してください)
  • references/3-citation-format.md — 引用文法と「存在しない」/「抽出できなかった」フォールバックのルール

使用しないタイミング

このスキルは意図的に範囲が狭いです。以下のいずれかに該当する場合は呼び出しを拒否してください。

  • アクティブな交渉中の特権ドラフト。 ほとんどの法務チームの AI ポリシー(および当社が推奨する AI ポリシーテンプレート)は、進行中の交渉ドラフト — 特に社外弁護士の修正と弁護士作業成果物 — に明確な線引きをしています。このスキルは特権の問題をすでに解決した締結済みまたは最終近くの契約書向けです。文書が特権クリアランスを通過しているか不確かな場合、答えはノーです。
  • 非 Tier-A AI ベンダー経由のもの。 社内承認済みの Tier-A エンドポイント(Anthropic API 直接、または企業向け Claude テナント)に対してのみ実行してください。コンシューマー向けチャットボットは絶対に不可です。ブラウザプラグインも不可です。「裏で Claude」と謳う未検証の SaaS ラッパーも不可です。契約書を Tier-B ベンダー経由で送ることは特権漏洩のリスクがあります — AI ポリシーを回避するのではなく、呼び出しを拒否してください。スキル自体にはエンドポイント許可リストがハードコードされています。Claude Code または企業テナントの Claude.ai で実行している場合は問題ありません。
  • 下書きまたはリドライン。 このスキルは読み取りのみです。リドラインには、別の契約書リドラインスキルを使用してください。
  • 法的解釈。 出力はテキスト + 引用です。12 ヶ月の責任上限がディールのコンテキストで「十分か」は判断の問題であり、弁護士が担います。

セットアップ

  1. バンドルを ~/.claude/skills/(Claude Code)に配置するか、references/ ディレクトリと SKILL.md を Claude.ai プロジェクトにアップロードします。
  2. references/1-clause-taxonomy.md の内容を自社の実際の分類法に置き換えます。デフォルト分類法には一般的な MSA 条項があります。ほとんどの会社は 5〜10 のカスタムフィールドを追加します(管轄ごとのデータ所在地、支配権変更の除外、非勧誘期間、最恵国待遇の範囲)。
  3. references/2-output-schema.json をバージョンに固定します。分類法の変更のたびにスキーマとスキルの extractor_version をバンプして、下流のコンシューマーがドリフトを検出できるようにします。
  4. 既知の契約書で実行します — CLM に値がすでにある契約書を選んでください。抽出された JSON を CLM レコードと比較します。出力が一致するまで分類法の同義語を繰り返し改善します。
  5. スケールで実行します。スキルは契約書ごとです。n8n、シェルループ、または CLM のインテークフックでバッチを調整します。

スキルの実際の動作

4 ステップ、順番通り。

  1. レイアウト保存付きテキスト抽出。 .docx は docx XML 経由で解析されます。.pdf は pdfplumber 経由でページ番号とバウンディングボックスの文字スパンが残ります。PDF にテキストレイヤーがない場合(スキャン画像)、スキルは空のテキストを出力するのではなく error: "ocr_required" で中断します。スキャン PDF を OCR にルーティングすることは別の上流の問題です。このスキルは OCR を行いません。スキャンから「クリーンな」空の抽出を静かに生成することは、大声で失敗するよりも悪いからです。
  2. 引用根拠付き抽出、条項ごとに 1 パス。 分類法の各条項について:見出し + 同義語の一致で候補段落を見つけ、候補段落のみ(契約書全体ではなく)を条項定義と共に Claude に渡し、値、≤280 文字の逐語的抜粋、{page, char_span} 引用、high | medium | low の信頼スコアを返します。ソース段落の部分文字列と完全に一致しない抜粋はすべて拒否されます — これは幻覚ガードであり、交渉の余地はありません。条項ごとのプロンプト(1 つのメガプロンプトではなく)により、失敗のみを再試行し、各コールの入力トークンを上限で制限し、幻覚をレコード全体ではなく単一フィールドに分離できます。
  3. 固定された output-schema.json に対するスキーマ検証。 検証エラーは出力の errors 配列に格納されます。スキルは型を静かに強制変換しません。
  4. 「存在しない」フォールバック。 条項が見つからない場合、value: null, status: "not_present", note: "Searched headings: [...]" を出力します。推測しません。CLM バックフィルパイプラインは null + status:not_present を確認済み不在(そのフィールドなしで契約書を登録)として扱い、null + status:error を再実行が必要(登録しない)として扱います。2 つを混在させると時間とともに CLM データが破損します。

コストの実態

2026 年の Claude 価格 — スキル内で使用するコスト効率の高いモデルで入力 ~3 USD/M トークン、出力 ~15 USD/M トークン — では、コストは入力トークンに支配され、入力トークンは候補段落の長さに支配されます(スキルは条項ごとにマッチした段落のみを送り、契約書全体を送らないため)。

契約書あたりの概算数値:

  • 短い契約書(5 ページ、全条項コールで ~3K 入力トークン、~500 出力トークン): 契約書あたり ~0.02 USD。
  • 標準 MSA(20 ページ、~12K 入力トークン、~1K 出力トークン): 契約書あたり ~0.05 USD。
  • スケジュール付き長いエンタープライズ MSA(60 ページ、~35K 入力トークン、~2K 出力トークン): 契約書あたり ~0.13 USD。

パイプライン経由で毎月 ~200 件の新規および継承契約書を実行する典型的なミッドマーケット社内チームでは、トークン支出は月 10〜30 USD です。コストはパラリーガルの 1 時間分に比べると端数です。端数でなくなるのは 50,000 件のデューデリジェンスプロジェクトです — 件あたり 0.05 USD で 2,500 USD になります。これは依然として安価ですが、クレジットカード明細で発見するよりも事前に予算化する価値があります。

トークン以外のコスト:confidence: medium | low のすべての抽出(および high の 10% サンプル)には人間のレビューが必要です。medium で ~30 秒、low で ~2 分を見込んでください。スキルはパラリーガルより速いですが、無料ではありません。

成功の指標

初日から計装する価値のある 2 つの指標。

  • ラベル付きセットでの抽出精度。 手動抽出で 50 件の金本位セットを構築します。条項ごとに精度と再現率を測定します。目標:必須条項(governing_law、liability_cap、term_length_months、auto_renewal)で ≥95% の精度。それ以下では偽陽性が CLM を汚染し、レビュアーはフィールドを無視することを学びます。再現率の重要度は低いです — not_present は重要な答えであり、見逃した条項は人間のレビューにルーティングされます。
  • 契約書あたりのエンドツーエンドの時間。 フラグ付きレコードへの人間レビューパスを含みます。20 ページ MSA の目標:4 分以内(完全な手動抽出の 20〜30 分に対して)。5 倍が見えない場合、人間レビューキューが積極的すぎます — 信頼閾値を厳しくしてください。

代替案との比較

  • Ironclad のネイティブ AI 条項抽出と比較して。 Ironclad の組み込み抽出は、すべての対象契約書が Ironclad にある場合に優れています。Ironclad の外部からバックフィルする場合(インポートパスが複雑)や、Ironclad のテンプレートセットを超えるカスタム条項が必要な場合に苦労します。このスキルはディスク上の任意のファイルに対して実行し、自社の分類法を使用します。完全に Ironclad に生活している場合はネイティブ抽出を使用してください。複数の宛先にフィードする場合や非 Ironclad リポジトリでデューデリジェンスを行う場合は、このスキルの方が適しています。
  • Kira Systemsと比較して。 Kira はエンタープライズグレードの老舗です — 高精度、深いテンプレートライブラリ、高価(6 桁)、長い販売サイクル、カスタム条項ごとのトレーニングデータが必要。M&A デューデリジェンスをスケールで行う BigLaw ファームなら Kira はその価値があります。数千件の継承 MSA をバックフィルする 50 人の法務 Ops チームなら Kira は過剰であり、このスキルは必要な精度で 2 桁安価です。
  • 手動パラリーガルレビューと比較して。 正直な比較です。20 ページ MSA から 10 の条項を抽出するパラリーガルは 20〜30 分かかり、簡単な条項(準拠法、期間)で ≥99% の精度、難しい条項(責任上限の構造、補償の除外)で ~90% の精度を達成します。このスキルは 1 分未満で ~0.05 USD で行い、簡単なもので ~95%、難しいもので ~85% を達成し、残りを信頼フラグ経由で人間にルーティングします。ほとんどのチームにとって正しいアプローチはハイブリッドです:すべての契約書にスキルを使用し、フラグ付きレコードにパラリーガルを使用します。

注意事項

  • Tier-B ベンダー経由の特権漏洩。 承認されていない AI エンドポイントを通じて特権文書をルーティングすることで特権が放棄される可能性があります。ガード: スキルは起動時にハードコードされたエンドポイント許可リスト(api.anthropic.com に加えて企業テナント)をチェックし、設定されたエンドポイントがリストにない場合は実行を拒否します。AI ポリシーに許可リストの所有者をドキュメント化してください。
  • スキャン PDF での OCR による欠落テキスト。 OCR レイヤーのないスキャン画像 PDF は空のページとして抽出されます。ガードなしでは、スキルはほとんどの条項を not_present と報告し、クリーンな実行のように見えます。ガード: ステップ 1 は抽出文字数が < 50 のページを検出し、誤解を招くレコードを出力するのではなく ocr_required で中断します。契約書を上流で OCR にルーティングして再実行してください。
  • 幻覚された条項。 モデルは求めると存在しない「利便のための解除」条項を親切に発明します。ガード: ステップ 2 のバイトと同一の抜粋部分文字列チェック — ソース段落に文字通り存在しない抜粋はすべて拒否され、条項は status: "error", error: "excerpt_not_grounded" を記録します。設計上、高信頼度の幻覚パスは存在しません。
  • 契約バージョン間のスキーマドリフト。 liability_cap を文字列から {type, amount, period} オブジェクトに変更する分類法の更新は、すべての下流コンシューマーを静かに壊します。ガード: references/2-output-schema.jsonextractor_version を固定し、分類法またはスキーマの変更のたびにバンプします。下流コンシューマーは安定性の前提ではなくバージョンをキーにします。
  • 定義された用語の解決。 「スケジュール A に記載されている通り」は値ではなく参照を返します。ガード: スキルは as set forth in / as defined in を検出し、confidence: mediumnote: "cross-reference, manual resolution required" を出力します。ナイーブな自動解決は正直なフラグよりも悪いです。
  • 法的アドバイスではありません。 抽出は機械的です。このディールで 12 ヶ月の上限が許容できるかどうかは弁護士が担う判断です。

スタック

  • Claude — テキスト抽出のオーケストレーション、引用根拠付き条項抽出、スキーマ検証
  • Ironclad(オプション)— 抽出されたレコードの主要 CLM 宛先。CLM を選定中の場合は alternatives-to-ironcladbest CLM platforms も参照してください。
  • CLM 背景知識 — CLM の概要と抽出の位置付け。

Files in this artifact

Download all (.zip)