ooligo
claude-skill

Catch hallucinated claims, generic personalization, and compliance breaks in AI SDR drafts before they send

Difficulty
中級
Setup time
60-90 min
For
revops · sdr-leader · gtm-engineer
RevOps

Stack

AI SDR (11x の Alice、Artisan の Ava、aisdrUnify の内部エージェント) と送信アクションのあいだに入り、各ドラフトを 4 つのルーブリック (主張の正確性、パーソナライズの根拠、管轄ごとのコンプライアンス、配信到達性の衛生) で採点し、失敗した軸を明示した block / edit / send の判定を返す Claude Skill です。バンドル apps/web/public/artifacts/ai-sdr-draft-qa-skill/ には、SKILL.mdreferences/ 配下の 4 つのルーブリック ファイル、パーサー配線用のリテラル サンプル出力ファイルが含まれます。

いつ使うか

メッセージごとの人手レビューを介さずに送信する AI SDR のデプロイすべてで、送信前のゲートとしてこの Skill を実行します。本番運用の 2 つのパターンは、AI SDR の送信アクションの手前に置く Webhook がドラフトとプロスペクトのエビデンス パックを Skill へ POST し、verdict: send のレスポンスを受け取ったときだけ送信を解放するもの、もしくは次の 24 時間分のキュー内ドラフトに対する送信前バッチ パスで、verdict: block が出たシーケンス ステップをすべて一時停止するものです。

この Skill はパイロット期のキャリブレーション ツールとしても機能します。11x、Artisan、aisdr 導入の最初の 1 か月分から 500 件のドラフトを Skill に通し、同じ 500 件を RevOps アナリストが手作業でラベリングします。不一致集合を見れば、AI SDR があなたの ICP に対して過剰または過小にパーソナライズしているか、ハルシネーション主張の発生がどこに集中しているか、そして送信量を週 5,000 件以上にスケールする前に管轄プロファイルの調整が必要かどうかが分かります。

この Skill には、ドラフトに加えて prospect_evidence パックが必要です。これは AI SDR がそのドラフトの作成に用いたのと同じエンリッチメント ペイロードです。上流の AI SDR がエビデンス パックを開示しない場合 (一部のクローズド スイートは隠します)、Skill は主張を検証できず、推測ではなく insufficient_evidence を返します。これはバグではなく仕様です。モデルの一般知識に対してドラフトを採点する QA ゲートは、自分自身の検証をハルシネーションさせるからです。

使わないとき

人間の SDR や AE が送信前に各ドラフトをレビューしている場合は、この Skill を使わないでください。レビュアーは Skill より強いゲートです。Skill にはないビジネス文脈を持っており、人間のレビュアーの前にモデルを置くとトークンを浪費しレイテンシだけが増え、Precision は上がりません。完全自律もしくは部分自律のフロー用です。

唯一の配信到達性コントロールとしては使わないでください。Skill はドラフト内のスパム トリガー表現、大文字の件名、画像のみの本文、リンク クローキングのパターンをスキャンします。ドメイン全体の DMARC、苦情率、ブロックリスト状態は監視しません。それは email-deliverability-monitor-n8n フローの仕事です。両方を併走させてください。

ウォーム リプライのドラフトや、すでに会話中のスレッドには使わないでください。ルーブリックはコールド アウトバウンド用に設計されています。すでにミーティングを予約したプロスペクトへの返信ドラフトは、仕様上、パーソナライズ ルーブリックで失敗します (この段階のパーソナライズは文脈を踏まえたものであるべきで、コールド エビデンスから引いたものではありません)。ウォーム ティアのドラフトは別のプロンプトへルーティングしてください。

セットアップ

Skill 本体のセットアップは 60-90 分です。これに加えて上流の配線時間がかかります。AI SDR が送信前 Webhook を公開しているかどうかで時間は変動します。

  1. Skill をインストールする。 apps/web/public/artifacts/ai-sdr-draft-qa-skill/SKILL.mdreferences/ フォルダを .claude/skills/ai-sdr-draft-qa/ ディレクトリに配置するか、claude.ai に Skill としてアップロードします。frontmatter の namedescription が、呼び出し側エージェントから Skill を起動するキーになります。
  2. 主張ルーブリックをキャリブレーションする。 references/1-claim-rubric.md を開き、claim_block_threshold を設定します。これは block 判定を発火させる未検証主張の数 (デフォルト 1) です。多くの AI SDR は資金調達ラウンドや人員規模の捏造を頻発させます。デフォルトの 1 はハルシネーション主張を 1 件単位で表に出します。2 に上げるのは、ブロックを減らす代わりにハルシネーション リスクを許容する場合に限ります。
  3. パーソナライズ ルーブリックをキャリブレーションする。 references/2-personalization-rubric.md を開きます。デフォルトのスコアリングは 0-5 のスケールで、デフォルトの personalization_block_below は 2 です。スコア 2 はエビデンス パックに紐付いた根拠ある具体性が少なくとも 1 つあることを意味します。0 や 1 を取るドラフトは「Hi [first_name], I noticed [Company] is in the [industry] space」型のテンプレートです。ブロックしてください。
  4. 管轄プロファイルを選択する。 references/3-compliance-rubric.md を開き、送信実態に合うプロファイルを有効化します。US CAN-SPAM + RFC 8058 のワンクリック解除は床です。EU GDPR の正当な利益の根拠文書は EU 受信者向けのレイヤーです。フランスは B2B 向けに Loi Hamon を追加します。カリフォルニアは CCPA 整合の opt-out を追加します。コンプライアンス ルーブリックはエビデンス パックからプロスペクトの国を読み取り、合致するプロファイルを適用するか、insufficient_compliance_context を返します。
  5. 送信前 Webhook を配線する。 11x と Artisan はプラットフォーム設定で送信前 Webhook をエンドポイント URL に向けます (もしくはプラットフォームの「承認キュー」モードを使って Skill が承認を駆動します)。Unify と aisdr はプラットフォームのオープン API でキュー上の次のドラフトを取得し、Skill を呼び、判定を書き戻します。自前のエージェントの場合は、SMTP 送信呼び出しの直前に Skill を置きます。
  6. ブロック ポリシーを決める。 block 判定は、ドラフトを人間のレビュアーへルーティングするか、AI SDR に再生成させるために保留するか、送信をハード フェイルさせるかのいずれかです。デフォルトは「失敗した軸をフィードバックとして添えて再生成のために保留」です。多くの AI SDR は具体的な失敗を渡すと 2 回目のパスでドラフトを改善します。

Skill の実際の動作

ステップ 1 — 入力検証。 Skill は、ドラフトの本文、件名、送信ドメイン、受信者の国、prospect_evidence パックが欠けている呼び出しを拒否します。いずれかが欠けると、該当フィールドを示して insufficient_input を返します。不完全なレコードに対するスコアリングは走りません。

ステップ 2 — 主張の抽出と検証。 プロスペクト、プロスペクトの会社、参照されている公開イベントに関するすべての事実的主張 (「先週シリーズ B を発表したのを見ました」「データ チームの採用急増」など) を抽出し、エビデンス パックと照合します。主張は、パック内の引用が裏付けるとき 根拠付き です。根拠のない主張はフラグが立ちます。デフォルト claim_block_threshold: 1 で、根拠のない主張が 1 つでも出ればブロックが発火します。

ステップ 3 — パーソナライズ スコアリング。 Skill は根拠ある具体性を 0-5 で採点します。根拠ある具体性 とは、エビデンス パック内の引用に紐付いた詳細で、プロスペクトが使っている特定のツール名、彼らが公開した特定の求人、出演したポッドキャストなどです。根拠のない具体性 (「あなたの業界」「あなたの役職」「あなたのチーム」) はカウントされません。personalization_block_below: 2 を下回るドラフトはブロックされます。2 極の分離 (根拠ありか根拠なしか) が、AI SDR がトークン詰め込みでスコアをゲームすることを防ぐガードです。

ステップ 4 — コンプライアンス スキャン。 Skill は次を確認します。List-Unsubscribe ヘッダ パターンと、RFC 8058 (2024 年 2 月以降の Google・Yahoo バルク センダー要件) に従う List-Unsubscribe-Post: List-Unsubscribe=One-Click 行、CAN-SPAM に従うフッターの物理的送信者住所、見える本文内の解除リンク、From 行と一致する送信者アイデンティティ、そして有効化された各プロファイルの管轄追加要件。必須要素のいずれかが欠ければブロックです。

ステップ 5 — 配信到達性とボイスのスキャン。 Skill は次をマークします。スパム トリガー表現 (「guaranteed」「free money」「act now」)、70 文字を超える件名または大文字の件名、40 語未満または 250 語超の本文、画像のみの本文、3 リンク超、ストック的な AI らしさのテル (「I hope this email finds you well」「I wanted to reach out」)。1 件のマークは edit 判定を発火させ、ブロックではありません。別のマークと積み重なった場合はブロックです。

ステップ 6 — 判定の組み立て。 Skill は 3 つのうち 1 つの判定を返します。send (ブロックなし、編集なし)、edit (1 件以上の edit ティア フラグと、提案された書き換えをインラインで)、block (1 件以上のブロック要因と、失敗した軸を明示)。出力フォーマットは references/4-sample-output.md にあります。

コストの実態

QA 1 パスで入力トークン 1,500-3,500 (ドラフト、エビデンス パック、未キャッシュ時の 4 つのルーブリック ファイル)、出力トークン 400-800 を消費します。Claude Sonnet 4.x の価格 (2026 年中頃の参考価格でおおむね $3 / 100 万入力、$15 / 100 万出力) では、1 パスあたり $0.01-0.03 です。

AI SDR 規模 (自律エージェント 1 体で月 5,000-15,000 送信) では、QA レイヤーは月額 $50-450 です。月 50,000 送信のデプロイ (複数エージェント、マルチ ドメイン送信) では $500-1,500 です。代替案と比較してください。0.3% の苦情率スパイクで送信ドメインが 1 つ抑制されると、おおむね営業日換算で 5-10 日分のパイプラインを失います。QA コストはひどい 1 週間に対する丸め誤差です。

ルーブリック ファイルのプロンプト キャッシュにより、本番ボリュームでは入力トークン コストが 30-50% 削減されます。バンドルの SKILL.md にキャッシュ キー規約が記載されています。4 つのルーブリック ファイルは、ある 1 つのデプロイ内の呼び出し全体で安定です。

成功指標

追跡すべき指標は ハルシネーション主張の捕捉率 です。週 100 件のドラフトをサンプリングし、RevOps アナリストが各々を根拠のない主張についてラベリングし、Skill のリコールをアナリストのラベルに対して測定します。リコール 95% 超ならルーブリックは機能しています。90% 未満なら主張ルーブリックを引き締める必要があります (しきい値を下げるか、「主張」とみなす範囲を広げる)。

副次指標は 誤ブロック率 です。Skill がブロックしたドラフトのうち、アナリストなら承認したであろう割合を数えます。誤ブロック率 8% 超は、パーソナライズしきい値を 2 から 1 に緩めるか、根拠ある具体性の定義を広げるシグナルです。3% 未満は Skill のブロック不足を意味します。しきい値を逆方向に押します。

2 つの指標は反対方向に動きます。あなたの許容度に合う運用点を選んでください。Fortune 500 へ売る B2B エンタープライズ チームは厳しめに運用すべきです。リコール高め、誤ブロック高めを許容します。週 10,000 件以上を捌く高ボリュームの SMB チームは緩めに運用すべきです。誤ブロック低め、ボリューム計算が成り立つならハルシネーション主張をある程度許容します。

代替案との比較

vs QA なし。 2026 年時点で完全自律な AI SDR デプロイの現状は、ベンダー側の軽いガードレールを超える送信前ゲートが無いことです。自律送信のリプライ レートは 1-3%、ハイブリッド (AI + 人間) ポッドでは 8-15% です (2026 年中頃までのバイヤー報告デプロイからの推定であり、単一の公表ベンチマークではありません)。ハルシネーション主張と汎用パーソナライズのパターンは、このギャップの実質的な比率を占めます。QA ゲートを足すとレートは上がりますが、上げ幅には上限があります。ドラフトの改善はコールド リストをウォームに変えません。

vs AI SDR のビルトイン ガードレール。 11x と Artisan は内部品質チェックを同梱しており、明白な失敗をフラグします。ただし失敗面は不透明で、何がチェックされたか / 漏れたかを検査できず、しきい値を調整することもできません。この Skill はルーブリックを検査可能にします。トレードオフ: 独立したモデル呼び出しなので、独自のレイテンシ コストが乗ります。

vs 人間の SDR レビュアー。 人間のレビュアーは、Skill が取り逃すビジネス文脈の失敗 (「このプロスペクトは大規模障害が起きたばかりなので、明るい調子のメールは送らない」) を拾います。Skill は、人間のレビュアーがその日 200 件目で取り逃す一貫性の失敗を拾います。ディール バリューが高ければ両方を走らせ、ボリュームが高ければ Skill のみを走らせます。

vs 上流の AI SDR を縛る構造化プロンプト。 上流プロンプトを厳しくすれば、ソースでのハルシネーションは減ります。それでも残るレートは取り逃しますし、管轄ごとのコンプライアンス違反はフラグできません (管轄は受信者依存であり、ライティング プロンプトは受信者を知りません)。両方を使ってください。AI SDR には構造化された上流プロンプト、その上でこの Skill をゲートとして配置します。

注意点

  • AI が正当に引いた具体性に対する誤ブロック。 上流の AI SDR が、エビデンス パックに含まれない最近のプレス リリースを引いてきた場合、Skill はその主張を根拠なしとマークしてブロックします。ガード: Skill は提供されたエビデンス パックに対してのみ検証し、モデル知識に対しては検証しません。AI SDR がドラフト作成に使ったものはすべてパックに含める、というのが契約です。AI SDR がそれを果たせない場合、Skill は検証できません。修正は上流側です。AI SDR ベンダーに取得コンテキストを開示させることであって、ルーブリックを緩めることではありません。
  • パーソナライズ スコアのゲーミング。 具体性を報酬する Skill は、上流モデルに具体的に見えるトークンを詰め込むことを学習させます。「Snowflake でのデータ プラットフォームに関するあなたの仕事」は、プロスペクトが 18 か月前に Snowflake を離れていてもパーソナライズされたように読めます。ガード: ルーブリックは根拠ありと根拠なしの具体性を別々に採点します。エビデンス パック内の引用が裏付ける場合に限り、固有名がカウントされます。現職の引用を伴わない古い具体性は根拠なしとして読まれます。
  • 管轄をまたぐコンプライアンスのクリープ。 CAN-SPAM、RFC 8058、GDPR、フランスの Loi Hamon、カリフォルニアの CCPA 整合 opt-out、採用関連アウトリーチに対する NYC LL144 の認識 — 受信者ごとにルールが異なります。ガード: コンプライアンス ルーブリックは管轄ごとです。prospect_evidence パックは受信者の国 (関連する場合は米国の州) を含める必要があり、Skill は合致するプロファイルを適用するか insufficient_compliance_context を返します。汎用の「グローバル」プロファイルへ黙ってフォールバックすることは、ルーブリック上で禁止されています。
  • Skill がボトルネックになる。 月 50,000 送信、ドラフトあたり p95 3 秒では、QA ゲートは月あたりおよそ 42 時間の壁時計シリアル処理を追加します。並列なら問題なく、シングル スレッドなら不可です。ガード: バンドルは並列化パターン (ドラフトあたり 1 つの Claude 呼び出し、20-50 件をインフライト) と、4 つのルーブリック ファイルに対するキャッシュ キー規約を文書化しています。ドラフトあたり p95 3 秒未満を狙い、p95 が 5 秒を超えたらアラートを出してください。

参照バンドル

  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/SKILL.md — Skill の完全な定義、入力、メソッド、出力フォーマット、注意点。
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/1-claim-rubric.md — 何を主張とみなすか、エビデンス パック契約、軸ごとの pass / block しきい値。
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/2-personalization-rubric.md — 根拠あり vs 根拠なしの具体性、各スコアの例示出力を伴う 0-5 採点。
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/3-compliance-rubric.md — 管轄プロファイル (US CAN-SPAM、RFC 8058 ワンクリック解除、EU GDPR 正当な利益、NYC LL144 認識、フランス Loi Hamon、カリフォルニア CCPA 整合 opt-out)。
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/4-sample-output.md — リテラルな send / edit / block 出力と、パーサー向け構造化フィールド契約。

Files in this artifact

Download all (.zip)