claude-skill

Scorer les leads par rapport à un rubric ICP avec Claude

Difficulty

intermédiaire

Setup time

30min

For

revops

RevOps

Stack

Un Claude Skill qui prend n’importe quelle ligne de lead, l’évalue par rapport au rubric ICP de votre équipe et retourne un score de 0 à 10, une justification par critère citant le rubric, une prochaine action recommandée par tier, et un flag d’escalade pour les cas limites. Conçu pour s’intégrer dans une colonne AI Clay, une action de code personnalisée HubSpot, ou un run CLI autonome sur un CSV. Remplace la matrice de scoring en tableur que personne n’a mise à jour depuis l’année dernière — sans prétendre pouvoir faire du scoring d’intention ou comportemental, ce qu’il ne peut pas faire.

Le bundle est livré dans apps/web/public/artifacts/lead-scoring-icp-rubric-skill/ et contient SKILL.md ainsi que trois templates de référence que l’utilisateur adapte avant le premier run.

Quand l’utiliser

Utilisez ce skill quand vous avez des MQL inbound qui s’accumulent plus vite que votre équipe SDR ne peut les trier, et que le scoring existant est soit inexistant (“tout est un lead”), soit obsolète (“la matrice de scoring HubSpot calibrée pour la dernière fois en 2023, personne ne lui fait confiance”). Il est aussi utile en outbound : scorez une liste froide enrichie avant de l’assigner, et vous arrêtez de brûler du temps SDR sur des entreprises hors ICP qui semblent superficiellement correctes.

Ce skill est du fit scoring, pas de l’intent scoring. Il répond à la question “est-ce le bon type d’entreprise pour nous” — pas “sont-ils en train d’acheter cette semaine”. Cette distinction est importante : si vous scorez uniquement pour le fit, vous allez séquencer de super comptes qui n’ont pas de besoin actuel et ignorer de mauvais comptes qui achètent activement. Combinez ce skill avec les signaux qui indiquent un comportement in-market — Bombora, 6sense, vos propres événements d’usage produit, les visites de page de pricing — pour router correctement.

Concrètement, invoquez-le depuis :

Une colonne AI Clay qui se déclenche sur chaque nouvelle ligne dans une table de leads, écrivant le score et la justification dans deux colonnes.
Une action de code personnalisée HubSpot dans un workflow déclenché par Lifecycle stage = MQL, qui appelle le skill et écrit le score et la justification dans les propriétés du lead.
Un CLI autonome sur un export CSV — utile pour un scoring ponctuel de liste avant le lancement d’une campagne.

Quand NE PAS l’utiliser

Évitez ce skill quand :

Vous voulez rejeter automatiquement des leads sans humain dans la boucle. L’output est une recommandation. Le skill tague explicitement les cas limites avec escalate: needs_human_review, mais si vous le câblez pour supprimer les leads scorés C ou en dessous, vous allez silencieusement détruire du pipeline chaque fois que le rubric devient obsolète. Gardez toujours un chemin de revue SDR pour au moins le tier C.
Votre “rubric” repose sur des intuitions. Le skill refuse de scorer par rapport à un rubric sans poids explicites et valeurs de tier. Si votre équipe n’a pas eu la discussion sur ce qu’est réellement un secteur tier A, ayez-la d’abord. Le skill ne peut pas rendre le rubric défendable si la source ne l’est pas.
Vous avez besoin d’un scoring comportemental ou d’intention. Il s’agit uniquement de fit scoring. Essayer d’encoder un “engagement score” ou “dernière visite du site” dans le rubric vous oblige à le mettre à jour en permanence ; utilisez un outil d’intention dédié pour les signaux temporels et gardez ce skill pour les critères de fit statiques.
Vous opérez dans un domaine réglementé qui exige une explicabilité au-delà de la justification par critère. Les outputs par critère sont auditables mais ne sont pas équivalents à une model card défendable devant un régulateur. Si vous en avez besoin, investissez dans un vrai service de scoring, pas dans un Claude Skill.

Setup

Le setup prend environ 30 minutes une fois le rubric rédigé. Le rubric lui-même prend plus de temps — généralement une session de travail de 60 minutes avec le responsable SDR, un AE et quelqu’un de RevOps pour débattre des poids.

Installez le Skill. Déposez apps/web/public/artifacts/lead-scoring-icp-rubric-skill/SKILL.md et le dossier references/ dans votre répertoire .claude/skills/lead-scoring/ (ou uploadez-le comme un Skill dans claude.ai). Le frontmatter name et description sont ce qui déclenche le Skill sur les prompts pertinents.
Remplacez le template de rubric. Ouvrez references/1-icp-rubric-template.md et remplacez les lignes placeholder dans “Criteria” par vos critères réels, vos poids (1-5) et vos valeurs de tier (A / B / C). Remplissez la section “Hard disqualifiers” — ceux-ci s’exécutent en tant que checks déterministes avant tout appel LLM. Mettez à jour “Last edited” afin que le SHA-256 que le skill imprime dans chaque footer d’output reflète qui possède la version actuelle.
Remplacez la matrice tier-to-action. Ouvrez references/2-tier-to-action-matrix.md et remplacez les lignes d’exemple par ce que votre équipe fait réellement pour chaque combinaison (tier, source_of_lead). Les valeurs par défaut sont raisonnables mais ne sont pas les vôtres.
Câblez la source d’input. Dans Clay, pointez une colonne AI vers le Skill, passez la ligne de lead enrichi comme lead, le fichier de rubric comme rubric, et la colonne source comme source_of_lead. Dans HubSpot, enveloppez le Skill dans une action de code personnalisée qui lit les propriétés du contact et de l’entreprise dans un objet lead et reposte l’output structuré. Dans un script, parcourez le CSV, postez chaque ligne, écrivez le score et la justification dans deux nouvelles colonnes.
Configurez la destination. Le score et la justification vont tous les deux sur le lead. Le score dans une propriété numérique (pour la logique de routing), la justification dans une propriété texte long (pour le SDR qui la lira avant l’appel). Câblez le champ escalate vers une propriété booléenne ou enum séparée afin que le responsable SDR puisse filtrer pour la revue.
Calibrez. Avant de l’activer, lancez le skill sur 20 leads fermés-gagnés et 20 leads fermés-perdus des 6 derniers mois. La distribution des scores devrait clairement séparer les deux cohortes. Si ce n’est pas le cas, le rubric est le problème, pas le skill — retournez à l’étape 2 et redébattez les poids.

Ce que fait réellement le skill

Le skill exécute quatre étapes dans un ordre fixe. Les étapes antérieures conditionnent les suivantes ; ne les parallélisez pas.

Étape 1 — checks firmographiques déterministes. Avant tout appel LLM, du code pur exécute les hard disqualifiers du rubric (pays sanctionné, secteur disqualifié, effectif sous votre plancher, domaine email gratuit) et le check des champs requis (email et company_domain doivent être présents). Les hits retournent immédiatement — disqualified avec la citation, ou escalate: insufficient_data avec les champs manquants. Pourquoi déterministe d’abord : c’est gratuit, rapide, et n’hallucine jamais. Brûler des tokens pour confirmer qu’un salon de coiffure de 3 personnes n’est pas dans votre ICP enterprise-SaaS est du gaspillage.

Étape 2 — scoring LLM par critère avec pondération explicite. Pour chaque critère restant, le modèle émet un tier (A / B / C) et une justification d’une phrase citant la ligne du rubric. Le skill multiplie le tier (A=3, B=2, C=1) par le poids du critère et somme. Pourquoi par critère plutôt qu’un prompt holistique : les outputs holistiques mélangent silencieusement les critères et vous perdez la capacité de débugguer pourquoi un lead a eu un 8 plutôt qu’un 5. Pourquoi une pondération explicite plutôt que de laisser le modèle équilibrer : les poids déclarés sont le seul moyen que le rubric reste la source de vérité. Si le modèle décide de son propre équilibre, les revues de rubric deviennent du théâtre.

Étape 3 — fallback borderline vers la revue humaine. Si le score final est à moins de 0,5 d’une limite de tier, ou si plus de 3 critères ont été scorés sur des données manquantes ou inférées, le skill définit escalate: needs_human_review et nomme les champs manquants. L’échec de scoring le plus coûteux n’est pas un mauvais tier sur un lead confiant — c’est un mauvais tier sur un lead qui était toujours borderline.

Étape 4 — assemblage de l’output. Le skill émet le markdown décrit dans references/3-sample-output.md : score et tier en titre, prochaine action recommandée issue de la matrice tier-to-action, tableau par critère avec justifications, check des disqualifiers, liste des lacunes de données, et un footer avec le SHA-256 du rubric et la date de dernière édition.

Réalité des coûts

Le coût en tokens par lead dépend de la taille du rubric, mais pour un rubric typique à 6 critères avec un output structuré par critère, attendez-vous à environ 1 500-2 500 tokens d’input et 400-700 tokens d’output par lead. Au pricing Claude Sonnet 4.x (environ 3 $ par million de tokens d’input et 15 $ par million de tokens d’output fin 2026), soit environ 0,01-0,02 $ par lead scoré.

Une équipe traitant 5 000 MQL inbound par mois dépense environ 50-100 $/mois en tokens Claude. Une équipe traitant 50 000 leads outbound enrichis par mois dépense 500-1 000 $/mois — auquel cas le batching, le prompt caching du rubric, et le pré-filtrage avec l’étape déterministe comptent beaucoup. Le skill utilise par défaut un seul prompt structuré par lead (plutôt que 6-10 petits prompts) précisément pour garder l’usage des tokens borné.

Les coûts hors tokens sont plus importants. Construire le rubric est une session de travail de 60 minutes que vous faites une fois et refaites trimestriellement. La calibration sur 20 leads fermés-gagnés + 20 leads fermés-perdus prend une autre heure. Câbler l’intégration Clay ou HubSpot prend une demi-journée. Ensuite le skill est autonome jusqu’à ce que le rubric dérive.

Métrique de succès

La métrique à surveiller est la corrélation score-to-conversion : parmi les leads scorés A au cours des 90 derniers jours, quelle fraction s’est convertie en opportunités ? Parmi ceux scorés B ? C ? Si la courbe est monotone — A se convertit à un taux plus élevé que B, B à un taux plus élevé que C — le rubric fait son travail. Si C se convertit à un taux similaire à B, le rubric ne sépare pas le fit du non-fit et doit être redébattu.

Métrique secondaire : temps de premier contact SDR sur les leads tier A. Un système de scoring fonctionnel réduit ce délai à moins d’1 heure pour l’inbound. Si les leads tier A restent encore dans une file d’attente 24h, le routing — pas le scoring — est le goulet d’étranglement.

Comparaison avec les alternatives

vs HubSpot Predictive Lead Scoring. Le score prédictif intégré de HubSpot est une boîte noire entraînée sur vos données historiques de conversion. Il fonctionne une fois que vous avez suffisamment de volume de closed-won (HubSpot recommande environ 500 deals fermés comme minimum). Pour les équipes sous ce seuil, le modèle n’a rien à apprendre et le score est du bruit. Ce skill fonctionne dès le premier jour car le rubric est rédigé manuellement, pas appris. La contrepartie : le modèle de HubSpot capte des patterns qu’un auteur de rubric manquerait ; ce skill ne connaît que ce que vous avez écrit. Utilisez les deux si vous avez le volume — le score de HubSpot pour “ce qui me surprend” et la justification par critère de ce skill pour “pourquoi celui-ci est classé ici”.

vs Marketo behavioral scoring. Marketo (ou le behavioral scoring de HubSpot) suit les signaux d’engagement — ouvertures d’emails, vues de pages, soumissions de formulaires — et ajoute des points. C’est de l’intent scoring, pas du fit scoring, et les deux répondent à des questions différentes. Un compte à fort fit qui n’a pas ouvert un email reste un compte à fort fit. Un compte à faible fit qui a parcouru votre blog en entier reste un compte à faible fit. Utilisez le behavioral scoring en plus de ce skill, pas à la place ; routez sur le signal combiné (fit élevé + intent élevé → AE direct ; fit élevé + intent faible → nurture ; fit faible + intent élevé → appel de fit SDR avant AE).

vs revue manuelle SDR. Pour moins de 50 leads inbound par semaine, la revue manuelle par un responsable SDR est genuinement compétitive — les humains captent la nuance (“cette entreprise vient d’acquérir notre client, priorisez”) que le skill manquera. Au-dessus de ~200 leads par semaine, la revue manuelle devient le goulet d’étranglement et la cohérence baisse. Le skill scale linéairement avec le budget de tokens ; les humains non.

Points de vigilance

Dérive du rubric. Quelqu’un modifie le rubric markdown, shippe le changement, et les SDR qui lisent les nouveaux scores ne voient jamais de diff. Six semaines plus tard, l’équipe réalise que le poids de l’effectif a été accidentellement remonté de 4 à 2 et 200 comptes stretch-tier ont été silencieusement rétrogradés en C. Garde-fou : le skill enregistre le SHA-256 du rubric dans chaque footer d’output et préfixe une bannière “Rubric updated YYYY-MM-DD” chaque fois que le hash change entre les runs. Un rappel calendaire trimestriel force une revue même si aucune modification n’a lieu.
Amplification des biais de source. Un rubric construit à partir de vos closed-won encode qui vous avez déjà vendu. Scorer par rapport à lui vous rend aveugle à l’ICP adjacent et votre pipeline se rétrécit progressivement vers des lookalikes des clients de l’année dernière. Garde-fou : chaque trimestre, échantillonnez 20 leads que le skill a scorés tier C et demandez à un AE de revoir manuellement si certains sont réellement fit. Si plus de 3 sont mal classés, ajoutez une ligne “stretch ICP” au rubric et recalibrez.
Fausse confiance sur des données minces. Quand l’enrichissement manque 4 critères sur 6, un score de 7,4 est majoritairement du bruit mais se lit comme autoritaire. Les SDR le traiteront comme un tier A confiant et sauteront la préparation de l’appel. Garde-fou : le skill définit escalate: needs_human_review chaque fois que plus de 3 critères sont scorés sur des données manquantes ou inférées, et ajoute une section “Data gaps” listant les champs absents. Les SDR sont formés à lire la section des lacunes avant le score principal.
Proxies de classes protégées. Même avec de bonnes intentions, un rubric qui pondère la “géographie” peut s’effondrer en nationalité, et le “secteur” peut s’effondrer en proxies des données démographiques d’entreprise d’une manière que votre service juridique n’appréciera pas. Garde-fou : le skill refuse les champs qu’il reconnaît comme proxies de classes protégées (genre dérivé du nom, photo, signaux d’âge). Examinez le rubric annuellement avec quelqu’un capable de repérer les proxies moins évidents.

Stack

Claude — moteur de scoring et générateur de justifications. Sonnet 4.x est le sweet spot pour le rapport coût/qualité de raisonnement sur cette tâche ; Haiku fonctionne pour le chemin déterministe uniquement mais perd en qualité de justification sur l’étape LLM.
Clay — couche de source et d’enrichissement de leads préférée pour l’outbound et le scoring de liste froide. La colonne AI est un point d’intégration propre.
HubSpot — destination CRM pour le score, la justification, le flag d’escalade, et la source. Les actions de code personnalisées sont le point d’intégration pour le scoring de MQL inbound.
Un éditeur markdown et un calendrier — les pièces peu glamour. Le rubric vit en markdown, la revue trimestrielle vit dans le calendrier de quelqu’un, et les deux comptent plus que le choix du modèle.

Modifier cette page sur GitHub

Files in this artifact

Download all (.zip)

---
name: lead-scoring-icp-rubric
description: Score a single lead or a batch of leads against an explicit ICP rubric. Returns a 0-10 score per lead, a per-criterion rationale citing the rubric, a recommended next action by tier, and an escalation flag for borderline cases. Use when triaging inbound or routing enriched outbound leads — not as a substitute for behavioral or intent-based scoring.
---

# Lead scoring (ICP rubric)

## When to invoke

Invoke whenever you need to score a single lead — or a CSV/JSON batch of leads — against your team's ICP rubric. Typical entry points: a Clay table column, a HubSpot custom-code action firing on a new MQL, a standalone CLI run over a marketing-list export, or a manual paste during deal-desk triage.

The skill takes structured lead data plus the rubric and returns a 0-10 score, per-criterion rationale, a recommended next action by tier, and an escalation flag when the data is too thin to score confidently.

Do NOT invoke this skill for:

- **Auto-rejecting leads.** The output is a recommendation. Disqualifying a lead from outreach without an SDR seeing the rationale silently destroys pipeline when the rubric is wrong (and the rubric is sometimes wrong).
- **Scoring on protected-class proxies.** Do not pass fields like name-derived gender, photo, age, country-of-origin signals. Even if your rubric weights "geography" legitimately for support-hours fit, never collapse that into ethnicity or nationality. The skill refuses fields it recognizes as protected-class proxies.
- **Replacing intent-based or behavioral scoring entirely.** This is fit scoring, not intent. A great-fit account that has not visited your pricing page in 90 days is still a great fit but not a hot lead. Pair this skill with whatever signals "they are in-market right now" — Bombora, 6sense, your own product-usage events.

## Inputs

Required:

- `lead` — a structured lead record. Minimum fields: `email`, `company_domain`. Strongly preferred: `headcount`, `industry`, `country`, `job_title`, `tech_stack` (array), `funding_stage`. Pass whatever your enrichment layer (Clay, Apollo, ZoomInfo, Clearbit) returns.
- `rubric` — path to or inline contents of the ICP rubric markdown (see `references/1-icp-rubric-template.md`). Must contain explicit criterion + weight + tier-value rows. The skill refuses to score against a rubric that has no weights — vibes are not a rubric.

Optional:

- `source_of_lead` — free-text or enum: `inbound_demo`, `inbound_content`, `outbound_sequence`, `partner_referral`, `event`, `cold_list`. Used to bias the recommended-next-action mapping (a partner referral with a B-tier score still gets a human reach-out; a cold-list lead at the same tier does not).
- `batch_size_hint` — when scoring more than one lead, the caller can pass an integer so the skill paces token usage and returns progress markers. Default: process serially, no progress markers.

## Reference files

Always load these from `references/` before scoring. They are the leverage point — a tight rubric makes a defensible score, a vague rubric makes a vibes score that an AE will (correctly) ignore.

- `references/1-icp-rubric-template.md` — the rubric template. Replace placeholder rows with the actual criteria, weights, and tier values your team has agreed on.
- `references/2-tier-to-action-matrix.md` — maps the four tiers (A / B / C / disqualified) and the `source_of_lead` enum to a recommended next action. Edit this once with your team's routing reality, not the defaults.
- `references/3-sample-output.md` — a literal example of the markdown the skill produces, for one fictional lead. Use as the reference when wiring downstream parsers.

## Method

The skill runs these steps in order. Earlier steps gate later steps — do not parallelize.

### 1. Deterministic firmographic checks (no LLM)

Before any LLM call, run plain code over the lead record:

- Hard disqualifiers from the rubric (e.g. `country in ["{sanctioned-country}"]`, `industry in {disqualified-industries}`, `headcount < 10` if the rubric sets that floor) → return tier `disqualified` with the citation, no LLM call.
- Required-field check: if `email` and `company_domain` are missing, return `escalate: insufficient_data`.

Why: deterministic checks are free, fast, and never hallucinate. Burning tokens to confirm that a 3-person hairdresser is not in your enterprise-SaaS ICP is wasteful and slightly embarrassing.

### 2. Per-criterion LLM scoring with explicit rubric weighting

For each remaining criterion in the rubric, prompt the model to produce a tier value (A / B / C) and a one-sentence rationale that cites the rubric row. The skill multiplies the tier-value (A=3, B=2, C=1) by the criterion's weight and sums.

Why per-criterion rather than one holistic prompt: holistic scoring blends criteria silently and you lose the ability to debug why a lead got an 8 instead of a 5. Per-criterion outputs make the score auditable. The cost is roughly 6-10 short prompts per lead (or a single prompt that emits a structured per-criterion response — both work; the skill defaults to a single structured prompt with explicit per-criterion fields to keep tokens down).

Why explicit weighting rather than "let the model balance them": stated weights are the only way the rubric stays the source of truth. If the model invents its own balance, the rubric stops being authoritative and rubric reviews become theatre.

### 3. Borderline case fallback to human review

If the final score is within `+/- 0.5` of a tier boundary, OR if the rubric has more than 3 criteria where the data was missing/insufficient, set `escalate: needs_human_review` with a note naming the missing fields.

Why: the most expensive scoring failure is not a wrong tier on a confident lead — it is a wrong tier on a lead that was always borderline. Surfacing those for human review preserves trust in the confident scores.

### 4. Output assembly

Render the markdown described in "Output format" below. Score is the headline number. Rationale is the per-criterion table. Next action comes from the tier-to-action matrix, joined with `source_of_lead` if provided. Escalation flag is surfaced at the top when set.

## Output format

Literal markdown the skill emits for a single lead:

```markdown
# Lead score — jane.doe@acme.com (acme.com)

**Score:** 7.4 / 10 — Tier B
**Source:** inbound_content
**Escalate:** no

## Recommended next action

Tier B + inbound_content → SDR personalized email within 24h, no auto-sequence. Reference content piece they engaged with.

## Rationale (per criterion)

| Criterion | Weight | Tier | Reason |
|---|---|---|---|
| Industry | 5 | A | "Vertical SaaS / RevOps" matches in-ICP row in rubric. |
| Headcount | 4 | B | 240 employees — in stretch range (200-500), not core (500-2000). |
| Geo | 3 | A | HQ US-east, in supported region. |
| Tech stack | 4 | B | Salesforce + Marketo present (fit signals); no data warehouse cited. |
| Funding stage | 2 | C | Bootstrapped — out of preferred Series B-D band. |
| Job title | 4 | A | "Director, RevOps" matches champion-target pattern. |

## Disqualifier check

None triggered.

## Data gaps

- `revenue` field not provided by enrichment.
```

For batch input, the skill emits one such block per lead, separated by `\n---\n`, plus a top-level summary table (`email | tier | escalate`).

## Watch-outs

- **Rubric drift.** The rubric is a markdown file that someone edits. Edits are silent — no diff is shown to the SDRs reading scores. **Guard:** the skill records the rubric's SHA-256 in every output footer and prepends a "Rubric updated {date}, last verified by {name}" line if the hash differs from the previous run's. A weekly job (or a calendar reminder, if you are not that fancy) opens a PR-style review of the rubric every quarter.
- **Source-bias amplification.** If the rubric was built from your closed-won set, it encodes who you have already sold to. Repeatedly scoring against it narrows your pipeline to lookalikes and makes you blind to adjacent ICP. **Guard:** every quarter, sample 20 leads the skill scored as C-tier and have an AE review whether any are actually fit. If more than 3 are misclassified, the rubric is over-fit and needs a "stretch ICP" row added.
- **False confidence on thin data.** When enrichment is missing 4 of the 6 criteria fields, a 7.4 score is mostly noise. **Guard:** the skill sets `escalate: needs_human_review` whenever more than 3 criteria are scored on missing/inferred data, and adds a "Data gaps" section listing the absent fields. SDRs are trained to read the gaps section before the headline number.

# ICP rubric — TEMPLATE

> Replace this template's contents with your team's actual ICP rubric.
> The lead-scoring skill scores each criterion against this rubric. Vague
> rows (no weights, no tier values) cause the skill to refuse the run.

## How the skill reads this file

- Each row in "Criteria" must have an explicit `weight` (1-5) and three tier values (A / B / C). Anything else is treated as malformed and the skill returns an error rather than guessing.
- Rows in "Hard disqualifiers" run as deterministic checks before any LLM call. Keep them tight; one wrong row here silently kills good pipeline.
- The "Last edited" line is hashed into the SHA-256 the skill records in every output footer. Update it when you make material changes so SDRs reading scores can see the rubric moved.

## Criteria

| Criterion | Weight | A (best fit) | B (stretch) | C (poor fit) |
|---|---|---|---|---|
| Industry | 5 | {industries you win in} | {adjacent industries} | {everything else} |
| Headcount | 4 | {core range, e.g. 500-2000} | {stretch range, e.g. 200-500 or 2000-5000} | {below/above stretch} |
| Geo | 3 | {primary regions} | {secondary regions} | {regions you do not support} |
| Tech stack | 4 | {tools that signal fit, e.g. Salesforce + Marketo} | {one of the fit tools present} | {competing system of record} |
| Funding stage | 2 | {preferred stages, e.g. Series B-D} | {adjacent stages} | {unfit, e.g. pre-seed or post-IPO} |
| Job title | 4 | {champion-target patterns} | {adjacent titles} | {non-buying-committee titles} |

## Hard disqualifiers

Single signals that drop a lead to `disqualified` regardless of other criteria. Run as deterministic checks before LLM scoring.

- `country in [{sanctioned-or-unsupported-list}]`
- `industry in [{disqualified-industries — e.g. adult, gambling if you do not serve them}]`
- `headcount < {floor — e.g. 10}` (if you have a floor)
- `email_domain in [{free-mail providers if your motion blocks them}]`

## Tier thresholds

The skill maps the weighted sum to a tier. Defaults shown — adjust to your team's calibration run.

| Score | Tier |
|---|---|
| 8.0 - 10.0 | A |
| 6.0 - 7.99 | B |
| 4.0 - 5.99 | C |
| < 4.0 | disqualified |

## Last edited

{YYYY-MM-DD} — by {name}

# Tier-to-action matrix — TEMPLATE

> Replace this template's contents with your team's actual routing reality.
> The lead-scoring skill joins the score's tier with the lead's
> `source_of_lead` to pick a recommended next action. Edit once with your
> SDR/AE manager so the recommendations match what your reps actually do.

## How the skill reads this file

- Rows are `(tier, source_of_lead) → action`. The skill picks the row whose tier matches the score and whose source matches the input. If the source is missing or unrecognized, it falls back to the row marked `*` (any source).
- An action is one short imperative sentence. The skill emits this verbatim under "Recommended next action" — keep it copy-pasteable.

## Matrix

| Tier | Source | Action |
|---|---|---|
| A | inbound_demo | Round-robin to AE within 5 minutes; book meeting in same business day. |
| A | inbound_content | SDR call within 1 hour; reference content piece. Auto-sequence as backup if no answer in 24h. |
| A | outbound_sequence | Move to high-touch sequence; SDR adds 2 personalized steps. |
| A | partner_referral | AE handles directly. Loop in partner manager for warm intro. |
| A | event | SDR call within 24h referencing the event session/booth conversation. |
| A | cold_list | Treat as outbound: enrich further, hand to SDR for personalized first touch. |
| A | * | SDR personalized outreach within 24h. |
| B | inbound_demo | SDR qualification call within 4 hours before AE handoff. |
| B | inbound_content | SDR personalized email within 24h, no auto-sequence. Reference content piece. |
| B | outbound_sequence | Standard outbound sequence, no escalation. |
| B | partner_referral | SDR call within 48h; loop in partner if no response. |
| B | event | SDR email + follow-up call within 48h. |
| B | cold_list | Standard outbound sequence. |
| B | * | SDR email within 48h. |
| C | inbound_demo | SDR fit-call within 24h; many will self-disqualify on the call. |
| C | inbound_content | Add to nurture; no SDR touch unless engagement signals appear. |
| C | outbound_sequence | Pause sequence; do not waste SDR cycles. |
| C | partner_referral | SDR courtesy call within 1 week (relationship cost of ignoring). |
| C | event | Add to nurture only. |
| C | cold_list | Drop. |
| C | * | Nurture only. |
| disqualified | * | Mark `Disqualified — out of ICP` with rubric citation. Do not auto-delete; archive for audit. |

## Escalation overrides

When the skill emits `escalate: needs_human_review`, the action above is replaced with:

> Hold for SDR manager review. Lead is borderline (within 0.5 of tier boundary) or scored on thin data. See "Data gaps" section.

When the skill emits `escalate: insufficient_data`, the action is:

> Re-enrich lead and re-score. Required fields missing: {list}.

## Last edited

{YYYY-MM-DD} — by {SDR manager name}

# Sample output — for parser wiring

> A literal example of what the skill emits for one fictional lead. Use
> this when wiring the downstream parser (Clay AI column → property
> mapping, HubSpot custom-code action → property writeback, CSV
> post-processor). The schema below is what the skill commits to; the
> values are illustrative.

## Single-lead output

```markdown
# Lead score — jane.doe@northwind.com (northwind.com)

**Score:** 7.4 / 10 — Tier B
**Source:** inbound_content
**Escalate:** no

## Recommended next action

Tier B + inbound_content → SDR personalized email within 24h, no auto-sequence. Reference content piece they engaged with.

## Rationale (per criterion)

| Criterion | Weight | Tier | Reason |
|---|---|---|---|
| Industry | 5 | A | "Vertical SaaS / RevOps" matches in-ICP row in rubric. |
| Headcount | 4 | B | 240 employees — in stretch range (200-500), not core (500-2000). |
| Geo | 3 | A | HQ US-east, in supported region. |
| Tech stack | 4 | B | Salesforce + Marketo present (fit signals); no data warehouse cited. |
| Funding stage | 2 | C | Bootstrapped — out of preferred Series B-D band. |
| Job title | 4 | A | "Director, RevOps" matches champion-target pattern. |

## Disqualifier check

None triggered.

## Data gaps

- `revenue` field not provided by enrichment.

---

_Rubric SHA-256: 4f9c...a812 | Last edited 2025-12-15 by Sam Patel_
```

## Batch output

For a batch of N leads, the skill prepends a summary table and emits one block per lead separated by `\n---\n`:

```markdown
# Batch summary (12 leads)

| Email | Tier | Score | Escalate |
|---|---|---|---|
| jane.doe@northwind.com | B | 7.4 | no |
| ahmed@tailspintoys.io | A | 8.9 | no |
| j.smith@gmail.com | disqualified | 0 | hard_disqualifier:free_email |
| ... | ... | ... | ... |

---

# Lead score — jane.doe@northwind.com (northwind.com)
...
---
# Lead score — ahmed@tailspintoys.io (tailspintoys.io)
...
```

## Field contract for parsers

If you write a parser instead of consuming the markdown, these are the stable fields:

- `email` — string, lowercased
- `domain` — string, lowercased
- `score` — float, 0.0 to 10.0, one decimal
- `tier` — enum: `A` / `B` / `C` / `disqualified`
- `source` — pass-through of the input `source_of_lead`, or `unknown`
- `escalate` — enum: `no` / `needs_human_review` / `insufficient_data` / `hard_disqualifier:{reason}`
- `next_action` — string, single sentence
- `rationale[]` — list of `{criterion, weight, tier, reason}`
- `data_gaps[]` — list of strings (field names)
- `rubric_sha256` — string, 8-character prefix in the markdown footer; full hash available via the skill's structured-output mode