claude-skill

Leads gegen eine ICP-Rubrik bewerten mit Claude

Difficulty

Fortgeschritten

Setup time

30min

For

revops

RevOps

Stack

Ein Claude Skill, der eine beliebige Lead-Zeile gegen die ICP-Rubrik Ihres Teams ausführt und einen Score von 0–10, eine Begründung pro Kriterium mit Rubrik-Zitat, eine empfohlene nächste Aktion nach Tier und ein Eskalationsflag für Grenzfälle zurückgibt. Konzipiert zum Einbinden in eine Clay-KI-Spalte, eine HubSpot-Custom-Code-Aktion oder einen eigenständigen CLI-Lauf über ein CSV. Ersetzt die Tabellenkalkulations-Scoring-Matrix, die seit letztem Jahr niemand mehr aktualisiert hat — ohne vorzugeben, es könne auch Intent- oder Verhaltensscoring leisten, was es nicht kann.

Das Bundle wird unter apps/web/public/artifacts/lead-scoring-icp-rubric-skill/ bereitgestellt und enthält SKILL.md sowie drei Referenzvorlagen, die der Nutzer vor dem ersten Lauf anpasst.

Wann verwenden

Verwenden Sie diesen Skill, wenn eingehende MQLs schneller einlaufen, als Ihr SDR-Team sie triage kann, und das bestehende Scoring entweder nicht vorhanden ist („alles ist ein Lead”) oder veraltet ist („HubSpot-Scoring-Matrix zuletzt 2023 kalibriert, niemand vertraut ihr”). Er ist auch für Outbound nützlich: Bewerten Sie eine angereicherte Cold-Liste vor der Zuweisung, und Sie hören auf, SDR-Zeit für Unternehmen zu verbrennen, die außerhalb des ICP liegen, aber oberflächlich gut aussehen.

Der Skill ist Fit-Scoring, kein Intent-Scoring. Er beantwortet „Ist das die richtige Art von Unternehmen für uns?” — nicht „Sind sie diese Woche im Markt aktiv?” Diese Unterscheidung ist wichtig: Wenn Sie ausschließlich nach Fit scoren, werden Sie hervorragend passende Accounts sequenzieren, die keinen aktuellen Bedarf haben, und schlecht passende Accounts ignorieren, die aktiv kaufen. Kombinieren Sie diesen Skill mit allem, was In-Market-Verhalten signalisiert — Bombora, 6sense, Ihre eigenen Produktnutzungsdaten, Pricing-Page-Treffer — um korrekt zu routen.

Konkret aufrufen aus:

Einer Clay-KI-Spalte, die bei jeder neuen Zeile in einer Lead-Tabelle ausgelöst wird und Score und Begründung in zwei Spalten zurückschreibt.
Einer HubSpot-Custom-Code-Aktion in einem Workflow, der durch Lifecycle stage = MQL ausgelöst wird, den Skill aufruft und sowohl Score als auch Begründung in Lead-Properties schreibt.
Einem eigenständigen CLI über ein CSV-Export — nützlich für einmalige Listenscoring vor einem Kampagnenstart.

Wann NICHT verwenden

Verzichten Sie auf diesen Skill, wenn:

Sie Leads ohne menschliche Überprüfung automatisch ablehnen möchten. Die Ausgabe ist eine Empfehlung. Der Skill kennzeichnet Grenzfälle explizit mit escalate: needs_human_review, aber wenn Sie ihn so einbinden, dass er Leads mit Score C oder darunter löscht, werden Sie still Pipeline vernichten, sobald die Rubrik veraltet. Behalten Sie immer einen SDR-Überprüfungspfad für mindestens das C-Tier.
Ihre „Rubrik” auf Intuition basiert. Der Skill weigert sich, gegen eine Rubrik zu bewerten, die keine expliziten Gewichtungen und Tier-Werte hat. Wenn Ihr Team noch keine Einigung darüber erzielt hat, was eine A-Tier-Branche tatsächlich ist, führen Sie dieses Gespräch zuerst. Der Skill kann die Rubrik nicht belastbar machen, wenn die Grundlage es nicht ist.
Sie Verhaltens- oder Intent-Scoring benötigen. Dies ist ausschließlich Fit-Scoring. Der Versuch, „Engagement Score” oder „letzter Website-Besuch” in die Rubrik zu codieren, zwingt Sie zur ständigen Aktualisierung; verwenden Sie ein dediziertes Intent-Tool für die zeitveränderlichen Signale und behalten Sie diesen Skill für die statischen Fit-Signale.
Sie in einem regulierten Bereich tätig sind, der Erklärbarkeit jenseits von Kriterium-Begründungen erfordert. Pro-Kriterium-Ausgaben sind prüfbar, aber nicht dasselbe wie eine regulatorisch belastbare Modellkarte. Wenn Sie das benötigen, investieren Sie in einen richtigen Scoring-Service, nicht in einen Claude Skill.

Setup

Das Setup dauert etwa 30 Minuten, sobald die Rubrik erstellt ist. Die Rubrik selbst dauert länger — typischerweise eine 60-minütige Arbeitssitzung mit dem SDR-Manager, einem AE und jemandem aus RevOps, um über Gewichtungen zu diskutieren.

Installieren Sie den Skill. Kopieren Sie apps/web/public/artifacts/lead-scoring-icp-rubric-skill/SKILL.md und den references/-Ordner in Ihr .claude/skills/lead-scoring/-Verzeichnis (oder laden Sie es als Skill in claude.ai hoch). Der Frontmatter name und description sind das, was den Skill bei relevanten Prompts auslöst.
Ersetzen Sie die Rubrik-Vorlage. Öffnen Sie references/1-icp-rubric-template.md und ersetzen Sie die Platzhalterzeilen in „Criteria” durch Ihre tatsächlichen Kriterien, Gewichtungen (1–5) und Tier-Werte (A / B / C). Füllen Sie den Abschnitt „Hard disqualifiers” aus — diese laufen als deterministische Prüfungen vor jedem LLM-Aufruf. Aktualisieren Sie „Last edited”, damit der SHA-256, den der Skill in jeder Ausgabe-Fußzeile druckt, widerspiegelt, wem die aktuelle Version gehört.
Ersetzen Sie die Tier-to-Action-Matrix. Öffnen Sie references/2-tier-to-action-matrix.md und ersetzen Sie die Beispielzeilen durch das, was Ihr Team tatsächlich bei jeder (tier, source_of_lead)-Kombination tut. Die Standardwerte sind vernünftig, aber nicht Ihre.
Binden Sie die Eingabequelle ein. In Clay verweisen Sie eine KI-Spalte auf den Skill, übergeben die angereicherte Lead-Zeile als lead, die Rubrikdatei als rubric und die Quellspalte als source_of_lead. In HubSpot kapseln Sie den Skill in einer Custom-Code-Aktion, die die Kontakt- und Unternehmenseigenschaften in ein lead-Objekt liest und die strukturierte Ausgabe zurückschreibt. In einem Skript globben Sie das CSV, posten jede Zeile, schreiben Score und Begründung in zwei neue Spalten.
Konfigurieren Sie das Ziel. Sowohl Score als auch Begründung gehen zum Lead. Score in einer Zahleneigenschaft (für Routing-Logik), Begründung in einer Langtext-Eigenschaft (für den SDR, der sie vor dem Anruf liest). Verdrahten Sie das escalate-Feld mit einer separaten Boolean- oder Enum-Eigenschaft, damit der SDR-Manager nach Überprüfungsbedarf filtern kann.
Kalibrieren Sie. Führen Sie den Skill vor der Aktivierung über 20 kürzlich gewonnene und 20 kürzlich verlorene Leads aus den letzten 6 Monaten aus. Die Score-Verteilung sollte die beiden Kohorten klar trennen. Wenn nicht, ist die Rubrik das Problem, nicht der Skill — gehen Sie zu Schritt 2 zurück und diskutieren Sie die Gewichtungen erneut.

Was der Skill tatsächlich tut

Der Skill führt vier Schritte in fester Reihenfolge aus. Frühere Schritte bedingen spätere; parallelisieren Sie nicht.

Schritt 1 — deterministische firmografische Prüfungen. Vor jedem LLM-Aufruf führt einfacher Code die Hard-Disqualifier der Rubrik aus (Sanktionsland, disqualifizierte Branche, Mitarbeiterzahl unter Ihrem Minimum, Free-Mail-Domain) sowie die Pflichtfeld-Prüfung (email und company_domain müssen vorhanden sein). Treffer werden sofort zurückgegeben — disqualified mit Zitat oder escalate: insufficient_data mit den fehlenden Feldern. Warum zuerst deterministisch: Es ist kostenlos, schnell und halluziniert nie. Token zu verbrennen, um zu bestätigen, dass ein 3-Personen-Frisörbetrieb nicht in Ihrem Enterprise-SaaS-ICP liegt, ist Verschwendung.

Schritt 2 — LLM-Scoring pro Kriterium mit expliziter Gewichtung. Für jedes verbleibende Kriterium gibt das Modell einen Tier (A / B / C) und eine einzeilige Begründung mit Zitat der Rubrik-Zeile aus. Der Skill multipliziert Tier (A=3, B=2, C=1) mit der Gewichtung des Kriteriums und summiert. Warum pro Kriterium statt holistische Prompting: Holistische Ausgaben vermischen Kriterien still und Sie verlieren die Möglichkeit zu debuggen, warum ein Lead eine 8 statt einer 5 bekam. Warum explizite Gewichtung statt das Modell selbst balancieren lassen: Deklarierte Gewichtungen sind der einzige Weg, dass die Rubrik die Wahrheitsquelle bleibt. Wenn das Modell seine eigene Balance entscheidet, werden Rubrik-Reviews zur Farce.

Schritt 3 — Grenzfall-Fallback zur menschlichen Prüfung. Wenn der finale Score innerhalb von 0,5 einer Tier-Grenze liegt oder mehr als 3 Kriterien auf fehlenden oder abgeleiteten Daten bewertet wurden, setzt der Skill escalate: needs_human_review und nennt die fehlenden Felder. Der teuerste Scoring-Fehler ist nicht ein falscher Tier bei einem zuversichtlichen Lead — sondern ein falscher Tier bei einem Lead, der immer Grenzfall war.

Schritt 4 — Ausgabe-Assemblierung. Der Skill gibt das Markdown aus, das in references/3-sample-output.md beschrieben ist: Überschriften-Score und Tier, empfohlene nächste Aktion aus der Tier-to-Action-Matrix, Pro-Kriterium-Tabelle mit Begründungen, Disqualifier-Prüfung, Datenlücken-Liste und eine Fußzeile mit dem SHA-256 der Rubrik und dem zuletzt bearbeiteten Datum.

Kostenrealität

Die Token-Kosten pro Lead hängen von der Rubrik-Größe ab, aber für eine typische 6-Kriterien-Rubrik mit strukturierter Pro-Kriterium-Ausgabe sollten Sie mit etwa 1.500–2.500 Input-Token und 400–700 Output-Token pro Lead rechnen. Zu Claude Sonnet 4.x-Preisen (ca. $3 pro Million Input und $15 pro Million Output ab Ende 2026) sind das ca. $0,01–0,02 pro gescorertem Lead.

Ein Team mit 5.000 eingehenden MQLs pro Monat gibt rund $50–100/Monat an Claude-Token aus. Ein Team mit 50.000 angereicherten Outbound-Leads pro Monat gibt $500–1.000/Monat aus — wobei Batching, Prompt-Caching der Rubrik und Vorfilterung mit dem deterministischen Schritt erheblich ins Gewicht fallen. Der Skill verwendet standardmäßig einen einzigen strukturierten Prompt pro Lead (statt 6–10 kleiner Prompts), um die Token-Nutzung begrenzt zu halten.

Die Nicht-Token-Kosten sind größer. Die Rubrik zu erstellen ist eine 60-minütige Arbeitssitzung, die Sie einmalig durchführen und vierteljährlich wiederholen. Die Kalibrierung gegen 20 gewonnene + 20 verlorene Leads dauert weitere Stunden. Das Clay- oder HubSpot-Integration einzubinden ist ein halber Tag. Danach ist der Skill hands-off, bis die Rubrik driftet.

Erfolgsmetrik

Die zu beobachtende Metrik ist die Score-to-Conversion-Korrelation: Von den in den letzten 90 Tagen mit A bewerteten Leads, welcher Anteil wurde zu Opportunities? Von denen mit B? C? Wenn die Kurve monoton ist — A konvertiert höher als B, B höher als C — arbeitet die Rubrik. Wenn C ähnlich wie B konvertiert, trennt die Rubrik Fit nicht von Nicht-Fit und muss neu diskutiert werden.

Sekundärmetrik: SDR-Zeit-bis-Erstkontakt bei A-Tier-Leads. Ein funktionierendes Scoring-System kollabiert dies bei eingehenden Leads auf unter 1 Stunde. Wenn A-Tier-Leads noch 24 Stunden in einer Queue sitzen, ist das Routing — nicht das Scoring — der Engpass.

Vergleich mit Alternativen

vs HubSpot Predictive Lead Scoring. HubSpots eingebautes prädiktives Scoring ist eine Black Box, die auf Ihren historischen Konversionsdaten trainiert wurde. Es funktioniert, sobald Sie genug Closed-Won-Volumen haben (HubSpot empfiehlt etwa 500 abgeschlossene Deals als Minimum). Für Teams unter dieser Grenze hat das Modell nichts zu lernen und der Score ist Rauschen. Dieser Skill funktioniert vom ersten Tag an, weil die Rubrik handverfasst ist, nicht gelernt. Der Trade-off: HubSpots Modell erkennt Muster, die ein Rubrik-Autor übersehen würde; dieser Skill kennt nur, was Sie aufgeschrieben haben. Lassen Sie beide laufen, wenn Sie das Volumen haben — verwenden Sie HubSpots Score für „was überrascht mich” und die Pro-Kriterium-Begründung dieses Skills für „warum steht dieser hier”.

vs Marketo Behavioral Scoring. Marketo (oder HubSpots Verhaltensscoring) verfolgt Engagement-Signale — E-Mail-Öffnungen, Seitenaufrufe, Formular-Einreichungen — und addiert Punkte. Das ist Intent-Scoring, kein Fit-Scoring, und die beiden beantworten verschiedene Fragen. Ein hervorragend passender Account, der keine E-Mail geöffnet hat, ist immer noch hervorragend passend. Ein schlecht passender Account, der Ihren Blog intensiv gelesen hat, ist immer noch schlecht passend. Verwenden Sie Verhaltensscoring zusätzlich zu diesem Skill, nicht stattdessen; routen Sie auf das kombinierte Signal (hoher Fit + hohe Intent → AE direkt; hoher Fit + geringe Intent → Nurture; geringer Fit + hohe Intent → SDR-Fit-Call vor AE).

vs manuelle SDR-Prüfung. Bei unter 50 eingehenden Leads pro Woche ist die manuelle Prüfung durch einen SDR-Manager tatsächlich konkurrenzfähig — Menschen erkennen Nuancen, die der Skill übersieht. Über ~200 Leads pro Woche wird die manuelle Prüfung zum Engpass und die Konsistenz sinkt. Der Skill skaliert linear mit dem Token-Budget; Menschen nicht.

Fallstricke

Rubrik-Drift. Jemand bearbeitet die Markdown-Rubrik, übernimmt die Änderung, und SDRs, die die neuen Scores lesen, sehen nie einen Diff. Sechs Wochen später stellt das Team fest, dass die Mitarbeitergewichtung versehentlich von 4 auf 2 geändert wurde und 200 Stretch-Tier-Accounts still auf C herabgestuft wurden. Schutz: Der Skill erfasst den SHA-256 der Rubrik in jeder Ausgabe-Fußzeile und stellt eine „Rubric updated YYYY-MM-DD”-Banner voran, wann immer sich der Hash zwischen Läufen ändert. Eine vierteljährliche Kalender-Erinnerung erzwingt eine Überprüfung, auch wenn keine Bearbeitungen stattgefunden haben.
Quellen-Bias-Verstärkung. Eine Rubrik, die aus Ihrer Closed-Won-Menge aufgebaut wurde, kodiert, an wen Sie bereits verkauft haben. Das Scoring dagegen macht Sie blind für benachbarten ICP und Ihre Pipeline verengt sich im Laufe der Zeit auf Lookalikes der Kunden vom letzten Jahr. Schutz: Samplen Sie jeden Quartal 20 Leads, die der Skill als C-Tier eingestuft hat, und lassen Sie einen AE manuell prüfen, ob diese tatsächlich passend sind. Wenn mehr als 3 falsch klassifiziert sind, fügen Sie der Rubrik eine „Stretch ICP”-Zeile hinzu und rekalibrieren Sie.
Falsche Zuversicht bei dünnen Daten. Wenn bei 4 von 6 Kriteriensfeldern Anreicherungsdaten fehlen, ist ein Score von 7,4 meist Rauschen, liest sich aber als autoritativ. SDRs behandeln ihn als zuversichtiges A-Tier und überspringen die Call-Vorbereitung. Schutz: Der Skill setzt escalate: needs_human_review, wenn mehr als 3 Kriterien auf fehlenden oder abgeleiteten Daten bewertet wurden, und fügt einen Abschnitt „Data gaps” mit den fehlenden Feldern hinzu. SDRs werden trainiert, den Lückenabschnitt vor der Überschriftszahl zu lesen.
Proxies für geschützte Merkmale. Auch mit guten Absichten kann eine Rubrik, die „Geographie” gewichtet, in Nationalität kollabieren, und „Branche” kann in Proxies für Unternehmensdemografien kollabieren, die Ihre Rechtsabteilung nicht erfreuen wird. Schutz: Der Skill lehnt Felder ab, die er als Proxies für geschützte Merkmale erkennt (namensbasiertes Geschlecht, Foto, Alterssignale). Prüfen Sie die Rubrik jährlich mit jemandem, der auch die weniger offensichtlichen Proxies erkennt.

Stack

Claude — Scoring-Engine und Begründungsgenerator. Sonnet 4.x ist der Sweet Spot für Kosten vs. Reasoning-Qualität bei dieser Aufgabe; Haiku funktioniert für den nur-deterministischen Pfad, verliert aber Begründungsqualität beim LLM-Schritt.
Clay — bevorzugte Lead-Quelle und Anreicherungsschicht für Outbound- und Cold-List-Scoring. Die KI-Spalte ist ein sauberer Integrationspunkt.
HubSpot — CRM-Ziel für Score, Begründung, Eskalations-Flag und Quelle. Custom-Code-Aktionen sind der Integrationspunkt für eingehendes MQL-Scoring.
Ein Markdown-Editor und ein Kalender — die unspektakulären Teile. Die Rubrik lebt in Markdown, die vierteljährliche Überprüfung lebt im Kalender von jemandem, und beides ist wichtiger als die Modellwahl.

Diese Seite auf GitHub bearbeiten

Files in this artifact

Download all (.zip)

---
name: lead-scoring-icp-rubric
description: Score a single lead or a batch of leads against an explicit ICP rubric. Returns a 0-10 score per lead, a per-criterion rationale citing the rubric, a recommended next action by tier, and an escalation flag for borderline cases. Use when triaging inbound or routing enriched outbound leads — not as a substitute for behavioral or intent-based scoring.
---

# Lead scoring (ICP rubric)

## When to invoke

Invoke whenever you need to score a single lead — or a CSV/JSON batch of leads — against your team's ICP rubric. Typical entry points: a Clay table column, a HubSpot custom-code action firing on a new MQL, a standalone CLI run over a marketing-list export, or a manual paste during deal-desk triage.

The skill takes structured lead data plus the rubric and returns a 0-10 score, per-criterion rationale, a recommended next action by tier, and an escalation flag when the data is too thin to score confidently.

Do NOT invoke this skill for:

- **Auto-rejecting leads.** The output is a recommendation. Disqualifying a lead from outreach without an SDR seeing the rationale silently destroys pipeline when the rubric is wrong (and the rubric is sometimes wrong).
- **Scoring on protected-class proxies.** Do not pass fields like name-derived gender, photo, age, country-of-origin signals. Even if your rubric weights "geography" legitimately for support-hours fit, never collapse that into ethnicity or nationality. The skill refuses fields it recognizes as protected-class proxies.
- **Replacing intent-based or behavioral scoring entirely.** This is fit scoring, not intent. A great-fit account that has not visited your pricing page in 90 days is still a great fit but not a hot lead. Pair this skill with whatever signals "they are in-market right now" — Bombora, 6sense, your own product-usage events.

## Inputs

Required:

- `lead` — a structured lead record. Minimum fields: `email`, `company_domain`. Strongly preferred: `headcount`, `industry`, `country`, `job_title`, `tech_stack` (array), `funding_stage`. Pass whatever your enrichment layer (Clay, Apollo, ZoomInfo, Clearbit) returns.
- `rubric` — path to or inline contents of the ICP rubric markdown (see `references/1-icp-rubric-template.md`). Must contain explicit criterion + weight + tier-value rows. The skill refuses to score against a rubric that has no weights — vibes are not a rubric.

Optional:

- `source_of_lead` — free-text or enum: `inbound_demo`, `inbound_content`, `outbound_sequence`, `partner_referral`, `event`, `cold_list`. Used to bias the recommended-next-action mapping (a partner referral with a B-tier score still gets a human reach-out; a cold-list lead at the same tier does not).
- `batch_size_hint` — when scoring more than one lead, the caller can pass an integer so the skill paces token usage and returns progress markers. Default: process serially, no progress markers.

## Reference files

Always load these from `references/` before scoring. They are the leverage point — a tight rubric makes a defensible score, a vague rubric makes a vibes score that an AE will (correctly) ignore.

- `references/1-icp-rubric-template.md` — the rubric template. Replace placeholder rows with the actual criteria, weights, and tier values your team has agreed on.
- `references/2-tier-to-action-matrix.md` — maps the four tiers (A / B / C / disqualified) and the `source_of_lead` enum to a recommended next action. Edit this once with your team's routing reality, not the defaults.
- `references/3-sample-output.md` — a literal example of the markdown the skill produces, for one fictional lead. Use as the reference when wiring downstream parsers.

## Method

The skill runs these steps in order. Earlier steps gate later steps — do not parallelize.

### 1. Deterministic firmographic checks (no LLM)

Before any LLM call, run plain code over the lead record:

- Hard disqualifiers from the rubric (e.g. `country in ["{sanctioned-country}"]`, `industry in {disqualified-industries}`, `headcount < 10` if the rubric sets that floor) → return tier `disqualified` with the citation, no LLM call.
- Required-field check: if `email` and `company_domain` are missing, return `escalate: insufficient_data`.

Why: deterministic checks are free, fast, and never hallucinate. Burning tokens to confirm that a 3-person hairdresser is not in your enterprise-SaaS ICP is wasteful and slightly embarrassing.

### 2. Per-criterion LLM scoring with explicit rubric weighting

For each remaining criterion in the rubric, prompt the model to produce a tier value (A / B / C) and a one-sentence rationale that cites the rubric row. The skill multiplies the tier-value (A=3, B=2, C=1) by the criterion's weight and sums.

Why per-criterion rather than one holistic prompt: holistic scoring blends criteria silently and you lose the ability to debug why a lead got an 8 instead of a 5. Per-criterion outputs make the score auditable. The cost is roughly 6-10 short prompts per lead (or a single prompt that emits a structured per-criterion response — both work; the skill defaults to a single structured prompt with explicit per-criterion fields to keep tokens down).

Why explicit weighting rather than "let the model balance them": stated weights are the only way the rubric stays the source of truth. If the model invents its own balance, the rubric stops being authoritative and rubric reviews become theatre.

### 3. Borderline case fallback to human review

If the final score is within `+/- 0.5` of a tier boundary, OR if the rubric has more than 3 criteria where the data was missing/insufficient, set `escalate: needs_human_review` with a note naming the missing fields.

Why: the most expensive scoring failure is not a wrong tier on a confident lead — it is a wrong tier on a lead that was always borderline. Surfacing those for human review preserves trust in the confident scores.

### 4. Output assembly

Render the markdown described in "Output format" below. Score is the headline number. Rationale is the per-criterion table. Next action comes from the tier-to-action matrix, joined with `source_of_lead` if provided. Escalation flag is surfaced at the top when set.

## Output format

Literal markdown the skill emits for a single lead:

```markdown
# Lead score — jane.doe@acme.com (acme.com)

**Score:** 7.4 / 10 — Tier B
**Source:** inbound_content
**Escalate:** no

## Recommended next action

Tier B + inbound_content → SDR personalized email within 24h, no auto-sequence. Reference content piece they engaged with.

## Rationale (per criterion)

| Criterion | Weight | Tier | Reason |
|---|---|---|---|
| Industry | 5 | A | "Vertical SaaS / RevOps" matches in-ICP row in rubric. |
| Headcount | 4 | B | 240 employees — in stretch range (200-500), not core (500-2000). |
| Geo | 3 | A | HQ US-east, in supported region. |
| Tech stack | 4 | B | Salesforce + Marketo present (fit signals); no data warehouse cited. |
| Funding stage | 2 | C | Bootstrapped — out of preferred Series B-D band. |
| Job title | 4 | A | "Director, RevOps" matches champion-target pattern. |

## Disqualifier check

None triggered.

## Data gaps

- `revenue` field not provided by enrichment.
```

For batch input, the skill emits one such block per lead, separated by `\n---\n`, plus a top-level summary table (`email | tier | escalate`).

## Watch-outs

- **Rubric drift.** The rubric is a markdown file that someone edits. Edits are silent — no diff is shown to the SDRs reading scores. **Guard:** the skill records the rubric's SHA-256 in every output footer and prepends a "Rubric updated {date}, last verified by {name}" line if the hash differs from the previous run's. A weekly job (or a calendar reminder, if you are not that fancy) opens a PR-style review of the rubric every quarter.
- **Source-bias amplification.** If the rubric was built from your closed-won set, it encodes who you have already sold to. Repeatedly scoring against it narrows your pipeline to lookalikes and makes you blind to adjacent ICP. **Guard:** every quarter, sample 20 leads the skill scored as C-tier and have an AE review whether any are actually fit. If more than 3 are misclassified, the rubric is over-fit and needs a "stretch ICP" row added.
- **False confidence on thin data.** When enrichment is missing 4 of the 6 criteria fields, a 7.4 score is mostly noise. **Guard:** the skill sets `escalate: needs_human_review` whenever more than 3 criteria are scored on missing/inferred data, and adds a "Data gaps" section listing the absent fields. SDRs are trained to read the gaps section before the headline number.

# ICP rubric — TEMPLATE

> Replace this template's contents with your team's actual ICP rubric.
> The lead-scoring skill scores each criterion against this rubric. Vague
> rows (no weights, no tier values) cause the skill to refuse the run.

## How the skill reads this file

- Each row in "Criteria" must have an explicit `weight` (1-5) and three tier values (A / B / C). Anything else is treated as malformed and the skill returns an error rather than guessing.
- Rows in "Hard disqualifiers" run as deterministic checks before any LLM call. Keep them tight; one wrong row here silently kills good pipeline.
- The "Last edited" line is hashed into the SHA-256 the skill records in every output footer. Update it when you make material changes so SDRs reading scores can see the rubric moved.

## Criteria

| Criterion | Weight | A (best fit) | B (stretch) | C (poor fit) |
|---|---|---|---|---|
| Industry | 5 | {industries you win in} | {adjacent industries} | {everything else} |
| Headcount | 4 | {core range, e.g. 500-2000} | {stretch range, e.g. 200-500 or 2000-5000} | {below/above stretch} |
| Geo | 3 | {primary regions} | {secondary regions} | {regions you do not support} |
| Tech stack | 4 | {tools that signal fit, e.g. Salesforce + Marketo} | {one of the fit tools present} | {competing system of record} |
| Funding stage | 2 | {preferred stages, e.g. Series B-D} | {adjacent stages} | {unfit, e.g. pre-seed or post-IPO} |
| Job title | 4 | {champion-target patterns} | {adjacent titles} | {non-buying-committee titles} |

## Hard disqualifiers

Single signals that drop a lead to `disqualified` regardless of other criteria. Run as deterministic checks before LLM scoring.

- `country in [{sanctioned-or-unsupported-list}]`
- `industry in [{disqualified-industries — e.g. adult, gambling if you do not serve them}]`
- `headcount < {floor — e.g. 10}` (if you have a floor)
- `email_domain in [{free-mail providers if your motion blocks them}]`

## Tier thresholds

The skill maps the weighted sum to a tier. Defaults shown — adjust to your team's calibration run.

| Score | Tier |
|---|---|
| 8.0 - 10.0 | A |
| 6.0 - 7.99 | B |
| 4.0 - 5.99 | C |
| < 4.0 | disqualified |

## Last edited

{YYYY-MM-DD} — by {name}

# Tier-to-action matrix — TEMPLATE

> Replace this template's contents with your team's actual routing reality.
> The lead-scoring skill joins the score's tier with the lead's
> `source_of_lead` to pick a recommended next action. Edit once with your
> SDR/AE manager so the recommendations match what your reps actually do.

## How the skill reads this file

- Rows are `(tier, source_of_lead) → action`. The skill picks the row whose tier matches the score and whose source matches the input. If the source is missing or unrecognized, it falls back to the row marked `*` (any source).
- An action is one short imperative sentence. The skill emits this verbatim under "Recommended next action" — keep it copy-pasteable.

## Matrix

| Tier | Source | Action |
|---|---|---|
| A | inbound_demo | Round-robin to AE within 5 minutes; book meeting in same business day. |
| A | inbound_content | SDR call within 1 hour; reference content piece. Auto-sequence as backup if no answer in 24h. |
| A | outbound_sequence | Move to high-touch sequence; SDR adds 2 personalized steps. |
| A | partner_referral | AE handles directly. Loop in partner manager for warm intro. |
| A | event | SDR call within 24h referencing the event session/booth conversation. |
| A | cold_list | Treat as outbound: enrich further, hand to SDR for personalized first touch. |
| A | * | SDR personalized outreach within 24h. |
| B | inbound_demo | SDR qualification call within 4 hours before AE handoff. |
| B | inbound_content | SDR personalized email within 24h, no auto-sequence. Reference content piece. |
| B | outbound_sequence | Standard outbound sequence, no escalation. |
| B | partner_referral | SDR call within 48h; loop in partner if no response. |
| B | event | SDR email + follow-up call within 48h. |
| B | cold_list | Standard outbound sequence. |
| B | * | SDR email within 48h. |
| C | inbound_demo | SDR fit-call within 24h; many will self-disqualify on the call. |
| C | inbound_content | Add to nurture; no SDR touch unless engagement signals appear. |
| C | outbound_sequence | Pause sequence; do not waste SDR cycles. |
| C | partner_referral | SDR courtesy call within 1 week (relationship cost of ignoring). |
| C | event | Add to nurture only. |
| C | cold_list | Drop. |
| C | * | Nurture only. |
| disqualified | * | Mark `Disqualified — out of ICP` with rubric citation. Do not auto-delete; archive for audit. |

## Escalation overrides

When the skill emits `escalate: needs_human_review`, the action above is replaced with:

> Hold for SDR manager review. Lead is borderline (within 0.5 of tier boundary) or scored on thin data. See "Data gaps" section.

When the skill emits `escalate: insufficient_data`, the action is:

> Re-enrich lead and re-score. Required fields missing: {list}.

## Last edited

{YYYY-MM-DD} — by {SDR manager name}

# Sample output — for parser wiring

> A literal example of what the skill emits for one fictional lead. Use
> this when wiring the downstream parser (Clay AI column → property
> mapping, HubSpot custom-code action → property writeback, CSV
> post-processor). The schema below is what the skill commits to; the
> values are illustrative.

## Single-lead output

```markdown
# Lead score — jane.doe@northwind.com (northwind.com)

**Score:** 7.4 / 10 — Tier B
**Source:** inbound_content
**Escalate:** no

## Recommended next action

Tier B + inbound_content → SDR personalized email within 24h, no auto-sequence. Reference content piece they engaged with.

## Rationale (per criterion)

| Criterion | Weight | Tier | Reason |
|---|---|---|---|
| Industry | 5 | A | "Vertical SaaS / RevOps" matches in-ICP row in rubric. |
| Headcount | 4 | B | 240 employees — in stretch range (200-500), not core (500-2000). |
| Geo | 3 | A | HQ US-east, in supported region. |
| Tech stack | 4 | B | Salesforce + Marketo present (fit signals); no data warehouse cited. |
| Funding stage | 2 | C | Bootstrapped — out of preferred Series B-D band. |
| Job title | 4 | A | "Director, RevOps" matches champion-target pattern. |

## Disqualifier check

None triggered.

## Data gaps

- `revenue` field not provided by enrichment.

---

_Rubric SHA-256: 4f9c...a812 | Last edited 2025-12-15 by Sam Patel_
```

## Batch output

For a batch of N leads, the skill prepends a summary table and emits one block per lead separated by `\n---\n`:

```markdown
# Batch summary (12 leads)

| Email | Tier | Score | Escalate |
|---|---|---|---|
| jane.doe@northwind.com | B | 7.4 | no |
| ahmed@tailspintoys.io | A | 8.9 | no |
| j.smith@gmail.com | disqualified | 0 | hard_disqualifier:free_email |
| ... | ... | ... | ... |

---

# Lead score — jane.doe@northwind.com (northwind.com)
...
---
# Lead score — ahmed@tailspintoys.io (tailspintoys.io)
...
```

## Field contract for parsers

If you write a parser instead of consuming the markdown, these are the stable fields:

- `email` — string, lowercased
- `domain` — string, lowercased
- `score` — float, 0.0 to 10.0, one decimal
- `tier` — enum: `A` / `B` / `C` / `disqualified`
- `source` — pass-through of the input `source_of_lead`, or `unknown`
- `escalate` — enum: `no` / `needs_human_review` / `insufficient_data` / `hard_disqualifier:{reason}`
- `next_action` — string, single sentence
- `rationale[]` — list of `{criterion, weight, tier, reason}`
- `data_gaps[]` — list of strings (field names)
- `rubric_sha256` — string, 8-character prefix in the markdown footer; full hash available via the skill's structured-output mode