claude-skill

Audit an ABM list against an ICP rubric with Claude

Difficulty

Fortgeschritten

Setup time

30-60 min

For

revops

RevOps

Stack

Ein Claude Skill, der eine ABM-Zielliste und eine ICP-Rubrik entgegennimmt und einen Defekt-Bericht pro Account zurückgibt — jeder Account, der die Kriterien nicht erfüllt, erhält einen Defektcode aus einer definierten Taxonomie (wrong-size, wrong-industry, wrong-geo, stale-data, low-intent, missing-field), ein Qualitätslevel (Q1 bis Q4), einen Listen-Qualitäts-Score und eine priorisierte Remediierungs-Queue. Das Bundle liegt unter apps/web/public/artifacts/abm-list-quality-audit-skill/ und enthält SKILL.md sowie drei Referenz-Templates, die der Nutzer vor dem ersten Einsatz anpasst.

Er beantwortet die Frage, die die meisten ABM-Kampagnen vor dem Launch auslassen: „Von den 300 Accounts in dieser Liste — wie viele entsprechen tatsächlich unserem ICP, und was genau stimmt bei den anderen nicht?” Ohne diese Antwort fließt das Budget für ABM-Plattformen — 6sense, Demandbase, LinkedIn Matched Audiences — in Accounts, die Sie nie konvertieren würden, und die enttäuschenden Kampagnenergebnisse werden Botschaft oder Kanal angelastet, nicht der Listenqualität.

Wann verwenden

Verwenden Sie diesen Skill, bevor Sie eine ABM-Liste in eine Paid-Media-Plattform laden, bevor Sie Named Accounts an AEs vergeben, und vor jedem Kampagnen-Launch, bei dem die Liste vor mehr als 90 Tagen zusammengestellt wurde. ABM-Listen degradieren schneller, als die meisten RevOps-Teams realisieren: Headcount-Daten veralten, Finanzierungsphasen ändern sich, Unternehmen werden übernommen, und die ICP-Rubrik selbst verschiebt sich manchmal, ohne dass die Liste neu bewertet wird.

Der Skill ist auch das richtige Tool für quartalsweise Listen-Hygiene. Führen Sie ihn über Ihr gesamtes ABM-Universum aus — nicht nur Kampagnenlisten — um Accounts zu finden, die hinzugefügt wurden, als Ihr ICP anders aussah und seitdem nicht neu bewertet wurden. Die Defekt-Häufigkeitstabelle zeigt, welche Anreicherungslücken in Ihrem Universum am häufigsten vorkommen — actionable für denjenigen, der den Clay-Anreicherungs-Workflow verantwortet.

Aufzurufen aus:

Einer Clay-Tabelle, bei der jede Zeile ein Account ist, manuell vor einem Kampagnen-Launch oder auf einem quartalsweisen Cron ausgelöst. Der Skill schreibt quality_tier und defect_codes in zwei Clay-Spalten zurück; nachgelagerte Automatisierung kann darauf filtern, um Q3/Q4-Accounts aus Kampagnen-Uploads zu unterdrücken.
Einer CSV-Pre-Flight-Prüfung vor dem Import in 6sense oder eine ABM-Werbeplattform. Das Audit entfernt Accounts, für die Sie sonst zahlen würden — bei typischen ABM-CPM-Raten ($20-40 pro 1.000 Impressionen) spart das Entfernen von 50 Out-of-ICP-Accounts aus einer 500-Account-Liste 10% Streuverlust.
Einem Salesforce-Report-basierten Trigger über Named Accounts in einem Segment, der ABM_Quality_Tier__c und ABM_Defect_Codes__c zurück zum Account-Datensatz schreibt.

Wann NICHT verwenden

Überspringen Sie diesen Skill, wenn:

Sie eingehende MQLs bewerten möchten. Das Audit ist für Outbound-Named-Account-Listen konzipiert. Für die Triage eingehender Leads ist der Lead-Scoring-ICP-Rubrik-Skill das richtige Tool — er verarbeitet den Einzellead-Flow und die Borderline-Eskalationslogik, die für Inbound relevant ist.
Ihre ICP-Rubrik noch nicht existiert. Der Skill auditiert anhand einer Rubrik, die Sie bereitstellen. Wenn Sie die ICP-Diskussion noch nicht geführt haben — in welchen Branchen, Headcount-Bändern und Geos Sie tatsächlich gewinnen — muss dieses Gespräch zuerst stattfinden. Ein Audit gegen eine Platzhalter-Rubrik erzeugt eine falsche Rigorosität.
Die Liste Deduplizierung benötigt, keine Prüfung. Wenn das Ziel ist, aktuelle Kunden, Wettbewerber, abgewanderte Accounts oder GDPR-unterdrückte Kontakte zu entfernen, ist das eine Filter-Operation, kein ICP-Audit. Führen Sie diese Ausschlüsse vor dem Audit durch, sonst verbrennt der Skill Tokens beim Scoring von Unternehmen, von denen Sie bereits wissen, dass Sie sie ausschließen wollen.
Sie die Liste generieren müssen, nicht auditieren. Der Skill nimmt eine bestehende Liste als Eingabe. Er führt keine TAM-Discovery durch und generiert keine neuen Accounts. Verwenden Sie einen dedizierten List-Building-Workflow — Clay plus ICP-Kriterien — um die Rohliste zuerst zu erstellen.
Die Liste weniger als 20 Accounts hat. Unterhalb dieser Größe kann ein erfahrener RevOps-Analyst oder AE jeden Account in unter einer Stunde manuell prüfen. Der Konfigurationsaufwand des Skills (Rubrik-Setup, Defekt-Taxonomie-Anpassung) lohnt sich nicht.

Einrichtung

Die Einrichtung dauert 30-60 Minuten, sofern die ICP-Rubrik existiert. Die Rubrik-Diskussion — RevOps, GTM-Führung und ein oder zwei AEs auf eine gemeinsame Vorstellung von einer A-Tier-Branche und einem Headcount-Band zu bringen — dauert länger und findet vor der Einrichtung statt.

Skill installieren. Kopieren Sie apps/web/public/artifacts/abm-list-quality-audit-skill/SKILL.md und den Ordner references/ in Ihr Verzeichnis .claude/skills/abm-audit/, oder laden Sie ihn als Skill in claude.ai hoch. Die name- und description-Felder im Frontmatter sind der Trigger bei relevanten Prompts.
ICP-Rubrik konfigurieren. Öffnen Sie references/1-icp-rubric-template.md. Wenn Ihr Team bereits den Lead-Scoring-ICP-Rubrik-Skill verwendet, können Sie dieselbe Rubrik-Datei referenzieren — die Struktur ist identisch. Ersetzen Sie Platzhalter-Zeilen durch tatsächliche Kriterien, Gewichtungen (1-5) und Tier-Werte (A / B / C). Füllen Sie den Abschnitt der Hard Disqualifiers aus. Aktualisieren Sie „Last edited” — der SHA-256, den der Skill in jedem Berichts-Footer aufzeichnet, stellt sicher, dass Stakeholder erkennen können, wann sich die Rubrik verändert hat.
Defekt-Taxonomie konfigurieren. Öffnen Sie references/2-defect-taxonomy.md. Die Defektcodes selbst sind fest — benennen Sie sie nicht um, da nachgelagerte Parser auf die Code-Strings angewiesen sind. Bearbeiten Sie die Spalte „Remediation action” so, dass sie dem tatsächlichen Prozess Ihres Teams entspricht: welche Clay-Spalte die Headcount-Neuanreicherung liefert, wer das ZoomInfo-Abonnement verantwortet, welches Segment die Enterprise-Overflow-Accounts betreut.
Intent-Scores vorbereiten (optional, aber wertreich). Wenn Sie 6sense oder Bombora verwenden, exportieren Sie eine Domain → Intent-Score-Zuordnung für Ihr Account-Universum und übergeben Sie sie als intent_scores-Eingabe. Dies fügt low-intent- und intent-spike-Annotationen zu den Rubrik-Scores hinzu — das intent-spike-Flag ist besonders wertvoll für Q2-Accounts, die im ICP, aber grenzwertig sind, weil es sie zur Priorisierung an die Oberfläche bringt, noch bevor eine Neuanreicherung erfolgt.
Schwellenwert für Anreicherungsveralterung festlegen. Aktualisieren Sie enrichment_staleness_days entsprechend der Aggressivität, mit der Ihre Anreicherungsschicht Daten recycelt. Clay + ZoomInfo aktualisiert typischerweise nach einem 90-Tage-Zeitplan; wenn Sie monatliche Anreicherung durchführen, können Sie 45 Tage festlegen. Dies steuert den stale-data-Defektcode.
An einer bekannten Liste testen. Führen Sie den Skill über 20-30 Accounts aus, die Sie gut kennen — eine Mischung aus aktuellen Kunden, abgewanderten Accounts und Prospects unterschiedlicher Qualität. Prüfen Sie, ob die Qualitätslevel mit der Intuition Ihres Teams übereinstimmen. Wenn Q1-Accounts Defektcodes anzeigen, ist die Rubrik falsch kalibriert. Wenn offensichtliche Out-of-ICP-Accounts mit Q2 bewertet werden, müssen Hard Disqualifiers oder Gewichtungen angepasst werden.

Was der Skill tatsächlich tut

Der Skill führt vier Schritte in fester Reihenfolge durch.

Schritt 1 — Hard-Disqualifier-Sweep. Vor jedem LLM-Aufruf wird jeder Account gegen die Hard Disqualifiers der Rubrik geprüft: sanktioniertes Land, disqualifizierte Branche, Headcount unter dem absoluten Minimum, Accounts auf der expliziten Ausschlussliste (Wettbewerber, aktuelle Kunden). Treffer erhalten den Defektcode hd:{reason} und das Qualitätslevel disqualified. Dieser Schritt ist deterministisch und läuft über jeden Account in Millisekunden. Warum zuerst: Bei einer 500-Account-Liste sind 5-15% der Accounts häufig sofortige Disqualifikationen — LLM-Scoring auf diesen Accounts zu betreiben verschwendet Tokens und erhöht die Latenz ohne Informationsgewinn.

Schritt 2 — ICP-Rubrik-Scoring pro Account. Accounts, die den Hard-Disqualifier-Sweep bestanden haben, werden gegen jedes Kriterium der Rubrik bewertet. Für jedes Kriterium gibt das Modell ein Tier (A / B / C), ein Gewicht (aus der Rubrik) und eine einzeilige Begründung aus, die die Rubrik-Zeile zitiert. Die gewichtete Summe wird einem Qualitätslevel zugeordnet: Q1 (Score ≥ 8,0), Q2 (6,0-7,99), Q3 (4,0-5,99), Q4 (< 4,0). Fehlgeschlagene Kriterien erzeugen die entsprechenden Defektcodes — ein C-Kriterien-Headcount-Score für einen Account unterhalb des B-Tier-Minimums erzeugt wrong-size:too-small.

Warum per Kriterium statt einem Gesamtscore: Die Defektcodes, die die Remediierungs-Queue antreiben, erfordern zu wissen, welches spezifische Kriterium fehlschlug, nicht nur dass der Gesamtscore niedrig war. Ein Q3-Account mit missing-field:tech_stack ist eine andere Remediierungsaufgabe als ein Q3-Account mit wrong-industry — ersterer braucht Anreicherung, letzterer Entfernung.

Schritt 3 — Supplementäre Defekt-Erkennung. Nach dem Rubrik-Scoring prüft der Skill auf Defekte, die nicht von der Rubrik abgedeckt sind: stale-data (Anreicherung älter als Schwellenwert), missing-field:{field} (Kriterien, die nicht bewertet werden konnten), low-intent und intent-spike aus den bereitgestellten Intent-Scores. Das intent-spike-Flag kann auch bei Q2-Accounts erscheinen — es bringt Accounts ans Licht, bei denen In-Market-Verhalten den Borderline-Rubrik-Score übersteuern und trotzdem direkten AE-Kontakt auslösen sollte.

Schritt 4 — Listen-Aggregation. Nach dem Per-Account-Scoring berechnet der Skill den Listen-Qualitäts-Score (Q1% + Q2% - Q3% - 2×Q4%, skaliert auf 100), die Defekt-Häufigkeitstabelle und die Remediierungs-Queue. Die Remediierungs-Queue ist nach geschätztem Re-Audit-Lift sortiert: Accounts mit der höchsten Wahrscheinlichkeit, nach einer Neuanreicherung zu Q1 zu werden, erscheinen zuerst. Ein Listen-Qualitäts-Score unter 30 ist das Go/No-Go-Signal des Skills — der Empfehlungsabschnitt wird lauten: „Nicht starten, bis Q3/Q4-Accounts remediiert oder entfernt wurden.”

Kostenrealität

Die Token-Kosten pro Account hängen von der Rubrik-Größe und der Menge der bereitgestellten Account-Daten ab. Für eine typische 6-Kriterien-Rubrik mit strukturiertem Per-Kriterium-Output und einem Account-Datensatz von 300-500 Tokens sind ca. 1.200-2.000 Input-Tokens und 300-500 Output-Tokens pro Account zu erwarten. Zu Claude-Sonnet-4.x-Preisen (ca. $3 pro Million Input-Tokens und $15 pro Million Output-Tokens Anfang 2026) entspricht das $0,008-0,015 pro Account.

Ein Pre-Campaign-Audit mit 500 Accounts kostet $4-8 in Claude-Tokens. Ein quartalsweiser Hygiene-Durchlauf über ein 2.000-Account-ABM-Universum kostet $16-30. Das ist weniger als die Kosten einer einzigen falsch gerouteten AE-Sequenz. Die Nicht-Token-Kosten sind größer: die korrekte Konfiguration von Rubrik und Defekt-Taxonomie erfordert eine 60-90-minütige Sitzung; planen Sie diese ein.

Die Token-Kosten pro Account sind niedriger als beim Lead-Scoring-Skill, da ABM-Accounts typischerweise reichhaltigere strukturierte Daten aufweisen (weniger fehlende Felder) und die Defektcodes kompakter sind als eine vollständige Per-Kriterium-Begründung. Wenn viele Felder bei Ihren Accounts fehlen, fällt mehr Verarbeitung auf den supplementären Defekt-Schritt, der deterministisch und kostenlos ist.

Prompt-Caching der Rubrik- und Defekt-Taxonomie-Dateien lohnt sich bei Scale erheblich — bei einem 500-Account-Audit wird die Rubrik einmal geladen und über den gesamten Batch gecacht. Bei einem 5-Account-Spot-Check spielt es keine Rolle.

Erfolgskennzahl

Die primäre Kennzahl für das Audit ist der Trend des Listen-Qualitäts-Scores: Führen Sie das Audit jedes Quartal über dasselbe ABM-Universum durch und verfolgen Sie, ob der Listen-Qualitäts-Score steigt. Ein steigender Score bedeutet, dass Ihre Anreicherungs-Kadenz funktioniert, Ihre Rubrik stabil ist und Ihr List-Building-Prozess sich verschärft hat. Ein fallender Score — oder ein Score, der trotz Remediierungsaufwand konstant bleibt — bedeutet, dass sich entweder die Rubrik verschoben hat oder die Anreicherungsquelle unzuverlässig ist.

Sekundäre Kennzahl: ABM-Kampagnen-Conversion-Rate nach Qualitätslevel. Nach 90 Tagen Kampagnen gegen geprüfte Listen vergleichen Sie die Conversion-to-Opportunity-Rate für Q1-Accounts vs. Q2-Accounts vs. Accounts, die aus Q3 remediiert wurden, bevor sie aufgenommen wurden. Q1 sollte zu einer höheren Rate konvertieren als Q2, und Q2 nach Remediierung sollte zu einer höheren Rate konvertieren als ungeprüftes Q3. Wenn es keinen Conversion-Unterschied zwischen den Levels gibt, ist die Rubrik nicht prädiktiv und muss neu diskutiert werden.

Fehlermodi

Defektcodes, die die Rubrik anklagen, nicht die Liste. Wenn 35% Ihrer Liste wrong-size:too-small erhält, ist das Problem oft der Headcount-Boden in der Rubrik, nicht die Liste. Die Rubrik wurde möglicherweise festgelegt, als Ihr Vertrieb rein auf Enterprise ausgerichtet war, und wurde nie aktualisiert, nachdem ein SMB-Segment geöffnet wurde. Auf diese Defektcodes zu reagieren, indem 35% der Liste entfernt werden, ist der falsche Schritt; die Rubrik zu revidieren ist der richtige. Guard: Prüfen Sie nach jedem Audit, ob ein einzelner Defektcode auf mehr als 25% der Accounts zutrifft. Falls ja, überprüfen Sie das Rubrik-Kriterium, das diesen Code generiert, bevor Sie die Liste remediieren. Die Defekt-Häufigkeitstabelle im Audit-Output macht diese Prüfung einfach — der häufigste Code ist immer Zeile eins der Tabelle.
Veraltete Anreicherung erzeugt falsche Negative bei guten Accounts. Ein Account mit einem last_enrichment_date von vor 14 Monaten hat seinen Headcount möglicherweise verdreifacht, eine Series-B-Finanzierung abgeschlossen und Salesforce zum Tech-Stack hinzugefügt, seit diese Daten erhoben wurden. Das Q4-Urteil des Skills über diesen Account ist kein Urteil über das Unternehmen — es ist ein Urteil über Ihre Anreicherungs-Kadenz. Diese Accounts zu entfernen oder zu deprioritisieren, bevor sie neu angereichert werden, vernichtet echte Pipeline. Guard: Der Skill fügt stale-data zu jedem Account hinzu, bei dem die Anreicherung den Veraltungs-Schwellenwert überschreitet, und vermerkt in der Begründung „scored on potentially stale data.” Die Remediierungs-Queue platziert stale-data + hohes Rubrik-Score-Potenzial-Accounts ganz oben. Die Grundregel: Einen Account nie allein wegen stale-data aus der Liste entfernen; zuerst immer neu anreichern.
Intent-Score-Inflation durch Einzelnutzer-Verhalten. Ein Unternehmen in einem 6sense-„High-Intent”-Segment kann dort sein, weil ein Junior-Analyst des Unternehmens drei Blog-Beiträge gelesen hat. Dieses Unternehmen als intent-spike zu kennzeichnen und es auf Basis dieses Signals zum direkten AE-Kontakt zu routen, ist ein False Positive, der AE-Zeit verbrennt. Guard: Wenn intent_scores bereitgestellt werden, zeigt der Skill den rohen Intent-Score und die Quelle neben dem intent-spike-Flag an. Die Leitlinie im Skill-Output: Bevor Sie auf ein intent-spike-Signal reagieren, prüfen Sie mit 6sense oder Ihrer ABM-Plattform, ob die Intent-Aktivität von Buying-Committee-Personas stammt — Direktor-Level und darüber in relevanten Funktionsbereichen — und nicht von einem einzelnen Nutzer ohne Entscheidungskompetenz.
Rubrik-Drift macht historische Audit-Vergleiche ungültig. Wenn sich die Rubrik zwischen dem Q2-Audit und dem Q3-Audit ändert, sind die Listen-Qualitäts-Scores nicht vergleichbar — ein steigender Score kann nur eine lockerere Rubrik widerspiegeln, keine echte Listenverbesserung. Guard: Der Skill zeichnet den SHA-256 der Rubrik in jedem Audit-Footer auf. Beim Vergleich quartalsweiser Listen-Qualitäts-Scores prüfen Sie, ob der SHA-256 der Rubrik identisch ist. Hat sich die Rubrik geändert, führen Sie die Liste des Vorquartals erneut gegen die neue Rubrik aus, bevor Sie Vergleiche anstellen. Das Datum „Last edited” in der Rubrik-Datei und die quartalsweise Kalender-Erinnerung zur Rubrik-Überprüfung wirken zusammen, um Drift sichtbar zu machen, bevor sie den Trend verzerrt.

vs Alternativen

vs manuelle RevOps-Überprüfung. Für eine Liste unter 50 Accounts kann ein erfahrener RevOps-Analyst mit der ICP-Rubrik offen jeden Account in 2-3 Stunden manuell prüfen und ein besser kalibriertes Ergebnis als der Skill liefern — Menschen erkennen Edge Cases, wie „dieses Unternehmen hat einen seltsamen SIC-Code, aber ihr tatsächliches Produkt ist klar in unserem ICP,” die der Skill übersieht. Ab 150 Accounts wird die manuelle Prüfung inkonsistent: Die ICP-Intuition des Analysten driftet zwischen dem ersten und dem 130. Account. Der Skill wendet die Rubrik konsistent bei jeder Listengröße an.

vs 6senses eingebautem Account-Grading. 6sense liefert einen Account-Fit-Score basierend auf seinem proprietären ICP-Modell, trainiert auf Unternehmen in Ihrem CRM mit positiver Engagement-Historie. Es ist nützlich, sobald Sie genug CRM-Historie haben, von der 6sense lernen kann (typischerweise 50-100 Closed-Won-Accounts). Für Teams unter dieser Schwelle ist 6senses Fit-Modell unterkalibriert und rauschig. Dieser Skill funktioniert von Tag eins, weil die Rubrik manuell erstellt ist. Der Trade-off: 6senses Modell erfasst Muster, die Sie nicht explizit aufgeschrieben haben; dieser Skill weiß nur, was Sie ihm mitgeteilt haben. Für Teams mit 50+ Closed-Won nutzen Sie beide — verwenden Sie 6senses Score für „was überrascht mich” und die Defektcodes dieses Skills für „was genau stimmt bei den Q3-Accounts nicht.”

vs einer ICP-Scoring-Matrix in einer Tabelle. Viele RevOps-Teams haben eine Tabelle, in der sie jeden Account manuell gegen ICP-Kriterien bewerten. Der Tabellenansatz bricht bei Scale zusammen (Konsistenz sinkt ab 50 Accounts), produziert keine Defekt-Taxonomie (er sagt die Punktzahl, nicht warum sie falsch ist), und wird im Moment veraltet, in dem die Rubrik sich ändert, weil niemand alle zuvor bewerteten Zeilen aktualisiert. Dieser Skill wendet die Rubrik konsistent an, benennt den spezifischen Defekt, und der SHA-256-Mechanismus stellt sicher, dass Sie wissen, wann die Rubrik sich verschoben hat. Die Tabelle ist das richtige Tool für die ersten 20 Accounts; der Skill ist das richtige Tool danach.

Diese Seite auf GitHub bearbeiten

Files in this artifact

Download all (.zip)

---
name: abm-list-quality-audit
description: Audit an ABM target list against an explicit ICP rubric and return a defect report for every account that fails. Produces a per-account defect taxonomy (wrong-size, wrong-industry, wrong-geo, wrong-funding, tech-mismatch, stale-data, low-intent, missing-field), a list-level quality score, and a prioritized remediation queue. Use before any ABM campaign goes live — not as a substitute for ICP strategy work.
---

# ABM list quality audit

## When to invoke

Invoke before launching any ABM campaign, before loading a list into a paid-media ABM platform, or before assigning named accounts to AEs. The skill takes a structured account list and your ICP rubric and returns a per-account defect report plus a list-level quality score.

The skill is also useful for quarterly list hygiene: run it over your existing ABM universe to find accounts that were added months ago and no longer match the current ICP, or accounts where enrichment has gone stale.

Invoke from:

- A **Clay table** where each row is an account, triggered manually or on a quarterly schedule. The skill writes defect codes and a quality tier back to two columns.
- A **CSV pre-flight check** before import into 6sense, Demandbase, or any ABM advertising platform that charges per account or per impression — running the audit first removes accounts you would pay to target and never convert.
- A **Salesforce report-based trigger** over named accounts in a specified segment, via a custom-code action that calls the skill and writes `ABM_Quality_Tier__c` and `ABM_Defect_Codes__c` back to the account record.

Do NOT invoke this skill for:

- **Scoring individual inbound leads.** The audit is designed for outbound named-account lists, not for triage of inbound MQLs. For inbound scoring, use the lead-scoring-icp-rubric skill.
- **Replacing the ICP strategy session.** The skill audits against a rubric you provide. If the rubric is a proxy for last year's customers, the audit will reproduce last year's biases. Have the ICP argument with your RevOps and GTM leadership before running the audit.
- **Generating net-new accounts.** The skill audits an existing list. It does not generate new accounts or run discovery on the TAM. Use a dedicated list-building workflow (Clay + ICP criteria) to generate the raw list first.
- **Suppression list management.** If the goal is to remove churned customers, competitors, or current customers from the list, that is deduplication, not auditing. Run those exclusion checks before invoking the skill.

## Inputs

Required:

- `account_list` — a structured list of account records. Minimum fields per account: `company_name`, `company_domain`. Strongly preferred: `industry`, `headcount`, `country`, `revenue_band`, `tech_stack` (array), `funding_stage`, `last_enrichment_date`.
- `rubric` — path to or inline contents of the ICP rubric markdown (see `references/1-icp-rubric-template.md`). Must contain explicit criterion + weight + tier-value rows. If the rubric has no weights, the skill refuses to run.

Optional:

- `intent_scores` — a map of `company_domain → intent_score` from 6sense, Bombora, or your ABM platform. When provided, the skill adds a `low-intent` defect code for accounts below your defined intent floor, and an `intent-spike` positive flag for accounts above your hot-intent threshold.
- `enrichment_staleness_days` — integer, default 90. Accounts where `last_enrichment_date` is older than this value receive a `stale-data` defect code. Adjust to match how aggressively your enrichment layer (Clay, ZoomInfo, Apollo) recycles data.
- `list_name` — string. Used to label the audit report. If omitted, defaults to `"Unnamed list — {run_date}"`.

## Reference files

Always load these before running the audit:

- `references/1-icp-rubric-template.md` — the ICP rubric. Same structure as the lead-scoring skill's rubric; shared between the two skills if your team uses both. Weights and tier values must be explicit.
- `references/2-defect-taxonomy.md` — the full defect code vocabulary with definitions, severity levels (P1 / P2 / P3), and the remediation action for each code. Edit this once with your RevOps lead before first use; the codes in the audit output are only as useful as the definitions in this file.
- `references/3-sample-audit-output.md` — a literal example of the full audit report for a 5-account list. Use when wiring downstream parsers or building the CRM writeback.

## Method

The skill runs four steps in order.

### 1. Hard disqualifier sweep (no LLM)

Before any LLM call, check each account against the rubric's hard disqualifiers: sanctioned country, disqualified industry, headcount below floor. Accounts that hit a hard disqualifier receive defect code `hd:{reason}` (e.g. `hd:sanctioned_country`) and a quality tier of `disqualified`. These are deterministic and cheap; they run first so the LLM does not burn tokens on them.

Why deterministic first: same reason as lead scoring — speed and reliability. A hard disqualifier check on 500 accounts takes milliseconds and never hallucinates.

### 2. Per-account ICP rubric scoring

For each account that cleared the hard disqualifier sweep, score against the ICP rubric using the same per-criterion method as the lead-scoring skill (explicit tier + weight + rationale per criterion). The weighted sum maps to a quality tier:

- **Q1** — score ≥ 8.0: in-ICP, meets criteria. No defect codes from rubric scoring.
- **Q2** — score 6.0-7.99: in-ICP with gaps. Defect codes name the specific failing criteria.
- **Q3** — score 4.0-5.99: borderline. Multiple defect codes; recommend enrichment and re-audit before including.
- **Q4** — score < 4.0: out-of-ICP. Recommend removal from the active list; flag for archive.

Why explicit tier thresholds rather than "let the model decide": same reason as lead scoring — the rubric is the source of truth, and the model's job is to apply it, not to re-weight it.

### 3. Supplemental defect detection

After rubric scoring, run supplemental checks that are not covered by the rubric criteria:

- **`stale-data`**: `last_enrichment_date` is older than `enrichment_staleness_days`. The account's rubric score is suspect because the underlying data may be wrong.
- **`missing-field`**: one or more rubric criteria could not be scored because the field was missing from the account record. List the missing field names.
- **`low-intent`**: `intent_scores[domain]` is below the floor defined in the rubric or passed as input. Applied on top of rubric score — a Q1 account with low intent is still in-ICP but is not hot right now.
- **`intent-spike`**: `intent_scores[domain]` is above the hot-intent threshold. A positive flag, not a defect; surfaced to help prioritize outreach even if the rubric score is only Q2.

### 4. List-level quality report and remediation queue

After per-account scoring, aggregate:

- **List quality score**: Q1% + Q2% - Q3% - 2×Q4%. This is a synthetic score intended to give a single number for "how good is this list" at a glance. A score above 60 means the list is predominantly in-ICP; below 30 means the list needs significant remediation before use.
- **Defect frequency table**: counts of each defect code across the list. The most common defect code tells you the single most valuable enrichment or segmentation fix.
- **Remediation queue**: the Q2 and Q3 accounts with `missing-field` or `stale-data` codes, ordered by estimated re-audit lift (accounts most likely to become Q1 after re-enrichment). This is the queue to hand to whoever owns enrichment.

Why a list-level score: individual account scores are useful for routing; the list-level score is useful for the ABM campaign go/no-go decision. If the list score is below 30, the campaign should not launch — the target list is too weak to justify the ABM platform spend.

## Output format

Literal markdown the skill emits for a 5-account list:

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment on accounts with last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by RevOps_
```

## Watch-outs

- **Defect codes that indict the rubric, not the account.** If 40% of the list has `wrong-size` codes, the problem is often not the list — it is a headcount floor in the rubric that was set when the company was targeting larger enterprises and was never updated after the SMB segment was opened. **Guard:** after every audit, check whether any single defect code applies to more than 25% of accounts. If so, review the rubric criterion that generates that code before remediating the list. The list might be right and the rubric wrong.
- **Stale enrichment masking real ICP fit.** An account's `last_enrichment_date` of 14 months ago means its headcount, funding stage, and tech stack data may all be wrong. A Q4 score on stale data is not a verdict on the account — it is a verdict on your enrichment cadence. **Guard:** the skill adds `stale-data` to any account where enrichment is older than the `enrichment_staleness_days` threshold, and the per-account rationale notes "scored on potentially stale data" for any such account. Do not remove Q4 + `stale-data` accounts; re-enrich them first and re-audit.
- **Intent score inflation from brand-aware accounts.** An account in a 6sense high-intent segment may be there because of one analyst at the company who reads your blog weekly — not because the buying committee is in-market. **Guard:** when `intent_scores` are provided, the skill shows the raw intent score alongside the `intent-spike` flag and names the intent source. Before acting on an `intent-spike` account, verify the intent signal is from buying-committee personas, not from a single low-authority user.

# ICP rubric — TEMPLATE (ABM audit)

> Replace this template's contents with your team's actual ICP rubric.
> The ABM list audit skill scores each account against this rubric.
> Vague rows (no weights, no tier values) cause the skill to refuse the run.
>
> This file can be shared with the lead-scoring-icp-rubric skill — the
> rubric structure is identical. If your team uses both skills, maintain
> one rubric file and reference it from both.

## How the skill reads this file

- Each row in "Criteria" must have an explicit `weight` (1-5) and three tier values
  (A / B / C). Malformed rows cause the skill to return an error.
- "Hard disqualifiers" run as deterministic checks before any LLM call. A single
  hit drops the account to `disqualified` regardless of other criteria.
- "Intent thresholds" are optional — only used when `intent_scores` is passed
  as input. Set these to match your ABM platform's scoring bands.
- The "Last edited" line is hashed into the SHA-256 recorded in the audit footer.

## Criteria

| Criterion | Weight | A (best fit) | B (stretch) | C (poor fit) |
|---|---|---|---|---|
| Industry | 5 | {industries you win in, e.g. Vertical SaaS, FinTech} | {adjacent industries} | {everything else} |
| Headcount | 4 | {core range, e.g. 200-2000} | {stretch range, e.g. 50-200 or 2000-5000} | {below/above stretch} |
| Geo | 3 | {primary regions, e.g. US, UK, DACH} | {secondary regions} | {unsupported regions} |
| Tech stack | 4 | {signals of fit, e.g. Salesforce + HubSpot present} | {one fit signal present} | {no fit signals or competing system} |
| Funding stage | 2 | {preferred stages, e.g. Series B-D, public mid-cap} | {adjacent stages} | {unfit, e.g. pre-seed or mature enterprise} |
| Revenue band | 3 | {ARR or revenue band that matches your ACV, e.g. $10M-$100M ARR} | {adjacent band} | {below minimum or above ceiling} |

## Hard disqualifiers

Single signals that drop an account to `disqualified` regardless of other criteria.
Run as deterministic checks before LLM scoring.

- `country in [{sanctioned or unsupported regions}]`
- `industry in [{disqualified industries — e.g. adult content, gambling if you do not serve them}]`
- `headcount < {absolute floor, e.g. 25}` (if you have one)
- `company_domain in [{explicit exclusion list — competitors, current customers, churned accounts}]`

## Intent thresholds (optional — only used when intent_scores provided)

Used to assign `low-intent` or `intent-spike` flags on top of the rubric score.

| 6sense / Bombora intent score | Flag applied |
|---|---|
| ≥ {hot threshold, e.g. 75} | `intent-spike` |
| {floor, e.g. 35} — {hot threshold - 1} | no flag (normal) |
| < {floor, e.g. 35} | `low-intent` |

## Quality tier thresholds

| Weighted score | Quality tier |
|---|---|
| 8.0 - 10.0 | Q1 (in-ICP, no rubric defects) |
| 6.0 - 7.99 | Q2 (in-ICP with gaps) |
| 4.0 - 5.99 | Q3 (borderline — remediate before use) |
| < 4.0 | Q4 (out-of-ICP — recommend removal) |

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Defect taxonomy — TEMPLATE

> This file defines every defect code the ABM list audit skill can assign.
> Edit the "Remediation action" column to match your team's actual processes
> before first use. The codes themselves are fixed — do not rename them;
> downstream parsers (CRM writeback, Clay columns) key on the code strings.

## How the skill reads this file

- Each defect code has a `severity` (P1 / P2 / P3). P1 defects are show-stoppers
  that mean the account should be removed or quarantined from the campaign until
  fixed. P2 defects are remediable. P3 defects are informational — the account
  can proceed, but the ABM or AE team should be aware.
- The skill emits defect codes in the per-account row and the defect-frequency
  table. It does not emit the full definition — that lives here for the human
  reviewer.

## Defect codes

### Rubric-sourced defects (from ICP scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `wrong-industry` | P1 | Account's industry is in the C-tier or disqualified row of the rubric. | Remove from active list. Archive with `out-of-icp` tag. |
| `wrong-size:too-small` | P1 | Headcount is below the rubric's B-tier floor. | Remove unless a specific exemption applies (e.g. fast-growing startup with known expansion intent). |
| `wrong-size:too-large` | P2 | Headcount exceeds the rubric's B-tier ceiling. | Flag for enterprise segment or remove from SMB/mid-market campaign. |
| `wrong-geo` | P1 | Account's HQ region is not in the rubric's supported geo tiers. | Remove from geo-targeted campaign; keep in global campaigns if you have capacity to serve. |
| `wrong-funding` | P2 | Funding stage is in the C-tier row. | Move to a different campaign segment (pre-series A nurture vs. growth-stage ABM). |
| `tech-mismatch` | P2 | Tech stack has no fit signals from the rubric's tech-stack criterion. | Re-enrich tech stack; confirm via BuiltWith or Clay. If confirmed miss, remove. |

### Supplemental defects (not from rubric scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `stale-data` | P2 | `last_enrichment_date` is older than the `enrichment_staleness_days` threshold. Rubric score is unreliable. | Re-run enrichment on this account before acting on its quality tier. Do not remove solely because of this code. |
| `missing-field:{field}` | P2 | The named field was absent from the account record. The criterion that uses it was scored as C (worst case) by default. | Re-enrich the specific field. Re-audit after enrichment. |
| `low-intent` | P3 | Intent score from the provided `intent_scores` input is below the floor threshold. | Move to nurture or lower-frequency sequence. Do not assign to AE until intent rises. |
| `hd:{reason}` | P1 | Hard disqualifier triggered. `{reason}` is the specific rubric row that matched (e.g. `hd:sanctioned_country`, `hd:competitor`). | Remove immediately. Archive with `disqualified` tag and the `hd:{reason}` code for audit trail. |

### Positive flags (not defects — appear in the per-account row for awareness)

| Code | Definition | Action |
|---|---|---|
| `intent-spike` | Intent score is above the hot-intent threshold. Account is signaling active in-market behavior. | Prioritize for direct AE outreach regardless of rubric tier. Even a Q2 account with `intent-spike` warrants a personalized touch. |

## Severity definitions

- **P1 — Remove:** the account should not be in the active ABM list. Keeping it wastes budget and suppresses campaign performance metrics.
- **P2 — Remediate:** the account may be a valid target but needs data work or segmentation before it can be activated. Hold from campaign activation until the defect is resolved.
- **P3 — Informational:** the account can proceed, but the campaign team should calibrate expectations. No blocking action required.

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Sample audit output — for parser wiring

> A literal example of what the skill emits for a 5-account list. Use
> when wiring the downstream parser: Clay AI column → property mapping,
> Salesforce custom-code action → property writeback, CSV post-processor.
> The schema below is what the skill commits to; the values are illustrative.

## Full audit report

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment — last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by Sam Patel_
```

## Field contract for parsers

If you build a parser instead of consuming the markdown, these are the stable fields:

### List-level fields

- `list_name` — string
- `run_date` — ISO date string (YYYY-MM-DD)
- `list_quality_score` — integer, 0-100
- `total_accounts` — integer
- `q1_count`, `q2_count`, `q3_count`, `q4_count` — integers
- `recommendation` — string, one paragraph
- `defect_frequency[]` — array of `{defect_code, count, action}`
- `remediation_queue[]` — array of `{domain, rationale, estimated_tier_after_fix}`

### Per-account fields

- `domain` — string, lowercased
- `quality_tier` — enum: `Q1` / `Q2` / `Q3` / `Q4` / `disqualified`
- `score` — float, 0.0 to 10.0
- `defect_codes[]` — array of strings (defect code vocabulary from `references/2-defect-taxonomy.md`)
- `positive_flags[]` — array of strings (e.g. `intent-spike`)
- `rationale[]` — array of `{criterion, weight, tier, reason}` (same structure as lead-scoring skill)
- `data_notes` — string, e.g. "scored on potentially stale data (last_enrichment_date: 2025-02-14)"

### Salesforce CRM writeback mapping

| Audit field | Salesforce field | Field type |
|---|---|---|
| quality_tier | `ABM_Quality_Tier__c` | Picklist (Q1/Q2/Q3/Q4/disqualified) |
| defect_codes[] joined by `, ` | `ABM_Defect_Codes__c` | Text (255) |
| score | `ABM_ICP_Score__c` | Number (decimal, 1 place) |
| run_date | `ABM_Last_Audited__c` | Date |
| positive_flags[] joined by `, ` | `ABM_Intent_Flags__c` | Text (255) |