ooligo
claude-skill

Audit an ABM list against an ICP rubric with Claude

Difficulty
Fortgeschritten
Setup time
30-60 min
For
revops
RevOps

Stack

Ein Claude Skill, der eine ABM-Zielliste und eine ICP-Rubrik entgegennimmt und einen Defekt-Bericht pro Account zurückgibt — jeder Account, der die Kriterien nicht erfüllt, erhält einen Defektcode aus einer definierten Taxonomie (wrong-size, wrong-industry, wrong-geo, stale-data, low-intent, missing-field), ein Qualitätslevel (Q1 bis Q4), einen Listen-Qualitäts-Score und eine priorisierte Remediierungs-Queue. Das Bundle liegt unter apps/web/public/artifacts/abm-list-quality-audit-skill/ und enthält SKILL.md sowie drei Referenz-Templates, die der Nutzer vor dem ersten Einsatz anpasst.

Er beantwortet die Frage, die die meisten ABM-Kampagnen vor dem Launch auslassen: „Von den 300 Accounts in dieser Liste — wie viele entsprechen tatsächlich unserem ICP, und was genau stimmt bei den anderen nicht?” Ohne diese Antwort fließt das Budget für ABM-Plattformen — 6sense, Demandbase, LinkedIn Matched Audiences — in Accounts, die Sie nie konvertieren würden, und die enttäuschenden Kampagnenergebnisse werden Botschaft oder Kanal angelastet, nicht der Listenqualität.

Wann verwenden

Verwenden Sie diesen Skill, bevor Sie eine ABM-Liste in eine Paid-Media-Plattform laden, bevor Sie Named Accounts an AEs vergeben, und vor jedem Kampagnen-Launch, bei dem die Liste vor mehr als 90 Tagen zusammengestellt wurde. ABM-Listen degradieren schneller, als die meisten RevOps-Teams realisieren: Headcount-Daten veralten, Finanzierungsphasen ändern sich, Unternehmen werden übernommen, und die ICP-Rubrik selbst verschiebt sich manchmal, ohne dass die Liste neu bewertet wird.

Der Skill ist auch das richtige Tool für quartalsweise Listen-Hygiene. Führen Sie ihn über Ihr gesamtes ABM-Universum aus — nicht nur Kampagnenlisten — um Accounts zu finden, die hinzugefügt wurden, als Ihr ICP anders aussah und seitdem nicht neu bewertet wurden. Die Defekt-Häufigkeitstabelle zeigt, welche Anreicherungslücken in Ihrem Universum am häufigsten vorkommen — actionable für denjenigen, der den Clay-Anreicherungs-Workflow verantwortet.

Aufzurufen aus:

  • Einer Clay-Tabelle, bei der jede Zeile ein Account ist, manuell vor einem Kampagnen-Launch oder auf einem quartalsweisen Cron ausgelöst. Der Skill schreibt quality_tier und defect_codes in zwei Clay-Spalten zurück; nachgelagerte Automatisierung kann darauf filtern, um Q3/Q4-Accounts aus Kampagnen-Uploads zu unterdrücken.
  • Einer CSV-Pre-Flight-Prüfung vor dem Import in 6sense oder eine ABM-Werbeplattform. Das Audit entfernt Accounts, für die Sie sonst zahlen würden — bei typischen ABM-CPM-Raten ($20-40 pro 1.000 Impressionen) spart das Entfernen von 50 Out-of-ICP-Accounts aus einer 500-Account-Liste 10% Streuverlust.
  • Einem Salesforce-Report-basierten Trigger über Named Accounts in einem Segment, der ABM_Quality_Tier__c und ABM_Defect_Codes__c zurück zum Account-Datensatz schreibt.

Wann NICHT verwenden

Überspringen Sie diesen Skill, wenn:

  • Sie eingehende MQLs bewerten möchten. Das Audit ist für Outbound-Named-Account-Listen konzipiert. Für die Triage eingehender Leads ist der Lead-Scoring-ICP-Rubrik-Skill das richtige Tool — er verarbeitet den Einzellead-Flow und die Borderline-Eskalationslogik, die für Inbound relevant ist.
  • Ihre ICP-Rubrik noch nicht existiert. Der Skill auditiert anhand einer Rubrik, die Sie bereitstellen. Wenn Sie die ICP-Diskussion noch nicht geführt haben — in welchen Branchen, Headcount-Bändern und Geos Sie tatsächlich gewinnen — muss dieses Gespräch zuerst stattfinden. Ein Audit gegen eine Platzhalter-Rubrik erzeugt eine falsche Rigorosität.
  • Die Liste Deduplizierung benötigt, keine Prüfung. Wenn das Ziel ist, aktuelle Kunden, Wettbewerber, abgewanderte Accounts oder GDPR-unterdrückte Kontakte zu entfernen, ist das eine Filter-Operation, kein ICP-Audit. Führen Sie diese Ausschlüsse vor dem Audit durch, sonst verbrennt der Skill Tokens beim Scoring von Unternehmen, von denen Sie bereits wissen, dass Sie sie ausschließen wollen.
  • Sie die Liste generieren müssen, nicht auditieren. Der Skill nimmt eine bestehende Liste als Eingabe. Er führt keine TAM-Discovery durch und generiert keine neuen Accounts. Verwenden Sie einen dedizierten List-Building-Workflow — Clay plus ICP-Kriterien — um die Rohliste zuerst zu erstellen.
  • Die Liste weniger als 20 Accounts hat. Unterhalb dieser Größe kann ein erfahrener RevOps-Analyst oder AE jeden Account in unter einer Stunde manuell prüfen. Der Konfigurationsaufwand des Skills (Rubrik-Setup, Defekt-Taxonomie-Anpassung) lohnt sich nicht.

Einrichtung

Die Einrichtung dauert 30-60 Minuten, sofern die ICP-Rubrik existiert. Die Rubrik-Diskussion — RevOps, GTM-Führung und ein oder zwei AEs auf eine gemeinsame Vorstellung von einer A-Tier-Branche und einem Headcount-Band zu bringen — dauert länger und findet vor der Einrichtung statt.

  1. Skill installieren. Kopieren Sie apps/web/public/artifacts/abm-list-quality-audit-skill/SKILL.md und den Ordner references/ in Ihr Verzeichnis .claude/skills/abm-audit/, oder laden Sie ihn als Skill in claude.ai hoch. Die name- und description-Felder im Frontmatter sind der Trigger bei relevanten Prompts.
  2. ICP-Rubrik konfigurieren. Öffnen Sie references/1-icp-rubric-template.md. Wenn Ihr Team bereits den Lead-Scoring-ICP-Rubrik-Skill verwendet, können Sie dieselbe Rubrik-Datei referenzieren — die Struktur ist identisch. Ersetzen Sie Platzhalter-Zeilen durch tatsächliche Kriterien, Gewichtungen (1-5) und Tier-Werte (A / B / C). Füllen Sie den Abschnitt der Hard Disqualifiers aus. Aktualisieren Sie „Last edited” — der SHA-256, den der Skill in jedem Berichts-Footer aufzeichnet, stellt sicher, dass Stakeholder erkennen können, wann sich die Rubrik verändert hat.
  3. Defekt-Taxonomie konfigurieren. Öffnen Sie references/2-defect-taxonomy.md. Die Defektcodes selbst sind fest — benennen Sie sie nicht um, da nachgelagerte Parser auf die Code-Strings angewiesen sind. Bearbeiten Sie die Spalte „Remediation action” so, dass sie dem tatsächlichen Prozess Ihres Teams entspricht: welche Clay-Spalte die Headcount-Neuanreicherung liefert, wer das ZoomInfo-Abonnement verantwortet, welches Segment die Enterprise-Overflow-Accounts betreut.
  4. Intent-Scores vorbereiten (optional, aber wertreich). Wenn Sie 6sense oder Bombora verwenden, exportieren Sie eine Domain → Intent-Score-Zuordnung für Ihr Account-Universum und übergeben Sie sie als intent_scores-Eingabe. Dies fügt low-intent- und intent-spike-Annotationen zu den Rubrik-Scores hinzu — das intent-spike-Flag ist besonders wertvoll für Q2-Accounts, die im ICP, aber grenzwertig sind, weil es sie zur Priorisierung an die Oberfläche bringt, noch bevor eine Neuanreicherung erfolgt.
  5. Schwellenwert für Anreicherungsveralterung festlegen. Aktualisieren Sie enrichment_staleness_days entsprechend der Aggressivität, mit der Ihre Anreicherungsschicht Daten recycelt. Clay + ZoomInfo aktualisiert typischerweise nach einem 90-Tage-Zeitplan; wenn Sie monatliche Anreicherung durchführen, können Sie 45 Tage festlegen. Dies steuert den stale-data-Defektcode.
  6. An einer bekannten Liste testen. Führen Sie den Skill über 20-30 Accounts aus, die Sie gut kennen — eine Mischung aus aktuellen Kunden, abgewanderten Accounts und Prospects unterschiedlicher Qualität. Prüfen Sie, ob die Qualitätslevel mit der Intuition Ihres Teams übereinstimmen. Wenn Q1-Accounts Defektcodes anzeigen, ist die Rubrik falsch kalibriert. Wenn offensichtliche Out-of-ICP-Accounts mit Q2 bewertet werden, müssen Hard Disqualifiers oder Gewichtungen angepasst werden.

Was der Skill tatsächlich tut

Der Skill führt vier Schritte in fester Reihenfolge durch.

Schritt 1 — Hard-Disqualifier-Sweep. Vor jedem LLM-Aufruf wird jeder Account gegen die Hard Disqualifiers der Rubrik geprüft: sanktioniertes Land, disqualifizierte Branche, Headcount unter dem absoluten Minimum, Accounts auf der expliziten Ausschlussliste (Wettbewerber, aktuelle Kunden). Treffer erhalten den Defektcode hd:{reason} und das Qualitätslevel disqualified. Dieser Schritt ist deterministisch und läuft über jeden Account in Millisekunden. Warum zuerst: Bei einer 500-Account-Liste sind 5-15% der Accounts häufig sofortige Disqualifikationen — LLM-Scoring auf diesen Accounts zu betreiben verschwendet Tokens und erhöht die Latenz ohne Informationsgewinn.

Schritt 2 — ICP-Rubrik-Scoring pro Account. Accounts, die den Hard-Disqualifier-Sweep bestanden haben, werden gegen jedes Kriterium der Rubrik bewertet. Für jedes Kriterium gibt das Modell ein Tier (A / B / C), ein Gewicht (aus der Rubrik) und eine einzeilige Begründung aus, die die Rubrik-Zeile zitiert. Die gewichtete Summe wird einem Qualitätslevel zugeordnet: Q1 (Score ≥ 8,0), Q2 (6,0-7,99), Q3 (4,0-5,99), Q4 (< 4,0). Fehlgeschlagene Kriterien erzeugen die entsprechenden Defektcodes — ein C-Kriterien-Headcount-Score für einen Account unterhalb des B-Tier-Minimums erzeugt wrong-size:too-small.

Warum per Kriterium statt einem Gesamtscore: Die Defektcodes, die die Remediierungs-Queue antreiben, erfordern zu wissen, welches spezifische Kriterium fehlschlug, nicht nur dass der Gesamtscore niedrig war. Ein Q3-Account mit missing-field:tech_stack ist eine andere Remediierungsaufgabe als ein Q3-Account mit wrong-industry — ersterer braucht Anreicherung, letzterer Entfernung.

Schritt 3 — Supplementäre Defekt-Erkennung. Nach dem Rubrik-Scoring prüft der Skill auf Defekte, die nicht von der Rubrik abgedeckt sind: stale-data (Anreicherung älter als Schwellenwert), missing-field:{field} (Kriterien, die nicht bewertet werden konnten), low-intent und intent-spike aus den bereitgestellten Intent-Scores. Das intent-spike-Flag kann auch bei Q2-Accounts erscheinen — es bringt Accounts ans Licht, bei denen In-Market-Verhalten den Borderline-Rubrik-Score übersteuern und trotzdem direkten AE-Kontakt auslösen sollte.

Schritt 4 — Listen-Aggregation. Nach dem Per-Account-Scoring berechnet der Skill den Listen-Qualitäts-Score (Q1% + Q2% - Q3% - 2×Q4%, skaliert auf 100), die Defekt-Häufigkeitstabelle und die Remediierungs-Queue. Die Remediierungs-Queue ist nach geschätztem Re-Audit-Lift sortiert: Accounts mit der höchsten Wahrscheinlichkeit, nach einer Neuanreicherung zu Q1 zu werden, erscheinen zuerst. Ein Listen-Qualitäts-Score unter 30 ist das Go/No-Go-Signal des Skills — der Empfehlungsabschnitt wird lauten: „Nicht starten, bis Q3/Q4-Accounts remediiert oder entfernt wurden.”

Kostenrealität

Die Token-Kosten pro Account hängen von der Rubrik-Größe und der Menge der bereitgestellten Account-Daten ab. Für eine typische 6-Kriterien-Rubrik mit strukturiertem Per-Kriterium-Output und einem Account-Datensatz von 300-500 Tokens sind ca. 1.200-2.000 Input-Tokens und 300-500 Output-Tokens pro Account zu erwarten. Zu Claude-Sonnet-4.x-Preisen (ca. $3 pro Million Input-Tokens und $15 pro Million Output-Tokens Anfang 2026) entspricht das $0,008-0,015 pro Account.

Ein Pre-Campaign-Audit mit 500 Accounts kostet $4-8 in Claude-Tokens. Ein quartalsweiser Hygiene-Durchlauf über ein 2.000-Account-ABM-Universum kostet $16-30. Das ist weniger als die Kosten einer einzigen falsch gerouteten AE-Sequenz. Die Nicht-Token-Kosten sind größer: die korrekte Konfiguration von Rubrik und Defekt-Taxonomie erfordert eine 60-90-minütige Sitzung; planen Sie diese ein.

Die Token-Kosten pro Account sind niedriger als beim Lead-Scoring-Skill, da ABM-Accounts typischerweise reichhaltigere strukturierte Daten aufweisen (weniger fehlende Felder) und die Defektcodes kompakter sind als eine vollständige Per-Kriterium-Begründung. Wenn viele Felder bei Ihren Accounts fehlen, fällt mehr Verarbeitung auf den supplementären Defekt-Schritt, der deterministisch und kostenlos ist.

Prompt-Caching der Rubrik- und Defekt-Taxonomie-Dateien lohnt sich bei Scale erheblich — bei einem 500-Account-Audit wird die Rubrik einmal geladen und über den gesamten Batch gecacht. Bei einem 5-Account-Spot-Check spielt es keine Rolle.

Erfolgskennzahl

Die primäre Kennzahl für das Audit ist der Trend des Listen-Qualitäts-Scores: Führen Sie das Audit jedes Quartal über dasselbe ABM-Universum durch und verfolgen Sie, ob der Listen-Qualitäts-Score steigt. Ein steigender Score bedeutet, dass Ihre Anreicherungs-Kadenz funktioniert, Ihre Rubrik stabil ist und Ihr List-Building-Prozess sich verschärft hat. Ein fallender Score — oder ein Score, der trotz Remediierungsaufwand konstant bleibt — bedeutet, dass sich entweder die Rubrik verschoben hat oder die Anreicherungsquelle unzuverlässig ist.

Sekundäre Kennzahl: ABM-Kampagnen-Conversion-Rate nach Qualitätslevel. Nach 90 Tagen Kampagnen gegen geprüfte Listen vergleichen Sie die Conversion-to-Opportunity-Rate für Q1-Accounts vs. Q2-Accounts vs. Accounts, die aus Q3 remediiert wurden, bevor sie aufgenommen wurden. Q1 sollte zu einer höheren Rate konvertieren als Q2, und Q2 nach Remediierung sollte zu einer höheren Rate konvertieren als ungeprüftes Q3. Wenn es keinen Conversion-Unterschied zwischen den Levels gibt, ist die Rubrik nicht prädiktiv und muss neu diskutiert werden.

Fehlermodi

  • Defektcodes, die die Rubrik anklagen, nicht die Liste. Wenn 35% Ihrer Liste wrong-size:too-small erhält, ist das Problem oft der Headcount-Boden in der Rubrik, nicht die Liste. Die Rubrik wurde möglicherweise festgelegt, als Ihr Vertrieb rein auf Enterprise ausgerichtet war, und wurde nie aktualisiert, nachdem ein SMB-Segment geöffnet wurde. Auf diese Defektcodes zu reagieren, indem 35% der Liste entfernt werden, ist der falsche Schritt; die Rubrik zu revidieren ist der richtige. Guard: Prüfen Sie nach jedem Audit, ob ein einzelner Defektcode auf mehr als 25% der Accounts zutrifft. Falls ja, überprüfen Sie das Rubrik-Kriterium, das diesen Code generiert, bevor Sie die Liste remediieren. Die Defekt-Häufigkeitstabelle im Audit-Output macht diese Prüfung einfach — der häufigste Code ist immer Zeile eins der Tabelle.
  • Veraltete Anreicherung erzeugt falsche Negative bei guten Accounts. Ein Account mit einem last_enrichment_date von vor 14 Monaten hat seinen Headcount möglicherweise verdreifacht, eine Series-B-Finanzierung abgeschlossen und Salesforce zum Tech-Stack hinzugefügt, seit diese Daten erhoben wurden. Das Q4-Urteil des Skills über diesen Account ist kein Urteil über das Unternehmen — es ist ein Urteil über Ihre Anreicherungs-Kadenz. Diese Accounts zu entfernen oder zu deprioritisieren, bevor sie neu angereichert werden, vernichtet echte Pipeline. Guard: Der Skill fügt stale-data zu jedem Account hinzu, bei dem die Anreicherung den Veraltungs-Schwellenwert überschreitet, und vermerkt in der Begründung „scored on potentially stale data.” Die Remediierungs-Queue platziert stale-data + hohes Rubrik-Score-Potenzial-Accounts ganz oben. Die Grundregel: Einen Account nie allein wegen stale-data aus der Liste entfernen; zuerst immer neu anreichern.
  • Intent-Score-Inflation durch Einzelnutzer-Verhalten. Ein Unternehmen in einem 6sense-„High-Intent”-Segment kann dort sein, weil ein Junior-Analyst des Unternehmens drei Blog-Beiträge gelesen hat. Dieses Unternehmen als intent-spike zu kennzeichnen und es auf Basis dieses Signals zum direkten AE-Kontakt zu routen, ist ein False Positive, der AE-Zeit verbrennt. Guard: Wenn intent_scores bereitgestellt werden, zeigt der Skill den rohen Intent-Score und die Quelle neben dem intent-spike-Flag an. Die Leitlinie im Skill-Output: Bevor Sie auf ein intent-spike-Signal reagieren, prüfen Sie mit 6sense oder Ihrer ABM-Plattform, ob die Intent-Aktivität von Buying-Committee-Personas stammt — Direktor-Level und darüber in relevanten Funktionsbereichen — und nicht von einem einzelnen Nutzer ohne Entscheidungskompetenz.
  • Rubrik-Drift macht historische Audit-Vergleiche ungültig. Wenn sich die Rubrik zwischen dem Q2-Audit und dem Q3-Audit ändert, sind die Listen-Qualitäts-Scores nicht vergleichbar — ein steigender Score kann nur eine lockerere Rubrik widerspiegeln, keine echte Listenverbesserung. Guard: Der Skill zeichnet den SHA-256 der Rubrik in jedem Audit-Footer auf. Beim Vergleich quartalsweiser Listen-Qualitäts-Scores prüfen Sie, ob der SHA-256 der Rubrik identisch ist. Hat sich die Rubrik geändert, führen Sie die Liste des Vorquartals erneut gegen die neue Rubrik aus, bevor Sie Vergleiche anstellen. Das Datum „Last edited” in der Rubrik-Datei und die quartalsweise Kalender-Erinnerung zur Rubrik-Überprüfung wirken zusammen, um Drift sichtbar zu machen, bevor sie den Trend verzerrt.

vs Alternativen

vs manuelle RevOps-Überprüfung. Für eine Liste unter 50 Accounts kann ein erfahrener RevOps-Analyst mit der ICP-Rubrik offen jeden Account in 2-3 Stunden manuell prüfen und ein besser kalibriertes Ergebnis als der Skill liefern — Menschen erkennen Edge Cases, wie „dieses Unternehmen hat einen seltsamen SIC-Code, aber ihr tatsächliches Produkt ist klar in unserem ICP,” die der Skill übersieht. Ab 150 Accounts wird die manuelle Prüfung inkonsistent: Die ICP-Intuition des Analysten driftet zwischen dem ersten und dem 130. Account. Der Skill wendet die Rubrik konsistent bei jeder Listengröße an.

vs 6senses eingebautem Account-Grading. 6sense liefert einen Account-Fit-Score basierend auf seinem proprietären ICP-Modell, trainiert auf Unternehmen in Ihrem CRM mit positiver Engagement-Historie. Es ist nützlich, sobald Sie genug CRM-Historie haben, von der 6sense lernen kann (typischerweise 50-100 Closed-Won-Accounts). Für Teams unter dieser Schwelle ist 6senses Fit-Modell unterkalibriert und rauschig. Dieser Skill funktioniert von Tag eins, weil die Rubrik manuell erstellt ist. Der Trade-off: 6senses Modell erfasst Muster, die Sie nicht explizit aufgeschrieben haben; dieser Skill weiß nur, was Sie ihm mitgeteilt haben. Für Teams mit 50+ Closed-Won nutzen Sie beide — verwenden Sie 6senses Score für „was überrascht mich” und die Defektcodes dieses Skills für „was genau stimmt bei den Q3-Accounts nicht.”

vs einer ICP-Scoring-Matrix in einer Tabelle. Viele RevOps-Teams haben eine Tabelle, in der sie jeden Account manuell gegen ICP-Kriterien bewerten. Der Tabellenansatz bricht bei Scale zusammen (Konsistenz sinkt ab 50 Accounts), produziert keine Defekt-Taxonomie (er sagt die Punktzahl, nicht warum sie falsch ist), und wird im Moment veraltet, in dem die Rubrik sich ändert, weil niemand alle zuvor bewerteten Zeilen aktualisiert. Dieser Skill wendet die Rubrik konsistent an, benennt den spezifischen Defekt, und der SHA-256-Mechanismus stellt sicher, dass Sie wissen, wann die Rubrik sich verschoben hat. Die Tabelle ist das richtige Tool für die ersten 20 Accounts; der Skill ist das richtige Tool danach.

Files in this artifact

Download all (.zip)