ooligo
claude-skill

NPS-Verbatims mit Claude in Themen triagieren

Difficulty
Anfänger
Setup time
20-40 min
For
cs-ops · csm
Customer Success

Stack

Ein Claude Skill, der einen Batch offener NPS-Antworten nimmt, die aus Delighted exportiert wurden, und drei Dinge zurückgibt, mit denen ein CS-Ops-Lead noch am selben Nachmittag arbeiten kann: eine geclusterte Liste von Themen mit einer Zählung und repräsentativen Zitaten für jedes, ein Sentiment-Label pro Antwort, kreuztabelliert gegen den NPS-Bucket (promoter / passive / detractor), und eine priorisierte Aktionsliste, die die lautesten Themen an einen Owner und einen nächsten Schritt knüpft. Der Sinn ist, die Verbatim-Spalte, die niemand liest, in den Teil der Umfrage zu verwandeln, der eine Roadmap-Diskussion tatsächlich vorantreibt. Das Artifact-Bundle liefert SKILL.md plus zwei Reference-Dateien, die das Team einmal anpasst und in jedem Umfrage-Zyklus wiederverwendet.

Das Bundle liegt unter apps/web/public/artifacts/nps-verbatim-triage-skill/. Es enthält SKILL.md, references/1-theme-taxonomy.md (die Seed-Themenliste, die Sie an Ihr Produkt anpassen) und references/2-output-format.md (das literale Markdown, das der Skill ausgibt). Lesen Sie beide vor dem ersten Lauf.

Wann zu verwenden

Sie sind ein CS-Ops-Lead oder ein CSM, der gerade einen NPS-Zyklus in Delighted abgeschlossen hat und zwischen 50 und 2.000 offene Antworten in einer CSV liegen hat. Sie wollen Themen, keine Wortwolke — eine Liste, die Sie in ein Roadmap-Meeting mitnehmen können und die sagt: „47 detractors erwähnen Onboarding-Reibung, hier sind fünf ihrer exakten Worte, der Owner ist das Onboarding-Team.” Der Skill ist für die wiederkehrende quartals- oder monatsweise Lesung gebaut, bei der der Wert in der Konsistenz liegt: dieselbe Taxonomie, jeden Zyklus auf dieselbe Weise angewendet, damit Trends über Umfragen hinweg vergleichbar sind.

Er funktioniert am besten, wenn die Antworten in einer Sprache vorliegen, die Umfragefrage über Zyklen hinweg stabil ist und Sie mindestens 30 Verbatims haben — darunter lesen Sie sie selbst; 12 Kommentare zu clustern ist Beschäftigungsarbeit, die das Modell als Analyse verkleidet. Es ist mit Absicht ein Skill auf Beginner-Niveau: kein Warehouse, keine API-Verdrahtung über einen Delighted-Export hinaus, keine Orchestrierung. Sie fügen einen CSV-Path und ein Fragelabel ein und bekommen Markdown zurück.

Wann NICHT zu verwenden

Verwenden Sie diesen Skill nicht als System of Record, um den Loop mit einzelnen detractors zu schließen. Er clustert und priorisiert; er verfolgt nicht, wem Sie geantwortet haben. Dieser Workflow gehört Delighteds eigenem Inbox und den Tags — der Skill liest den Export, er schreibt nicht zurück. Wenn Sie ein Follow-up-Tracking pro Antwort brauchen, machen Sie das in Delighted oder Ihrem CRM und verwenden Sie diesen Skill für die aggregierte Lesung obendrauf.

Verwenden Sie ihn nicht bei weniger als 30 Antworten. Die Themen-Zählungen sind bei kleinem n nicht aussagekräftig, und ein „Thema”, das von zwei Kommentaren gestützt wird, verleitet Sie dazu, auf Rauschen überzureagieren. Der Skill verweigert standardmäßig unter 30 und weist Sie an, die Antworten stattdessen direkt zu lesen.

Verwenden Sie ihn nicht bei sprachgemischten Batches, ohne sie zuerst zu trennen. Die Clustering-Qualität fällt stark ab, wenn das Modell gebeten wird, einen spanischen und einen englischen Kommentar unter einem Thema zu gruppieren, und der Repräsentativzitat-Schritt fördert ein Zitat zutage, das die Hälfte Ihrer Stakeholder nicht lesen kann. Exportieren Sie pro Sprache, führen Sie den Skill pro Sprache aus, mergen Sie die Themen-Tabellen selbst.

Lesen Sie das Sentiment-Label nicht als Ersatz für den NPS-Score selbst. Eine 9 mit einem leicht kritischen Kommentar ist immer noch ein promoter. Der Skill kreuztabelliert Sentiment gegen den Score-Bucket gerade deshalb, damit Sie die Diskrepanzen sehen (der detractor, dessen Kommentar neutral ist, der promoter, der still über ein einzelnes Feature wütend ist) — diese Diskrepanzen sind das Signal, kein Grund, den Score umzuetikettieren.

Einrichtung

Etwa 20 bis 40 Minuten beim ersten Mal, fast vollständig damit verbracht, die Seed-Taxonomie an das Vokabular Ihres Produkts anzupassen.

  1. Installieren Sie den Skill. Legen Sie das Bundle aus apps/web/public/artifacts/nps-verbatim-triage-skill/ in ~/.claude/skills/nps-verbatim-triage/. Der Skill stellt einen einzigen Befehl bereit, triage_nps(csv_path, question_label, nps_column, comment_column), plus interne Helper für das CSV-Parsing, die zweistufige Clustering-Pipeline und die Kreuztabelle.
  2. Exportieren Sie aus Delighted. Gehen Sie in Delighted zu Ihrer Umfrage, Export → CSV. Sie brauchen mindestens die Score-Spalte und die Kommentar-Spalte; behalten Sie das Antwortdatum und alle Segment-Felder (plan tier, CSM, Region), nach denen der Skill die Themen aufschlüsseln soll. Notieren Sie die exakten Spaltenüberschriften — Sie übergeben sie als nps_column und comment_column, damit der Skill nie rät, welche Spalte welche ist.
  3. Stimmen Sie die Seed-Taxonomie ab. Öffnen Sie references/1-theme-taxonomy.md und ersetzen Sie die Placeholder-Themen durch die 8 bis 15 Kategorien, die zu Ihrem Produkt passen — onboarding, pricing, performance, support-responsiveness, feature-gap:reporting und so weiter. Die Seed-Liste ist kein harter Filter; sie grundiert den ersten Clustering-Durchlauf, damit Themen über Zyklen hinweg konsistent benannt werden. Der Skill fördert weiterhin einen other-Bucket zutage und schlägt neue Themen vor, wenn ein Cluster nicht in die Seed-Liste passt, sodass Sie für echtes neues Feedback nicht blind sind.
  4. Passen Sie das Output-Format an. Öffnen Sie references/2-output-format.md und bestätigen Sie, dass das Markdown-Layout dem entspricht, was Ihr Roadmap-Meeting erwartet — Themen-Tabelle, Kreuztabelle, priorisierte Aktionsliste. Wenn Ihr Team in Notion einfügt, lassen Sie es als Markdown; wenn es in ein Google Doc einfügt, überlebt das Format das Einfügen trotzdem.
  5. Führen Sie es für eine Umfrage aus. triage_nps(csv_path="q2-2026-nps.csv", question_label="What is the primary reason for your score?", nps_column="Score", comment_column="Comment"). Der Skill schreibt eine Markdown-Datei mit den drei Abschnitten. Lesen Sie sie gegen zehn oder fünfzehn der rohen Kommentare, um zu bestätigen, dass das Clustering zu Ihrer Lesung passt, bevor Sie sie ins Meeting mitnehmen.

Was der Skill tatsächlich tut

Der Skill führt zwei Claude-Durchläufe aus, nicht einen, und die Aufteilung ist die Engineering-Entscheidung, die zählt. Ein einzelner Durchlauf, der zugleich Themen erfindet und jeden Kommentar ihnen zuweist, produziert driftende Themennamen — das Modell prägt bei Kommentar 4 „activation issues” und bei Kommentar 80 „onboarding friction” für dieselbe zugrunde liegende Beschwerde, und Ihre Zählungen zerbrechen über fast-doppelte Labels.

Durchlauf eins ist die Taxonomie-Auflösung. Claude liest den vollständigen Batch (oder eine repräsentative Stichprobe von 200, wenn der Batch größer ist, um die Tokenkosten zu kontrollieren) zusammen mit der Seed-Taxonomie aus references/1-theme-taxonomy.md und gibt eine konsolidierte Themenliste zurück: die Seed-Themen, die tatsächlich vorkommen, plus alle neuen Themen, die es für Cluster vorschlägt, die die Seed-Liste nicht abdeckt, jedes mit einer einzeiligen Definition. Dieser Durchlauf fixiert das Vokabular, bevor irgendein Kommentar zugewiesen wird, sodass die Labels stabil sind.

Durchlauf zwei ist Zuweisung und Sentiment. Claude nimmt die eingefrorene Themenliste und geht jeden Kommentar durch, weist ein primäres Thema zu (und bis zu zwei sekundäre Themen), ein Sentiment-Label (positiv / neutral / negativ) und den bestehenden NPS-Bucket des Kommentars. Es wird angewiesen, other zuzuweisen, statt einen Kommentar in ein Thema zu zwingen, zu dem er nicht passt, und den Kommentar verbatim als Kandidaten für ein Repräsentativzitat zurückzugeben. Die Zuweisung erst nach dem Einfrieren der Taxonomie durchzuführen, ist das, was die Zählungen ehrlich hält — jeder Kommentar wird gegen dieselbe feste Liste bewertet.

Der Skill berechnet dann deterministisch, im Code, nicht im Modell: die Themen-Zählungen, die Sentiment-nach-NPS-Bucket-Kreuztabelle und die priorisierte Aktionsliste. Die Priorisierung erfolgt nach detractor-gewichtetem Volumen — ein Thema, das von 40 detractors erwähnt wird, rangiert über einem, das von 40 promoters erwähnt wird, weil das detractor-Thema dasjenige ist, das Sie Renewals kostet. Die Zählung wird im Code gemacht, weil das Modell zu bitten, seinen eigenen Output zu summieren, die mit Abstand häufigste Quelle einer selbstsicher falschen Zahl ist.

Der Output ist eine Markdown-Datei: eine Themen-Tabelle (Thema, Definition, Gesamtzählung, detractor-Zählung, drei Repräsentativzitate), eine Kreuztabelle (Sentiment × NPS-Bucket) und eine priorisierte Aktionsliste (Thema, detractor-Zählung, ein vorgeschlagener Owner, gezogen aus einem Mapping, das Sie in der Taxonomie-Datei festlegen, und ein Placeholder-nächster-Schritt, den Sie ausfüllen). Owner und nächster Schritt sind Gerüst — der Skill schlägt vor, der Mensch entscheidet.

Kostenrealität

Ein Lauf über 300 Verbatims kostet etwa 12.000 bis 20.000 Input-Tokens und 3.000 bis 5.000 Output-Tokens mit Claude Sonnet — nennen wir es 5 bis 9 Cent pro Umfrage bei aktuellen Sonnet-Preisen. Bei Batches über 200 Kommentaren sampelt Durchlauf eins, statt alles zu lesen, sodass die Kosten mit dem Zuweisungs-Durchlauf wachsen (linear in der Kommentarzahl) statt quadratisch. Ein Batch von 1.000 Kommentaren landet nahe 25 bis 35 Cent. Die Laufzeit beträgt eine bis drei Minuten, dominiert vom Zuweisungs-Durchlauf.

Die alternativen Kosten sind die, die dies ersetzt: ein CS-Ops-Analyst, der 300 Kommentare von Hand liest und taggt, braucht 3 bis 5 Stunden und produziert eine Taxonomie, die jedes Quartal driftet, weil jedes Mal eine andere Person taggt. Der Skill bringt das auf etwa 20 Minuten einschließlich des Review-Durchlaufs, und die Taxonomie bleibt in references/1-theme-taxonomy.md fixiert, sodass der Zyklus-zu-Zyklus-Vergleich echt ist statt ein Artefakt davon, wer das Tagging gemacht hat.

Wie Erfolg aussieht

Verfolgen Sie den Anteil der detractor-Kommentare, die in einem benannten Thema landen statt in other. Zielen Sie auf unter 20 % in other nach zwei Zyklen Taxonomie-Abstimmung. Eine anhaltend hohe other-Rate bedeutet, dass der Seed-Taxonomie eine echte Kategorie fehlt — das ist ein Signal, ein Thema hinzuzufügen, nicht den Bucket zu ignorieren. Zweitens, verfolgen Sie, ob das am höchsten priorisierte Thema jedes Zyklus tatsächlich eine Roadmap- oder Playbook-Änderung produziert hat; eine Triage, die nie eine Entscheidung ändert, ist ein Report, den niemand brauchte. Drittens, verfolgen Sie die Themen-Zählungs-Deltas von Zyklus zu Zyklus — der ganze Grund für eine feste Taxonomie ist, dass „Onboarding-Reibung dieses Quartal um 60 % gestiegen” nur eine echte Aussage ist, wenn das Label letztes Quartal dasselbe bedeutete.

vs Alternativen

vs Delighteds eingebautes Trends und Tagging. Delighted liefert keyword-basiertes Tagging und eine Trends-Ansicht, und wenn Ihre Verbatims kurz sind und Ihre Themen sauber auf Keywords mappen, ist das weniger Arbeit und bleibt innerhalb des Tools, für das Sie bereits zahlen. Der Trade-off: Keyword-Tags verfehlen den Kommentar, der Onboarding-Reibung beschreibt, ohne das Wort „onboarding” zu verwenden, und sie können weder nach detractor-Volumen gewichten noch Sentiment gegen den Score kreuztabellieren. Verwenden Sie Delighteds Tags für die Always-on-Triage der Inbox und diesen Skill für die quartalsweise aggregierte Lesung, bei der Themen-Qualität und detractor-Gewichtung zählen.

vs einem dedizierten Text-Analytics-Produkt (Thematic, Chattermill oder ähnlich). Diese sind in der Skalierung tatsächlich stärker — Zehntausende von Antworten, Multi-Source-Feedback, longitudinale Dashboards. Wenn Feedback-Analyse eine ständige Funktion mit eigenem Owner und Budget ist, kaufen Sie eines davon. Dieser Skill ist für den CS-Ops-Lead, der eine quartalsweise NPS-Lesung hat und keinen fünfstelligen Text-Analytics-Budgetposten besitzt; er deckt den 80-%-Fall zu den Kosten eines Claude-API-Aufrufs ab.

vs sie selbst lesen. Bei unter ~50 Kommentaren ist es schneller, sie selbst zu lesen, und Sie behalten Kontext, den der Skill plattmacht (den Sarkasmus, den einen Kommentar, der ein bestimmtes Konto kurz vor dem Churn benennt). Der Skill verdient sich seinen Platz bei Volumen und über Zyklen hinweg, wo Konsistenz die Tiefe schlägt, die eine menschliche Lesung einem einzelnen Batch gibt. Verwenden Sie die manuelle Lesung für kleine Umfragen und die einzelnen detractors mit hohem Einsatz; verwenden Sie den Skill für das Aggregat.

Worauf zu achten ist

  • Themen-Drift über Zyklen. Wenn Sie die Taxonomie jedes Quartal stark neu abstimmen, werden Ihre Zyklusübergreifenden Trend-Zahlen bedeutungslos, weil die Labels nicht mehr dasselbe bedeuten. Schutz: Behandeln Sie references/1-theme-taxonomy.md als versioniert. Fügen Sie Themen hinzu, wenn der other-Bucket es rechtfertigt, aber benennen oder mergen Sie bestehende Themen nicht, ohne es zu vermerken, und vergleichen Sie nie eine Zählung über einen Zyklus hinweg, in dem sich die Definition geändert hat.
  • Kleine-n-Themen als Signal gelesen. Ein „Thema” mit drei Erwähnungen lädt zu einem Roadmap-Argument ein, das es nicht tragen kann. Schutz: Der Skill verweigert den Lauf unter 30 Gesamtantworten, und die priorisierte Aktionsliste verbannt jedes Thema mit weniger als 5 Erwähnungen in eine „Erwähnungen mit geringem Volumen”-Fußnote, statt es neben echten Themen zu priorisieren.
  • Sarkasmus und Verneinung, die das Sentiment umkippen. „Oh super, noch ein Ausfall” liest sich für einen naiven Klassifikator positiv. Schutz: Durchlauf zwei wird angewiesen, das Sentiment aus der erkennbaren Absicht des Kommentators zu labeln und auf neutral zurückzufallen, wenn die Absicht wirklich mehrdeutig ist, statt positiv zu raten; die Sentiment-nach-NPS-Kreuztabelle fördert dann die Diskrepanzen zutage (ein als positiv gelabelter detractor), sodass ein Mensch die Grenzfälle stichprobenartig prüfen kann, die das Modell falsch hatte.
  • Das Modell, das seine eigenen Zählungen summiert. Claude zu bitten, „37 Kommentare erwähnen Pricing” zu berichten, produziert eine Zahl, die oft um mehrere danebenliegt und autoritativ aussieht. Schutz: Alle Zählungen werden im Code aus der Zuweisungstabelle pro Kommentar berechnet, nie vom Modell berichtet. Die Arbeit des Modells endet beim Labeln jedes Kommentars; die Arithmetik ist deterministisch.
  • Repräsentativzitate, die einen Kunden exponieren. Ein Verbatim kann eine Person, ein Konto oder einen Geldbetrag nennen, den Sie nicht in einem Slide haben wollen, der das Gebäude verlässt. Schutz: Das Output-Format markiert jedes Zitat, das einen großgeschriebenen mehrwortigen Eigennamen, ein @-Handle oder einen Währungsbetrag enthält, mit einem [REVIEW: may identify customer]-Marker, damit Sie es scrubben, bevor das Deck breit hinausgeht.

Stack

  • Delighted — Auslieferung der NPS-Umfrage und der CSV-Export, den der Skill liest (Score-Spalte + Kommentar-Spalte erforderlich)
  • Claude — zweistufige Pipeline: Taxonomie-Auflösung, dann Zuweisung pro Kommentar und Sentiment (Sonnet aus Kostengründen empfohlen)
  • Ihre Roadmap-Oberfläche (Notion, Google Docs, ein Planungs-Tool) — wo die Markdown-Aktionsliste für die Roadmap-Diskussion landet