Une Claude Skill qui prend un batch de réponses NPS en texte libre exportées depuis Delighted et renvoie trois choses sur lesquelles un lead CS Ops peut agir l’après-midi même : une liste de thèmes regroupés avec un décompte et des citations représentatives pour chacun, une étiquette de sentiment par réponse croisée avec le bucket NPS (promoter / passive / detractor), et une liste d’actions priorisées qui relie les thèmes les plus bruyants à un propriétaire et à une prochaine étape. Le but est de transformer la colonne de verbatims que personne ne lit en la partie du sondage qui fait réellement avancer une conversation de roadmap. Le bundle de l’artifact comprend SKILL.md plus deux fichiers de référence que l’équipe adapte une fois et réutilise à chaque cycle de sondage.

Le bundle se trouve dans apps/web/public/artifacts/nps-verbatim-triage-skill/. Il contient SKILL.md, references/1-theme-taxonomy.md (la liste de thèmes amorce que vous ajustez à votre produit), et references/2-output-format.md (le Markdown littéral que la Skill émet). Lisez les deux avant la première exécution.

Quand l’utiliser

Vous êtes un lead CS Ops ou un CSM qui vient de clôturer un cycle NPS dans Delighted et qui a entre 50 et 2 000 réponses en texte libre dans un CSV. Vous voulez des thèmes, pas un nuage de mots — une liste que vous pouvez emmener dans une réunion de roadmap en disant « 47 detractors mentionnent une friction d’onboarding, voici cinq de leurs mots exacts, le propriétaire est l’équipe onboarding ». La Skill est conçue pour la lecture récurrente trimestrielle ou mensuelle, où la valeur réside dans la cohérence : la même taxonomie appliquée de la même manière à chaque cycle pour que les tendances soient comparables d’un sondage à l’autre.

Elle fonctionne le mieux quand les réponses sont dans une seule langue, que la question du sondage est stable d’un cycle à l’autre, et que vous avez au moins 30 verbatims — en dessous, lisez-les vous-même ; regrouper 12 commentaires est un travail de remplissage que le modèle déguise en analyse. C’est une Skill de niveau beginner à dessein : pas de warehouse, pas de câblage d’API au-delà d’un export Delighted, pas d’orchestration. Vous collez un path de CSV et un libellé de question et vous recevez du Markdown en retour.

Quand NE PAS l’utiliser

N’utilisez pas cette Skill comme système d’enregistrement pour boucler la boucle avec des detractors individuels. Elle regroupe et priorise ; elle ne suit pas à qui vous avez répondu. L’inbox et les tags propres à Delighted possèdent ce workflow — la Skill lit l’export, elle n’écrit pas en retour. Si vous avez besoin d’un suivi de follow-up par réponse, faites-le dans Delighted ou votre CRM et utilisez cette Skill pour la lecture agrégée par-dessus.

Ne l’utilisez pas sur moins de 30 réponses. Les décomptes de thèmes ne sont pas significatifs à petit n, et un « thème » appuyé par deux commentaires vous invite à sur-réagir au bruit. La Skill refuse en dessous de 30 par défaut et vous dit de lire les réponses directement à la place.

Ne l’utilisez pas sur des batches multilingues sans les séparer d’abord. La qualité du clustering chute fortement quand on demande au modèle de regrouper un commentaire en espagnol et un en anglais sous un même thème, et l’étape de citation représentative fera remonter une citation que la moitié de vos stakeholders ne peut pas lire. Exportez par langue, exécutez la Skill par langue, fusionnez les tableaux de thèmes vous-même.

Ne lisez pas l’étiquette de sentiment comme un substitut au score NPS lui-même. Un 9 avec un commentaire légèrement critique reste un promoter. La Skill croise le sentiment avec le bucket du score précisément pour que vous voyiez les écarts (le detractor dont le commentaire est neutre, le promoter qui est silencieusement furieux à propos d’une seule feature) — ces écarts sont le signal, pas une raison de réétiqueter le score.

Configuration

Environ 20 à 40 minutes la première fois, presque entièrement passées à ajuster la taxonomie amorce au vocabulaire de votre produit.

Installez la Skill. Déposez le bundle de apps/web/public/artifacts/nps-verbatim-triage-skill/ dans ~/.claude/skills/nps-verbatim-triage/. La Skill expose une seule commande, triage_nps(csv_path, question_label, nps_column, comment_column), plus des helpers internes pour le parsing CSV, le pipeline de clustering en deux passes, et le croisement.
Exportez depuis Delighted. Dans Delighted, allez à votre sondage, Export → CSV. Vous avez besoin au minimum de la colonne du score et de la colonne du commentaire ; conservez la date de réponse et tout champ de segment (plan tier, CSM, région) par lequel vous voulez que la Skill ventile les thèmes. Notez les en-têtes de colonne exacts — vous les passez comme nps_column et comment_column pour que la Skill ne devine jamais quelle colonne est laquelle.
Ajustez la taxonomie amorce. Ouvrez references/1-theme-taxonomy.md et remplacez les thèmes placeholder par les 8 à 15 catégories qui correspondent à votre produit — onboarding, pricing, performance, support-responsiveness, feature-gap:reporting, et ainsi de suite. La liste amorce n’est pas un filtre dur ; elle amorce la première passe de clustering pour que les thèmes soient nommés de façon cohérente d’un cycle à l’autre. La Skill fait toujours remonter un bucket other et propose de nouveaux thèmes quand un cluster ne rentre pas dans la liste amorce, donc vous n’êtes pas aveugle au feedback réellement nouveau.
Adaptez le format de sortie. Ouvrez references/2-output-format.md et confirmez que la mise en page Markdown correspond à ce que votre réunion de roadmap attend — tableau de thèmes, tableau de croisement, liste d’actions priorisées. Si votre équipe colle dans Notion, laissez-le en Markdown ; si elle colle dans un Google Doc, le format survit quand même au collage.
Exécutez pour un sondage. triage_nps(csv_path="q2-2026-nps.csv", question_label="What is the primary reason for your score?", nps_column="Score", comment_column="Comment"). La Skill écrit un fichier Markdown avec les trois sections. Lisez-le en regard de dix ou quinze des commentaires bruts pour confirmer que le clustering correspond à votre lecture avant de l’emmener en réunion.

Ce que la Skill fait réellement

La Skill exécute deux passes Claude, pas une, et la séparation est le choix d’ingénierie qui compte. Une seule passe qui à la fois invente des thèmes et y assigne chaque commentaire produit des noms de thèmes qui dérivent — le modèle forge « activation issues » au commentaire 4 et « onboarding friction » au commentaire 80 pour la même plainte sous-jacente, et vos décomptes se fracturent entre des étiquettes quasi dupliquées.

La passe un est la résolution de taxonomie. Claude lit le batch complet (ou un échantillon représentatif de 200 si le batch est plus grand, pour maîtriser le coût en tokens) aux côtés de la taxonomie amorce de references/1-theme-taxonomy.md, et renvoie une liste consolidée de thèmes : les thèmes amorces qui apparaissent réellement, plus tout nouveau thème qu’il propose pour les clusters que la liste amorce ne couvre pas, chacun avec une définition d’une ligne. Cette passe fige le vocabulaire avant qu’aucun commentaire ne soit assigné, donc les étiquettes sont stables.

La passe deux est l’assignation et le sentiment. Claude prend la liste de thèmes figée et parcourt chaque commentaire, en assignant un thème primaire (et jusqu’à deux thèmes secondaires), une étiquette de sentiment (positif / neutre / négatif), et le bucket NPS existant du commentaire. Il lui est demandé d’assigner other plutôt que de forcer un commentaire dans un thème auquel il ne correspond pas, et de renvoyer le commentaire verbatim comme candidat à la citation représentative. Faire l’assignation après avoir figé la taxonomie est ce qui garde les décomptes honnêtes — chaque commentaire est noté contre la même liste fixe.

La Skill calcule ensuite de façon déterministe, en code, pas dans le modèle : les décomptes de thèmes, le croisement sentiment-par-bucket-NPS, et la liste d’actions priorisées. La priorisation se fait par volume pondéré par les detractors — un thème mentionné par 40 detractors prime sur un thème mentionné par 40 promoters, parce que le thème des detractors est celui qui vous coûte des renewals. Le décompte est fait en code parce que demander au modèle de totaliser sa propre sortie est la source la plus fréquente d’un nombre faux mais assuré.

La sortie est un fichier Markdown : un tableau de thèmes (thème, définition, décompte total, décompte de detractors, trois citations représentatives), un tableau de croisement (sentiment × bucket NPS), et une liste d’actions priorisées (thème, décompte de detractors, un propriétaire suggéré tiré d’un mapping que vous définissez dans le fichier de taxonomie, et une prochaine étape placeholder que vous remplissez). Le propriétaire et la prochaine étape sont un échafaudage — la Skill suggère, l’humain décide.

Réalité des coûts

Une exécution sur 300 verbatims coûte environ 12 000 à 20 000 tokens d’entrée et 3 000 à 5 000 tokens de sortie avec Claude Sonnet — disons 5 à 9 centimes par sondage aux prix actuels de Sonnet. Pour les batches au-delà de 200 commentaires, la passe un échantillonne plutôt que de tout lire, donc le coût croît avec la passe d’assignation (linéaire dans le nombre de commentaires) plutôt que de façon quadratique. Un batch de 1 000 commentaires atterrit près de 25 à 35 centimes. Le temps réel est d’une à trois minutes, dominé par la passe d’assignation.

Le coût alternatif est celui que cela remplace : un analyste CS Ops lisant et étiquetant 300 commentaires à la main prend 3 à 5 heures et produit une taxonomie qui dérive chaque trimestre parce qu’une personne différente l’étiquette à chaque fois. La Skill ramène cela à environ 20 minutes en incluant la passe de revue, et la taxonomie reste figée dans references/1-theme-taxonomy.md donc la comparaison d’un cycle à l’autre est réelle plutôt qu’un artefact de qui a fait l’étiquetage.

À quoi ressemble le succès

Suivez la part des commentaires de detractors qui atterrissent dans un thème nommé plutôt que dans other. Visez moins de 20 % dans other après deux cycles d’ajustement de taxonomie. Un taux d’other durablement élevé signifie que la taxonomie amorce rate une vraie catégorie — c’est un signal pour ajouter un thème, pas pour ignorer le bucket. Deuxièmement, suivez si le thème le mieux priorisé de chaque cycle a réellement produit un changement de roadmap ou de playbook ; un tri qui ne change jamais une décision est un rapport dont personne n’avait besoin. Troisièmement, suivez les deltas de décompte de thèmes d’un cycle à l’autre — toute la raison d’une taxonomie fixe est que « la friction d’onboarding a augmenté de 60 % ce trimestre » n’est une vraie affirmation que lorsque l’étiquette signifiait la même chose le trimestre dernier.

vs les alternatives

vs Trends et tagging intégrés de Delighted. Delighted livre un tagging basé sur des keywords et une vue de tendances, et si vos verbatims sont courts et que vos thèmes se mappent proprement à des keywords, c’est moins de travail et cela reste dans l’outil que vous payez déjà. Le compromis : les tags par keyword ratent le commentaire qui décrit la friction d’onboarding sans utiliser le mot « onboarding », et ne peuvent pas pondérer par volume de detractors ni croiser le sentiment avec le score. Utilisez les tags de Delighted pour le tri always-on de l’inbox et cette Skill pour la lecture agrégée trimestrielle où la qualité des thèmes et la pondération par detractors comptent.

vs un produit dédié de text-analytics (Thematic, Chattermill, ou similaire). Ceux-ci sont réellement plus forts à l’échelle — des dizaines de milliers de réponses, du feedback multi-source, des dashboards longitudinaux. Si l’analyse de feedback est une fonction permanente avec un propriétaire et un budget dédiés, achetez l’un d’eux. Cette Skill est pour le lead CS Ops qui a une lecture NPS trimestrielle et n’a pas de ligne budgétaire à cinq chiffres pour le text-analytics ; elle couvre le cas des 80 % au coût d’un appel d’API Claude.

vs les lire vous-même. Pour moins de ~50 commentaires, les lire vous-même est plus rapide et vous retenez un contexte que la Skill aplatit (le sarcasme, le seul commentaire qui nomme un compte précis sur le point de churn). La Skill gagne sa place au volume et au fil des cycles, où la cohérence l’emporte sur la profondeur qu’une lecture humaine donne à un seul batch. Utilisez la lecture manuelle pour les petits sondages et les detractors individuels à fort enjeu ; utilisez la Skill pour l’agrégat.

Points de vigilance

Dérive des thèmes d’un cycle à l’autre. Si vous réajustez lourdement la taxonomie chaque trimestre, vos chiffres de tendance inter-cycles deviennent dénués de sens parce que les étiquettes ne signifient plus la même chose. Garde-fou : traitez references/1-theme-taxonomy.md comme versionné. Ajoutez des thèmes quand le bucket other le justifie, mais ne renommez ni ne fusionnez les thèmes existants sans le noter, et ne comparez jamais un décompte à travers un cycle où la définition a changé.
Thèmes à petit n lus comme un signal. Un « thème » avec trois mentions invite à un débat de roadmap qu’il ne peut pas soutenir. Garde-fou : la Skill refuse de s’exécuter en dessous de 30 réponses au total, et la liste d’actions priorisées relègue tout thème avec moins de 5 mentions dans une note de bas de page « mentions à faible volume » plutôt que de le prioriser aux côtés de thèmes réels.
Le sarcasme et la négation qui inversent le sentiment. « Ah génial, encore une panne » se lit positif pour un classifieur naïf. Garde-fou : la passe deux a pour instruction d’étiqueter le sentiment d’après l’intention manifeste de l’auteur et de retomber sur neutral quand l’intention est réellement ambiguë plutôt que de deviner positif ; le croisement sentiment-par-NPS fait alors remonter les écarts (un detractor étiqueté positif) pour qu’un humain vérifie les cas limites que le modèle a ratés.
Le modèle qui totalise ses propres décomptes. Demander à Claude de rapporter « 37 commentaires mentionnent le pricing » produit un nombre souvent faux de plusieurs unités et qui a l’air autoritaire. Garde-fou : tous les décomptes sont calculés en code à partir du tableau d’assignation par commentaire, jamais rapportés par le modèle. Le travail du modèle s’arrête à l’étiquetage de chaque commentaire ; l’arithmétique est déterministe.
Citations représentatives qui exposent un client. Un verbatim peut nommer une personne, un compte, ou un montant que vous ne voulez pas dans un slide qui sort du bâtiment. Garde-fou : le format de sortie marque toute citation contenant un nom propre capitalisé en plusieurs mots, un handle @, ou un montant monétaire avec un marqueur [REVIEW: may identify customer] pour que vous le nettoyiez avant que le deck ne se diffuse largement.

Stack

Delighted — diffusion du sondage NPS et l’export CSV que la Skill lit (colonne de score + colonne de commentaire requises)
Claude — pipeline en deux passes : résolution de taxonomie, puis assignation par commentaire et sentiment (Sonnet recommandé pour le coût)
Votre surface de roadmap (Notion, Google Docs, un outil de planification) — où la liste d’actions en Markdown atterrit pour la conversation de roadmap

Modifier cette page sur GitHub