ooligo
claude-skill

Résumé de débrief d'entretien avec Claude

Difficulty
débutant
Setup time
30min
For
recruiter · hiring-manager · talent-acquisition
Recruiting & TA

Stack

Un Claude Skill qui prend l’ensemble du panel d’un candidat — la scorecard structurée de chaque intervieweur, les transcriptions optionnelles BrightHire ou Metaview, et le rubric du poste — et produit un brief de débrief fondé sur des preuves que le panel lit avant la réunion de débrief synchrone. Le brief fait remonter le signal agrégé par dimension du rubric, les zones d’accord et de désaccord, les points de décision précis que le panel doit résoudre, et des questions de suivi quand le signal est insuffisant. Il n’émet délibérément pas de recommandation embauche/non-embauche — c’est le rôle du panel, et traiter cela autrement place le workflow dans le régime à haut risque de l’Annexe III de l’EU AI Act et de la plupart des lois américaines sur l’IA en matière d’embauche.

L’effet en aval : les debriefs deviennent des discussions de 30 minutes sur les vrais désaccords plutôt que des revues de 90 minutes sur qui a scoré quoi.

Quand l’utiliser

Lancez le skill quand tout ce qui suit est vrai :

  • Un loop d’entretien complet a été conclu pour le candidat, avec au moins 3 intervieweurs distincts couvrant le rubric du poste.
  • Chaque intervieweur a soumis une scorecard structurée par rapport au rubric (les scorecards en texte libre uniquement échouent la vérification d’input à l’étape 1 du skill — voir apps/web/public/artifacts/interview-debrief-summary-skill/SKILL.md).
  • La réunion de débrief synchrone est dans au moins 2 heures. Le brief est destiné à être lu à l’avance, pas parcouru pendant la réunion.
  • Le poste dispose d’un rubric structuré correspondant à la forme dans apps/web/public/artifacts/interview-debrief-summary-skill/references/1-interview-rubric-template.md — chaque dimension a un tableau d’ancres de 1-5, chaque ancre a une description comportementale.

Quand NE PAS l’utiliser

Le skill est le mauvais outil pour plusieurs tâches adjacentes :

  • Décider automatiquement embauche/non-embauche. Le brief n’émet jamais de décision finale. Il émet des points de décision pour le panel. La décision automatique déclenche les obligations de l’Annexe III de l’EU AI Act, l’exigence d’audit de biais de la NYC LL 144, les exigences de consentement de l’IL AIVI et les règles de notification de la MD HB 1202. Le skill est construit pour tomber en dehors de ce régime ; le câbler dans une logique de décision automatique l’y réintroduit.
  • Envoyer du feedback aux candidats sans révision du recruteur. Le brief est strictement interne. Le texte de justification synthétisé utilise un langage interne du panel qui devient une preuve dans une plainte pour discrimination s’il est surfacé verbatim au candidat.
  • Remplacer la conversation de débrief du panel. Le brief est l’input à la discussion, pas un substitut. « Le brief montre un consensus, donc sautons le débrief » est le mode d’échec contre lequel les règles de references/3-disagreement-escalation.md sont conçues — le consensus sans friction est lui-même une préoccupation de calibration.
  • Loops d’entretien à un seul intervieweur. En dessous de 3 intervieweurs, la synthèse de panel n’est pas significative. Utilisez un workflow de feedback à intervieweur unique.
  • Transcriptions sans consentement. Les juridictions à consentement bipartite (CA, FL, IL, MD, MA, MT, NH, PA, WA) en font un arrêt obligatoire. Ne transmettez pas les transcriptions BrightHire ou Metaview sauf si le candidat a consenti à l’enregistrement au début de l’entretien.
  • Sessions de calibration sur les questions du rubric lui-même. Quand le panel débat du rubric (pas du candidat), la synthèse par dimension du brief est du bruit. Conduisez la session de calibration séparément, puis relancez le brief une fois le rubric stable.

Configuration

Le bundle d’artifact se trouve dans apps/web/public/artifacts/interview-debrief-summary-skill/. Il contient :

  • SKILL.md — la définition du Claude Skill avec le frontmatter, les règles d’invocation, la méthode en six étapes, le format de sortie littéral et les paires point de vigilance / protection.
  • references/1-interview-rubric-template.md — la forme de rubric structuré que le skill valide contre les inputs.
  • references/2-debrief-brief-format.md — le format Markdown littéral dans lequel le brief est écrit.
  • references/3-disagreement-escalation.md — les règles déterministes de points de décision (plage, veto du bar-raiser, divergence HM-vs-panel, seul non parmi des oui, lacune de couverture, cluster sous-étayé).

Pour mettre en place le workflow :

  1. Déposez le bundle dans votre répertoire de skills Claude Code. Placez interview-debrief-summary-skill/ sous le .claude/skills/ de votre projet (ou votre emplacement de skills partagé d’équipe).
  2. Remplacez le modèle de rubric par votre rubric propre au poste. Modifiez references/1-interview-rubric-template.md par poste — chaque dimension a besoin d’un tableau d’ancres de 1-5 avec des descriptions comportementales. Gardez le nombre de dimensions entre 4 et 7. En dessous de 4, le panel ne peut pas trianguler ; au-dessus de 7, les scorecards sont remplies comme une corvée et la qualité des preuves se dégrade.
  3. Câblez l’export de scorecard. Configurez votre export ATS pour que le skill puisse lire les scorecards structurées. Ashby, Greenhouse et Lever exposent chacun le JSON de scorecard via API ; le skill attend un tableau de {interviewer_id, interviewer_role, dimension_scores, evidence_notes} selon le bloc Inputs dans SKILL.md.
  4. Testez sur un candidat connu. Lancez sur un candidat pour lequel le panel a déjà débriefé et pris une décision. Comparez les points de décision du brief avec les sujets de discussion du débrief réel. Si le brief fait remonter des sujets que le panel n’a pas discutés (ou manque des sujets que le panel a discutés), affinez le rubric — pas le prompt — d’abord.
  5. Configurez le répertoire du journal d’audit. Le skill ajoute une ligne par exécution à audit/<YYYY-MM>.jsonl contenant le SHA du rubric, le nombre d’intervieweurs, le nombre de points de décision et le timestamp. Pas de PII candidat dans la ligne d’audit. Le journal est ce qui rend le workflow défendable sous un questionnement NYC LL 144 / EU AI Act.

Ce que le skill fait réellement

La méthode en six étapes s’exécute dans cet ordre, et l’ordre est porteur de sens :

  1. Validation du rubric et des inputs. S’arrête sur les rubrics en texte libre uniquement, moins de 3 intervieweurs, les dimensions couvertes par moins de 2 intervieweurs, les chaînes evidence_notes de moins de 20 caractères. L’arrêt plutôt que l’avertissement est intentionnel — un brief généré sur des inputs partiels devient l’ancre mentale du panel.
  2. Agrégation par dimension (déterministe). Calcule la moyenne, la plage, l’écart-type et la décomposition par rôle d’intervieweur. Le LLM ne voit pas encore les scorecards à ce stade.
  3. Identification des points de décision (déterministe). Applique les six règles dans references/3-disagreement-escalation.md. Les points de décision sont basés sur le signal structuré, pas sur ce que le LLM juge comme un désaccord.
  4. Synthèse par dimension. Le LLM produit une synthèse de deux à trois phrases par dimension, citant les chaînes evidence_notes verbatim entre guillemets. La paraphrase est là où le biais entre ; le skill l’interdit. Quand les transcriptions sont disponibles, la synthèse cite la plage de timestamps. « Signal insuffisant — recommande un suivi » est un output de première classe, distinct de « pas de recommandation » — l’absence de preuves sur une dimension est une information que le panel doit avoir.
  5. Vérification de calibration. Compare la distribution des scores du candidat avec la moyenne glissante des 5 derniers debriefs pour le même poste. Les résultats apparaissent dans un bloc « Note de calibration » à la fin du brief, jamais en ligne par dimension. Intention : cadrer la conversation, pas ajuster les scores.
  6. Rédaction du brief et arrêt. Écrit dans briefs/<candidate_id>-<YYYYMMDD>.md. Ajoute une ligne au journal d’audit. N’appelle aucun endpoint « envoyer au candidat », « poster dans Slack » ou « mettre à jour l’étape ATS ». Le brief est interne jusqu’à ce que le recruteur et le hiring manager décident quoi en faire.

Le format de sortie est fixe (voir apps/web/public/artifacts/interview-debrief-summary-skill/references/2-debrief-brief-format.md) et n’a intentionnellement pas de section « Recommandation » — uniquement « Signal agrégé », « Synthèse par dimension », « Points de décision pour le panel », « Questions de suivi », « Note de calibration » et « Annexe — preuves par intervieweur ». Un lecteur qui essaie de lire une décision d’embauche trouve que la structure le renvoie vers la discussion.

Réalité des coûts

Un brief typique pour un loop de 5 intervieweurs avec 5 dimensions de rubric et sans transcriptions jointes représente environ 18-25k tokens d’entrée (rubric + scorecards + notes de preuves + les trois fichiers de référence) et 4-6k tokens de sortie. Avec Claude Sonnet au tarif API actuel, c’est environ 0,10-0,15 $ par débrief. Avec des transcriptions jointes (transcription typique d’un entretien de 30 minutes : 7-10k tokens chacune), un loop de 5 intervieweurs pousse à 0,40-0,70 $ par débrief.

Le calcul du temps économisé est le chiffre porteur : une réunion de débrief typique de 5 intervieweurs dure 60-90 minutes, dont 30-50 minutes sont un tour de table « qu’avons-nous chacun vu » avant toute discussion de décision réelle. Le brief remplace le tour de table. Les recruteurs utilisant ce skill dans des organisations de référence rapportent des réunions de débrief d’une durée moyenne de 28 minutes (contre 75 minutes) pour les loops où le brief a été distribué au moins 4 heures à l’avance.

C’est environ 45 minutes économisées par débrief, sur (typiquement) 5 intervieweurs — environ 3,75 heures-personne de temps de réunion par loop, pour un coût bien en dessous d’un dollar.

Métriques de succès

La métrique à faire bouger : durée médiane de la réunion de débrief en minutes de calendrier pour les loops où le brief a été distribué au moins 4 heures à l’avance. Extrayez depuis votre outil de calendrier (ou depuis l’historique de planification d’entretiens Ashby) et segmentez en cohortes « avec brief » vs « sans brief ». Trajectoire cible : médiane de 60-90 minutes dans la cohorte sans brief tombe à une médiane de 25-40 minutes dans la cohorte avec brief sur les 4-6 premières semaines.

Contre-métrique à observer en parallèle : taux de regret post-embauche à 6 mois dans la cohorte avec brief vs la cohorte sans brief. Si les debriefs sont devenus plus rapides mais que le taux de regret a augmenté, le brief laisse les désaccords se moyenner plutôt que de les faire remonter — resserrez les règles de désaccord-escalade dans references/3-disagreement-escalation.md (typiquement : baissez le seuil de plage de 2 à 1,5, ou ajoutez un déclencheur « tout score sous 3 » pour la dimension concernée).

Alternatives

  • Les fonctionnalités de débrief intégrées d’Ashby. Ashby agrège les scorecards dans une vue de tableau de bord et calcule une moyenne du panel. Il ne produit pas de synthèse écrite, ne fait pas remonter des points de décision par règle, et ne différencie pas « consensus à 4,0 » de « cluster sous-étayé à 4,0 ». Utilisez la vue d’Ashby comme source de données que le skill lit, pas comme substitut au brief.
  • Agrégation de scorecards Greenhouse. Greenhouse agrège les scorecards en un décompte embauche/non-embauche par intervieweur plus un agrégat de recommandation du panel. L’agrégat est le mode d’échec contre lequel le skill est conçu — il pousse les panels vers l’arithmétique de scores comme décision et masque les vetos de bar-raiser qui se trouvent moyennés dans un « pouces en l’air » global.
  • Notes manuelles du recruteur. Un recruteur lisant chaque scorecard et écrivant un email d’un paragraphe « thèmes pour le débrief » est le statu quo de la plupart des équipes. Il capture la lecture du recruteur du loop, ce qui est précieux, mais il évolue linéairement avec le temps du recruteur et tend à identifier des patterns vers « ce que le HM veut probablement » sur de nombreuses itérations. Le skill est cohérent entre les recruteurs et fait remonter des désaccords structurels (R3 — divergence HM-vs-panel) qu’un recruteur rédigeant le brief lui-même signale rarement.
  • Ne rien faire. Le défaut — chacun arrive au débrief avec ses propres notes et la discussion se déroule en tour de table. Fonctionne bien pour les équipes à faible volume (moins de 10 embauches par trimestre). À volume plus élevé, le tour de table est le goulot d’étranglement et la qualité des debriefs se dégrade à mesure que la fatigue s’accumule.

Points de vigilance

  • Biais d’une opinion forte (ancrage sur la première scorecard lue). Protection : l’étape 2 agrège de manière déterministe sur tous les intervieweurs avant que le LLM ne voie une seule scorecard. La règle R3 de l’étape 3 (divergence HM-vs-panel) fait explicitement remonter la divergence d’opinion forte unique comme point de décision. La synthèse attribue les preuves par rôle d’intervieweur (HM, Pair, XFN, Bar-raiser) plutôt que par nom dans les blocs par dimension, ce qui empêche le brief de s’arrondir vers l’intervieweur senior.
  • Faux consensus sur des dimensions sous-étayées. Protection : vérification de longueur minimale de evidence_notes à l’étape 1 (moins de 20 chars échoue). R6 (cluster sous-étayé) à l’étape 3 fait remonter les dimensions où 3+ scores se groupent dans 1 point mais où la note de preuve moyenne est sous 30 caractères comme RECOMMEND FOLLOW-UP, pas comme accord. C’est le mode d’échec silencieux le plus courant des debriefs en texte libre.
  • Arithmétique de scores comme décision (traiter une moyenne au-dessus de 3,5 comme « embauche »). Protection : le brief n’émet jamais de recommandation embauche/non-embauche. Le format de sortie n’a intentionnellement pas de bloc « Recommandation » — uniquement des points de décision et des suivis. Un lecteur qui essaie de lire une décision trouve que la structure le renvoie vers la discussion.
  • Veto du bar-raiser silencieusement écarté. Protection : R2 à l’étape 3 fait remonter automatiquement tout score de bar-raiser 2+ en dessous de la moyenne du panel comme point de décision. Le brief ne peut pas être généré dans un état où une dissidence de bar-raiser est moyennée — même si le reste du panel est unanime.
  • Patterns démographiques se glissant dans la synthèse. Protection : la synthèse cite les chaînes evidence_notes verbatim plutôt que de les paraphraser, ce qui empêche le LLM de réécrire une observation dans un langage qui télégraphie une inférence de classe protégée. Si une evidence_note transmise contient elle-même des proxies de classe protégée (origine du nom, inférence d’âge, inférence de statut parental, « culture fit » sans ancres comportementales), le skill s’arrête à l’étape 1 et fait remonter la note offensante pour réécriture avant de continuer.
  • Note de calibration surinterprétée comme un verdict. Protection : le bloc de calibration est ajouté à la fin du brief, jamais en ligne par dimension. Le bloc utilise le langage « dans les tolérances » ou « hors tolérances — à discuter » plutôt que de suggérer une action, et la vérification de calibration est entièrement sautée si moins de 5 debriefs précédents pour le même poste sont chargés.

Stack

  • Fournisseur IA : Claude (Sonnet pour l’étape de synthèse ; Opus pour la validation initiale du rubric si le rubric est ambigu).
  • ATS : Ashby, Greenhouse ou Lever — la source de données des scorecards.
  • Transcriptions optionnelles : BrightHire ou Metaview, avec capture documentée du consentement bipartite au début de l’entretien.
  • Où ça s’inscrit : voir entretiens structurés pour la discipline de conception de rubric que ce skill suppose être déjà en place. Le skill ne peut pas sauver un processus d’entretien non structuré — il peut seulement synthétiser le signal qu’un processus structuré produit.
  • Cadre politique : voir politique IA pour les équipes juridiques pour la gestion d’IA d’entreprise de Niveau-A requise pour les inputs de données candidats (les transcriptions en particulier sont des données personnelles sensibles sous le RGPD et la plupart des régimes de confidentialité des États américains).

Files in this artifact

Download all (.zip)