ooligo
claude-skill

Synthèse de vérification de références avec Claude

Difficulty
intermédiaire
Setup time
30min
For
recruiter · talent-acquisition · hiring-manager
Recruiting & TA

Stack

Un Claude Skill qui prend les notes d’appel de références du recruteur (transcript brut ou résumé enregistré), le CV du candidat et le rubrique du poste, et produit un rapport de références structuré : évaluation par dimension avec citations verbatim, contradictions entre références, zones non couvertes par les références (afin que le recruteur sache quoi demander à la prochaine référence), et une fourchette de confiance globale — jamais une recommandation embauche/non-embauche. Remplace le compte rendu de 90 minutes du recruteur par une boucle d’examen-et-édition de 15 minutes tout en préservant l’auditabilité des données de référence.

Quand l’utiliser

  • Vous avez complété deux ou plus appels de référence et disposez soit d’un transcript (Fathom, enregistrements d’appels Gong, ou notes détaillées) soit de résumés d’appels.
  • Le poste a un rubrique écrit (le même utilisé dans les entretiens structurés) afin que la synthèse puisse être sensible aux dimensions.
  • Vous voulez que les affirmations des références soient auditables ultérieurement — chaque assertion dans le rapport doit tracer vers une citation verbatim des notes d’appel, avec le nom de la référence et l’horodatage de l’appel.

Quand NE PAS l’utiliser

  • Générer une recommandation embauche/non-embauche. Le skill produit une évaluation structurée avec une confiance par dimension. La décision d’embauche appartient au hiring manager et au debrief d’entretien. Connecter la sortie du skill à une décision déclenche les mêmes préoccupations de prise de décision automatisée que l’auto-rejet au screening.
  • Remplacer l’appel de référence lui-même. Le skill traite des notes ; il n’interviewe pas les références. L’envoi automatique d’emails aux références avec un formulaire (« questionnaire de référence généré par IA ») produit des données de faible qualité et érode la volonté de la référence de parler candidement lors de futurs appels.
  • Enregistrer des appels sans consentement. La plupart des états américains ont le consentement d’une partie pour que le recruteur enregistre ; quelques-uns (CA, IL, FL, MD, MA, MI, MT, NH, PA, WA) ont le consentement des deux parties. L’UE est GDPR — les appels enregistrés nécessitent une base légale explicite. Le skill traite les notes quelle que soit la façon dont elles ont été capturées ; il n’autorise pas l’enregistrement.
  • Références en coulisses que le candidat n’a pas approuvées. Posture de consentement différente, workflow différent, exposition juridique différente.

Setup

  1. Déposez le bundle. Placez apps/web/public/artifacts/reference-check-summary-skill/SKILL.md dans votre répertoire de skills Claude Code.
  2. Réutilisez le rubrique du poste. Le skill lit le même fichier de rubrique utilisé pour le screening et les entretiens structurés. Si votre équipe n’a pas de rubrique partagé, le pack de questions d’entretien est le prérequis.
  3. Configurez l’enregistrement du consentement. Le skill écrit un champ consent_check par référence (l’appel a-t-il été enregistré ? Le candidat a-t-il autorisé la référence ? La référence a-t-elle consenti au traitement des notes ?). Si une réponse est no ou unknown, le rapport est signalé avec un header d’avertissement de consentement.
  4. Testez sur une embauche clôturée. Traitez les références d’un candidat embauché le trimestre dernier. Comparez le rapport du skill à votre propre compte rendu contemporain. Ajustez les ancres du rubrique si le skill pondère différemment les dimensions que l’équipe.

Ce que le skill fait réellement

Cinq étapes. L’ordre compte : la validation du consentement et l’ancrage au rubrique se produisent avant la synthèse, parce qu’une synthèse sans consentement ou ancrage au rubrique est juste une re-narration des appels.

  1. Valider le consentement. Vérifier consent_check par référence. Consentement manquant ou unknown → émettre un header d’avertissement sur le rapport (« Consentement non enregistré pour la référence R2 — vérifiez avant de partager le rapport ») et continuer. Ne pas bloquer ; le recruteur peut savoir que le consentement a été donné verbalement et a oublié de le consigner.
  2. Ancrer dans le rubrique. Lire le rubrique du poste. Les dimensions de la synthèse sont les dimensions du rubrique, pas des dimensions génériques (« communication », « leadership »). Si le rubrique a skill_match, level_fit, ownership_signal, team_collaboration, ce sont les titres du rapport.
  3. Synthèse par dimension. Pour chaque dimension du rubrique, extraire chaque citation des notes d’appel portant sur la dimension. Regrouper par référence. Étiqueter chaque citation avec la force (strong-positive, weak-positive, neutral, weak-negative, strong-negative). Les citations sont verbatim depuis les notes ; la paraphrase n’est pas autorisée parce qu’elle dépouille l’auditabilité que le skill existe à fournir.
  4. Faire remonter les contradictions et les gaps. Identifier les dimensions où deux références divergent (une strong-positive, une autre weak-negative) et faire remonter la contradiction explicitement. Identifier les dimensions non couvertes par les références (aucune citation trouvée) et les faire remonter comme gaps afin que le recruteur sache quoi demander à la prochaine référence, ou sur quoi l’étape de classement du rubrique devra s’appuyer.
  5. Fourchette de confiance par dimension, pas de recommandation globale. Pour chaque dimension, renvoyer une fourchette de confiance : high (plusieurs références convergent avec strong-positive ou strong-negative), medium (mixte mais convergent), low (référence unique ou contradiction), not assessed. Ne pas renvoyer un score global embauche/non-embauche. La décision appartient au hiring manager.

Coûts réels

Par rapport candidat (typiquement 2-4 références, 60-90 minutes de temps d’appel total, 4-8 000 mots de notes), sur Claude Sonnet 4.6 :

  • Tokens LLM — typiquement 12-20 000 tokens d’input (notes + rubrique + instructions du skill) et 2-4 000 tokens d’output (rapport structuré). Au tarif public de Sonnet 4.6, environ 0,10-0,18 $ par candidat. Une équipe exécutant 20 cycles de références par mois dépense 2-4 $ en coût modèle.
  • Temps du recruteur — le gain est là. Rédiger manuellement un rapport de références structuré depuis des scorecards prend 60-90 minutes par candidat. Examiner le rapport du skill et éditer le ton ou ajouter du contexte prend 15-25 minutes. Le gain de temps plus important est sur la section des contradictions, qu’un recruteur manque souvent lors d’une première passe de ses propres notes.
  • Temps de setup — 30 minutes une fois pour l’intégration du rubrique et le format de vérification du consentement. Le rubrique de chaque poste est réutilisé, donc le setup marginal par poste est nul.

Métrique de succès

Suivez deux chiffres :

  • Satisfaction du hiring manager avec le rapport — un score 1-5 que le hiring manager donne après le debrief, sur la question de savoir si le rapport a fait remonter les bonnes dimensions et n’a pas enterré les contradictions. Devrait se situer à 4+ sur un rubrique calibré.
  • Délai du cycle de référence — temps d’horloge murale entre « dernière référence complétée » et « le hiring manager a le rapport ». Devrait passer de 1-2 jours à moins de 2 heures.

Comparaison avec les alternatives

  • Versus rapport rédigé à la main. La rédaction à la main est le bon choix pour les recrutements à plus forts enjeux (exécutif, avec recommandation de board) où la voix narrative du recruteur est le livrable. Le skill rentabilise son coût de setup sur les 80 % de recrutements où l’artefact structuré est ce dont l’équipe a besoin.
  • Versus l’automatisation des références native à l’ATS (Greenhouse Reference Check, Crosschq, SkillSurvey). Ces produits possèdent la collecte des références (références de style questionnaire par email). Choisissez-les si votre cabinet préfère les références asynchrones par questionnaire. Choisissez ce skill si votre équipe préfère les appels en direct et que le goulot d’étranglement est la synthèse après. Les deux sont complémentaires ; le skill fonctionne aussi sur les sorties de questionnaire.
  • Versus ChatGPT-style « résume ces notes de référence ». Le chat générique renvoie un paragraphe qui se lit bien et enterre les contradictions. Le Skill est structurellement différent : il force le regroupement par dimension, requiert des citations verbatim, refuse de produire une recommandation globale.

Points de vigilance

  • Biais de rétrospection sur les références à haute confiance. Garde-fou : la structure du rapport force le regroupement par dimension plutôt que le récit mené par la référence, ce qui rend plus difficile pour une référence avec une opinion forte de dominer la lecture.
  • Citations hallucinnées. Garde-fou : le skill est contraint à l’extraction verbatim. Les citations n’apparaissant pas verbatim dans les notes d’appel sont interdites ; le prompt dirige explicitement le modèle à omettre une dimension si aucune citation ne peut être citée plutôt que de paraphraser.
  • Surpondération d’une référence. Garde-fou : les contradictions sont remontées explicitement, avec les deux citations côte à côte. La logique de fourchette de confiance du rapport rétrograde vers low sur les dimensions où les références divergent, ce qui empêche une lecture confiante mais erronée.
  • Recommandation d’embauche implicite par l’ordre. Garde-fou : le rapport ordonne les dimensions par le rubrique, pas par l’enthousiasme de la référence. Les citations strong-positive ne flottent pas vers le haut ; elles atterrissent dans la dimension à laquelle elles appartiennent.
  • Exposition au consentement et à l’enregistrement. Garde-fou : le champ de vérification du consentement par référence est un input requis ; le consentement manquant déclenche un header d’avertissement. Le skill traite les notes quelle que soit le statut d’enregistrement, mais il n’absout pas le recruteur de l’obligation de consentement sous-jacente.
  • Biais dans le rubrique sous-jacent qui se propage. Garde-fou : si le rubrique a des dimensions qui échouent à une vérification d’équité (« adéquation culturelle » sans ancres, scoring de rang d’école), la synthèse hérite du biais. Faites passer le rubrique par l’auditeur de slate de diversité pour le pool du poste en premier.

Stack

Le bundle du skill se trouve dans apps/web/public/artifacts/reference-check-summary-skill/ et contient :

  • SKILL.md — la définition du skill
  • references/1-report-format.md — le template de sortie littéral (titres par dimension, échelle de fourchette de confiance, section des contradictions)
  • references/2-consent-checklist.md — le schéma de vérification du consentement et les règles de header d’avertissement

Outils supposés par le workflow : Claude (le modèle). Optionnel : Fathom ou Gong pour l’enregistrement d’appels ; Ashby pour la fiche candidat. Pour le workflow de debrief d’entretien parallèle, voir le skill de résumé de debrief d’entretien.

Concepts associés : entretiens structurés, qualité de l’embauche, expérience candidat.

Files in this artifact

Download all (.zip)