ooligo
claude-skill

Interview-Debrief-Zusammenfassung mit Claude

Difficulty
Anfänger
Setup time
30min
For
recruiter · hiring-manager · talent-acquisition
Recruiting & TA

Stack

Ein Claude Skill, der das vollständige Panel eines Kandidaten nimmt — die strukturierten Scorecards jedes Interviewers, optionale BrightHire- oder Metaview-Transkripte und das Rollen-Rubric — und ein evidenzbasiertes Debrief-Briefing produziert, das das Panel vor dem synchronen Debrief-Meeting liest. Das Briefing zeigt aggregiertes Signal pro Rubric-Dimension auf, Bereiche der Übereinstimmung und Uneinigkeit, die spezifischen Entscheidungspunkte, die das Panel auflösen muss, und Folgefragen, wenn das Signal dünn ist. Es gibt absichtlich keine Einstellungs-/Nichteinstellungsempfehlung aus — das ist die Aufgabe des Panels, und es anders zu behandeln, platziert den Workflow im EU-KI-Act-Annex-III-Hochrisiko-Regime und den meisten US-Bundesstaaten-Einstellungs-KI-Statuten.

Der nachgelagerte Effekt: Debriefs werden 30-minütige Diskussionen der tatsächlichen Uneinigkeiten statt 90-minütige Reviews, wer was bewertet hat.

Wann einsetzen

Den Skill ausführen, wenn alle folgenden zutreffen:

  • Ein vollständiger Interview-Loop für den Kandidaten wurde abgeschlossen, mit mindestens 3 unterschiedlichen Interviewern, die das Rollen-Rubric abdecken.
  • Jeder Interviewer hat eine strukturierte Scorecard gegen das Rubric eingereicht (Freitext-only-Scorecards scheitern an der Eingabeprüfung in Schritt 1 des Skills — siehe apps/web/public/artifacts/interview-debrief-summary-skill/SKILL.md).
  • Das synchrone Debrief-Meeting ist mindestens 2 Stunden entfernt. Das Briefing ist dafür gedacht, vorab gelesen zu werden, nicht im Meeting überflogen zu werden.
  • Die Stelle hat ein strukturiertes Rubric, das der Form in apps/web/public/artifacts/interview-debrief-summary-skill/references/1-interview-rubric-template.md entspricht — jede Dimension hat eine 1-5-Anker-Tabelle, jeder Anker hat eine Verhaltensbeschreibung.

Wann NICHT einsetzen

Der Skill ist das falsche Tool für mehrere angrenzende Aufgaben:

  • Automatisches Entscheiden über Einstellung/Nichteinstellung. Das Briefing gibt niemals eine endgültige Entscheidung aus. Es gibt Entscheidungspunkte für das Panel aus. Die automatische Entscheidung löst EU-KI-Act-Annex-III-Pflichten, die Bias-Audit-Anforderung des NYC LL 144, die IL AIVI-Einwilligungsanforderungen und die MD HB 1202-Benachrichtigungsregeln aus. Der Skill ist so konzipiert, außerhalb dieses Regimes zu fallen; ihn in Auto-Entscheidungs-Logik zu verdrahten, bringt ihn wieder hinein.
  • Feedback an Kandidaten ohne Recruiter-Überprüfung senden. Das Briefing ist nur intern. Synthetisierter Begründungstext verwendet interne Panel-Formulierungen, die zu Beweisen in einem Diskriminierungsanspruch werden, wenn sie dem Kandidaten wörtlich aufgezeigt werden.
  • Das Panel-Debrief-Gespräch ersetzen. Das Briefing ist der Input zur Diskussion, kein Ersatz. „Das Briefing zeigt Konsens, also überspringen wir das Debrief” ist der Fehlermodus, gegen den die Regeln in references/3-disagreement-escalation.md konzipiert sind — reibungsloser Konsens ist selbst ein Kalibrierungsanliegen.
  • Single-Interviewer-Loops. Unter 3 Interviewern ist die Panel-Synthese nicht bedeutungsvoll. Verwenden Sie einen Single-Interviewer-Feedback-Workflow.
  • Transkripte ohne Einwilligung. Zwei-Parteien-Einwilligungs-Jurisdiktionen (CA, FL, IL, MD, MA, MT, NH, PA, WA) machen das zu einem harten Stopp. Übergeben Sie keine BrightHire- oder Metaview-Transkripte, es sei denn, der Kandidat hat zu Beginn des Interviews der Aufzeichnung zugestimmt.
  • Kalibrierungssitzungen zu Rubric-selbst-Fragen. Wenn das Panel das Rubric diskutiert (nicht den Kandidaten), ist die Per-Dimensions-Synthese des Briefings Rauschen. Führen Sie die Kalibrierungssitzung separat durch und führen Sie das Briefing dann erneut aus, sobald das Rubric stabil ist.

Einrichtung

Das Artefakt-Bundle liegt unter apps/web/public/artifacts/interview-debrief-summary-skill/. Es enthält:

  • SKILL.md — die Claude-Skill-Definition mit Frontmatter, When-to-invoke-Regeln, der sechsstufigen Methode, dem wörtlichen Output-Format und den Watch-out- / Guard-Paaren.
  • references/1-interview-rubric-template.md — die strukturierte Rubric-Form, gegen die der Skill Inputs validiert.
  • references/2-debrief-brief-format.md — das wörtliche Markdown-Format, in dem das Briefing geschrieben wird.
  • references/3-disagreement-escalation.md — die deterministischen Entscheidungspunkt-Regeln (Spannweite, Bar-Raiser-Veto, HM-vs.-Panel-Divergenz, Einzelnein-unter-Jas, Abdeckungslücke, unter-evidenzierter Cluster).

Um den Workflow aufzustellen:

  1. Bundle in Ihr Claude Code Skills-Verzeichnis ablegen. Platzieren Sie interview-debrief-summary-skill/ unter dem .claude/skills/ Ihres Projekts (oder am gemeinsamen Skills-Speicherort Ihres Teams).
  2. Rubric-Vorlage durch Ihr rollenspezifisches Rubric ersetzen. Bearbeiten Sie references/1-interview-rubric-template.md pro Rolle — jede Dimension braucht eine 1-5-Anker-Tabelle mit Verhaltensbeschreibungen. Halten Sie die Dimensionsanzahl zwischen 4 und 7. Unter 4 kann das Panel nicht triangulieren; über 7 werden Scorecards als Pflicht ausgefüllt und die Evidenzqualität sinkt.
  3. Scorecard-Export verdrahten. Konfigurieren Sie Ihren ATS-Export, damit der Skill strukturierte Scorecards lesen kann. Ashby, Greenhouse und Lever stellen alle Scorecard-JSON über API bereit; der Skill erwartet ein Array von {interviewer_id, interviewer_role, dimension_scores, evidence_notes} per dem Inputs-Block in SKILL.md.
  4. Auf einem bekannten Kandidaten testen. Auf einem Kandidaten ausführen, bei dem das Panel bereits debriefed und eine Entscheidung getroffen hat. Das Briefings Entscheidungspunkte mit den tatsächlichen Diskussionsthemen des Debriefs vergleichen. Wenn das Briefing Themen aufzeigt, die das Panel nicht diskutiert hat (oder Themen verpasst, die das Panel diskutiert hat), stimmen Sie das Rubric ab — nicht den Prompt — zuerst.
  5. Audit-Log-Verzeichnis einrichten. Der Skill fügt eine Per-Run-Zeile an audit/<YYYY-MM>.jsonl an, die Rubric-SHA, Interviewer-Anzahl, Entscheidungspunkt-Anzahl und Zeitstempel enthält. Keine Kandidaten-PII in der Audit-Zeile. Das Log ist das, was den Workflow unter NYC LL 144 / EU-KI-Act-Befragung verteidigbar macht.

Was der Skill tatsächlich macht

Die sechsstufige Methode läuft in dieser Reihenfolge, und die Reihenfolge ist tragend:

  1. Rubric und Inputs validieren. Stoppt bei Freitext-only-Rubrics, weniger als 3 Interviewern, bei weniger als 2 Interviewern abgedeckten Dimensionen, bei evidence_notes-Strings unter 20 Zeichen. Stoppen statt Warnen ist absichtlich — ein auf unvollständigen Inputs generiertes Briefing wird zum mentalen Anker des Panels.
  2. Pro Dimension aggregieren (deterministisch). Mittelwert, Spannweite, Standardabweichung und Per-Interviewer-Rollen-Aufschlüsselung berechnen. Das LLM sieht zu diesem Zeitpunkt noch keine Scorecards.
  3. Entscheidungspunkte identifizieren (deterministisch). Die sechs Regeln in references/3-disagreement-escalation.md anwenden. Entscheidungspunkte basieren auf dem strukturierten Signal, nicht auf dem, was das LLM als Uneinigkeit liest.
  4. Pro Dimension synthetisieren. Das LLM produziert eine Zwei-bis-Drei-Satz-Synthese pro Dimension und zitiert evidence_notes-Strings wörtlich in Anführungszeichen. Paraphrasieren ist der Ort, wo Bias eintritt; der Skill verbietet es. Wenn Transkripte verfügbar sind, zitiert die Synthese den Zeitstempel-Bereich. „Unzureichendes Signal — Folgefrage empfohlen” ist ein erstklassiger Output, unterschieden von „keine Empfehlung” — das Fehlen von Evidenz auf einer Dimension ist Information, die das Panel braucht.
  5. Kalibrierungsprüfung. Vergleicht die Score-Verteilung des Kandidaten gegen den rollenden Mittelwert der letzten 5 Debriefs mit derselben Rolle. Befunde erscheinen in einem „Kalibrierungsnotiz”-Block am Ende des Briefings, nie inline pro Dimension. Absicht: Das Gespräch rahmen, nicht Scores anpassen.
  6. Briefing schreiben und stoppen. Schreibt nach briefs/<candidate_id>-<YYYYMMDD>.md. Fügt eine Zeile an das Audit-Log an. Ruft keinen „an Kandidaten senden”-, „an Slack posten”- oder „ATS-Stage aktualisieren”-Endpoint auf. Das Briefing ist intern, bis der Recruiter und der Hiring Manager entscheiden, was zu tun ist.

Das Output-Format ist fest (siehe apps/web/public/artifacts/interview-debrief-summary-skill/references/2-debrief-brief-format.md) und hat absichtlich keinen „Empfehlung”-Abschnitt — nur „Aggregiertes Signal”, „Per-Dimensions-Synthese”, „Entscheidungspunkte für das Panel”, „Folgefragen”, „Kalibrierungsnotiz” und „Anhang — Per-Interviewer-Evidenz”. Ein Leser, der versucht, eine Einstellungsentscheidung abzulesen, findet, dass die Struktur ihn zur Diskussion zurückdrängt.

Kostenrealität

Ein typisches Briefing für einen 5-Interviewer-Loop mit 5 Rubric-Dimensionen und ohne angehängte Transkripte landet bei ungefähr 18–25k Input-Token (Rubric + Scorecards + Evidenz-Notizen + die drei Referenzdateien) und 4–6k Output-Token. Zu Claude-Sonnet-API-Preisen sind das etwa 0,10–0,15 $ pro Debrief. Mit angehängten Transkripten (typisches 30-Minuten-Interview-Transkript: 7–10k Token jeweils) drückt ein 5-Interviewer-Loop auf 0,40–0,70 $ pro Debrief.

Die Zeit-gespart-Mathematik ist die tragende Zahl: Ein typisches 5-Interviewer-Debrief-Meeting läuft 60–90 Minuten, davon 30–50 Minuten „was hat jeder von uns gesehen”-Round-Robin, bevor irgendeine tatsächliche Entscheidungsdiskussion stattfindet. Das Briefing ersetzt den Round-Robin. Recruiter, die diesen Skill bei einer unserer Referenzorganisationen ausführen, berichten, dass Debrief-Meetings durchschnittlich 28 Minuten dauern (runter von 75 Minuten) für Loops, bei denen das Briefing mindestens 4 Stunden im Voraus verteilt wurde.

Das sind ungefähr 45 Minuten gespart pro Debrief, über (typischerweise) 5 Interviewer — etwa 3,75 Personenstunden Meeting-Zeit pro Loop, zu Kosten von weit unter einem Dollar.

Erfolgsmetrik

Die zu beobachtende Metrik: Median-Debrief-Meeting-Länge in Kalenderminuten für Loops, bei denen das Briefing mindestens 4 Stunden im Voraus verteilt wurde. Aus Ihrem Kalender-Tooling ziehen (oder aus der Ashby-Interview-Scheduling-Historie) und in „mit Briefing” vs. „ohne Briefing”-Kohorten segmentieren. Ziel-Trajektorie: 60–90-Minuten-Median in der No-Briefing-Kohorte sinkt auf 25–40-Minuten-Median in der With-Briefing-Kohorte über die ersten 4–6 Wochen.

Gegenmetrik parallel beobachten: Post-Hire-Bedauernsrate bei 6 Monaten in der With-Briefing-Kohorte vs. der No-Briefing-Kohorte. Wenn Debriefs schneller wurden, aber die Bedauernsrate gestiegen ist, lässt das Briefing Uneinigkeiten gemittelt werden statt sie aufzuzeigen — straffen Sie die Uneinigkeits-Eskalationsregeln in references/3-disagreement-escalation.md (typischerweise: Spannweitenschwellenwert von 2 auf 1,5 senken oder einen „jeder Score unter 3”-Trigger für die relevante Dimension hinzufügen).

Vergleich mit Alternativen

  • Ashbys integrierte Debrief-Funktionen. Ashby aggregiert Scorecards in einer Dashboard-Ansicht und berechnet einen Panel-Mittelwert. Es produziert keine schriftliche Synthese, zeigt keine Entscheidungspunkte nach Regel auf und unterscheidet nicht „Konsens bei 4,0” von „unter-evidenzierter Cluster bei 4,0”. Verwenden Sie Ashbys Ansicht als Datenquelle, die der Skill liest, nicht als Ersatz für das Briefing.
  • Greenhouse-Scorecards-Aggregation. Greenhouse rollt Scorecards in eine Einstellungs-oder-Nichteinstellungs-Auszählung pro Interviewer plus ein Panel-Empfehlungs-Aggregat. Das Aggregat ist der Fehlermodus, gegen den der Skill konzipiert ist — er drängt Panels zur Score-Arithmetik-als-Entscheidung und verdeckt Bar-Raiser-Vetos, die in einen Gesamt-„Daumen hoch” gemittelt werden.
  • Manuelle Recruiter-Notizen. Ein Recruiter, der jede Scorecard liest und eine Einleitungs-E-Mail mit „Themen für das Debrief” schreibt, ist der Status quo bei den meisten Teams. Es erfasst die Lektüre des Recruiters des Loops, was wertvoll ist, skaliert aber linear mit der Recruiter-Zeit und neigt dazu, über viele Iterationen hinweg zu „was der HM wahrscheinlich will” zu passen. Der Skill ist über Recruiter hinweg konsistent und zeigt strukturelle Uneinigkeiten auf (R3 — HM-vs.-Panel-Divergenz), die ein Recruiter, der das Briefing selbst schreibt, selten flaggt.
  • Nichts tun. Der Standard — jeder kommt mit eigenen Notizen zum Debrief und die Diskussion läuft Round-Robin. Funktioniert gut bei niedrigem Volumen (unter 10 Einstellungen pro Quartal). Bei höherem Volumen ist der Round-Robin der Engpass und die Debrief-Qualität sinkt, wenn Müdigkeit sich anhäuft.

Watch-outs

  • Bias durch eine starke Meinung (Anchoring auf der zuerst gelesenen Scorecard). Guard: Schritt 2 aggregiert deterministisch über alle Interviewer, bevor das LLM eine einzelne Scorecard sieht. Die R3-Regel in Schritt 3 (HM-vs.-Panel-Divergenz) zeigt explizit starke-Einzelmeinung-Divergenz als Entscheidungspunkt auf. Die Synthese attribuiert Evidenz nach Interviewer-Rolle (HM, Peer, XFN, Bar-Raiser) statt nach Name in den Per-Dimensions-Blöcken, was verhindert, dass das Briefing sich in Richtung des Senior-Interviewers rundet.
  • Falscher Konsens bei unter-evidenzierten Dimensionen. Guard: evidence_notes-Mindestlängen-Prüfung in Schritt 1 (unter 20 Zeichen scheitert). R6 (unter-evidenzierter Cluster) in Schritt 3 zeigt Dimensionen auf, bei denen 3+ Scores sich innerhalb von 1 Punkt häufen, aber die durchschnittliche Evidenz-Notiz unter 30 Zeichen ist, als FOLGEFRAGE EMPFOHLEN, nicht als Übereinstimmung. Das ist der häufigste stille Fehlermodus von Freitext-Debriefs.
  • Score-Arithmetik-als-Entscheidung (Mittelwert über 3,5 als „Einstellung” behandeln). Guard: Das Briefing gibt niemals eine Einstellungs-/Nichteinstellungsempfehlung aus. Das Output-Format hat absichtlich keinen „Empfehlung”-Block — nur Entscheidungspunkte und Folgefragen. Ein Leser, der versucht, eine Entscheidung abzulesen, findet, dass die Struktur ihn zur Diskussion zurückdrängt.
  • Bar-Raiser-Veto still überschrieben. Guard: R2 in Schritt 3 zeigt automatisch jeden Bar-Raiser-Score 2+ unter dem Panel-Mittelwert als Entscheidungspunkt auf. Das Briefing kann nicht in einem Zustand generiert werden, in dem ein Bar-Raiser-Dissens gemittelt wird — auch wenn der Rest des Panels einstimmig ist.
  • Demografische Muster, die in die Synthese einsickern. Guard: Die Synthese zitiert evidence_notes-Strings wörtlich statt zu paraphrasieren, was verhindert, dass das LLM eine Beobachtung in Sprache umschreibt, die eine Protected-Class-Inferenz telegrafiert. Wenn eine übergebene evidence_note selbst Protected-Class-Proxies enthält (Namensherkunft, Alters-Inferenz, Elternschaftsstatus-Inferenz, „Cultural Fit” ohne Verhaltensanker), stoppt der Skill in Schritt 1 und zeigt die beleidigende Notiz zur Überarbeitung auf, bevor er fortfährt.
  • Kalibrierungsnotiz als Urteil überinterpretiert. Guard: Der Kalibrierungsblock wird am Ende des Briefings angehängt, nie inline pro Dimension. Der Block verwendet die Sprache „innerhalb der Toleranz” oder „außerhalb der Toleranz — diskutieren” statt eine Aktion vorzuschlagen, und die Kalibrierungsprüfung wird vollständig übersprungen, wenn weniger als 5 Prior-Debriefs mit derselben Rolle geladen sind.

Stack

  • KI-Anbieter: Claude (Sonnet für den Synthese-Schritt; Opus für die erste-Run-Rubric-Validierung, wenn das Rubric mehrdeutig ist).
  • ATS: Ashby, Greenhouse oder Lever — die Scorecard-Datenquelle.
  • Optionale Transkripte: BrightHire oder Metaview, mit dokumentierter Zwei-Parteien-Einwilligungserfassung zu Beginn des Interviews.
  • Wo es hinpasst: Siehe Strukturiertes Interviewen für die Rubric-Design-Disziplin, die dieser Skill voraussetzt. Der Skill kann einen unstrukturierten Interview-Prozess nicht retten — er kann nur das Signal synthetisieren, das ein strukturierter Prozess produziert.
  • Policy-Rahmen: Siehe KI-Policy für Legal-Teams für das Tier-A-Enterprise-KI-Handling, das für Kandidaten-Daten-Inputs erforderlich ist (Transkripte insbesondere sind sensible personenbezogene Daten unter DSGVO und den meisten US-Bundesstaaten-Datenschutzregimen).

Files in this artifact

Download all (.zip)