claude-skill

Strukturierter Interview-Loop-Builder mit Claude

Difficulty

Fortgeschritten

Setup time

30min

For

recruiter · hiring-manager · talent-acquisition

Recruiting & TA

Stack

Ein Claude Skill, der eine Stellenbeschreibung, das Level der Rolle, die unverzichtbaren Kompetenzen und den verfügbaren Interviewer-Pool mit den kalibrierten Stärken jedes Interviewers entgegennimmt und daraus ein vollständiges Loop-Design erstellt — Stufenprogression, stufenspezifisches Rubrik-System mit Anker-Beschreibungen, verhaltensbasierte Fragen pro Dimension und eine Interviewer-Zuordnungstabelle mit Begründung für jede Auswahl. Anschließend hält der Skill inne und wartet auf den Review-Gate des Hiring Managers, bevor etwas im ATS konfiguriert wird. Ersetzt das „Wir regeln den Loop, wenn ein Kandidat im Screening ist” durch einen 30-minütigen Design-Durchlauf, der operative Disziplin produziert.

Wann verwenden

Sie haben eine genehmigte Stellenbeschreibung, ein bestätigtes Level und eine Liste unverzichtbarer Kompetenzen, die Einstellung von Nicht-Einstellung bei dieser Rolle unterscheiden.
Sie verfügen über eine strukturierte Interviewführung-Rubrik-Bibliothek mit Anker-Beschreibungen pro Score-Level pro Level-Band. Die Kompetenz-Vorlage unter apps/web/public/artifacts/interview-loop-builder-skill/references/1-competency-library.md zeigt die Struktur; wenn Sie diese nicht ausfüllen können, haben Sie noch keine Rubrik, aus der dieser Skill schöpfen kann.
Sie haben einen Interviewer-Pool mit kalibrierten Stärken, die pro Kompetenz und Level-Band erfasst sind — siehe references/2-interviewer-strengths.md im Bundle für die Matrix.
Ein Hiring Manager prüft den Loop, bevor er in Ashby oder Greenhouse konfiguriert wird. Der Skill schreibt Dateien und hält inne; er sendet nicht an das ATS.

Wann NICHT verwenden

Auto-Scheduling. Dieser Skill entwirft den Loop. Er plant keine Interviews, gleicht keine Kalender ab und sendet keine kandidatenseitigen Buchungslinks. Das ist Aufgabe von Goodtime, Ashby Scheduling oder Greenhouse Scheduling. Design und Scheduling in einem Skill zu koppeln, verbindet zwei Fehlerquellen, die unabhängig voneinander versagen sollten.
Ersetzen des Rubrik-Designs mit dem Hiring Manager. Der Skill gibt Anker-Beschreibungen pro Score-Level aus, indem er die Kompetenz-Bibliothek zieht, aber die Bibliothek selbst — was eine 5 für Systems Design auf IC5-Niveau bedeutet — liegt in der Verantwortung des Hiring Managers und des Funktionskopfs. Ist die Bibliothek leer oder vollständig vorlagenartig, verweigert der Skill die Ausführung und gibt stattdessen ein TODO aus, anstatt Rubrik-Anker für eine Funktion zu erfinden, für die kein kalibriertes Signal vorliegt.
Generische Template-Loops ohne rollenspezifische Kalibrierung. Nennen die Eingaben weder Level noch unverzichtbare Kompetenzen noch den verfügbaren Interviewer-Pool, verweigert der Skill die Ausführung. Ein Vier-Stufen-Loop mit generischen Labels wie „Behavioral”, „Technical”, „System Design”, „Leadership” wirkt strukturiert, ist es aber nicht. Jeder Kandidat erhält dieselben Fragen unabhängig von den Rollenprioritäten — das untergräbt den Zweck von Struktur.
Rollen unterhalb einer definierten Komplexitätsschwelle. Eine Zwei-Wochen-Contractor-Rolle benötigt keinen Vier-Stufen-Loop. Der Skill warnt und empfiehlt einen einstufigen Screen, wenn die Rolle befristet, stundenbasiert oder unter sechs Monate erwartetem Beschäftigungsverhältnis liegt.
Ersetzen von verhaltensbasiertem Interviewing-Training. Die vom Skill ausgegebenen Fragen folgen dem Situation/Verhalten/Ergebnis-Format, aber Interviewer benötigen weiterhin trainierte Kalibrierung, um konsistent zu bewerten. Der Skill ist das Gerüst; das Training ist die Voraussetzung.

Setup

Bundle ablegen. Platzieren Sie apps/web/public/artifacts/interview-loop-builder-skill/SKILL.md in Ihr Claude Code Skills-Verzeichnis (oder claude.ai Custom Skills). Der Skill stellt eine aufrufbare Funktion bereit: design_loop.
Kompetenz-Bibliothek ausfüllen. Kopieren Sie references/1-competency-library.md in Ihr Team-Repository. Ersetzen Sie jeden Platzhalter durch Ihre echten Kompetenzen, Definitionen, abgedeckte Level-Bands und Anker-Beschreibungen pro Score-Level. Der Skill verweigert die Ausführung, wenn die Bibliothek nur aus Vorlagen besteht.
Interviewer-Stärken-Matrix ausfüllen. Kopieren Sie references/2-interviewer-strengths.md. Listen Sie jeden verfügbaren Interviewer, sein Team und die Level-Bands auf, für die er kalibriert ist, jede Kompetenz zu bewerten. Die Spalte „Letztes Interview” ist der Auslöser für eine Re-Kalibrierung nach sechs Monaten Inaktivität.
Eingaben pro Rolle konfigurieren. Übergeben Sie für eine gegebene Rolle den JD-Pfad, das Level, ein Array von 3–6 Kompetenz-IDs und einen Pfad zur ausgefüllten Interviewer-Stärken-Matrix. Der Skill gibt loop.md und stufenspezifische Scorecard-Gerüste unter scorecards/ aus.
Dry-Run auf einem abgeschlossenen Loop. Führen Sie den Skill auf einer Rolle aus, die Sie im letzten Quartal manuell designed haben. Vergleichen Sie die Stufenzuordnung und Interviewer-Zuteilungen des Skills mit dem manuellen Design. Weichen sie ab, liegt das in der Regel an der Kompetenz-Bibliothek oder der Interviewer-Matrix — nicht am Skill-Prompt.

Was der Skill tatsächlich tut

Sechs Schritte in festgelegter Reihenfolge. Die Reihenfolge ist entscheidend: deterministische Validierung und Zuordnung erfolgen, bevor das LLM Rubrik-Anker und Fragen generiert, und der Kandidatenerfahrungs-Durchlauf am Ende liest den zusammengesetzten Loop erneut, um Überlastung zu erkennen, die beim Zuweisen jeder Stufe in Isolation unsichtbar ist.

Eingaben validieren. Jede Kompetenz-ID existiert in der Bibliothek; der Interviewer-Pool hat mindestens eine kalibrierte Person pro unverzichtbarer Kompetenz auf dem Level der Rolle; das Level liegt innerhalb der abgedeckten Bands der Bibliothek. Halt mit expliziten TODOs, wenn eine Prüfung fehlschlägt. Ein Director-Loop mit einer IC-only-Bibliothek produziert aufgeblähte Rubriken — dieser Schritt verhindert das.
Kompetenzen Stufen zuordnen. Der Recruiter-Screen bewertet Fit und Basics (nie rubrikbasiert). Der HM-Screen übernimmt die ein bis zwei differenzierendsten Kompetenzen. Der On-Site-Loop verteilt den Rest nach dem Prinzip einer Kompetenz pro Interview, wo möglich. Die Ein-Kompetenz-pro-Interview-Regel ist bewusst opinioniert — zwei Kompetenzen in ein 60-Minuten-Interview zu bündeln produziert schwächeres Signal für beide und erschwert die Anwendung der Rubrik im Moment.
Stufenspezifische Rubrik generieren. Für jede Post-Screen-Stufe werden die Anker-Beschreibungen für das Level-Band des Kandidaten aus der Kompetenz-Bibliothek gezogen. Pro Dimension werden 3–5 verhaltensbasierte Fragen im Situation/Verhalten/Ergebnis-Format generiert, zuzüglich einer empfohlenen Vertiefungsfrage pro Frage. Hypothetische „Was würden Sie tun”-Fragen sind standardmäßig ausgeschlossen — sie belohnen eloquentes Raten statt belegter Erfahrung.
Interviewer mit Begründung zuordnen. Für jede Post-Screen-Stufe werden 1–3 Interviewer aus dem Pool vorgeschlagen. Kriterien: Kalibrierungsfit (harte Anforderung), Auslastung (kein Interviewer in mehr als einer Stufe desselben Loops) und Perspektivenvielfalt (mindestens ein Interviewer außerhalb des einstellenden Teams, sofern der Pool es erlaubt). Jede Zuweisung enthält eine explizite Begründungszeichenkette.
Kandidatenerfahrungs-Durchlauf. Den zusammengesetzten Loop erneut lesen. Mehr als fünf Stunden aktive Interviewzeit für IC oder sieben für Leadership → markieren und Take-Home vorschlagen. Mehr als sechs unterschiedliche Interviewer → Loop-Fatigue markieren. Zwei Stufen prüfen dieselbe Kompetenz → redundantes Signal markieren. Stufenübergreifende Zeitzonen ohne Anpassung → TODO ausgeben.
Hiring-Manager-Review-Gate. loop.md und scorecards/<NN>-<stage-id>.md schreiben. Stop. Der Skill definiert keine „Publish to ATS”-Aktion. Der HM öffnet die Datei, bearbeitet sie und konfiguriert den Loop selbst in Ashby oder Greenhouse.

Das genaue Ausgabeformat und das Scorecard-Gerüst-Layout befinden sich in references/3-loop-output-format.md im Bundle. Das Format ist fest, da nachgelagerte Konsumenten — der Interviewer, der die Scorecard liest, der Debrief-Moderator, der Scores zusammenstellt — eine vorhersehbare Struktur benötigen.

Kostenrealität

Pro Loop-Design auf Claude Sonnet 4.5:

LLM-Tokens — typischerweise 30–60k Input-Tokens (JD plus Kompetenz-Bibliothek plus Interviewer-Matrix plus Skill-Anweisungen) und 10–20k Output-Tokens (Loop plus 3–5 Scorecard-Gerüste mit Ankern und Fragen). Auf Sonnet 4.5 sind das ca. 0,20–0,40 USD pro Loop-Design. Eine Funktion, die acht Rollen pro Quartal besetzt, gibt unter 5 USD an Modellkosten für diesen Skill aus.
Recruiter- und Hiring-Manager-Zeit — hier liegt der eigentliche Gewinn. Ein manuelles Loop-Design von Grund auf mit kalibrierten Rubrik-Auszügen dauert 90–120 Minuten HM- plus Recruiter-Zeit im Design-Call und weitere 30–60 Minuten für die Dokumentation von Fragen und Zuteilungen. Der Skill komprimiert das auf einen 30-minütigen Review-Durchlauf des generierten Loops. Pro Rolle werden ca. 90 Minuten Senior-IC- oder Manager-Zeit eingespart.
Setup-Zeit — 30 Minuten pro Rolle, sobald Kompetenz-Bibliothek und Interviewer-Matrix ausgefüllt sind. Die Bibliothek und Matrix sind die Voraussetzung — vollständig neu erfordern sie eine Kalibrierungssitzung pro Kompetenz-Band, was eine Investition in strukturiertes Interviewing ist und nicht zum Setup dieses Skills gehört.
Compounding Benefit — strukturierte Loops produzieren gemäß jeder publizierten Studie der letzten zwanzig Jahre bessere Quality of Hire als Ad-hoc-Loops. Der Gewinn des Skills liegt darin, „strukturiert” zur Standardvorgabe zu machen statt zur Ausnahme, indem der Design-Overhead pro Rolle entfällt.

Erfolgsmetrik

Drei Kennzahlen pro Rolle pro Quartal im ATS verfolgen:

Loop-Design-Durchlaufzeit — Stunden von „Rolle genehmigt” bis „Loop im ATS konfiguriert”. Sollte nach Einführung des Skills deutlich sinken. Sinkt sie nicht, liegt der Engpass beim HM-Review, nicht beim Design — den Loop früher in die Rolle-Kickoff-Sequenz einbringen.
Inter-Rater-Übereinstimmung auf der Rubrik — pro Kompetenzdimension: wie oft liegen unabhängige Scores der Interviewer innerhalb eines Punktes. Sollte bei 80 % oder höher auf kalibrierten Kompetenzen liegen. Darunter sind die Anker-Beschreibungen in der Kompetenz-Bibliothek das Stellrad — nicht der Skill.
Quality of Hire nach 12 Monaten — die langfristige Metrik, die der Loop bewegen soll. Kohorten, die durch Skill-designed Loops eingestellt wurden, mit Ad-hoc-Loops auf derselben Rollenfamilie vergleichen. Übertrifft die Skill-designed-Kohorte die andere nicht, das Kompetenz-zu-Stufen-Mapping re-evaluieren — nicht die Struktur aufgeben.

vs. Alternativen

vs. Ashby’s Structured Interviewing Templates — Ashby besitzt den konfigurierten Loop, das Scorecard-Rendering und den Debrief in einem Produkt. Ashbys Templates wählen, wenn ein verwaltetes UX gewünscht wird und das Team im ATS lebt. Diesen Skill wählen, wenn Rubrik-Anker, Interviewer-Stärken-Matrix und Kompetenz-zu-Stufen-Mapping im eigenen Repository, versionskontrolliert, mit austauschbarem Design-Schritt gewünscht werden, während die Kompetenz-Bibliothek sich weiterentwickelt. Die Ausgabe des Skills ist der Input zur Ashby-Loop-Konfiguration — kein Ersatz dafür.
vs. generische Template-Loops — Jedes ATS liefert Standard-Vier-Stufen-Templates (Telefonscreen, HM-Screen, Technical, On-Site-Panel). Sie wirken auf den ersten Blick strukturiert, sind es aber nicht. Dasselbe Template wird auf einen Backend-IC4 und einen CS Manager M2 angewendet, mit denselben generischen Fragen, unabhängig davon, welche Kompetenzen die Einstellung auf der jeweiligen Rolle tatsächlich differenzieren. Der Skill verdient seinen 30-minütigen Setup-Aufwand ab der zweiten Rolle, da das Design rollenspezifisch kalibriert ist statt einheitlich.
vs. DIY-Loop-Design durch den Hiring Manager — Ein erfahrener HM kann in 90–120 Minuten einen guten Loop von Grund auf entwerfen. In der Praxis tut er das oft nicht, weil er unter Zeitdruck den letzten Loop wiederverwendet, den er geführt hat — unabhängig davon, ob er passt. Der Gewinn des Skills ist nicht „entwirft besser als ein erfahrener HM auf Hochleistung”; er ist „entwirft konsistent so gut wie ein erfahrener HM, für alle Rollen und alle Wochen”. Die Konsistenz ist der compounding Benefit.
vs. kein strukturierter Loop — Die publizierten Meta-Analysen zu strukturiertem Interviewing beziffern die Prognosevalidität strukturierter Interviews bei ca. doppelter Wirksamkeit gegenüber unstrukturierten für Jobleistung. Wenn der Status quo unstrukturiert ist, ist der Skill nicht die Frage — Struktur einzuführen ist es. Der Skill ist der Weg, Struktur günstig genug zu machen, um sie tatsächlich bei jeder Rolle einzusetzen.

Watch-outs

Interviewer-Überlastung durch dieselbe Person, die überall eingesetzt wird. Guard: Der Zuweisungsschritt im Skill erzwingt „kein Interviewer in mehr als einer Stufe desselben Loops” als harte Regel. Die Zuweisungstabelle enthält pro Stufe einen Backup-Interviewer, damit der Recruiter einen Fallback hat, wenn der Primäre nicht verfügbar ist, anstatt den Primären in zwei Stufen einzusetzen.
Redundantes Signal über Stufen hinweg. Guard: Der Kandidatenerfahrungs-Durchlauf liest den zusammengesetzten Loop erneut und markiert jede Kompetenz, die in mehr als einer Stufe geprüft wird. Die Kompetenz-zu-Stufen-Zuordnungstabelle am Anfang der Loop-Ausgabe macht Redundanz für den Hiring Manager beim Review sichtbar.
Kandidatenerfahrung vernachlässigt. Guard: Der Kandidatenerfahrungs-Durchlauf ist ein separater, benannter Schritt im Skill — kein Satz am Ende des Loops. Er erzwingt Gesamtzeit-Caps (5 Stunden IC, 7 Stunden Leadership), Caps für unterschiedliche Interviewer (6), Take-Home-Empfehlungen für Kompetenzen, die den Loop aufblähen, und Zeitzonen-Anpassungs-TODOs. Ohne diesen Durchlauf akkumuliert sich „noch ein 30-minütiges Gespräch” unmerklich.
Kalibrierungsdrift innerhalb eines einzigen Loops. Guard: Der pro Stufe ausgegebene Rubrik-Block enthält Anker-Beschreibungen pro Score-Level aus der Kompetenz-Bibliothek — kein Freitext-„Rate von 1 bis 5”. Anker sind das Element, das Kalibrierung hält, wenn derselbe Kandidat von vier verschiedenen Interviewern im selben Loop bewertet wird. Vage Rubrik → vage Scores → Debrief, der jede Dimension anhand von Anekdoten neu verhandelt.
Hiring Manager genehmigt das Design ohne Lektüre. Guard: Der Skill hält am Review-Gate inne und schreibt in Dateien. Es gibt keine „Publish to ATS”-Aktion. Der HM muss die Datei öffnen und bearbeiten, bevor er den Loop konfiguriert — diese Reibung ist beabsichtigt. Fangen HMs an, abzusegnen, ohne zu lesen, driftet der Loop-Inhalt von den Rollenprioritäten ab und der Skill verdient seine eingesparte Zeit nicht mehr.
Veraltete Interviewer-Kalibrierung. Guard: Die Interviewer-Matrix hat eine Spalte „Letztes Interview”. Einträge, die älter als sechs Monate sind, lösen eine Re-Kalibrierung aus, bevor der Interviewer erneut zugewiesen wird. Wenn Interview Intelligence Fragen aufdeckt, die kein nützliches Signal produzieren, die Anker der Kompetenz-Bibliothek aktualisieren — der Skill gibt die neuen Anker beim nächsten Lauf aus.

Stack

Das Skill-Bundle liegt unter apps/web/public/artifacts/interview-loop-builder-skill/ und enthält:

SKILL.md — die Skill-Definition mit Frontmatter, Invoke-Regeln, Inputs, Methode und Watch-outs mit Guards
references/1-competency-library.md — die Kompetenz-Taxonomie mit Anker-Beschreibungen pro Score-Level und Level-Band; vor der ersten Ausführung pro Funktion ausfüllen
references/2-interviewer-strengths.md — die Matrix des verfügbaren Interviewer-Pools mit kalibrierter Abdeckung pro Kompetenz; vor der ersten Ausführung pro Team ausfüllen
references/3-loop-output-format.md — das genaue Markdown-Format, das der Skill ausgibt, einschließlich Scorecard-Gerüst-Layout

Werkzeuge, die der Workflow voraussetzt: Claude (das Modell), Ashby oder Greenhouse (das ATS, in dem der HM den entworfenen Loop konfiguriert), BrightHire oder Metaview (Interview Intelligence, deren Signal in die Anker-Anpassung der Kompetenz-Bibliothek zurückfließt). Direkt verknüpft mit dem JD Writer vorgelagert und der Interview-Debrief-Zusammenfassung nachgelagert.

Diese Seite auf GitHub bearbeiten

Files in this artifact

Download all (.zip)

---
name: interview-loop-builder
description: Take a job description, level, must-have competencies, and an interviewer pool with strengths, and produce a complete interview loop design — stage progression, per-stage rubric, behavioral questions per dimension, and interviewer assignments paired with the rubric dimension each one is scoring. Stops at a hiring-manager review gate before the loop is configured in the ATS.
---

# Interview loop builder

## When to invoke

Use this skill when a recruiter or hiring manager has a confirmed opening, an approved JD, and needs the structured interview loop designed before the first candidate moves into the screen stage. Take the JD, the role's level, the must-have competencies, and the eligible interviewer pool with each interviewer's calibrated strengths, and produce a Markdown loop design plus per-stage scorecard scaffolds.

Do NOT invoke this skill for:

- **Auto-scheduling.** This skill designs the loop; it does not schedule. Calendar coordination, interviewer-availability matching, and candidate-facing booking links are Ashby Scheduling, Greenhouse Scheduling, or Goodtime's job. Mixing design and scheduling in one skill couples two failure modes that should fail independently.
- **Replacing the rubric design with the hiring manager.** The skill maps competencies to a rubric *dimension* and writes anchor descriptions per score level, but the actual rubric per role family is owned by the hiring manager and the head of the function. If `references/1-competency-library.md` is empty or all-template, the skill refuses and surfaces a TODO rather than inventing a rubric for a function it has no calibrated signal on.
- **Generic templated loops without role-specific calibration.** If the inputs do not name the level, the must-have competencies, or the interviewer pool, the skill refuses. A four-stage loop with generic "behavioral", "technical", "system design", "leadership" labels passes for structured but is not — every candidate gets the same questions regardless of role priorities, which defeats the point.
- **Roles below a defined complexity threshold.** A two-week contractor role does not need a four-stage loop. The skill warns and suggests a one-stage screen if the role is contract, hourly, or under 6 months expected tenure.

## Inputs

- Required: `job_description` — path to a Markdown file (typically the output of the JD-writer skill, or a manually authored JD).
- Required: `level` — one of `IC1`, `IC2`, `IC3`, `IC4`, `IC5`, `IC6`, `M1`, `M2`, `M3`, `Director`, `VP`. Drives loop length and the competency-to-stage mapping.
- Required: `must_have_competencies` — array of 3-6 competency IDs drawn from `references/1-competency-library.md`. The skill maps each to a stage and refuses if more than 6 are provided (loop length blows out, signal per interview drops).
- Required: `interviewer_pool` — path to `references/2-interviewer-strengths.md` filled in for the role's function, listing each eligible interviewer with their calibrated strengths (which competencies they have been calibrated to score on what level bands).
- Optional: `loop_length_max` — hard cap on number of post-screen stages, default 4. Above 5, the skill warns about candidate-experience cost.
- Optional: `time_zone` — interviewer/candidate timezone hint used in the candidate-experience pass to flag any cross-timezone stages that need an explicit accommodation.

## Reference files

Always read these from `references/` before generating the loop. They contain the user's competency taxonomy, the interviewer pool, and the output format. Without them, the loop is a template, not a design.

- `references/1-competency-library.md` — the team's calibrated competency taxonomy with rubric dimensions and behavioral-anchor descriptions per score level. Replace the template with your real library before running.
- `references/2-interviewer-strengths.md` — the eligible interviewer pool with each interviewer's calibrated strengths. The skill matches competencies to interviewers using this matrix.
- `references/3-loop-output-format.md` — the literal Markdown format the skill emits, including the per-stage rubric block, the interviewer-assignment table with rationale, and the candidate-experience summary.

## Method

Run these six steps in order. Do not parallelize — later steps depend on context from earlier steps, and the candidate-experience pass at the end deliberately re-reads the assembled loop to catch overload that is invisible while assigning each stage in isolation.

### 1. Validate inputs

Open `job_description`, `references/1-competency-library.md`, and `references/2-interviewer-strengths.md`. Confirm:

- Each ID in `must_have_competencies` exists in the competency library. Unknown IDs → stop and surface them.
- The interviewer pool contains at least one interviewer calibrated on each must-have competency at the role's level. If a competency has no calibrated interviewer, surface a TODO ("hire / calibrate an interviewer for {competency} at {level} before designing this loop") and stop.
- The level falls inside the range the competency library has anchor descriptions for. Designing a Director loop with an IC-only library produces inflated rubrics; refuse.

### 2. Map competencies to stages

For each must-have competency, decide the stage where it is best evaluated. The mapping is opinionated:

- **Recruiter screen** evaluates fit, interest, comp alignment, and basic must-have-skill confirmation. Never a competency dimension on the rubric — recruiters do not score the rubric.
- **Hiring-manager screen** evaluates the top 1-2 competencies that most differentiate hire / no-hire on this role. The HM is the highest-signal interviewer; spending HM time on lower-priority competencies wastes calibration.
- **On-site loop** spreads remaining competencies one-per-interview where possible. One competency per interview is the engineering choice — bundling two competencies into one 60-minute interview produces shallower signal on both, and it makes the rubric harder for the interviewer to apply in the moment.
- **Working-session / take-home** (optional, only for IC4+ technical roles) evaluates competencies that need extended time or written artefact (system design, written communication, code review depth).

The output of this step is a `competency → stage` table with the rationale for each placement.

### 3. Design the per-stage rubric

For each post-screen stage, generate the rubric block. Each rubric dimension corresponds to one competency from step 2. For each dimension:

- Pull the anchor descriptions from `references/1-competency-library.md` for the candidate's level band.
- Generate 3-5 behavioral questions that probe the dimension. Each question must reference the situation / behavior / outcome shape; hypothetical "what would you do if…" questions are excluded by default because they reward articulate guessing over evidenced experience.
- Generate one suggested probing follow-up per question for the interviewer to use when the candidate's first answer is shallow.

The choice to include anchors and follow-ups in the output (rather than just the questions) is what separates a usable scorecard from "here are some questions, score it from 1 to 5". Without anchors, calibration drifts within a single loop.

### 4. Assign interviewers with rationale

For each post-screen stage, propose 1-3 interviewer candidates from the eligible pool. Match by:

- Calibration fit — the interviewer is calibrated on this competency at this level band. Hard requirement.
- Load balance — no interviewer is assigned to more than one stage in the same loop. Prevents the "only one person actually evaluates this candidate" failure mode where a single interviewer dominates the debrief.
- Diversity of perspective — where the eligible pool allows, propose at least one interviewer from outside the hiring team to reduce consensus bias in the debrief.

Output: an assignment table with the rationale per assignment ("Jamie calibrated at IC4 on systems-design; Priya outside the hiring team, last interviewed at this level 6 weeks ago").

### 5. Candidate-experience pass

Re-read the assembled loop and check, in order:

- Total interview time across all stages. Above 5 hours active for an IC role or 7 hours for a leadership role, flag and suggest moving one competency to a take-home.
- Number of distinct interviewers the candidate meets. Above 6, flag ("loop fatigue").
- Stages that require the candidate to repeat the same story. If two stages probe the same competency, surface as redundant.
- Cross-timezone stages without an accommodation note. Surface a TODO for the recruiter.

The choice to do this as a separate step rather than during stage design is deliberate: while assigning each stage in isolation it is easy to add "one more 30-minute conversation"; only by re-reading the full assembled loop does the candidate-side cost become legible.

### 6. Hiring-manager review gate

Stop. Write the loop design to `loop.md` per the format in `references/3-loop-output-format.md`. Write each stage's scorecard scaffold to `scorecards/<stage>.md`. Do not push anything to Ashby, Greenhouse, or Lever. Do not mark the role as "loop ready" in the ATS. Surface the path to both files and exit.

The hiring manager's job from here: read the loop, validate the competency-to-stage mapping reflects the actual role priorities, edit the questions, and configure the loop in the ATS. The skill does not re-enter the loop until the hiring manager confirms changes for a v2 design.

## Output format

```markdown
# Interview loop — {Role title} ({level})

Generated: {ISO timestamp} · Competencies: {n} · Stages: {n} · Total active time: {hours}

## Competency → stage mapping

| Competency | Stage | Rationale |
|---|---|---|
| Systems design | On-site Interview B | Highest differentiator at IC5; needs 60min for depth |
| Stakeholder influence | HM screen | Top hire/no-hire signal for this role |
| ... | ... | ... |

## Stage 1: Recruiter screen (30 min)

- Goal: confirm fit, interest, must-have-skill basics, comp alignment
- Key questions: ...
- Disqualifying signals: ...
- Not on rubric (screen, not scored)

## Stage 2: Hiring-manager screen (45 min)

- Goal: depth on {top 1-2 competencies}
- Rubric dimensions: {dim 1}, {dim 2}
- Behavioral questions:
1. {Question} — Probe: {follow-up}
2. ...
- Scorecard scaffold: `scorecards/02-hm-screen.md`

## Stage 3: On-site Interview A — {Competency} (60 min)

- Rubric dimension: {dim}
- Anchor descriptions ({level band}):
- 5 — {anchor}
- 4 — {anchor}
- 3 — {anchor}
- 2 — {anchor}
- 1 — {anchor}
- Behavioral questions:
1. {Question} — Probe: {follow-up}
2. ...
- Scorecard scaffold: `scorecards/03-onsite-a.md`

## Suggested interviewer assignments

| Stage | Primary | Backup | Rationale |
|---|---|---|---|
| HM screen | {HM name} | — | hiring manager |
| Onsite A — Systems design | Jamie L. | Priya R. | Jamie calibrated IC5 systems-design; Priya outside hiring team |
| ... | ... | ... | ... |

## Stage N: Debrief

- Format: independent scoring submitted before discussion
- Decision criteria: {explicit thresholds — e.g. "no rubric dimension < 3, aggregate >= 16"}

## Candidate-experience pass

- Total active interview time: {hours}
- Distinct interviewers: {n}
- Cross-timezone stages: {none | list with accommodation TODO}
- Redundant signal flagged: {none | list}
- Take-home recommendation: {none | move {competency} to take-home}

## Open TODOs for hiring manager

- ...
```

## Watch-outs

- **Interviewer overload from the same person being assigned everywhere.** *Guard:* step 4 enforces "no interviewer in more than one stage of the same loop" as a hard rule. The assignment table surfaces backup interviewers per stage so the recruiter has a fallback when the primary is unavailable, rather than re-using the primary in two stages.
- **Redundant signal across stages.** *Guard:* the candidate-experience pass in step 5 re-reads the loop and flags any competency probed in more than one stage. The competency-to-stage table in the output makes redundancy visible to the hiring manager in review.
- **Candidate experience neglected.** *Guard:* the candidate-experience pass in step 5 is a separate, named step rather than a sentence at the bottom of the loop. It enforces total-time caps, distinct-interviewer caps, take-home suggestions for competencies that bloat the loop, and timezone accommodation TODOs.
- **Calibration drift inside a single loop.** *Guard:* the rubric block emitted in step 3 includes anchor descriptions per score level pulled from the competency library, not free-text "rate 1 to 5". Anchors are the thing that holds calibration when the same candidate is scored by four different interviewers.
- **Hiring manager rubber-stamps the design.** *Guard:* skill stops at the review gate in step 6 and writes to files. There is no "publish to ATS" action defined anywhere in this skill. The HM has to open the file and edit it before configuring the loop.
- **Generic loops where role specificity matters.** *Guard:* step 1 refuses to run if `must_have_competencies` is empty or if the interviewer pool is missing calibrated coverage. The skill never falls back to a "default loop" for the function.

# Competency library — TEMPLATE

> Replace this template's contents with your team's actual competency
> library. The interview-loop-builder skill reads this file on every
> run; without your real library, the loop output is generic and the
> rubric anchors are uncalibrated.

## How to use

Each competency has:

- A short ID (used by `must_have_competencies` in the skill input)
- A one-sentence definition
- The level bands it has anchor descriptions for
- Anchor descriptions per score level (1-5) per level band

The skill maps each competency to a stage and emits the anchors for the candidate's level band into the per-stage rubric.

## Coverage matrix

| Competency ID | Definition | Bands covered |
|---|---|---|
| systems-design | Designs systems that meet current requirements while preserving headroom for known future needs. | IC3, IC4, IC5, IC6 |
| stakeholder-influence | Builds shared understanding and commitment across stakeholders without formal authority. | IC4, IC5, IC6, M1, M2, M3 |
| technical-depth | Reasons from first principles in the candidate's primary technical domain. | IC1, IC2, IC3, IC4, IC5, IC6 |
| ownership | Drives ambiguous problems to resolution, including the parts not in the original scope. | IC2, IC3, IC4, IC5, IC6, M1, M2 |
| communication-written | Writes documents that move decisions forward without a meeting. | IC3, IC4, IC5, IC6, M1, M2, M3 |
| people-leadership | Hires, develops, and retains a high-performing team. | M1, M2, M3, Director, VP |
| strategic-thinking | Identifies the right problem to solve before optimizing the solution. | IC5, IC6, M2, M3, Director, VP |

## Per-competency anchors

### systems-design (IC4 band)

- **5** — Designs the system end-to-end including failure modes, upgrade paths, and observability. Names trade-offs explicitly with reasoning per axis (latency, cost, complexity, blast radius).
- **4** — Designs the happy path and the most likely failure modes. Names trade-offs but reasoning is uneven across axes.
- **3** — Designs the happy path. Identifies failure modes when prompted. Trade-offs implicit, surfaced under follow-up questioning.
- **2** — Designs a workable system but misses obvious failure modes or scaling cliffs. Trade-offs not articulated.
- **1** — Designs a system that does not meet stated requirements, or cannot articulate why a design is structured as proposed.

> Replace the IC4 anchors above with your real anchors. Add anchor
> blocks for IC3, IC5, and IC6 in the same shape.

### stakeholder-influence (M2 band)

- **5** — Names the specific stakeholders, their incentives, the surface area of the disagreement, and the sequence of conversations that produced commitment. Outcome was a documented decision change.
- **4** — Names the stakeholders and incentives, walks through conversations, but the outcome description is fuzzy.
- **3** — Walks through one or two conversations. Stakeholder incentives are inferred under prompting.
- **2** — Describes the disagreement and the resolution but cannot describe the work between them.
- **1** — Describes a meeting outcome with no underlying stakeholder work.

> Replace the M2 anchors above with your real anchors. Add anchor
> blocks for IC4, IC5, IC6, M1, M3 in the same shape.

## Calibration discipline

When you add or change anchors:

- Run a calibration session with at least 3 interviewers scoring the same recorded interview. If their scores diverge by more than 1 point, the anchors are not calibrated yet.
- Date each change. The skill does not version anchors automatically; if you change an anchor mid-loop, the consistency of the loop is on you.
- Retire anchors that the calibration set cannot reproduce. Vague anchors are worse than no anchors — they create the illusion of structure.

## Last edited

{YYYY-MM-DD} — update on every material change.

# Interviewer strengths matrix — TEMPLATE

> Replace this template's contents with your team's actual interviewer
> pool and calibrated strengths. The interview-loop-builder skill
> reads this file on every run; without it, the assignment table is
> guessed rather than matched.

## How to use

Each row is one eligible interviewer. Columns are the competency IDs from `1-competency-library.md`. Each cell is the level band(s) the interviewer is calibrated to score that competency on. Empty cell = not calibrated; the skill will not assign.

The skill reads this matrix in step 4 (interviewer assignment) and matches by:

1. Calibration fit (interviewer is calibrated on the competency at the candidate's level band).
2. Load — at most one stage per loop per interviewer.
3. Diversity — at least one interviewer from outside the hiring team when the eligible pool allows.

## Pool

| Interviewer | Team | systems-design | stakeholder-influence | technical-depth | ownership | communication-written | people-leadership | strategic-thinking | Last interview (date) |
|---|---|---|---|---|---|---|---|---|---|
| Jamie L. | Platform | IC4, IC5 | — | IC3, IC4 | IC4 | — | — | — | 2026-04-19 |
| Priya R. | Data | — | IC4, IC5, M1 | IC4 | IC4, IC5 | IC4, IC5 | — | — | 2026-04-22 |
| Marcus T. | Product | — | IC5, M1, M2 | — | IC5 | M1, M2 | M1, M2 | M2 | 2026-04-12 |
| Aiko S. | Eng leadership | IC5, IC6 | M1, M2, M3 | IC5 | IC5, M1 | M2, M3 | M1, M2, M3 | M2, M3, Director | 2026-04-26 |

> Replace the rows above with your real interviewer pool. The columns
> are the competency IDs you defined in `1-competency-library.md`.

## Calibration discipline

When you add an interviewer or extend an interviewer's coverage:

- They sit shadow on at least 2 interviews at the new level band, then reverse-shadow (they score, the calibrated interviewer audits) on at least 2 more.
- Both calibrated interviewer and new interviewer sign off in the matrix before the cell is added.
- Retire a calibration band if the interviewer has not used it in 6 months. The "Last interview" column is the trigger to re-calibrate.

## Outside-the-hiring-team rule

The skill prefers at least one interviewer outside the hiring team per loop, to reduce consensus bias in debriefs. To make this work:

- Tag each interviewer's `Team` accurately.
- Ensure the eligible pool for each role family includes at least 2 outside-team interviewers per must-have competency at the role's level. If it does not, the skill will assign in-team only and surface a TODO ("expand cross-team calibration for {competency}").

## Last edited

{YYYY-MM-DD} — update on every calibration change.

# Loop output format — TEMPLATE

> The interview-loop-builder skill emits its output in the format
> below. This file documents the format so the team can adjust before
> running the skill at scale; the skill reads this file as the literal
> template, not a guideline.

## File layout

The skill writes:

- `loop.md` — the loop design, in the format below.
- `scorecards/<NN>-<stage-id>.md` — one scorecard scaffold per post-screen stage, with the rubric block prefilled and an empty scoring section.

## loop.md format

```markdown
# Interview loop — {Role title} ({level})

Generated: {ISO timestamp}
Competencies: {n}
Stages: {n}
Total active interview time: {hours}h
Distinct interviewers: {n}

## Inputs summary

- JD: {path}
- Level: {level}
- Must-have competencies: {comma-separated IDs}
- Interviewer pool: {path to filled interviewer-strengths matrix}
- Loop length cap: {n}
- Time zone hint: {tz | not provided}

## Competency → stage mapping

| Competency | Stage | Rationale |
|---|---|---|

## Stage 1: Recruiter screen (30 min)

Goal, key questions, disqualifying signals. Not on rubric.

## Stage 2: Hiring-manager screen (45 min)

Goal, rubric dimensions, behavioral questions with probes, scorecard
scaffold link.

## Stage 3..N: On-site interviews (60 min each)

For each stage:

- Rubric dimension (single competency)
- Anchor descriptions for the candidate's level band (5 lines, one
  per score level, pulled from competency library)
- Behavioral questions with probes (3-5)
- Scorecard scaffold link

## Suggested interviewer assignments

| Stage | Primary | Backup | Rationale |
|---|---|---|---|

## Stage N+1: Debrief

Format (independent scoring before discussion), decision criteria
(explicit thresholds), debrief facilitator.

## Candidate-experience pass

- Total active interview time
- Distinct interviewers
- Cross-timezone stages with accommodation TODOs
- Redundant signal flagged
- Take-home recommendation if loop is over the time cap

## Open TODOs for hiring manager

- ...
```

## scorecards/<NN>-<stage-id>.md format

```markdown
# Scorecard — {Stage} ({Competency})

**Candidate:** {name}
**Interviewer:** {name}
**Date:** {YYYY-MM-DD}
**Level:** {level}

## Rubric dimension: {Competency}

Anchor descriptions ({level band}):
- 5 — {anchor}
- 4 — {anchor}
- 3 — {anchor}
- 2 — {anchor}
- 1 — {anchor}

## Behavioral questions

1. {Question}
   - Probe: {follow-up}
   - Notes:
2. ...

## Scoring

- Score: ___ / 5
- Evidence (cite candidate's words for the score):
- Hire / no-hire on this dimension: ___
- One-line rationale:

## Submit

Independent scoring submitted to debrief before discussion.
```

## What the format enforces

- Every rubric dimension has anchor descriptions inline. No "rate 1 to 5" without anchors.
- Every behavioral question has a probe. Interviewers do not have to invent follow-ups in the moment.
- Every interviewer assignment has a rationale. The hiring manager can audit why a person was assigned without re-running the skill.
- The candidate-experience pass is a section, not a sentence.
- Open TODOs are explicit. The skill never silently leaves a gap.

## Last edited

{YYYY-MM-DD}