ooligo
claude-skill

Vergütungs-Benchmarking mit Claude

Difficulty
Fortgeschritten
Setup time
30min
For
recruiter · compensation-analyst · hiring-manager
Recruiting & TA

Stack

Eine Claude Skill, die Level, Geographie und einen Comp-Survey-Export (Radford, Pave, Carta) einer Stelle entgegennimmt und eine strukturierte Gehalts-Band-Empfehlung pro Komponente (Grundgehalt, Eigenkapital, Bonus / OTE) mit benanntem Perzentil, Quell-Survey-Zitation und den Kalibrierungsnotizen produziert, die der Recruiter zum Angebotsgespräch mitbringt. Ersetzt das offene-Reiter-Tabellenkalkulations-Jonglieren des Recruiters durch ein einzelnes Dokument, das der Hiring Manager und der Finanzgenehmiger unterzeichnen können. Gibt die öffentlich sichtbare Spanne (NYC LL 32-A, CO/CA/WA-Gehaltstransparenz-konform) als separaten Output aus.

Wann einsetzen

  • Sie schreiben eine neue Stelle aus und benötigen eine öffentliche Spanne, die verteidigbar begründet ist (nicht die vage „Branchenstandard”-Formulierung, nicht „75. Perzentil” ohne Survey oder Geographie zu nennen).
  • Sie bereiten ein Angebot vor und benötigen die Band, die der Hiring Manager ohne einen halbtägigen Finanz-Hin-und-Her-Austausch genehmigen kann.
  • Sie prüfen vierteljährlich bestehende Comp-Bands und wollen einen strukturierten Vergleich von „was wir zahlen” vs. „was der Survey sagt” pro Rollenfamilie.

Wann NICHT einsetzen

  • Einseitige Comp-Entscheidungen außerhalb einer genehmigten Genehmigungskette. Die Skill produziert eine Empfehlung. Comp-Philosophie und Genehmigungsmatrix sind Eigentum von People Ops / Finance / Comp Committee. Die Skill informiert sie; sie ersetzt sie nicht.
  • Eigenkapital-Comp bei Pre-Series-B-Startups. Eigenkapital-Benchmarking in sehr frühen Phasen dreht sich mehr um die spezifische Cap Table und den Verwässerungspfad der Firma als um Marktdaten. Die Survey-Zahlen tragen dort nicht.
  • Verhandlungsskript-Generierung. Die Skill gibt eine Band aus; sie verfasst keine Verhandlungssprache. Automatisch generierte Comp-Verhandlungssprache wirkt kalt und schadet der Candidate Experience.
  • Kandidatenspezifische Ausnahme-Entscheidungen. „Können wir diesem Kandidaten 15 % über der Band anbieten?” ist eine Frage für den Hiring Manager und Finance, nicht für die Skill. Die Skill informiert durch Aufzeigen der Band; sie genehmigt keine Ausnahmen.
  • Geographien, in denen der Survey dünne Daten hat. Surveys decken die USA, die EU und wichtige APAC-Märkte gut ab; Schwellenmarktdaten (Latam, Afrika, kleinere APAC) sind dünner. Die Skill markiert Low-N-Geographien im Output.

Setup

  1. Bundle einspielen. apps/web/public/artifacts/compensation-benchmark-skill/SKILL.md in Ihr Claude Code Skills-Verzeichnis platzieren.
  2. Survey-Quelle konfigurieren. Die Skill liest Exports von Radford, Pave, Carta oder einem benutzerdefinierten CSV. Das Per-Source-Schema lebt in references/1-survey-source-schemas.md. Die Skill ruft Survey-APIs nicht direkt auf – Exports laufen durch den genehmigten Zugangsweg Ihres Comp-Analysten.
  3. Comp-Philosophie der Firma festlegen. Auf welchem Perzentil zahlt die Firma (50., 60., 75.)? Summiert Grundgehalt + Eigenkapital auf ein Ziel-Perzentil, oder wird jedes separat kalibriert? Die Philosophie lebt in references/2-comp-philosophy-template.md und ist der Input, gegen den die Skill kalibriert.
  4. Genehmigungsketten-Output konfigurieren. Die Skill gibt die öffentlich sichtbare Spanne als separaten Output aus (NYC LL 32-A, CO/CA/WA-Gehaltstransparenz-konform). Verdrahten Sie diesen Output mit Ihrem Stellenausschreibungs-Publikationsschritt (Greenhouse / Ashby-Stellenbeschreibung), oder kopieren Sie ihn manuell, je nach Prozess Ihres Teams.
  5. Probelauf auf einem abgeschlossenen Angebot. Benchmarken Sie eine Stelle, die Sie letztes Quartal abgeschlossen haben. Vergleichen Sie die Band der Skill damit, was das Angebot tatsächlich war. Wenn die Abweichung groß ist, ist entweder der Survey-Export off-cycle oder die Philosophiedatei der Firma entspricht nicht dem, wie Angebote tatsächlich genehmigt werden.

Was die Skill tatsächlich tut

Fünf Schritte. Die Reihenfolge hält die deterministischen Survey-Lookups vor der LLM-gesteuerten Kalibrierung, weil das Paraphrasieren von Survey-Zahlen durch das Modell Drift einführt, den der Recruiter nicht auditieren kann.

  1. Rollendefinition validieren. Prüfen, ob Level, Geographie und Funktion der Rolle vorhanden sind und mit Werten im Survey-Export übereinstimmen. Bei fehlenden oder mehrdeutigen Feldern anhalten („Senior Engineer” ohne Level auf der Firmenstufe ist mehrdeutig).
  2. Survey-Perzentile nachschlagen. Deterministischer Lookup, kein LLM. Für jedes Grundgehalt, Eigenkapital (annualisiert) und Bonus / OTE die 25./50./60./75./90.-Perzentile aus dem Survey-Export für die übereinstimmende (Level, Geographie, Funktion)-Zelle ziehen. Wenn die Zelle weniger als den dokumentierten Stichproben-Größen-Schwellenwert des Surveys hat (variiert je Survey: Radford typischerweise 5+, Pave typischerweise 10+), Low-N markieren und eine Perzentil-basierte Band-Empfehlung ablehnen – auf die breitere (Level, Funktion) ohne Geographie oder auf erweiterter Geographie zurückfallen (z. B. „US-weit” statt „San Francisco Bay Area”).
  3. Gegen Firmen-Philosophie kalibrieren. Comp-Philosophie der Firma lesen. Das Ziel-Perzentil auf die Survey-Zahlen anwenden. Der Output ist eine strukturierte Band pro Komponente:
    • Grundgehalt: Ziel_Pct des Surveys, mit einem ±10 %-Bereich zur Aufnahme von Kandidaten-Level-Variation.
    • Eigenkapital: gleich; in Dollar-Wert zum aktuellen Strike-Preis der Firma für neue Grants konvertieren, die Mathematik dokumentieren.
    • Bonus / OTE: Ziel_Pct auf dem OTE; Grundgehalt/Variabler nach der Ratio der Firma für die Funktion aufteilen.
  4. Öffentlich sichtbare Spanne zusammenstellen. Gemäß NYC LL 32-A und CO/CA/WA-Gehaltstransparenz-Anforderungen benötigt die öffentliche Ausschreibung eine Grundgehalts-Spanne. Standard: „Minimum des unteren Rands der Band bis Maximum des oberen Rands der Band, als einzelne Gehaltsspanne ausgedrückt.” Wenn die Stelle US-Bundesstaaten mit unterschiedlichen Transparenzgesetz-Schwellenwerten überspannt, gilt die breiteste Spanne. Die Skill gibt dies als separaten Output für die direkte Verwendung in der Stellenbeschreibung aus.
  5. Empfehlungsbericht + Audit-Datensatz ausgeben. Der Bericht enthält: Per-Komponenten-Bands mit zitiertem Perzentil und Quell-Survey, Kalibrierungsnotizen, Low-N- oder Thin-Data-Warnungen und die öffentlich sichtbare Spanne. Der Audit-Datensatz ist eine JSONL-Zeile: Rolle, Geographie, Level, Ziel-Perzentil, Survey-Quelle, Survey-Export-Datum, empfohlene Band – für die Lohngleichheits-Prüfung der Firma später im Jahr.

Kostenrealität

Pro benchmarkter Stelle auf Claude Sonnet 4.6:

  • LLM-Tokens — typischerweise 5–8k Input (Rollendefinition + Survey-Export-Zeilen + Philosophie + Skill-Anweisungen) und 1–2k Output (strukturierter Bericht). Rund $0,04–0,08 pro Stelle. Vernachlässigbar.
  • Survey-Zugriffskosten — die Survey-Abonnements selbst sind die bindenden Kosten (Radford, Pave, Carta reichen von $15K–$80K+ jährlich je nach Abdeckung). Die Skill setzt voraus, dass der Comp-Analyst bereits Zugang hat; sie ändert diese Mathematik nicht.
  • Recruiter / Comp-Analyst-Zeit — der Gewinn. Das manuelle Zusammenstellen einer Comp-Empfehlung dauert 30–90 Minuten pro Stelle (Survey-Lookup + Tabellenkalkulations-Jonglieren + Philosophie-Anwendung + Schreiben der Kalibrierungsnotiz). Die Skill ist 5–10 Minuten einschließlich des Sanity-Check-Probelaufs.
  • Setup-Zeit — 30 Minuten einmalig für die Philosophiedatei und Survey-Export-Integration. Die Philosophiedatei wird selten überarbeitet; Survey-Exports werden vierteljährlich aktualisiert.

Erfolgsmetrik

Verfolgen Sie drei Zahlen vierteljährlich:

  • Angebots-Annahmerate innerhalb von 3 Wochen — kalibrierte Vergütung treibt die Annahme. Unter 60 % in Ihrer Geographie und Sie zahlen zu wenig; über 90 % zahlen Sie möglicherweise zu viel. Beide Richtungen sind wichtig; die richtige Zahl hängt von der Comp-Philosophie der Firma ab (Hochkapital-Startups akzeptieren niedrigeres Grundgehalt; Hochgrundgehalt-Mid-Stage-Firmen akzeptieren höheres Grundgehalt).
  • Comp-Band-Bearbeitungsrate nach der Skill — Anteil der von der Skill empfohlenen Bands, die der Hiring Manager oder Finance vor der Genehmigung bearbeitet. Sollte bei 10–25 % liegen. Über 40 % bedeutet, die Philosophiedatei spiegelt das tatsächliche Genehmigungsverhalten nicht wider; unter 5 % bedeutet, das Gremium stempelt ab (der Fehlerfall, gegen den die Skill ausgelegt ist).
  • Lohngleichheits-Audit-Drift — Korrelieren bei der jährlichen Lohngleichheits-Überprüfung die Empfehlungen der Skill mit dem Landeplatz tatsächlicher Angebote? Wenn die Prüfung Lücken aufzeigt, die die Empfehlungen der Skill geschlossen hätten, tut die Skill ihren Job; wenn die Prüfung Lücken aufzeigt, die die Empfehlungen der Skill vergrößert hätten, ist die Philosophiedatei oder die Kalibrierung voreingenommen.

Vergleich mit Alternativen

  • vs. Pave / Carta / Radford / Mercer-Reports direkt. Die Reports sind die Quelldaten; die Skill setzt sie in eine Per-Rollen-Empfehlung zusammen. Wählen Sie die Reports allein, wenn Ihr Comp-Analyst in ihnen lebt und der Recruiter nur „sag mir das 75.” konsumiert. Wählen Sie die Skill, wenn der Recruiter die Kalibrierungsnotiz + öffentliche Spanne + Audit-Datensatz ohne den Analysten in der Schleife für jede Stelle braucht.
  • vs. ChatGPT-ähnlichem „Was sollte ich einem Senior Engineer in NYC zahlen.” Generischer Chat gibt paraphrasierte Survey-Daten ohne Audit-Trail und ohne versionsgebundene Quelle zurück – das ist bei einer Lohngleichheits-Prüfung nicht verteidigbar. Die Skill zitiert den Survey-Export nach Name und Datum.
  • vs. Tabellenkalkulationsvorlagen. Vorlagen sind in Ordnung, bis sich die Philosophie der Firma ändert oder der Survey-Export aktualisiert wird; dann werden jede gespeicherte Vorlage stillschweigend veraltet. Die Skill liest bei jedem Durchlauf aus aktuellen Quellen.
  • vs. kein Benchmarking. Der Standard bei vielen kleineren Firmen. Vorhersehbarer Fehlerfall: Lohngleichheitslücken tauchen bei der jährlichen Prüfung auf, und dem Recruiter wird für individuelle Angebote, die innerhalb der normalen Praxis der Firma lagen, die Schuld gegeben. Verteidigbares Benchmarking ist die günstigste Intervention dagegen.

Wichtige Hinweise

  • Survey-Export-Veralterung. Guard: Die Skill liest die datierten Metadaten des Exports und warnt, wenn der Export älter als 6 Monate ist. Survey-Daten verschieben sich schneller als jährlich; vierteljährliche Aktualisierung ist die Untergrenze.
  • Geographie-Fehlzuordnung. Guard: Die Skill gleicht die Geographie der Stelle explizit gegen die Geographie-Taxonomie des Surveys ab (Paves „SF Bay Area” ist nicht dieselbe Zelle wie Radfords „San Francisco MSA”). Bei mehrdeutiger Übereinstimmung hält die Skill an und bittet den Recruiter zu disambiguieren statt einen Standard zu wählen.
  • Low-N-Zelle. Guard: Die Skill lehnt eine Perzentil-basierte Band-Empfehlung ab, wenn die Survey-Zelle weniger Respondenten hat als der dokumentierte Schwellenwert des Surveys. Sie fällt auf eine breitere Zelle zurück (breitere Funktion, breitere Geographie) und vermerkt den Fallback.
  • Eigenkapital-Vergleichs-Drift. Guard: Eigenkapitalwerte werden annualisiert und zum aktuellen Strike-Preis der Firma konvertiert. Die Konvertierungsmathematik ist im Bericht dokumentiert. Der Audit-Datensatz speichert die rohen und konvertierten Werte, damit zukünftige Prüfungen sie ableiten können.
  • Zu enge öffentlich sichtbare Spanne. Guard: Wenn die öffentliche Spanne so eng ist, dass sie als eine einzige Zahl funktioniert, warnt die Skill. Das Posten von „$140K–$145K” ist eine Verletzung des Geistes (und wohl des Buchstabens) von NYC LL 32-A, die eine „gutgläubige” Spanne erfordert. Die Skill erzwingt eine Mindest-Band-Breite pro Geographie.
  • Bias-Propagierung durch historische Vergütung. Guard: Wenn die Philosophiedatei der Firma durch „passen Sie, was wir in dieser Band zuvor bezahlt haben” kalibriert wird, propagiert die Skill alle Lohnlücken, die in historischen Daten existieren. Die Skill markiert dies, wenn die Philosophieabstimmung historischer Vergütung statt Survey-Perzentilen eng folgt, und empfiehlt dem Comp-Analysten, eine separate Lohngleichheitsprüfung durchzuführen.

Stack

Das Skill-Bundle liegt unter apps/web/public/artifacts/compensation-benchmark-skill/ und enthält:

  • SKILL.md — die Skill-Definition
  • references/1-survey-source-schemas.md — per-Quell-Export-Schemas (Radford, Pave, Carta, benutzerdefiniertes CSV)
  • references/2-comp-philosophy-template.md — ausfüllbare per-Firma-Philosophiedatei

Tools, die der Workflow voraussetzt: Claude (das Modell), Ashby oder Greenhouse (das ATS, für das Posten der öffentlichen Spanne).

Verwandte Konzepte: Recruiting Funnel Metrics, Offer Acceptance Rate, Candidate Experience.

Files in this artifact

Download all (.zip)