ooligo
claude-skill

Claudeによる面接デブリーフサマリー

Difficulty
初級
Setup time
30min
For
recruiter · hiring-manager · talent-acquisition
Recruiting & TA

Stack

候補者のパネル全体(すべての面接官の構造化スコアカード、オプションのBrightHireまたはMetaviewトランスクリプト、ロールルーブリック)を受け取り、同期デブリーフミーティングの前にパネルが読む、証拠に基づいたデブリーフブリーフを生成するClaude スキルです。ブリーフはルーブリック次元ごとの集約シグナル、合意と不一致の領域、パネルが解決すべき具体的な意思決定ポイント、シグナルが薄い場合のフォローアップ質問を提示します。採用・不採用の推薦は意図的に出力しません。それはパネルの仕事であり、そうでなければこのワークフローはEU AI法附属書IIIの高リスク体制および米国のほとんどの採用AI法規の対象に入ってしまいます。

下流効果:デブリーフが、誰が何をスコアしたかを90分かけてレビューする場ではなく、実際の不一致を30分で議論する場になります。

使う場面

次のすべてが当てはまる場合にスキルを実行します。

  • ロールルーブリックをカバーする少なくとも3名の面接官で構成されるフル面接ループが候補者について完了している。
  • すべての面接官がルーブリックに対する構造化スコアカードを提出済みである(自由記述のみのスコアカードはスキルのステップ1の入力チェックで失敗します。apps/web/public/artifacts/interview-debrief-summary-skill/SKILL.mdを参照してください)。
  • 同期デブリーフミーティングまで少なくとも2時間ある。ブリーフはミーティング中にスキャンするものではなく、事前に読むために作られています。
  • ロールにapps/web/public/artifacts/interview-debrief-summary-skill/references/1-interview-rubric-template.mdの形式に合致した構造化ルーブリックがある。すべての次元に1〜5のアンカーテーブルがあり、すべてのアンカーに行動の説明がある。

使わない場面

このスキルはいくつかの隣接した用途には適していません。

  • 採用・不採用の自動決定。 ブリーフは最終決定を出力しません。パネルのための意思決定ポイントを出力します。自動決定はEU AI法附属書III義務、ニューヨーク市地方法144のバイアス監査要件、イリノイ州AIVIの同意要件、メリーランド州HB 1202の通知ルールを発動させます。このスキルはその体制の外側に留まるよう設計されています。自動決定ロジックに組み込めばその設計を無効にしてしまいます。
  • 採用担当者によるレビューなしに候補者へのフィードバックを送ること。 ブリーフは内部専用です。合成された論拠テキストは内部パネルの言い回しを使用しており、候補者にそのまま提示した場合、差別訴訟の証拠となりえます。
  • パネルデブリーフの会話を代替すること。 ブリーフはディスカッションへの入力であり、代替ではありません。「ブリーフがコンセンサスを示しているのでデブリーフはスキップしよう」という使い方は、references/3-disagreement-escalation.mdのルールが意図して表面化させる失敗モードです。摩擦のないコンセンサスそのものがキャリブレーションの懸念事項です。
  • 面接官が1名のループ。 3名未満ではパネル合成は意味をなしません。1名の面接官向けフィードバックワークフローを使用してください。
  • 同意のないトランスクリプト。 二者同意が必要な法域(CA、FL、IL、MD、MA、MT、NH、PA、WA)では、これは必須の停止条件です。面接開始時に候補者が録音に同意していない限り、BrightHireまたはMetaviewのトランスクリプトを渡さないでください。
  • ルーブリック自体の設問に関するキャリブレーションセッション。 パネルがルーブリック(候補者ではなく)について議論しているとき、ブリーフの次元別合成はノイズです。キャリブレーションセッションを別途実施し、ルーブリックが安定したらブリーフを再実行してください。

セットアップ

アーティファクトバンドルはapps/web/public/artifacts/interview-debrief-summary-skill/にあります。内容:

  • SKILL.md — フロントマター、起動ルール、6ステップの手順、リテラル出力フォーマット、注意点とガードのペアを含むClaude スキル定義。
  • references/1-interview-rubric-template.md — スキルが入力を検証する構造化ルーブリックの形式。
  • references/2-debrief-brief-format.md — ブリーフが書かれるリテラルMarkdownフォーマット。
  • references/3-disagreement-escalation.md — 決定論的な意思決定ポイントルール(レンジ、バーレイザー拒否権、HM対パネル乖離、yes全体の中の一つのno、カバレッジギャップ、根拠不十分クラスター)。

ワークフローを立ち上げるには:

  1. バンドルをClaudeのスキルディレクトリに配置する。 interview-debrief-summary-skill/をプロジェクトの.claude/skills/(またはチームの共有スキル場所)以下に配置します。
  2. ルーブリックテンプレートをロール固有のルーブリックに置き換える。 ロールごとにreferences/1-interview-rubric-template.mdを編集します。すべての次元に行動の説明を含む1〜5のアンカーテーブルが必要です。次元数は4〜7の間に保ってください。4未満ではパネルが三角測量できず、7超ではスコアカードが義務的に記入されて証拠の質が低下します。
  3. スコアカードエクスポートを接続する。 スキルが構造化スコアカードを読めるようATSエクスポートを設定します。AshbyGreenhouseLeverはいずれもAPIでスコアカードJSONを公開しています。スキルはSKILL.mdInputsブロックに従った{interviewer_id, interviewer_role, dimension_scores, evidence_notes}の配列を期待します。
  4. 既知の候補者でテストする。 パネルがすでにデブリーフを行い決定を下した候補者で実行します。ブリーフの意思決定ポイントと実際のデブリーフの議論トピックを比較します。ブリーフがパネルで議論されなかったトピックを提示する(またはパネルで議論されたトピックを見逃す)場合、プロンプトではなくまずルーブリックを調整してください。
  5. 監査ログディレクトリを設定する。 スキルは実行ごとにルーブリックSHA、面接官数、意思決定ポイント数、タイムスタンプを含む1行をaudit/<YYYY-MM>.jsonlに追記します。監査行に候補者のPIIは含まれません。このログは、ニューヨーク市地方法144/EU AI法の照会に対してワークフローを防衛可能にするものです。

スキルの実際の動作

6ステップの手順が次の順序で実行されます。この順序は重要です。決定論的な検証とマッピングがLLMによるルーブリックアンカーと質問の生成の前に行われ、最後の候補者体験パスが各ステージを個別に割り当てる際に見えない過負荷を検出するために組み立てられたループ全体を再読します。

  1. ルーブリックと入力を検証する。 自由記述のみのルーブリック、3名未満の面接官、2名未満の面接官しかカバーしない次元、20文字未満のevidence_notes文字列で停止します。警告ではなく停止するのは意図的です。不完全な入力で生成されたブリーフはパネルの精神的なアンカーになってしまうためです。
  2. 次元ごとに集約する(決定論的)。 平均、レンジ、標準偏差、面接官ロール別の内訳を計算します。LLMはこの時点でまだスコアカードを参照しません。
  3. 意思決定ポイントを特定する(決定論的)。 references/3-disagreement-escalation.mdの6つのルールを適用します。意思決定ポイントはLLMが不一致と読み取ったものではなく、構造化シグナルに基づきます。
  4. 次元ごとに合成する。 LLMは次元ごとに2〜3文の合成を生成し、evidence_notesの文字列を引用符付きで逐語的に引用します。言い換えはバイアスが入り込む場所であり、スキルはそれを禁止しています。トランスクリプトが利用可能な場合、合成はタイムスタンプの範囲を引用します。「シグナル不十分 — フォローアップを推奨」は「推薦なし」とは区別された第一級の出力です。次元に関する証拠の欠如はパネルが把握すべき情報です。
  5. キャリブレーションチェック。 候補者のスコア分布を同じロールの直近5件のデブリーフの移動平均と比較します。結果はブリーフの末尾の「キャリブレーションノート」ブロックに表示され、次元ごとのインラインには表示されません。意図:会話をフレーム化するものであり、スコアを調整するものではありません。
  6. ブリーフを書いて停止する。 briefs/<candidate_id>-<YYYYMMDD>.mdに書き込みます。監査ログに1行追記します。「候補者に送信する」「Slackに投稿する」「ATSのステージを更新する」エンドポイントは呼び出しません。採用担当者と採用マネージャーが次のアクションを決定するまで、ブリーフは内部専用です。

出力フォーマットは固定です(apps/web/public/artifacts/interview-debrief-summary-skill/references/2-debrief-brief-format.mdを参照)。意図的に「推薦」セクションはなく、「集約シグナル」「次元別合成」「パネルへの意思決定ポイント」「フォローアップ質問」「キャリブレーションノート」「付録 — 面接官別証拠」のみです。採用決定を読み取ろうとする読者は、構造によってディスカッションに押し戻されます。

コスト

トランスクリプトなしの5名の面接官・5つのルーブリック次元での典型的なブリーフは、約18〜25kの入力トークン(ルーブリック+スコアカード+証拠ノート+3つの参照ファイル)と4〜6kの出力トークンになります。現在のAPI料金でClaude Sonnetを使用した場合、デブリーフあたり約$0.10〜$0.15です。トランスクリプトを付加した場合(典型的な30分の面接トランスクリプト:各7〜10kトークン)、5名のループは1デブリーフあたり$0.40〜$0.70に達します。

節約時間の計算が本質的な数値です。典型的な5名のデブリーフミーティングは60〜90分かかり、そのうち30〜50分は実際の意思決定ディスカッションが始まる前の「それぞれが何を見たか」のラウンドロビンです。ブリーフはそのラウンドロビンを置き換えます。あるリファレンス組織で採用担当者がこのスキルを運用した結果、ブリーフを少なくとも4時間前に配布したループでは、デブリーフミーティングの平均が28分(75分から短縮)になったと報告されています。

これはデブリーフあたり約45分の節約で、通常5名の面接官にわたって、合計約3.75人・時間のミーティング時間が削減され、コストは1ドル未満です。

成功指標

注目すべき指標:ブリーフが少なくとも4時間前に配布されたループにおける、カレンダー分でのデブリーフミーティング時間の中央値です。カレンダーツール(またはAshbyの面接スケジュール履歴)から取得し、「ブリーフあり」と「ブリーフなし」のコホートに分けてください。目標軌道:ブリーフなしコホートでの60〜90分の中央値が、最初の4〜6週間でブリーフありコホートでの25〜40分の中央値に低下すること。

並行して監視するカウンター指標:ブリーフありコホートとブリーフなしコホートでの6ヶ月時点の採用後後悔率。デブリーフが速くなったにもかかわらず後悔率が上昇した場合、ブリーフは不一致を表面化させるのではなく平均化させています。references/3-disagreement-escalation.mdの不一致エスカレーションルールを厳格化してください(通常:レンジ閾値を2から1.5に下げるか、関連する次元に「3未満のスコア」トリガーを追加する)。

代替手段との比較

  • Ashbyの組み込みデブリーフ機能。 Ashbyはダッシュボードビューでスコアカードを集約し、パネル平均を計算します。書面による合成は生成せず、ルールによる意思決定ポイントの提示も、「4.0のコンセンサス」と「4.0の根拠不十分クラスター」の区別もしません。スキルが読み込むデータソースとしてAshbyのビューを使用し、ブリーフの代替としては使用しないでください。
  • Greenhouseのスコアカード集約。 Greenhouseは面接官ごとの採用・不採用の集計とパネルの推薦集計にロールアップします。この集計こそがスキルが設計で防ごうとする失敗モードです。スコア算術を決定として扱うようパネルを誘導し、パネルの「賛成」全体で平均化されてしまうバーレイザーの拒否権を見えなくします。
  • 採用担当者による手動ノート。 採用担当者がすべてのスコアカードを読んでデブリーフの「テーマ」を1段落のメールにまとめるのが現状の多くのチームです。ループに対する採用担当者の読みが反映されており価値がありますが、採用担当者の時間に対して線形にスケールし、長い目で見ると「HMが望んでいることへのパターンマッチング」に偏る傾向があります。スキルは採用担当者を超えて一貫しており、採用担当者自身がブリーフを書く場合には通常フラグを立てない構造的な不一致(R3 — HM対パネル乖離)を提示します。
  • 何もしない。 デフォルト — 全員が自分のノートを持ってデブリーフに参加し、ディスカッションはラウンドロビンで実施されます。四半期に10件未満の採用規模の小規模チームには問題ありません。それ以上の量では、ラウンドロビンがボトルネックになり、疲労が蓄積するとともにデブリーフの質が低下します。

注意点

  • 1名の強い意見によるバイアス(最初に読んだスコアカードへのアンカリング)。 対策: ステップ2はLLMがいずれのスコアカードも参照する前に、すべての面接官にわたって決定論的に集約します。ステップ3のR3ルール(HM対パネル乖離)は単一の強い意見の乖離を明示的に意思決定ポイントとして提示します。合成は次元別ブロックで面接官名ではなく面接官ロール(HM、ピア、クロスファンクショナル、バーレイザー)で証拠を帰属させるため、ブリーフが上位面接官の方向に切り上げることを防ぎます。
  • 根拠不十分な次元での見かけのコンセンサス。 対策: ステップ1でのevidence_notes最小長チェック(20文字未満で失敗)。ステップ3のR6(根拠不十分クラスター)は、3件以上のスコアが1ポイント以内にクラスターしているが証拠ノートの平均が30文字未満の次元を推薦なしではなくフォローアップ推奨として提示します。これは自由形式のデブリーフで最も一般的なサイレントな失敗です。
  • スコア算術による決定(平均3.5超を「採用」として扱う)。 対策: ブリーフは採用・不採用の推薦を出力しません。出力フォーマットには意図的に「推薦」ブロックがなく、意思決定ポイントとフォローアップのみです。決定を読み取ろうとする読者は、構造によってディスカッションに押し戻されます。
  • バーレイザーの拒否権がサイレントにオーバーライドされる。 対策: ステップ3のR2は、バーレイザーのスコアがパネル平均より2以上低い場合を自動的に意思決定ポイントとして提示します。バーレイザーの反対意見が平均化されてしまう状態でブリーフを生成することはできません。パネルの残りが全員一致であっても同様です。
  • 合成に人口統計的なパターンが漏れ込む。 対策: 合成はevidence_notesの文字列を言い換えではなく逐語的に引用するため、LLMがある観察を保護クラス推論を示唆する言語に書き換えることを防ぎます。渡されたevidence_note自体に保護クラスのプロキシ(名前の出自、年齢推定、育児状況の推測、行動アンカーのない「カルチャーフィット」)が含まれている場合、スキルはステップ1で停止し、続行前にその問題のあるノートを書き直すよう提示します。
  • キャリブレーションノートが判決として過剰解釈される。 対策: キャリブレーションブロックはブリーフの末尾に追記され、次元ごとのインラインには表示されません。ブロックはアクションを提示するのではなく「許容範囲内」または「許容範囲外 — 議論してください」という言語を使用し、同じロールの過去のデブリーフが5件未満しかロードされていない場合はキャリブレーションチェック全体をスキップします。

スタック

  • AIプロバイダー: Claude(合成ステップにはSonnet、ルーブリックが曖昧な場合の初回実行検証にはOpus)。
  • ATS: AshbyGreenhouse、またはLever — スコアカードデータソース。
  • オプションのトランスクリプト: BrightHireまたはMetaview。面接開始時に記録された二者同意の文書が必要です。
  • 位置付け: このスキルが前提とするルーブリック設計の規律については構造化面接を参照してください。スキルは非構造化面接プロセスを救うことはできません。構造化プロセスが生み出すシグナルを合成するだけです。
  • ポリシーの枠組み: 候補者データの入力(特にトランスクリプトはGDPRおよびほとんどの米国州プライバシー法制度において機微な個人データ)に必要なTier-Aのエンタープライズ向けAI取り扱いについては法務チーム向けAIポリシーを参照してください。

Files in this artifact

Download all (.zip)