ooligo
claude-skill

Claudeによるテイクホーム課題評価

Difficulty
中級
Setup time
40min
For
recruiter · hiring-manager · technical-screener
Recruiting & TA

Stack

採用チームが作成した評価基準に対して候補者のテイクホーム提出物をスコアリングし、提出されたコードや文書からの行単位の引用を含む構造化された評価レポートを作成するClaude Skillです。自動合格や自動不合格にすることはありません。採用パネルはレポートをライブデブリーフの錨として使用し、実際の採用・不採用の決定はパネルのディスカッションで行われます。パネリスト1人あたり60〜90分の非組織的な作業を、パネリスト1人あたり15分の構造化レビューと30分のキャリブレーションされたデブリーフに置き換えます。

使うべき場面

  • ロールがループのステップとしてテイクホーム課題を使用している場合(構造化面接が前提条件です)。
  • パネリスト間で一貫したスコアリングが必要な場合。テイクホームのレビューは悪名高いほど不一致です。
  • テイクホームがコーディング演習、システム設計の書き起こし、書面演習、または検査可能なアーティファクトを生成する統合ビルドである場合。

使ってはいけない場面

  • ループでの自動合格/自動不合格。 スキルはスコアリングされたレポートを生成します。採用決定はパネルデブリーフで行われます。レポートの集計スコアをステージ移行に接続することは、NYC LL 144 / EU AI Actのエクスポージャーを引き起こします。
  • ライブコーディング面接。 異なるワークフロー(アーティファクト評価ではなくプロセスのライブ観察)。
  • 4時間以上の候補者の作業のテイクホーム。 長いテイクホームはそれ自体候補者体験のアンチパターンです。
  • 候補者がAI使用開示にサインしなかった提出物。 評価基準のスコアリングは特定のAI使用ポリシーに対してキャリブレーションされています。
  • 主要な用途としての盗作検出。 スキルは不審なパターンをフラグしますが、法的な盗作ツールではありません。

セットアップ

  1. バンドルをドロップする。 apps/web/public/artifacts/take-home-evaluator-claude-skill/SKILL.mdをClaude Codeのスキルディレクトリに配置します。
  2. 評価基準を作成する。 テイクホームごとに、実際にスコアリングする次元を含むJSON評価基準を作成します。テンプレートはreferences/1-take-home-rubric-template.mdにあります。
  3. AI使用ポリシーを設定する。 設定はテイクホームブリーフの開示言語と一致しなければなりません。
  4. パネリスト配布モードを設定する。 シングルパネリストモードまたはパネリストごとモード。
  5. クローズしたテイクホームでドライランを実施する。 先四半期に採用(または不採用)にした候補者のテイクホームをスコアリングします。

スキルの実際の動作

6つのステップ。決定論的チェックはLLMがスコアリングする前に行われます。

  1. 提出物の形状を検証する。 テイクホームブリーフで指定されたすべての成果物が存在することを確認します。
  2. 決定論的チェックを実行する。 コードをコンパイルします。候補者が作成したテストスイートを実行します。
  3. 評価基準次元ごとにスコアリングする。 候補者の提出物からの逐語的引用を含む1〜5のスコアを付けます。引用なしの場合、スコアは評価基準の1アンカーにデフォルトします。
  4. ポリシーに対するAI使用シグナルを検出する。 ai-use-signalノートとして表面化されます(違反としてではありません)。
  5. 採用/不採用推薦なしに集計を計算する。 スキルは「レポート。決定ではありません」を返します。
  6. パネリストごとまたは集計レポートを出力する。

コスト試算

Claude Sonnet 4.6でのテイクホーム提出物1件あたり:

  • LLMトークン — 通常15〜30kの入力と3〜5kの出力。シングルパネリストモードで1提出物あたり約$0.15〜$0.25。
  • パネリストの時間 — パネリストの最初の読み取りは60〜90分です。スキルのレポートをレビューするのは15〜25分です。テイクホームごとの節約:2〜3パネリスト時間。
  • セットアップ時間 — テイクホーム形式ごとに40分。

成功指標

テイクホームサイクルごとに3つのことを追跡します:

  • パネリスト間のスコアバリアンス — ~0.5以下は過度なゴム印押し。~1.5以上は評価基準アンカーが曖昧すぎます。
  • 採用対不採用とスキル集計の相関 — 正だが1.0ではない。1.0の場合、パネルは自動委任しています。
  • テイクホームデブリーフの時間 — 4時間未満に短縮されるべきです。

代替手段との比較

  • CodeSignalコーディングレポート / HackerRankの自動採点との比較。 明確に定義された入力から出力のテイクホームには適しています。評価基準がスコアであるビルドには本スキルを選択します。
  • 手動採点のテイクホームとの比較。 手動採点は最高リスクの採用に適しています。一貫した評価基準の適用が欠けているテイクホームの80%にスキルが価値を発揮します。
  • ChatGPTスタイルの「このコードをレビューしてください」との比較。 汎用のチャットは汎用のフィードバックを返します。スキルは逐語的引用を必要とし、採用/不採用推薦を拒否します。

注意点

  • 自動合格/自動不合格のドリフト。 対策: スキーマには推薦フィールドが明示的に欠落しています。
  • 汎用フィードバックの幻覚。 対策: 引用なしの場合、スコアは1にデフォルトします。
  • 評価基準からのバイアスの継承。 対策: 評価基準はこのスキルの上流にあります。既知の格差的影響を持つ次元でスコアリングしていないか確認します。
  • AI使用検出の偽陽性。 対策: AI使用シグナルはノートとして表面化されます(違反としてではありません)。
  • 候補者コードのサンドボックス化の失敗。 対策: 企業の秘密にアクセスできるマシンで未レビューの候補者コードを実行しないでください。

スタック

スキルバンドルはapps/web/public/artifacts/take-home-evaluator-claude-skill/にあります:

  • SKILL.md — スキル定義
  • references/1-take-home-rubric-template.md — 記入可能な評価基準テンプレート
  • references/2-ai-use-policy-mapping.md — 開示されたポリシーのパターンチェックへのマッピング

使用するツール:Claude。オプション:CodeSignalまたはHackerRankAshby

関連:構造化面接行動面接候補者体験採用の質

Files in this artifact

Download all (.zip)