ooligo
claude-skill

Resumo de debrief de entrevista com Claude

Dificuldade
iniciante
Tempo de setup
30min
Para
recruiter · hiring-manager · talent-acquisition
Recrutamento e TA

Stack

Uma Claude Skill que recebe o painel completo de um candidato — o scorecard estruturado de cada entrevistador, transcrições opcionais do BrightHire ou Metaview, e o rubric da vaga — e produz um brief de debrief fundamentado em evidências que o painel lê antes da reunião síncrona de debrief. O brief surfacea o sinal agregado por dimensão do rubric, áreas de concordância e discordância, os pontos de decisão específicos que o painel precisa resolver e perguntas de acompanhamento quando o sinal é fraco. Ele deliberadamente não emite uma recomendação de hire/no-hire — esse é o trabalho do painel, e tratá-lo de outra forma coloca o workflow dentro do regime de alto risco do Anexo III do EU AI Act e da maioria dos estatutos de AI de contratação nos EUA.

O efeito downstream: os debriefs se tornam discussões de 30 minutos sobre os desacordos reais em vez de revisões de 90 minutos de quem pontuou o quê.

Quando usar

Execute a skill quando todos os seguintes forem verdadeiros:

  • Um loop de entrevista completo foi concluído para o candidato, com pelo menos 3 entrevistadores distintos cobrindo o rubric da vaga.
  • Cada entrevistador submeteu um scorecard estruturado contra o rubric (scorecards apenas com texto livre falham na verificação de input do passo 1 da skill — veja apps/web/public/artifacts/interview-debrief-summary-skill/SKILL.md).
  • A reunião síncrona de debrief é pelo menos 2 horas no futuro. O brief é para ser lido com antecedência, não folheado na reunião.
  • A vaga tem um rubric estruturado correspondendo ao formato em apps/web/public/artifacts/interview-debrief-summary-skill/references/1-interview-rubric-template.md — cada dimensão tem uma tabela de âncoras 1-5, cada âncora tem uma descrição comportamental.

Quando NÃO usar

A skill é a ferramenta errada para vários trabalhos adjacentes:

  • Auto-decidir hire/no-hire. O brief nunca emite uma decisão final. Ele emite pontos de decisão para o painel. Auto-decidir aciona obrigações do Anexo III do EU AI Act, o requisito de auditoria de viés da NYC LL 144, requisitos de consentimento do IL AIVI e regras de notificação do MD HB 1202. A skill é construída para cair fora desse regime; conectá-la à lógica de auto-decisão a coloca de volta dentro.
  • Enviar feedback a candidatos sem revisão do recrutador. O brief é apenas interno. Texto de raciocínio sintetizado usa linguagem interna do painel que se torna evidência em uma reclamação de discriminação se surfaceada ao candidato literalmente.
  • Substituir a conversa de debrief do painel. O brief é o input para a discussão, não um substituto. “O brief mostra consenso, então vamos pular o debrief” é o modo de falha que as regras em references/3-disagreement-escalation.md são projetadas para surfacear — o consenso sem atrito é em si uma preocupação de calibração.
  • Loops de entrevistador único. Abaixo de 3 entrevistadores, a síntese de painel não é significativa. Use um workflow de feedback de entrevistador único.
  • Transcrições sem consentimento. Jurisdições de consentimento de duas partes (CA, FL, IL, MD, MA, MT, NH, PA, WA) tornam isso uma parada total. Não passe transcrições do BrightHire ou Metaview a menos que o candidato tenha consentido com a gravação no início da entrevista.
  • Sessões de calibração sobre questões do próprio rubric. Quando o painel está debatendo o rubric (não o candidato), a síntese por dimensão do brief é ruído. Execute a sessão de calibração separadamente, depois re-execute o brief quando o rubric estiver estável.

Configuração

O bundle de artefatos está em apps/web/public/artifacts/interview-debrief-summary-skill/. Ele contém:

  • SKILL.md — a definição da Claude Skill com frontmatter, regras de quando invocar, o método em seis passos, o formato literal de output e os pares de pontos de atenção / proteção.
  • references/1-interview-rubric-template.md — o formato de rubric estruturado que a skill valida os inputs contra.
  • references/2-debrief-brief-format.md — o formato Markdown literal em que o brief é escrito.
  • references/3-disagreement-escalation.md — as regras determinísticas de pontos de decisão (intervalo, veto de bar-raiser, divergência HM-vs-painel, único-não-entre-sins, lacuna de cobertura, cluster com sub-evidência).

Para configurar o workflow:

  1. Coloque o bundle no seu diretório de skills do Claude Code. Coloque interview-debrief-summary-skill/ em .claude/skills/ do seu projeto (ou na localização de skills compartilhadas da sua equipe).
  2. Substitua o template de rubric pelo seu rubric específico da vaga. Edite references/1-interview-rubric-template.md por vaga — cada dimensão precisa de uma tabela de âncoras 1-5 com descrições comportamentais. Mantenha a contagem de dimensões entre 4 e 7. Abaixo de 4, o painel não consegue triangular; acima de 7, os scorecards são preenchidos como tarefa e a qualidade das evidências degrada.
  3. Configure o export de scorecard. Configure seu export do ATS para que a skill consiga ler scorecards estruturados. Ashby, Greenhouse e Lever expõem JSON de scorecard via API; a skill espera um array de {interviewer_id, interviewer_role, dimension_scores, evidence_notes} conforme o bloco Inputs em SKILL.md.
  4. Teste em um candidato conhecido. Execute em um candidato onde o painel já debriefou e tomou uma decisão. Compare os pontos de decisão do brief com os tópicos de discussão do debrief real. Se o brief surfacea tópicos que o painel não discutiu (ou perde tópicos que o painel discutiu), ajuste o rubric — não o prompt — primeiro.
  5. Configure o diretório do log de auditoria. A skill adiciona uma linha por execução a audit/<YYYY-MM>.jsonl contendo SHA do rubric, contagem de entrevistadores, contagem de pontos de decisão e timestamp. Sem PII de candidatos na linha de auditoria. O log é o que torna o workflow defensável sob questionamento da NYC LL 144 / EU AI Act.

O que a skill realmente faz

O método em seis passos executa nesta ordem, e a ordem é fundamental:

  1. Valida o rubric e os inputs. Para em rubrics com apenas texto livre, em menos de 3 entrevistadores, em dimensões cobertas por menos de 2 entrevistadores, em strings evidence_notes com menos de 20 caracteres. Parar em vez de avisar é intencional — um brief gerado em inputs parciais se torna a âncora mental do painel.
  2. Agrega por dimensão (determinístico). Calcula média, intervalo, desvio padrão e breakdown por papel do entrevistador. O LLM não vê scorecards ainda neste ponto.
  3. Identifica pontos de decisão (determinístico). Aplica as seis regras em references/3-disagreement-escalation.md. Os pontos de decisão são baseados no sinal estruturado, não no que o LLM acha que parece discordância.
  4. Sintetiza por dimensão. O LLM produz uma síntese de duas a três frases por dimensão, citando strings evidence_notes literalmente entre aspas. Parafrasear é onde o viés entra; a skill o proíbe. Quando transcrições estão disponíveis, a síntese cita o intervalo de timestamp. “Sinal insuficiente — recomendar acompanhamento” é um output de primeira classe, distinto de “sem recomendação” — a ausência de evidência em uma dimensão é informação que o painel precisa.
  5. Verificação de calibração. Compara a distribuição de pontuação do candidato contra a média contínua dos últimos 5 debriefs da mesma vaga. Os resultados aparecem em um bloco de “Nota de calibração” no final do brief, nunca inline por dimensão. Intenção: enquadrar a conversa, não ajustar pontuações.
  6. Escreve o brief e para. Escreve em briefs/<candidate_id>-<YYYYMMDD>.md. Adiciona uma linha ao log de auditoria. Não chama nenhum endpoint de “enviar para candidato”, “postar no Slack” ou “atualizar estágio no ATS”. O brief é interno até que o recrutador e o gestor de contratação decidam o que fazer.

O formato de output é fixo (veja apps/web/public/artifacts/interview-debrief-summary-skill/references/2-debrief-brief-format.md) e intencionalmente não tem seção de “Recomendação” — apenas “Sinal agregado”, “Síntese por dimensão”, “Pontos de decisão para o painel”, “Perguntas de acompanhamento”, “Nota de calibração” e “Apêndice — evidência por entrevistador”. Um leitor que tenta ler uma decisão de hire encontra a estrutura o empurrando de volta para a discussão.

Realidade de custos

Um brief típico para um loop de 5 entrevistadores com 5 dimensões de rubric e sem transcrições fica em aproximadamente 18-25k tokens de input (rubric + scorecards + notas de evidência + os três arquivos de referência) e 4-6k tokens de output. Com Claude Sonnet pelo preço atual da API, isso é cerca de US$0,10-0,15 por debrief. Com transcrições (transcrição típica de entrevista de 30 minutos: 7-10k tokens cada), um loop de 5 entrevistadores vai para US$0,40-0,70 por debrief.

A matemática de tempo economizado é o número fundamental: uma reunião de debrief típica de 5 entrevistadores dura 60-90 minutos, dos quais 30-50 minutos é a rodada de “o que cada um de nós viu” antes de qualquer discussão real de decisão acontecer. O brief substitui a rodada. Recrutadores executando esta skill em uma das nossas organizações de referência reportam reuniões de debrief com média de 28 minutos (baixando de 75 minutos) para loops onde o brief foi distribuído pelo menos 4 horas com antecedência.

Isso é aproximadamente 45 minutos economizados por debrief, em (tipicamente) 5 entrevistadores — cerca de 3,75 horas-pessoa de tempo de reunião por loop, a um custo de bem menos de um dólar.

Métrica de sucesso

A métrica a observar mudar: duração mediana da reunião de debrief em minutos de calendário para loops onde o brief foi distribuído pelo menos 4 horas com antecedência. Extraia da sua ferramenta de calendário (ou do histórico de agendamento de entrevistas do Ashby) e segmente em coortes “com brief” vs “sem brief”. Trajetória alvo: mediana de 60-90 minutos no coorte sem brief cai para mediana de 25-40 minutos no coorte com brief nas primeiras 4-6 semanas.

Contra-métrica a observar em paralelo: taxa de arrependimento pós-contratação em 6 meses no coorte com brief vs o sem brief. Se os debriefs ficaram mais rápidos mas a taxa de arrependimento subiu, o brief está deixando os desacordos serem nivelados em vez de surfaceá-los — aperte as regras de escalação de desacordo em references/3-disagreement-escalation.md (tipicamente: reduza o limiar de intervalo de 2 para 1,5, ou adicione um trigger de “qualquer pontuação abaixo de 3” para a dimensão relevante).

vs alternativas

  • Features de debrief integradas do Ashby. O Ashby agrega scorecards em uma visão de dashboard e calcula uma média do painel. Ele não produz uma síntese escrita, não surfacea pontos de decisão por regra e não diferencia “consenso em 4,0” de “cluster com sub-evidência em 4,0”. Use a visão do Ashby como a fonte de dados que a skill lê, não como substituto para o brief.
  • Agregação de Scorecards do Greenhouse. O Greenhouse consolida scorecards em uma contagem de hire-ou-no-hire por entrevistador mais um agregado de recomendação do painel. O agregado é o modo de falha que a skill é projetada contra — ele empurra painéis em direção à aritmética de pontuação como decisão e obscurece votos-negados de bar-raiser que são nivelados em um “positivo” geral.
  • Notas manuais do recrutador. Um recrutador lendo cada scorecard e escrevendo um parágrafo de “temas para o debrief” é o status quo na maioria das equipes. Captura a leitura do recrutador do loop, que é valiosa, mas escala linearmente com o tempo do recrutador e tende a fazer correspondência de padrões em direção ao “o que o HM provavelmente quer” ao longo de muitas iterações. A skill é consistente entre recrutadores e surfacea desacordos estruturais (R3 — divergência HM-vs-painel) que um recrutador escrevendo o brief eles mesmos raramente sinaliza.
  • Não fazer nada. O padrão — todos aparecem para o debrief com suas próprias notas e a discussão vai em rodada. Funciona bem para equipes de baixo volume (menos de 10 contratações por trimestre). Em volume maior, a rodada é o gargalo e a qualidade do debrief degrada conforme a fadiga se acumula.

Pontos de atenção

  • Viés de uma opinião forte (ancoragem no primeiro scorecard lido). Proteção: o passo 2 agrega deterministicamente em todos os entrevistadores antes que o LLM veja qualquer scorecard único. A regra R3 do passo 3 (divergência HM-vs-painel) surfacea explicitamente a divergência de opinião forte única como um ponto de decisão. A síntese atribui evidência por papel do entrevistador (HM, Par, XFN, Bar-raiser) em vez de por nome nos blocos por dimensão, o que evita que o brief se arredonde em direção ao entrevistador sênior.
  • Falso consenso em dimensões com sub-evidência. Proteção: verificação de comprimento mínimo de evidence_notes no passo 1 (abaixo de 20 chars falha). R6 (cluster com sub-evidência) no passo 3 surfacea dimensões onde 3+ pontuações se agrupam dentro de 1 ponto mas a nota de evidência média tem menos de 30 caracteres como RECOMENDAR ACOMPANHAMENTO, não como concordância. Este é o modo de falha silenciosa mais comum de debriefs de formato livre.
  • Aritmética de pontuação como decisão (tratar média acima de 3,5 como “hire”). Proteção: o brief nunca emite uma recomendação de hire/no-hire. O formato de output intencionalmente não tem bloco de “Recomendação” — apenas pontos de decisão e acompanhamentos. Um leitor que tenta ler uma decisão encontra a estrutura o empurrando de volta para a discussão.
  • Veto de bar-raiser silenciosamente sobrescrito. Proteção: R2 no passo 3 surfacea qualquer pontuação de bar-raiser 2+ abaixo da média do painel como um ponto de decisão automaticamente. O brief não pode ser gerado em um estado onde um dissenso de bar-raiser seja nivelado — mesmo que o resto do painel seja unânime.
  • Padrões demográficos vazando para a síntese. Proteção: a síntese cita strings evidence_notes literalmente em vez de parafrasear, o que evita que o LLM reescreva uma observação em linguagem que telegrafie uma inferência de classe protegida. Se uma evidence_note passada em si contiver proxies de classe protegida (origem de nome, inferência de idade, inferência de status parental, “culture fit” sem âncoras comportamentais), a skill para no passo 1 e surfacea a nota ofensiva para reescrita antes de continuar.
  • Nota de calibração superinterpretada como veredicto. Proteção: o bloco de calibração é adicionado ao final do brief, nunca inline por dimensão. O bloco usa a linguagem “dentro da tolerância” ou “fora da tolerância — discuta” em vez de sugerir uma ação, e a verificação de calibração é pulada inteiramente se menos de 5 debriefs anteriores da mesma vaga estiverem carregados.

Stack

  • Provedor de AI: Claude (Sonnet para o passo de síntese; Opus para validação de rubric de primeira execução se o rubric for ambíguo).
  • ATS: Ashby, Greenhouse ou Lever — a fonte de dados de scorecard.
  • Transcrições opcionais: BrightHire ou Metaview, com captura de consentimento de duas partes documentada no início da entrevista.
  • Onde se encaixa: veja structured interviewing para a disciplina de design de rubric que esta skill assume já estar em vigor. A skill não consegue resgatar um processo de entrevista não estruturado — ela só consegue sintetizar o sinal que um processo estruturado produz.
  • Enquadramento de política: veja AI policy for legal teams para o tratamento de AI empresarial Tier-A necessário para inputs de dados de candidatos (transcrições em particular são dados pessoais sensíveis sob o GDPR e a maioria dos regimes estaduais de privacidade dos EUA).

Arquivos deste artefato

Baixar tudo (.zip)