ooligo
claude-skill

Pontue leads contra um rubric de ICP usando Claude

Dificuldade
intermediário
Tempo de setup
30min
Para
revops
RevOps

Stack

Uma skill do Claude que recebe qualquer linha de lead, roda contra o rubric de ICP da sua equipe e retorna um score de 0 a 10, um racional por critério citando o rubric, uma ação recomendada por tier e um flag de escalação para casos limítrofes. Projetada para se conectar a uma coluna de AI do Clay, a uma custom-code action do HubSpot ou a uma execução standalone via CLI sobre um CSV. Substitui a matriz de scoring em planilha que ninguém atualizou desde o ano passado — sem fingir que também consegue fazer scoring de intenção ou comportamental, o que não é possível.

O bundle é entregue em apps/web/public/artifacts/lead-scoring-icp-rubric-skill/ e contém SKILL.md mais três templates de referência que o usuário adapta antes da primeira execução.

Quando usar

Use esta skill quando você tem MQLs inbound se acumulando mais rápido do que sua equipe de SDR consegue triagear, e o scoring existente é inexistente (“tudo é um lead”) ou desatualizado (“matriz de scoring do HubSpot calibrada pela última vez em 2023, ninguém confia nela”). Também é útil para outbound: pontue uma lista fria enriquecida antes de atribuí-la, e você para de queimar tempo de SDR em empresas fora do ICP que parecem boas superficialmente.

A skill é scoring de fit, não scoring de intenção. Ela responde “esta é o tipo certo de empresa para nós” — não “elas estão no mercado esta semana”. Essa distinção importa: se você só pontua por fit, vai sequenciar contas de ótimo fit que não têm necessidade atual e ignorar contas de fit ruim que estão ativamente comprando. Combine esta skill com qualquer sinal de comportamento in-market — Bombora, 6sense, seus próprios eventos de uso de produto, acessos à página de preços — para rotear corretamente.

Concretamente, invoque-a a partir de:

  • Uma coluna de AI do Clay que dispara em cada nova linha em uma tabela de leads, escrevendo o score e o racional de volta em duas colunas.
  • Uma custom-code action do HubSpot em um workflow acionado por Lifecycle stage = MQL, que chama a skill e escreve tanto o score quanto o racional em propriedades do lead.
  • Um CLI standalone sobre um export CSV — útil para scoring único de lista antes do lançamento de uma campanha.

Quando NÃO usar

Pule esta skill quando:

  • Você quer rejeitar leads automaticamente sem humano no loop. O output é uma recomendação. A skill marca explicitamente casos limítrofes com escalate: needs_human_review, mas se você conectá-la para deletar leads pontuados C ou abaixo, vai silenciosamente destruir pipeline sempre que o rubric ficar desatualizado. Mantenha sempre um caminho de revisão pelo SDR para pelo menos o tier C.
  • Seu “rubric” são intuições. A skill se recusa a pontuar contra um rubric sem pesos e valores de tier explícitos. Se sua equipe ainda não teve a discussão sobre o que uma indústria de tier A realmente é, tenha essa discussão primeiro. A skill não pode tornar o rubric defensável se a fonte não for.
  • Você precisa de scoring comportamental ou de intenção. Isso é apenas scoring de fit. Tentar codificar “engagement score” ou “última visita ao site” no rubric obriga você a atualizá-lo constantemente; use uma ferramenta de intenção dedicada para os sinais que variam com o tempo e mantenha esta skill para os sinais estáticos de fit.
  • Você opera em um domínio regulamentado que exige explicabilidade além do racional por critério. Os outputs por critério são auditáveis, mas não são o mesmo que um model card defensável perante um regulador. Se precisar disso, invista em um serviço de scoring adequado, não em uma skill do Claude.

Setup

O setup leva cerca de 30 minutos depois que você tiver o rubric redigido. O rubric em si leva mais tempo — geralmente uma sessão de trabalho de 60 minutos com o gerente de SDR, um AE e alguém de RevOps para discutir pesos.

  1. Instale a Skill. Coloque apps/web/public/artifacts/lead-scoring-icp-rubric-skill/SKILL.md e a pasta references/ no seu diretório .claude/skills/lead-scoring/ (ou faça upload como Skill no claude.ai). O name e description no frontmatter são o que aciona a Skill nos prompts relevantes.
  2. Substitua o template de rubric. Abra references/1-icp-rubric-template.md e substitua as linhas de placeholder em “Criteria” pelos seus critérios reais, pesos (1-5) e valores de tier (A / B / C). Preencha a seção “Hard disqualifiers” — esses rodam como checks determinísticos antes de qualquer chamada LLM. Atualize “Last edited” para que o SHA-256 que a skill imprime em todo rodapé de output reflita quem é o dono da versão atual.
  3. Substitua a matriz tier-para-ação. Abra references/2-tier-to-action-matrix.md e substitua as linhas de exemplo pelo que sua equipe realmente faz em cada combinação de (tier, source_of_lead). Os padrões são razoáveis mas não são seus.
  4. Conecte a fonte de input. No Clay, aponte uma coluna de AI para a Skill, passe a linha de lead enriquecida como lead, o arquivo de rubric como rubric e a coluna de origem como source_of_lead. No HubSpot, envolva a Skill em uma custom-code action que lê as propriedades do contato e da empresa em um objeto lead e posta o output estruturado de volta. Em um script, itere sobre o CSV, poste cada linha, escreva o score e o racional em duas novas colunas.
  5. Configure o destino. Tanto o score quanto o racional vão para o lead. Score em uma propriedade numérica (para lógica de roteamento), racional em uma propriedade de texto longo (para o SDR que vai lê-la antes da ligação). Conecte o campo escalate a uma propriedade booleana ou enum separada para que o gerente de SDR possa filtrar para revisão.
  6. Calibre. Antes de ativar, rode a skill sobre 20 leads closed-won e 20 closed-lost dos últimos 6 meses. A distribuição de scores deve separar claramente os dois grupos. Se não separar, o rubric é o problema, não a skill — volte ao passo 2 e reargumente os pesos.

O que a skill realmente faz

A skill roda quatro etapas em uma ordem fixa. Etapas anteriores bloqueiam as posteriores; não paralelize.

Etapa 1 — checks firmográficos determinísticos. Antes de qualquer chamada LLM, código simples roda os hard disqualifiers do rubric (país sancionado, indústria desqualificada, headcount abaixo do seu mínimo, domínio de e-mail gratuito) e o check de campos obrigatórios (email e company_domain precisam estar presentes). Hits retornam imediatamente — disqualified com a citação, ou escalate: insufficient_data com os campos ausentes. Por que determinístico primeiro: é gratuito, rápido e nunca alucina. Queimar tokens para confirmar que uma barbearia de 3 pessoas não está no seu ICP de SaaS enterprise é desperdício.

Etapa 2 — scoring LLM por critério com ponderação explícita. Para cada critério restante, o modelo emite um tier (A / B / C) e um racional de uma frase citando a linha do rubric. A skill multiplica o tier (A=3, B=2, C=1) pelo peso do critério e soma. Por que por critério em vez de um prompt holístico: outputs holísticos misturam critérios silenciosamente e você perde a capacidade de debugar por que um lead recebeu 8 em vez de 5. Por que ponderação explícita em vez de deixar o modelo equilibrar: pesos declarados são a única forma de o rubric permanecer a fonte da verdade. Se o modelo decide seu próprio equilíbrio, as revisões de rubric se tornam teatro.

Etapa 3 — fallback limítrofe para revisão humana. Se o score final está dentro de 0,5 de uma fronteira de tier, ou se mais de 3 critérios foram pontuados com dados ausentes ou inferidos, a skill define escalate: needs_human_review e nomeia os campos ausentes. O erro de scoring mais caro não é um tier errado em um lead confiante — é um tier errado em um lead que sempre foi limítrofe.

Etapa 4 — montagem do output. A skill emite o Markdown descrito em references/3-sample-output.md: score principal e tier, ação recomendada vinculada da matriz tier-para-ação, tabela por critério com razões, check de disqualifier, lista de lacunas de dados, e um rodapé com o SHA-256 do rubric e a data da última edição.

Custo real

O custo de tokens por lead depende do tamanho do rubric, mas para um rubric típico de 6 critérios com output estruturado por critério, espere aproximadamente 1.500-2.500 tokens de input e 400-700 tokens de output por lead. Com o preço do Claude Sonnet 4.x (aproximadamente $3 por milhão de input e $15 por milhão de output a partir do final de 2026), isso é cerca de $0,01-0,02 por lead pontuado.

Uma equipe processando 5.000 MQLs inbound por mês gasta aproximadamente $50-100/mês em tokens do Claude. Uma equipe processando 50.000 leads outbound enriquecidos por mês gasta $500-1.000/mês — ponto em que o batching, o prompt caching do rubric e a pré-filtragem com a etapa determinística importam muito. A skill padrão usa um único prompt estruturado por lead (em vez de 6-10 prompts pequenos) precisamente para manter o uso de tokens limitado.

Os custos não relacionados a tokens são maiores. Construir o rubric é uma sessão de trabalho de 60 minutos que você faz uma vez e refaz trimestralmente. Calibrar contra 20 closed-won + 20 closed-lost leva outra hora. Conectar a integração com o Clay ou HubSpot é meio dia. Depois disso a skill funciona sozinha até o rubric derivar.

Métrica de sucesso

A métrica a acompanhar é a correlação score-conversão: dos leads pontuados A nos últimos 90 dias, que fração converteu para oportunidades? Dos pontuados B? C? Se a curva é monotônica — A converte a uma taxa maior que B, B a uma taxa maior que C — o rubric está funcionando. Se C converte a uma taxa similar a B, o rubric não separa fit de não-fit e precisa ser reargumentado.

Métrica secundária: tempo de SDR para primeiro contato em leads tier A. Um sistema de scoring que funciona colapsa isso para menos de 1 hora para inbound. Se leads tier A ainda ficam em fila por 24h, o roteamento — não o scoring — é o gargalo.

vs alternativas

vs HubSpot Predictive Lead Scoring. O score preditivo built-in do HubSpot é uma caixa-preta treinada nos seus dados históricos de conversão. Funciona depois que você tem volume suficiente de closed-won (o HubSpot recomenda cerca de 500 deals fechados como mínimo). Para equipes abaixo dessa marca, o modelo não tem do que aprender e o score é ruído. Esta skill funciona desde o primeiro dia porque o rubric é feito à mão, não aprendido. O trade-off: o modelo do HubSpot capta padrões que um autor de rubric perderia; esta skill só sabe o que você escreveu. Execute as duas se tiver volume — use o score do HubSpot para “o que me surpreende” e o racional por critério desta skill para “por que este está classificado aqui.”

vs scoring comportamental do Marketo. O Marketo (ou o scoring comportamental do HubSpot) rastreia sinais de engajamento — aberturas de e-mail, visualizações de página, envios de formulário — e adiciona pontos. Isso é scoring de intenção, não de fit, e as duas respostas são perguntas diferentes. Uma conta de ótimo fit que não abriu um e-mail ainda é uma conta de ótimo fit. Uma conta de fit ruim que leu seu blog intensamente ainda é uma conta de fit ruim. Use scoring comportamental além desta skill, não em vez dela; roteie pelo sinal combinado (alto fit + alta intenção → AE direto; alto fit + baixa intenção → nurture; baixo fit + alta intenção → SDR para ligação de fit antes do AE).

vs revisão manual pelo SDR. Para menos de 50 leads inbound por semana, a revisão manual por um gerente de SDR é genuinamente competitiva — humanos captam nuances (“esta empresa acabou de adquirir um dos nossos clientes, priorize”) que a skill perderá. Acima de ~200 leads por semana, a revisão manual se torna o gargalo e a consistência cai. A skill escala linearmente com o orçamento de tokens; humanos não.

Pontos de atenção

  • Deriva do rubric. Alguém edita o rubric em Markdown, faz deploy da mudança, e os SDRs lendo os novos scores nunca veem um diff. Seis semanas depois, a equipe percebe que o peso de headcount foi alterado de 4 para 2 por acidente e 200 contas de tier stretch foram silenciosamente rebaixadas para C. Proteção: a skill registra o SHA-256 do rubric em todo rodapé de output e adiciona um banner “Rubric atualizado YYYY-MM-DD” sempre que o hash muda entre execuções. Um lembrete trimestral no calendário força uma revisão mesmo que nenhuma edição aconteça.
  • Amplificação de viés de fonte. Um rubric construído a partir do seu conjunto de closed-won codifica para quem você já vendeu. Pontuar contra ele torna você cego a ICP adjacente e seu pipeline se estreita ao longo do tempo para cópias dos clientes do ano passado. Proteção: todo trimestre, amostre 20 leads que a skill pontuou como tier C e peça a um AE que revise manualmente se algum é realmente fit. Se mais de 3 estiverem mal classificados, adicione uma linha de “ICP stretch” ao rubric e recalibre.
  • Falsa confiança em dados escassos. Quando o enriquecimento está faltando 4 de 6 campos de critérios, um score de 7,4 é principalmente ruído, mas parece autoritativo. Os SDRs vão tratá-lo como tier A confiante e pular a preparação da ligação. Proteção: a skill define escalate: needs_human_review sempre que mais de 3 critérios são pontuados com dados ausentes ou inferidos, e adiciona uma seção “Lacunas de dados” listando os campos ausentes. Os SDRs são treinados para ler a seção de lacunas antes do número principal.
  • Proxies de classe protegida. Mesmo com boa intenção, um rubric que pondera “geografia” pode colapsar para nacionalidade, e “indústria” pode colapsar para proxies de demografia empresarial de formas que seu departamento jurídico não vai gostar. Proteção: a skill recusa campos que reconhece como proxies de classe protegida (gênero derivado do nome, foto, sinais de idade). Revise o rubric anualmente com alguém que consiga identificar os proxies menos óbvios.

Stack

  • Claude — engine de scoring e gerador de racional. Sonnet 4.x é o ponto ideal de custo vs qualidade de raciocínio para esta tarefa; Haiku funciona para o caminho somente-determinístico mas perde qualidade de racional na etapa LLM.
  • Clay — fonte de leads e camada de enriquecimento preferida para scoring outbound e de lista fria. A coluna de AI é um ponto de integração limpo.
  • HubSpot — CRM de destino para score, racional, flag de escalação e fonte. Custom-code actions são o ponto de integração para scoring de MQL inbound.
  • Um editor de Markdown e um calendário — as peças sem glamour. O rubric vive em Markdown, a revisão trimestral vive no calendário de alguém, e ambos importam mais do que a escolha do modelo.

Arquivos deste artefato

Baixar tudo (.zip)