Uma skill do Claude que recebe qualquer linha de lead, roda contra o rubric de ICP da sua equipe e retorna um score de 0 a 10, um racional por critério citando o rubric, uma ação recomendada por tier e um flag de escalação para casos limítrofes. Projetada para se conectar a uma coluna de AI do Clay, a uma custom-code action do HubSpot ou a uma execução standalone via CLI sobre um CSV. Substitui a matriz de scoring em planilha que ninguém atualizou desde o ano passado — sem fingir que também consegue fazer scoring de intenção ou comportamental, o que não é possível.
O bundle é entregue em apps/web/public/artifacts/lead-scoring-icp-rubric-skill/ e contém SKILL.md mais três templates de referência que o usuário adapta antes da primeira execução.
Quando usar
Use esta skill quando você tem MQLs inbound se acumulando mais rápido do que sua equipe de SDR consegue triagear, e o scoring existente é inexistente (“tudo é um lead”) ou desatualizado (“matriz de scoring do HubSpot calibrada pela última vez em 2023, ninguém confia nela”). Também é útil para outbound: pontue uma lista fria enriquecida antes de atribuí-la, e você para de queimar tempo de SDR em empresas fora do ICP que parecem boas superficialmente.
A skill é scoring de fit, não scoring de intenção. Ela responde “esta é o tipo certo de empresa para nós” — não “elas estão no mercado esta semana”. Essa distinção importa: se você só pontua por fit, vai sequenciar contas de ótimo fit que não têm necessidade atual e ignorar contas de fit ruim que estão ativamente comprando. Combine esta skill com qualquer sinal de comportamento in-market — Bombora, 6sense, seus próprios eventos de uso de produto, acessos à página de preços — para rotear corretamente.
Concretamente, invoque-a a partir de:
- Uma coluna de AI do Clay que dispara em cada nova linha em uma tabela de leads, escrevendo o score e o racional de volta em duas colunas.
- Uma custom-code action do HubSpot em um workflow acionado por
Lifecycle stage = MQL, que chama a skill e escreve tanto o score quanto o racional em propriedades do lead. - Um CLI standalone sobre um export CSV — útil para scoring único de lista antes do lançamento de uma campanha.
Quando NÃO usar
Pule esta skill quando:
- Você quer rejeitar leads automaticamente sem humano no loop. O output é uma recomendação. A skill marca explicitamente casos limítrofes com
escalate: needs_human_review, mas se você conectá-la para deletar leads pontuados C ou abaixo, vai silenciosamente destruir pipeline sempre que o rubric ficar desatualizado. Mantenha sempre um caminho de revisão pelo SDR para pelo menos o tier C. - Seu “rubric” são intuições. A skill se recusa a pontuar contra um rubric sem pesos e valores de tier explícitos. Se sua equipe ainda não teve a discussão sobre o que uma indústria de tier A realmente é, tenha essa discussão primeiro. A skill não pode tornar o rubric defensável se a fonte não for.
- Você precisa de scoring comportamental ou de intenção. Isso é apenas scoring de fit. Tentar codificar “engagement score” ou “última visita ao site” no rubric obriga você a atualizá-lo constantemente; use uma ferramenta de intenção dedicada para os sinais que variam com o tempo e mantenha esta skill para os sinais estáticos de fit.
- Você opera em um domínio regulamentado que exige explicabilidade além do racional por critério. Os outputs por critério são auditáveis, mas não são o mesmo que um model card defensável perante um regulador. Se precisar disso, invista em um serviço de scoring adequado, não em uma skill do Claude.
Setup
O setup leva cerca de 30 minutos depois que você tiver o rubric redigido. O rubric em si leva mais tempo — geralmente uma sessão de trabalho de 60 minutos com o gerente de SDR, um AE e alguém de RevOps para discutir pesos.
- Instale a Skill. Coloque
apps/web/public/artifacts/lead-scoring-icp-rubric-skill/SKILL.mde a pastareferences/no seu diretório.claude/skills/lead-scoring/(ou faça upload como Skill no claude.ai). Onameedescriptionno frontmatter são o que aciona a Skill nos prompts relevantes. - Substitua o template de rubric. Abra
references/1-icp-rubric-template.mde substitua as linhas de placeholder em “Criteria” pelos seus critérios reais, pesos (1-5) e valores de tier (A / B / C). Preencha a seção “Hard disqualifiers” — esses rodam como checks determinísticos antes de qualquer chamada LLM. Atualize “Last edited” para que o SHA-256 que a skill imprime em todo rodapé de output reflita quem é o dono da versão atual. - Substitua a matriz tier-para-ação. Abra
references/2-tier-to-action-matrix.mde substitua as linhas de exemplo pelo que sua equipe realmente faz em cada combinação de(tier, source_of_lead). Os padrões são razoáveis mas não são seus. - Conecte a fonte de input. No Clay, aponte uma coluna de AI para a Skill, passe a linha de lead enriquecida como
lead, o arquivo de rubric comorubrice a coluna de origem comosource_of_lead. No HubSpot, envolva a Skill em uma custom-code action que lê as propriedades do contato e da empresa em um objetoleade posta o output estruturado de volta. Em um script, itere sobre o CSV, poste cada linha, escreva o score e o racional em duas novas colunas. - Configure o destino. Tanto o score quanto o racional vão para o lead. Score em uma propriedade numérica (para lógica de roteamento), racional em uma propriedade de texto longo (para o SDR que vai lê-la antes da ligação). Conecte o campo
escalatea uma propriedade booleana ou enum separada para que o gerente de SDR possa filtrar para revisão. - Calibre. Antes de ativar, rode a skill sobre 20 leads closed-won e 20 closed-lost dos últimos 6 meses. A distribuição de scores deve separar claramente os dois grupos. Se não separar, o rubric é o problema, não a skill — volte ao passo 2 e reargumente os pesos.
O que a skill realmente faz
A skill roda quatro etapas em uma ordem fixa. Etapas anteriores bloqueiam as posteriores; não paralelize.
Etapa 1 — checks firmográficos determinísticos. Antes de qualquer chamada LLM, código simples roda os hard disqualifiers do rubric (país sancionado, indústria desqualificada, headcount abaixo do seu mínimo, domínio de e-mail gratuito) e o check de campos obrigatórios (email e company_domain precisam estar presentes). Hits retornam imediatamente — disqualified com a citação, ou escalate: insufficient_data com os campos ausentes. Por que determinístico primeiro: é gratuito, rápido e nunca alucina. Queimar tokens para confirmar que uma barbearia de 3 pessoas não está no seu ICP de SaaS enterprise é desperdício.
Etapa 2 — scoring LLM por critério com ponderação explícita. Para cada critério restante, o modelo emite um tier (A / B / C) e um racional de uma frase citando a linha do rubric. A skill multiplica o tier (A=3, B=2, C=1) pelo peso do critério e soma. Por que por critério em vez de um prompt holístico: outputs holísticos misturam critérios silenciosamente e você perde a capacidade de debugar por que um lead recebeu 8 em vez de 5. Por que ponderação explícita em vez de deixar o modelo equilibrar: pesos declarados são a única forma de o rubric permanecer a fonte da verdade. Se o modelo decide seu próprio equilíbrio, as revisões de rubric se tornam teatro.
Etapa 3 — fallback limítrofe para revisão humana. Se o score final está dentro de 0,5 de uma fronteira de tier, ou se mais de 3 critérios foram pontuados com dados ausentes ou inferidos, a skill define escalate: needs_human_review e nomeia os campos ausentes. O erro de scoring mais caro não é um tier errado em um lead confiante — é um tier errado em um lead que sempre foi limítrofe.
Etapa 4 — montagem do output. A skill emite o Markdown descrito em references/3-sample-output.md: score principal e tier, ação recomendada vinculada da matriz tier-para-ação, tabela por critério com razões, check de disqualifier, lista de lacunas de dados, e um rodapé com o SHA-256 do rubric e a data da última edição.
Custo real
O custo de tokens por lead depende do tamanho do rubric, mas para um rubric típico de 6 critérios com output estruturado por critério, espere aproximadamente 1.500-2.500 tokens de input e 400-700 tokens de output por lead. Com o preço do Claude Sonnet 4.x (aproximadamente $3 por milhão de input e $15 por milhão de output a partir do final de 2026), isso é cerca de $0,01-0,02 por lead pontuado.
Uma equipe processando 5.000 MQLs inbound por mês gasta aproximadamente $50-100/mês em tokens do Claude. Uma equipe processando 50.000 leads outbound enriquecidos por mês gasta $500-1.000/mês — ponto em que o batching, o prompt caching do rubric e a pré-filtragem com a etapa determinística importam muito. A skill padrão usa um único prompt estruturado por lead (em vez de 6-10 prompts pequenos) precisamente para manter o uso de tokens limitado.
Os custos não relacionados a tokens são maiores. Construir o rubric é uma sessão de trabalho de 60 minutos que você faz uma vez e refaz trimestralmente. Calibrar contra 20 closed-won + 20 closed-lost leva outra hora. Conectar a integração com o Clay ou HubSpot é meio dia. Depois disso a skill funciona sozinha até o rubric derivar.
Métrica de sucesso
A métrica a acompanhar é a correlação score-conversão: dos leads pontuados A nos últimos 90 dias, que fração converteu para oportunidades? Dos pontuados B? C? Se a curva é monotônica — A converte a uma taxa maior que B, B a uma taxa maior que C — o rubric está funcionando. Se C converte a uma taxa similar a B, o rubric não separa fit de não-fit e precisa ser reargumentado.
Métrica secundária: tempo de SDR para primeiro contato em leads tier A. Um sistema de scoring que funciona colapsa isso para menos de 1 hora para inbound. Se leads tier A ainda ficam em fila por 24h, o roteamento — não o scoring — é o gargalo.
vs alternativas
vs HubSpot Predictive Lead Scoring. O score preditivo built-in do HubSpot é uma caixa-preta treinada nos seus dados históricos de conversão. Funciona depois que você tem volume suficiente de closed-won (o HubSpot recomenda cerca de 500 deals fechados como mínimo). Para equipes abaixo dessa marca, o modelo não tem do que aprender e o score é ruído. Esta skill funciona desde o primeiro dia porque o rubric é feito à mão, não aprendido. O trade-off: o modelo do HubSpot capta padrões que um autor de rubric perderia; esta skill só sabe o que você escreveu. Execute as duas se tiver volume — use o score do HubSpot para “o que me surpreende” e o racional por critério desta skill para “por que este está classificado aqui.”
vs scoring comportamental do Marketo. O Marketo (ou o scoring comportamental do HubSpot) rastreia sinais de engajamento — aberturas de e-mail, visualizações de página, envios de formulário — e adiciona pontos. Isso é scoring de intenção, não de fit, e as duas respostas são perguntas diferentes. Uma conta de ótimo fit que não abriu um e-mail ainda é uma conta de ótimo fit. Uma conta de fit ruim que leu seu blog intensamente ainda é uma conta de fit ruim. Use scoring comportamental além desta skill, não em vez dela; roteie pelo sinal combinado (alto fit + alta intenção → AE direto; alto fit + baixa intenção → nurture; baixo fit + alta intenção → SDR para ligação de fit antes do AE).
vs revisão manual pelo SDR. Para menos de 50 leads inbound por semana, a revisão manual por um gerente de SDR é genuinamente competitiva — humanos captam nuances (“esta empresa acabou de adquirir um dos nossos clientes, priorize”) que a skill perderá. Acima de ~200 leads por semana, a revisão manual se torna o gargalo e a consistência cai. A skill escala linearmente com o orçamento de tokens; humanos não.
Pontos de atenção
- Deriva do rubric. Alguém edita o rubric em Markdown, faz deploy da mudança, e os SDRs lendo os novos scores nunca veem um diff. Seis semanas depois, a equipe percebe que o peso de headcount foi alterado de 4 para 2 por acidente e 200 contas de tier stretch foram silenciosamente rebaixadas para C. Proteção: a skill registra o SHA-256 do rubric em todo rodapé de output e adiciona um banner “Rubric atualizado YYYY-MM-DD” sempre que o hash muda entre execuções. Um lembrete trimestral no calendário força uma revisão mesmo que nenhuma edição aconteça.
- Amplificação de viés de fonte. Um rubric construído a partir do seu conjunto de closed-won codifica para quem você já vendeu. Pontuar contra ele torna você cego a ICP adjacente e seu pipeline se estreita ao longo do tempo para cópias dos clientes do ano passado. Proteção: todo trimestre, amostre 20 leads que a skill pontuou como tier C e peça a um AE que revise manualmente se algum é realmente fit. Se mais de 3 estiverem mal classificados, adicione uma linha de “ICP stretch” ao rubric e recalibre.
- Falsa confiança em dados escassos. Quando o enriquecimento está faltando 4 de 6 campos de critérios, um score de 7,4 é principalmente ruído, mas parece autoritativo. Os SDRs vão tratá-lo como tier A confiante e pular a preparação da ligação. Proteção: a skill define
escalate: needs_human_reviewsempre que mais de 3 critérios são pontuados com dados ausentes ou inferidos, e adiciona uma seção “Lacunas de dados” listando os campos ausentes. Os SDRs são treinados para ler a seção de lacunas antes do número principal. - Proxies de classe protegida. Mesmo com boa intenção, um rubric que pondera “geografia” pode colapsar para nacionalidade, e “indústria” pode colapsar para proxies de demografia empresarial de formas que seu departamento jurídico não vai gostar. Proteção: a skill recusa campos que reconhece como proxies de classe protegida (gênero derivado do nome, foto, sinais de idade). Revise o rubric anualmente com alguém que consiga identificar os proxies menos óbvios.
Stack
- Claude — engine de scoring e gerador de racional. Sonnet 4.x é o ponto ideal de custo vs qualidade de raciocínio para esta tarefa; Haiku funciona para o caminho somente-determinístico mas perde qualidade de racional na etapa LLM.
- Clay — fonte de leads e camada de enriquecimento preferida para scoring outbound e de lista fria. A coluna de AI é um ponto de integração limpo.
- HubSpot — CRM de destino para score, racional, flag de escalação e fonte. Custom-code actions são o ponto de integração para scoring de MQL inbound.
- Um editor de Markdown e um calendário — as peças sem glamour. O rubric vive em Markdown, a revisão trimestral vive no calendário de alguém, e ambos importam mais do que a escolha do modelo.