ooligo
claude-skill

Catch hallucinated claims, generic personalization, and compliance breaks in AI SDR drafts before they send

Dificultad
intermedio
Tiempo de setup
60-90 min
Para
revops · sdr-leader · gtm-engineer
RevOps

Stack

Un Claude Skill que se ubica entre un AI SDR (Alice en 11x, Ava en Artisan, el agente dentro de aisdr o Unify) y la acción de envío, puntuando cada borrador contra cuatro rúbricas — exactitud de afirmaciones, anclaje de la personalización, cumplimiento jurisdiccional, y higiene de entregabilidad — y devuelve un veredicto block / edit / send con el eje específico que falló citado. El bundle en apps/web/public/artifacts/ai-sdr-draft-qa-skill/ trae SKILL.md, cuatro archivos de rúbrica en references/, y un archivo literal de output de muestra para el cableado del parser.

Cuándo usarlo

Ejecuta este skill como gate previo al envío en cualquier deployment de AI SDR que envíe sin revisión humana mensaje por mensaje. Los dos patrones de producción: un webhook delante de la acción de envío del AI SDR que postea el borrador más el paquete de evidencia del prospect al skill y sólo libera el envío con respuesta verdict: send, o un pase batch previo al envío sobre las próximas 24 horas de borradores en cola que pausa cualquier paso de secuencia con verdict: block.

El skill también sirve como herramienta de calibración durante un piloto. Pasa una muestra de 500 borradores de tu primer mes con 11x, Artisan o aisdr por el skill, y luego haz que un analista de RevOps etiquete los mismos 500 a mano. El conjunto de desacuerdos te dice si el AI SDR está sobre o sub-personalizando para tu ICP, dónde se concentra la tasa de afirmaciones alucinadas, y si tu perfil jurisdiccional necesita ajuste antes de escalar el volumen de envío más allá de 5.000 por semana.

El skill requiere el borrador más un paquete prospect_evidence — el mismo payload de enriquecimiento que el AI SDR usó para escribir el borrador. Si el AI SDR upstream no expone el paquete de evidencia (algunas suites cerradas lo ocultan), el skill no puede verificar afirmaciones y devuelve insufficient_evidence en lugar de adivinar. Eso es una feature, no un bug: un gate de QA que puntúa borradores contra el conocimiento general del modelo va a alucinar sus propias validaciones.

Cuándo NO usarlo

No uses este skill cuando un SDR o AE humano revisa cada borrador antes del envío. El revisor es un gate más fuerte que el skill — tiene contexto de negocio que el skill no tiene — y agregar un modelo delante de un revisor humano gasta tokens y añade latencia sin elevar la precisión. Úsalo para flujos totalmente autónomos o parcialmente autónomos.

No lo uses como único control de entregabilidad. El skill escanea trampas de spam, asuntos en mayúsculas, cuerpos sólo de imagen y patrones de cloaking de enlaces dentro del borrador. No vigila DMARC, tasa de quejas ni estado de blocklist en tus dominios — ése es el trabajo del flow email-deliverability-monitor-n8n. Ejecuta ambos.

No lo corras sobre borradores de respuesta caliente ni hilos ya activos. Las rúbricas están construidas para outbound frío; un borrador de respuesta a un prospect que ya agendó una reunión fallará la rúbrica de personalización por diseño (la personalización a esa altura debe ser context-aware, no extraída de evidencia fría). Rutea los borradores warm-tier a otro prompt.

Setup

El setup es de 60-90 minutos para el skill en sí, más el tiempo de cableado upstream, que depende de si tu AI SDR expone un webhook pre-envío.

  1. Instala el Skill. Mueve apps/web/public/artifacts/ai-sdr-draft-qa-skill/SKILL.md y la carpeta references/ a tu directorio .claude/skills/ai-sdr-draft-qa/, o súbelo como Skill en claude.ai. Los campos name y description del frontmatter son los que disparan el Skill desde un agente que llama.
  2. Calibra la rúbrica de afirmaciones. Abre references/1-claim-rubric.md y configura claim_block_threshold — el número de afirmaciones no verificadas que dispara un veredicto block (default: 1). La mayoría de los AI SDRs sobre-confabula rondas de funding y headcount; el default de 1 hace surgir cada afirmación alucinada. Súbelo a 2 sólo si aceptas algún riesgo de alucinación a cambio de menos bloqueos.
  3. Calibra la rúbrica de personalización. Abre references/2-personalization-rubric.md. El scoring default usa una escala 0-5; el personalization_block_below default es 2. Un score de 2 significa al menos una especificidad anclada y ligada al paquete de evidencia. Los borradores que puntúan 0 o 1 son plantillas “Hola [first_name], noté que [Company] está en el espacio [industry]” — bloquea.
  4. Elige perfiles jurisdiccionales. Abre references/3-compliance-rubric.md y habilita los perfiles que corresponden a tu envío. US CAN-SPAM + RFC 8058 one-click unsubscribe es el piso; documentación de interés legítimo bajo el GDPR de la UE es la capa para cualquier recipient de la UE; Francia agrega Loi Hamon para B2B; California agrega opt-out alineado a CCPA. La rúbrica de cumplimiento lee el país del prospect desde el paquete de evidencia y aplica el perfil que corresponde o devuelve insufficient_compliance_context.
  5. Cablea el webhook pre-envío. Para 11x y Artisan, configura el webhook pre-envío en los settings de la plataforma a tu URL de endpoint (o usa el modo “approval queue” de la plataforma y haz que el skill maneje las aprobaciones). Para Unify y aisdr, usa la API abierta de la plataforma para obtener el próximo borrador en cola, llama al skill y escribe el veredicto de vuelta. Para un agente propio, coloca el skill delante de la llamada SMTP de envío directamente.
  6. Decide la política de bloqueo. Un veredicto block puede rutear el borrador a un revisor humano, retenerlo para que el AI SDR lo regenere, o hard-fail del envío. El default es “retener para regeneración con el eje fallido como feedback” — la mayoría de los AI SDRs mejoran el borrador en la segunda pasada cuando se les da el fallo específico.

Lo que el skill realmente hace

Paso 1 — validación de input. El skill rechaza llamadas a las que les falta cuerpo del borrador, asunto, dominio del sender, país del recipient o paquete prospect_evidence. La falta de cualquiera de estos devuelve insufficient_input con el campo específico. No corre scoring sobre un registro incompleto.

Paso 2 — extracción y verificación de afirmaciones. Cada afirmación factual sobre el prospect, su empresa, o un evento público (“vi su anuncio de Serie B la semana pasada”, “el spike de contrataciones en el equipo de data”) se extrae y luego se cotteja contra el paquete de evidencia. Una afirmación está anclada si una cita en el paquete la respalda. Las afirmaciones no ancladas se marcan. Default claim_block_threshold: 1 — una afirmación no anclada dispara un bloqueo.

Paso 3 — scoring de personalización. El skill puntúa de 0-5 sobre especificidades ancladas. Una especificidad anclada es un detalle ligado a una cita en el paquete de evidencia — un tool nombrado que usa el prospect, un job posting específico que publicaron, un podcast en el que aparecieron. Una especificidad no anclada — “tu industria”, “tu rol”, “tu equipo” — no cuenta. Los borradores que puntúan por debajo de personalization_block_below: 2 son bloqueados. La separación de dos polos (anclada vs no anclada) es lo que impide que el AI SDR juegue con el score metiendo tokens.

Paso 4 — escaneo de cumplimiento. El skill chequea: un patrón de header List-Unsubscribe y una línea List-Unsubscribe-Post: List-Unsubscribe=One-Click según RFC 8058 (el requisito de bulk-sender de Google y Yahoo desde febrero de 2024), una dirección física del sender en el footer según CAN-SPAM, un link de unsubscribe en el cuerpo visible, identidad del sender que coincida con la línea From, y los agregados por jurisdicción de los perfiles habilitados. La falta de cualquier elemento requerido es bloqueo.

Paso 5 — escaneo de entregabilidad y voz. El skill marca lenguaje trampa de spam (“guaranteed”, “free money”, “act now”), asuntos de más de 70 caracteres o en mayúsculas, cuerpos de menos de 40 palabras o más de 250 palabras, cuerpos sólo de imagen, más de 3 enlaces, y marcas estilo AI (“I hope this email finds you well”, “I wanted to reach out”). Una marca dispara veredicto edit, no bloqueo, salvo que se apile con otra marca.

Paso 6 — armado del veredicto. El skill devuelve uno de tres veredictos: send (sin bloqueos, sin ediciones), edit (una o más marcas tier-edición con las reescrituras sugeridas inline), o block (uno o más asuntos bloqueantes con el eje fallido nombrado). El formato de output está en references/4-sample-output.md.

Realidad de costo

Cada pase de QA consume 1.500-3.500 tokens de input (el borrador, el paquete de evidencia y los cuatro archivos de rúbrica cuando no están en caché) y 400-800 tokens de output. Al pricing de Claude Sonnet 4.x (aproximadamente $3 por millón de input y $15 por millón de output, mid-2026 list), cada pase cuesta $0,01-0,03.

A volumen de AI SDR — un solo agente autónomo haciendo 5.000-15.000 envíos por mes — la capa de QA cuesta $50-450 por mes en tokens de Claude. A un deployment de 50.000-envíos-por-mes (múltiples agentes, envío multi-dominio), $500-1.500. Compara contra la alternativa: un dominio de envío suprimido por un spike de complaint rate del 0,3% cuesta aproximadamente 5-10 días hábiles de pipeline. El costo de QA es un error de redondeo contra una mala semana.

El prompt caching de los archivos de rúbrica recorta el costo de tokens de input un 30-50% a volumen de producción. El SKILL.md del bundle documenta la convención de cache-key; los cuatro archivos de rúbrica son estables entre llamadas dentro de un deployment.

Métrica de éxito

La métrica a trackear es tasa de captura de afirmaciones alucinadas: muestrea 100 borradores por semana, haz que un analista de RevOps etiquete cada uno por afirmaciones no ancladas, y mide el recall del skill contra las etiquetas del analista. Un recall por encima de 95% significa que la rúbrica funciona; por debajo de 90% significa que la rúbrica de afirmaciones necesita apretarse (baja el umbral, o expande qué cuenta como “afirmación”).

Métrica secundaria: tasa de bloqueo falso. Entre los borradores que el skill bloqueó, cuenta la fracción que un analista habría aprobado. Una tasa de bloqueo falso por encima del 8% es la señal para aflojar el umbral de personalización de 2 a 1 o expandir la definición de especificidad anclada. Por debajo del 3% significa que el skill está sub-bloqueando — empuja el umbral en la otra dirección.

Las dos métricas se mueven en contra; elige el punto de operación que coincide con tu tolerancia. Un equipo enterprise B2B vendiéndole a Fortune 500 debería correr apretado — alto recall, aceptar más bloqueo falso. Un equipo SMB de alto volumen vendiendo a 10.000+ por semana debería correr suelto — menor bloqueo falso, aceptar algunas afirmaciones alucinadas si la matemática de volumen funciona.

vs alternativas

vs sin QA. El status quo para deployments de AI SDR totalmente autónomos hasta 2026 es no tener gate pre-envío más allá de los livianos guardrails del propio vendor. Las tasas de respuesta sobre envíos autónomos están en 1-3% versus 8-15% en pods híbridos AI-más-humano (estimaciones de deployments reportados por buyers hasta mid-2026, no un benchmark publicado único). Los patrones de afirmaciones alucinadas y personalización genérica son una porción material del gap. Agregar un gate de QA sube la tasa, pero el movimiento está acotado — mejores borradores no convierten listas frías en cálidas.

vs los guardrails internos del propio AI SDR. 11x y Artisan envían chequeos de calidad internos que marcan fallas obvias, pero la superficie de falla no es transparente — no puedes inspeccionar qué chequeó o no chequeó el control, y no puedes ajustar el umbral. Este skill hace la rúbrica inspeccionable. El trade-off: es una llamada al modelo separada con su propio costo de latencia.

vs un revisor SDR humano. Un revisor humano captura fallas de contexto de negocio que el skill se pierde (“este prospect acaba de tener una caída importante, no le envíes un email animado hoy”). El skill captura fallas de consistencia que el revisor humano se pierde en el borrador 200 del día. Corre ambos a alto deal value; corre sólo el skill a alto volumen.

vs un prompt estructurado que limita al AI SDR upstream. Prompts upstream más apretados reducen la alucinación en la fuente. No capturan la tasa residual y no marcan rupturas de cumplimiento jurisdiccional (la jurisdicción depende del recipient, que el prompt de redacción no conoce). Usa ambos: un prompt upstream estructurado para el AI SDR, más este skill como el gate.

Watch-outs

  • Bloqueos falsos sobre especificidades legítimas obtenidas por la IA. Si el AI SDR upstream recuperó un comunicado de prensa reciente que el paquete de evidencia no incluye, el skill marca la afirmación como no anclada y bloquea. Guard: el skill verifica sólo contra el paquete de evidencia provisto, nunca contra conocimiento del modelo. El contrato es que el AI SDR incluya todo lo que usó para escribir el borrador en el paquete; si no puede, el skill no puede verificar. El fix es upstream — conseguir que el vendor del AI SDR exponga el contexto de retrieval — no aflojar la rúbrica.
  • Gaming del score de personalización. Un skill que recompensa especificidad le enseña al modelo upstream a meter tokens que parecen específicos. “Vi tu trabajo en Snowflake en la plataforma de datos” se lee como personalizado aunque el prospect haya salido hace 18 meses. Guard: la rúbrica puntúa especificidades ancladas y no ancladas por separado. Una entidad nombrada cuenta sólo si una cita en el paquete de evidencia la respalda; una especificidad stale sin una cita de empleo actual se lee como no anclada.
  • Creep de cumplimiento entre jurisdicciones. CAN-SPAM, RFC 8058, GDPR, Loi Hamon francesa, opt-out alineado a CCPA en California, awareness de NYC LL144 para cualquier outreach adyacente a hiring — reglas distintas por recipient. Guard: la rúbrica de cumplimiento es por jurisdicción; el paquete prospect_evidence debe incluir el país del recipient (y el estado de EE.UU. cuando aplica), y el skill aplica el perfil que coincide o devuelve insufficient_compliance_context. Caer silenciosamente a un perfil “global” genérico está prohibido en la rúbrica.
  • El skill se vuelve cuello de botella. A 50.000 envíos por mes y un p95 de 3 segundos por borrador, el gate de QA añade unas 42 horas de wall-clock por mes de procesamiento serial — bien en paralelo, mal en single thread. Guard: el bundle documenta el patrón de paralelización (una llamada a Claude por borrador, batches de 20-50 en vuelo) y la convención de cache-key para los cuatro archivos de rúbrica. Apunta a un p95 bajo 3 segundos por borrador; alerta cuando el p95 supera los 5 segundos.

Bundle de referencia

  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/SKILL.md — definición completa del skill, inputs, método, formato de output y watch-outs.
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/1-claim-rubric.md — qué cuenta como afirmación, contrato del paquete de evidencia, umbrales pass/block por eje.
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/2-personalization-rubric.md — especificidades ancladas vs no ancladas, scoring 0-5 con outputs de ejemplo en cada score.
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/3-compliance-rubric.md — perfiles por jurisdicción (US CAN-SPAM, RFC 8058 one-click unsubscribe, GDPR de la UE interés legítimo, awareness NYC LL144, Loi Hamon francesa, opt-out alineado a CCPA en California).
  • apps/web/public/artifacts/ai-sdr-draft-qa-skill/references/4-sample-output.md — outputs literales send, edit y block más el contrato de campo estructurado para parsers.

Archivos de este artefacto

Descargar todo (.zip)