claude-skill

Cleanup de datos en Salesforce con una Claude Skill

Dificultad

avanzado

Tiempo de setup

90min

Para

revops

RevOps

Stack

Una Claude Skill que escanea Salesforce buscando la basura de datos que en silencio distorsiona tu reporting — accounts duplicados, contacts huérfanos, leads basura, teléfonos mal formados, mismatches entre account y contact, y valores de stage que violan la definición del funnel —, y después propone arreglos como un CSV que el operador aprueba antes de que aterrice cualquier escritura. La Skill nunca escribe sin un dry-run explícito más aprobación humana, y cada cambio aplicado se loguea en un objeto custom de auditoría para que pueda revertirse.

El bundle completo vive en apps/web/public/artifacts/salesforce-data-cleanup-skill/. El SKILL.md lleva los inputs, el método y el formato de salida que la Skill sigue. Tres archivos de referencia funcionan como andamiaje completable por el operador: dedup-rules.md para las claves de match y los umbrales de similaridad, stage-definitions.md para el set de campos requeridos por stage, y survivor-ranking.md para los pesos que se usan para elegir qué registro gana un merge.

Cuándo usarlo

Recurre a esta Skill cuando el reporting dejó de ser confiable porque los datos de los objetos subyacentes decayeron más rápido de lo que el equipo puede limpiarlos. Disparadores específicos: un número de ARR del directorio no coincide con la vista de pipeline del CRO por más de un par de puntos porcentuales; el equipo de SDR se queja de tocar al mismo prospecto bajo tres registros distintos de Account; un dashboard de atribución de marketing está contando doble porque los contacts existen en las cuentas equivocadas; una re-segmentación anual del ICP está bloqueada porque los campos firmográficos faltan en un cuarto de las cuentas. En todos esos casos el cuello de botella es higiene de datos, no estrategia.

La Skill también es la elección correcta cuando una herramienta de dedup ya instalada produjo un efecto shelfware — RevOps tiene la licencia pero nadie confía lo suficiente en las propuestas como para actuar sobre ellas. El diferencial de la Skill es que cada merge propuesto sale con una línea de rationale por par citando la clave determinística que disparó y las señales de selección de superviviente que llevaron a la elección. Esa auditabilidad es lo que desbloquea la aprobación humana que el cleanup necesita.

Cuándo NO usarlo

No uses esta Skill si se cumple algo de lo siguiente.

Necesitas un gate de dedup en tiempo real al momento de la captura del lead. La Skill es una herramienta de batch que escanea en chunks, no una regla síncrona de validación. Para dedup al momento de la creación, configura las Duplicate Rules nativas de Salesforce.

Necesitas que la Skill auto-aplique las escrituras. No hay modo auto por diseño. Cada arreglo pasa por un CSV de dry-run sobre el que el operador tiene que marcar Approve=Y antes de que apply_fix toque una fila. Si el modelo operativo requiere escrituras no supervisadas, la Skill tiene la forma equivocada y la respuesta correcta es un job ETL determinístico con sign-off explícito del owner en el proceso de change-management.

Estás respondiendo a un requerimiento de derecho de borrado de GDPR o CCPA. Usa el flow documentado de purga de PII de la plataforma, que rutea por legal y produce el paper trail correcto. No improvises alrededor con una herramienta de cleanup.

Querés hard-deletes que se salten la recycle bin. La Skill no tiene code path de hard-delete. La disciplina de recycle bin es no negociable; las purgas permanentes son una acción manual deliberada de la plataforma.

La primera corrida es contra producción con un token con scope de escritura. Se requieren dos ciclos de scan en solo lectura antes de que la Skill acepte credenciales de escritura, y aun así la primera corrida con escritura debería ser un ensayo en sandbox de un merge de account.

Setup

Coloca el bundle de apps/web/public/artifacts/salesforce-data-cleanup-skill/ en ~/.claude/skills/salesforce-data-cleanup/. El loader de Skills toma SKILL.md y el directorio references/ automáticamente.
Setea SFDC_TOKEN a un token de Connected App de solo lectura. Setea SFDC_INSTANCE_URL al endpoint del sandbox, no de producción. La Skill tiene sandbox=true por defecto y se niega a cambiarlo sin un flag de override explícito.
Reemplaza el contenido de references/dedup-rules.md, references/stage-definitions.md y references/survivor-ranking.md con las reglas reales del equipo. Los templates son andamiaje; correrlos contra una org en vivo va a producir una tasa alta de falsos positivos por diseño.
Provisioná el SObject custom Cleanup_Audit__c en las orgs de sandbox y de producción usando la forma de campos documentada en SKILL.md bajo “Method, paso 5”. El log de auditoría es lo que hace que las corridas sean reversibles — sin él, no corras apply_fix.
Corre el primer scan de discovery. scan_data_health(scope="Account,Contact,Lead,Opportunity"). Esperá que el scan saque a la luz fallas en el ruleset de dedup en el primer pase — ese es el punto de los ciclos en solo lectura.

Lo que hace realmente la Skill

La Skill corre cinco pasos en orden, documentados completos en SKILL.md. El scan de discovery jala cada SObject dentro del scope vía Bulk API en chunks, porque una sola query REST contra una org de 100k Accounts va a pegar contra los governor limits y el Bulk en chunks evita el techo de timeout en pulls grandes.

El dedup usa un híbrido de dos pasadas. La pasada uno es determinística — dominio en minúsculas, teléfono normalizado a E.164, nombre normalizado en NFKD con los sufijos corporativos quitados. Los matches exactos sobre una sola clave fuerte van al CSV de propuesta con confianza high. La pasada dos es una comparación de similaridad semántica con Claude, pero solo sobre los pares candidatos que ya comparten una señal determinística débil (mismos primeros seis dígitos del teléfono, mismo token de nombre de pila, mismo TLD del dominio padre). El enfoque de filtrar-primero-rankear-después es lo que mantiene el costo de tokens por scan por debajo de cinco dólares en una org de 100k Accounts; el semántico puro pair-wise sobre N^2 registros es caro y ruidoso sobre nombres comunes.

La selección de superviviente para los merges usa un score compuesto: 0.4 de peso sobre el recency de actividad en los últimos 90 días de Tasks y Events, 0.3 de peso sobre el conteo de contacts atados, 0.2 de peso sobre la historia de Opportunity (count más log de Amount), 0.1 de peso sobre si LastModifiedById es el usuario de integración. Ninguna señal individual es confiable por sí sola — la modificación más reciente suele apuntar a un backfill, el conteo de contacts favorece a los registros viejos y crujientes, y el Amount de Opportunity solo descarta la relación activa. El compuesto trackea dónde el equipo está realmente trabajando hoy.

El dry-run emite un CSV con Operation, Field, Old_Value, New_Value, Confidence, Survivor_Id, Rationale y una columna Approve que el operador tiene que setear. El apply lee el CSV aprobado y escribe vía Bulk API, logueando cada cambio a Cleanup_Audit__c con los valores JSON previo y nuevo para que un compañero revert(run_id) pueda re-aplicar los originales.

Costo real

Un scan de discovery contra una org de 100k Accounts y 500k Contacts corre en aproximadamente veinte minutos de wall-clock y consume cerca de 3-5 dólares de tokens de la API de Claude para la pasada de similaridad semántica. El uso de la quota de calls a Bulk API es de cientos bajos de calls por scan; bien por debajo del techo diario de cualquier org estándar. La corrida de escritura aplicada es en sí el costo menor — las escrituras a Bulk API no consumen tokens de Claude, solo queman unas pocas calls adicionales de API por chunk de filas aprobadas.

La matemática de headcount es la historia real. Un sprint típico de cleanup de RevOps a los tamaños de arriba corre dos o tres semanas del tiempo de un analista por trimestre, más un par de días de un admin de Salesforce. La Skill colapsa eso a aproximadamente dos días por trimestre — un scan de discovery, medio día revisando los CSV de dry-run, un ensayo en sandbox de cualquier merge de account, y una corrida de apply. Sobre un salario fully-loaded de RevOps, eso es un ahorro significativo a lo largo de un año.

El costo que la Skill no elimina es el overhead de comunicación a los reps. Una corrida de merge sin comms quema confianza más rápido de lo que lo hacía la mala data, y el change_brief.md que la Skill emite junto con cada corrida aplicada es un template que el operador igual tiene que mandar.

Métrica de éxito

Mirá un número por scan: la proporción de propuestas de confianza high que el operador aprueba en la primera revisión. En la primera corrida ese número típicamente está por debajo del cincuenta por ciento — eso es el ruleset de dedup afinándose, no la Skill por debajo de lo esperado. Dentro de tres o cuatro ciclos de scan, con las reglas ajustadas, ese número debería aterrizar por encima del ochenta por ciento. Por debajo de ese piso al ciclo cuatro, las reglas de dedup en references/dedup-rules.md siguen mal calzadas con los datos y necesitan otra pasada antes de cualquier nueva corrida de escritura.

Una métrica secundaria: el conteo de violaciones de stage en el tiempo. Una org sana con una definición real de funnel debería ver ese número tender a la baja mes a mes a medida que RevOps arregla las causas upstream — reglas de validación de campos requeridos, automaciones de transición de stage, lógica de routing de leads. Si el conteo de violaciones de stage está plano entre ciclos de cleanup, el problema de datos sucios es de proceso, no de datos.

vs alternativas

DemandTools es el incumbente en este espacio. Es una herramienta madura, determinística, dirigida por GUI, que los equipos de RevOps llevan usando una década. Es excelente en dedup determinístico de alto volumen; es más débil en el rationale-trail de superviviente que esta Skill emite, y no puede hacer la pasada de similaridad semántica para nombres de empresa difusos sin una capa de scripting separada. Si el equipo ya está pagando DemandTools y el ruleset de dedup está maduro, quedate ahí y considerá esta Skill solo para los edge cases de dedup semántico y la disciplina del log de auditoría.

Cloudingo es la comparación punto a punto más cercana — tiene fuzzy matching y un workflow de revisar-después-aplicar que se parece a lo que produce la Skill. Cloudingo es más amigable para un lead de RevOps no técnico. La ventaja de la Skill es la línea de rationale por par y el modelo de archivos de referencia que deja al equipo version-controlar sus reglas de dedup en git junto al resto de la config de RevOps. Si RevOps es alérgico a git, gana Cloudingo.

Un sprint manual de cleanup liderado por RevOps es la alternativa status-quo para equipos sin herramienta de dedup. Funciona, pero consume el tiempo de analista documentado arriba y no produce un artefacto reutilizable — el siguiente sprint arranca desde cero. El scan de discovery de la Skill es el mismo artefacto cada vez, lo que hace al trabajo capitalizable.

A qué prestar atención

Otorgar acceso de escritura en la primera corrida es el modo de falla más común. El primer scan saca a la luz fallas en el ruleset de dedup tanto como en los datos; si la Skill las aplica, los falsos positivos se convierten en escrituras reales y auditadas. La guarda: la Skill se niega a apply_fix cuando el token configurado tiene scope de escritura y el log de auditoría muestra cero filas previas de dry-run para el scope de la corrida. Dos ciclos en solo lectura como mínimo, sin importar cuán confiables se vean las reglas.

Merges de account haciendo cascade a los registros equivocados es la falla más cara. Un superviviente equivocado se lleva las Opportunities, Tasks, Events y Contact Roles equivocados. La guarda: apply_fix para cualquier fila dedup_account se niega a correr salvo que un ensayo de sandbox con el mismo prefijo Run_Id haya ocurrido en los últimos catorce días, y el operador haya seteado --rehearsed=true. El ensayo en sandbox no es ceremonia opcional — es donde los efectos secundarios en cascade de cualquier merge se observan realmente.

Reps despertándose con accounts merged de los que nunca se enteraron es la falla cultural que mata las corridas de cleanup futuras. La guarda: la Skill emite un change_brief.md junto con cada corrida aplicada, listando el mapa de merge, los emails de los owners y el conteo de Opportunities movidas, listo para pegarse en un canal de Slack antes de que los reps se loguean. Mandalo. Saltarse el paso de comms quema confianza más rápido de lo que la mala data lo hacía.

Hard-deletes saltándose la recycle bin es un pedido que aparece pero que debería rechazarse. La guarda: la Skill no tiene code path de hard-delete. soft_delete es la única operación de delete; quien quiera una purga permanente la hace por el workflow manual de la plataforma con el sign-off apropiado.

Stack

Salesforce — fuente de verdad y destino de las escrituras; el objeto custom Cleanup_Audit__c lleva el log de auditoría reversible
Claude — corre la pasada de similaridad semántica y emite las líneas de rationale por par que hacen los merges auditables
Bulk API — usada tanto para lecturas (discovery en chunks) como para escrituras (apply en chunks); nunca la API REST de query síncrona para scans completos

Editar esta página en GitHub

Archivos de este artefacto

Descargar todo (.zip)

---
name: salesforce-data-cleanup
description: Find and propose fixes for Salesforce data-quality issues — duplicate accounts, orphan contacts, junk leads, malformed phones, mismatched account-contact relationships, and stage values that violate funnel definitions. Always proposes; never writes without explicit dry-run review and approval.
---

# Salesforce data cleanup

## When to invoke

Whenever you need to surface and propose fixes for Salesforce data-quality issues that are quietly distorting reporting: duplicate accounts and contacts, orphan records (contacts with no account, opportunities with no contact roles), junk leads (test records, role-address contacts, free-mail in B2B), malformed phones and websites, account-contact mismatches (contact email domain does not match account website domain), and stage values that violate the funnel definition (e.g. "Closed Won" with no Close Date, "Negotiation" with zero opportunity contact roles).

The Skill takes an object scope, a dedup-rules file, a stage-definition file, and an ICP rubric. It produces a discovery scan, then per-issue dry-runs as CSVs the operator approves before any write.

Do NOT invoke this skill for:

- Auto-applying writes without a dry-run + human approval. Every fix goes through the dry-run CSV gate. There is no "auto" mode.
- First runs against production with write access. The first two scan cycles must use a read-only API token. Write credentials only after the operator has reviewed the false-positive rate.
- Hard-deletes. The Skill never bypasses the recycle bin. Deletes are soft by default; permanent purges are out of scope and a deliberate manual decision.
- Bulk merges in production without a sandbox rehearsal. Account merges cascade to opportunities, activities, and contact roles — sandbox first.
- Data residency / PII purge requests under GDPR or CCPA. Use the platform's documented right-to-erasure flow, not this Skill.

## Inputs

- Required: `scope` — comma-separated SObject names to scan (e.g. `Account,Contact,Lead,Opportunity`). Default: all four.
- Required: `dedup_rules_path` — path to a `references/dedup-rules.md` style file naming the deterministic match keys (domain, normalized phone, normalized name) and the fuzzy-match thresholds.
- Required: `stage_definitions_path` — path to a `references/stage-definitions.md` style file naming the required field set per Opportunity stage.
- Required: `icp_rubric_path` — path to a `references/icp-rubric.md` style file used to evaluate whether orphan or low-signal records are worth keeping.
- Optional: `survivor_ranking_path` — path to a `references/survivor-ranking.md` style file with weights for activity recency, contact count, opportunity history, and last-modified-by user trust. Default weights apply if absent.
- Optional: `sandbox` — boolean, default `true`. Forces the Skill to talk to the configured sandbox endpoint, not production.
- Optional: `chunk_size` — integer, default `10000`. Bulk API query chunk size.

## Reference files

Always read the following from `references/` before scanning. Without them, the discovery output is generic and the dry-run proposals will not match the operator's actual definitions.

- `references/dedup-rules.md` — deterministic and fuzzy match rules (replace the template with your real rules)
- `references/stage-definitions.md` — required fields per Opportunity stage (replace with your actual funnel definition)
- `references/survivor-ranking.md` — weights for choosing the survivor in a merge proposal (replace with your actual priorities)

## Method

Run these five sub-tasks in order. Do not parallelize: later steps depend on the survivor-selection context produced by earlier steps.

### 1. Discovery scan

Pull each in-scope SObject via the Bulk API in chunks (default 10k rows). Bulk API, not REST query, because a full Account scan on a real org is 100k+ rows and REST chops on governor limits. Chunked because a single 1M-row pull blows past memory and the job times out at the org's configured Bulk API batch ceiling.

For each chunk, classify rows into issue buckets:

- `dedup_account` / `dedup_contact` / `dedup_lead`
- `orphan_contact` (no AccountId), `orphan_opp` (no contact roles)
- `junk_lead` (free-mail in B2B, role addresses, test patterns)
- `format_violation_phone` / `format_violation_website` (regex-fail)
- `mismatch_account_contact` (contact email domain != account website)
- `stage_violation` (required field per stage missing)

Output: a one-page scan summary with per-bucket counts and confidence band.

### 2. Dedup pass — deterministic + semantic hybrid

For dedup buckets the Skill runs a two-pass pipeline. Pass one is pure deterministic regex/normalization: lowercased email domain, E.164-normalized phone, NFKD-normalized + lowercased + suffix-stripped name. Exact matches on either domain or normalized phone go straight to the proposal CSV.

Pass two is Claude semantic similarity, applied only to candidate pairs that share at least one weak deterministic signal (same first 6 digits of phone, same first token of name, same parent-domain TLD). Hybrid because pure regex misses "Acme, Inc." vs "Acme Incorporated — APAC", and pure semantic similarity is too expensive to run pairwise across N^2 records and produces too many false positives on common names. The narrow-then-rank approach holds the per-scan token spend to under $5 for a 100k-Account org.

Confidence bands: `high` (deterministic match on 2+ keys), `medium` (deterministic on 1 key + semantic similarity ≥ 0.85), `low` (semantic only). The dry-run CSV ships only `high` and `medium` by default.

### 3. Survivor selection for merges

For each duplicate pair, propose a survivor using a weighted score:

- Activity recency (last 90 days of Tasks + Events): weight 0.4
- Contact count attached: weight 0.3
- Opportunity history (count + total Amount): weight 0.2
- LastModifiedBy not equal to integration user: weight 0.1

The Skill ranks both records, proposes the higher score as survivor, and emits a per-pair rationale line in the dry-run CSV. RevOps reviews and overrides via a `survivor_override` column before approving.

This composite is used because no single signal is reliable: most-recent modification often points at an integration backfill, contact count favors old crusty records, and Opportunity Amount alone discards the active relationship. The composite tracks "where the team is actually working."

### 4. Dry-run CSV per issue

For the issue the operator picks, emit a CSV with one row per proposed change. Columns: `Id`, `Object`, `Operation` (`merge` / `update` / `soft_delete`), `Field`, `Old_Value`, `New_Value`, `Confidence`, `Survivor_Id` (merges only), `Rationale`, `Approve` (operator-set, default blank).

The Skill writes nothing until a CSV with `Approve=Y` rows is passed back into `apply_fix`. Rows without `Approve=Y` are skipped, including blanks. This is the gate.

### 5. Apply with audit

`apply_fix(issue_id, csv_path)` reads the approved CSV and posts the writes in chunks via the Bulk API. Every write is logged to a custom SObject `Cleanup_Audit__c` with: `Operation`, `Target_Id`, `Field`, `Old_Value_JSON`, `New_Value_JSON`, `Survivor_Id`, `Run_Id`, `Approver_User`, `Timestamp`. The audit record makes the change reversible: a `revert(run_id)` companion script reads the audit log and re-applies `Old_Value_JSON`.

## Output format

The discovery scan returns a Markdown report and writes one dry-run CSV per issue picked. Literal example:

```markdown
# Salesforce data-cleanup scan — 2026-05-03

Scope: Account, Contact, Lead, Opportunity
Sandbox: true
Run ID: run_2026-05-03_a8c1

## Summary by issue type

| Issue | Count | High conf | Medium conf | Low conf |
|----------------------------|------:|----------:|------------:|---------:|
| dedup_account | 1,284 | 412 | 736 | 136 |
| dedup_contact | 8,902 | 3,118 | 4,901 | 883 |
| orphan_contact | 1,071 | 1,071 | - | - |
| junk_lead | 942 | 942 | - | - |
| format_violation_phone | 4,820 | 4,820 | - | - |
| mismatch_account_contact | 612 | 612 | - | - |
| stage_violation | 217 | 217 | - | - |

Pick one to dry-run: `dry_run_fix(issue_id="dedup_account")`
```

Per-issue dry-run CSV (first three lines):

```csv
Id,Object,Operation,Field,Old_Value,New_Value,Confidence,Survivor_Id,Rationale,Approve
0011x00000ABCD1,Account,merge,,,,high,0011x00000WXYZ9,"E.164 phone match + same primary domain; survivor has 14 activities in last 90d vs 0",
0031x00000EFGH2,Contact,update,Email,john@oldmail.example,john@newmail.example,high,,Domain matches account website,
00Q1x00000IJKL3,Lead,soft_delete,,,,high,,Free-mail (gmail) in B2B segment + no activity 18mo,
```

Audit log entry shape (one row in `Cleanup_Audit__c` per write):

```json
{
"Operation": "merge",
"Target_Id": "0011x00000ABCD1",
"Field": null,
"Old_Value_JSON": "{\"Name\":\"Acme, Inc.\",\"Phone\":\"+1-415-555-0100\"}",
"New_Value_JSON": "{\"merged_into\":\"0011x00000WXYZ9\"}",
"Survivor_Id": "0011x00000WXYZ9",
"Run_Id": "run_2026-05-03_a8c1",
"Approver_User": "revops.lead@example.com",
"Timestamp": "2026-05-03T17:42:11Z"
}
```

## Watch-outs

- **Granting write access on the first run.** The first scan will surface false positives because it is also surfacing flaws in the dedup ruleset. Guard: the Skill refuses to run `apply_fix` if the configured token has write scope and `Cleanup_Audit__c` shows zero prior `Operation=dry_run` rows for the run's scope. Two read-only cycles minimum.
- **Account merge cascading to wrong records.** Account merges propagate to all child Opportunities, Contacts, Tasks, and Events. A wrong survivor destroys the wrong history. Guard: `apply_fix` for `dedup_account` rows refuses to run unless `sandbox=true` has been set on at least one prior run with the same `Run_Id` prefix in the last 14 days, and the operator has set `--rehearsed=true` explicitly.
- **Hard-deletes bypassing recycle bin.** Operators sometimes ask the Skill to "really delete" — to skip the recycle bin and free storage. Guard: the Skill has no hard-delete code path. `soft_delete` is the only delete operation; recycle-bin emptying is a manual platform action.
- **Reps waking up to merged accounts.** A clean dedup run with no comms burns trust faster than the bad data did. Guard: the Skill emits a `change_brief.md` alongside every applied run, listing the merge map (loser-Id → survivor-Id, owner email, count of moved opps) ready to paste into a Slack channel before reps log in.

# Dedup rules — TEMPLATE

> Replace this template's contents with your team's actual matching rules.
> The Skill reads this file on every run; without your real rules, the
> dedup proposals will be generic and produce a high false-positive rate
> on the first scan.

## Object scope

Which SObjects this ruleset applies to. The Skill runs the rules per object; rules can differ across Account / Contact / Lead.

- [ ] Account
- [ ] Contact
- [ ] Lead

## Deterministic match keys

Pass one of the dedup pipeline. Two records that match on any single key listed here are surfaced as `high` confidence dedup candidates.

### Account

| Key                       | Normalization                                  | Match strength |
|---------------------------|------------------------------------------------|----------------|
| Primary domain            | lowercase, strip `www.`, strip TLD aliases     | strong         |
| Billing phone             | E.164 normalize, drop extension                | strong         |
| Stripped name + country   | NFKD, lowercase, drop suffixes (Inc/LLC/GmbH)  | medium         |
| D-U-N-S number            | exact                                          | strong         |

### Contact

| Key                       | Normalization                                  | Match strength |
|---------------------------|------------------------------------------------|----------------|
| Email                     | lowercase, strip `+tag`, strip dots in gmail   | strong         |
| Mobile phone              | E.164 normalize                                | strong         |
| Full name + AccountId     | NFKD, lowercase, drop punctuation              | medium         |

### Lead

| Key                       | Normalization                                  | Match strength |
|---------------------------|------------------------------------------------|----------------|
| Email                     | lowercase, strip `+tag`                        | strong         |
| Phone                     | E.164 normalize                                | strong         |

## Fuzzy / semantic similarity threshold

Pass two of the pipeline. Only candidates that share at least one weak signal (same first 6 digits of phone, same first token of name, same parent-domain TLD) are submitted for semantic comparison.

| SObject | Cosine similarity threshold | Notes                                    |
|---------|-----------------------------|------------------------------------------|
| Account | 0.85                        | Lower threshold misses APAC/EU branches  |
| Contact | 0.90                        | Higher because false positives expensive |
| Lead    | 0.80                        | Lower because cleanup tolerates churn    |

## Disqualifiers — never propose merge

Even if rules match, do not propose merge if any of the following holds:

- Records belong to different `RecordType` (e.g. Customer vs Partner)
- Records are owned by different BU `Sales_Region__c` values
- One record has an active Opportunity in `Negotiation` or later — defer to rep review, do not auto-propose
- Records carry a `Do_Not_Merge__c = TRUE` flag set by an admin

## Last edited

{YYYY-MM-DD}

# Stage definitions — TEMPLATE

> Replace this template's contents with your team's actual Opportunity
> stage definition. The Skill uses this to flag rows in the
> `stage_violation` bucket — opportunities sitting in a stage without
> the fields that stage requires.

## Funnel stages

List every active value of the Opportunity `StageName` picklist, in funnel order. Mark which stages are open vs closed-won vs closed-lost.

| Order | StageName             | Type        | Probability % |
|------:|-----------------------|-------------|---------------:|
| 1     | Prospecting           | open        |              5 |
| 2     | Qualification         | open        |             15 |
| 3     | Discovery             | open        |             30 |
| 4     | Solutioning           | open        |             50 |
| 5     | Negotiation           | open        |             70 |
| 6     | Verbal Commit         | open        |             90 |
| 7     | Closed Won            | closed-won  |            100 |
| 8     | Closed Lost           | closed-lost |              0 |

## Required fields per stage

A row sitting in stage N must have all fields listed for N (and all earlier stages) populated. The Skill flags rows that violate this as `stage_violation` candidates.

### Qualification

- `AccountId` not null
- `Primary_Contact__c` not null
- `Lead_Source` not null

### Discovery

- All of Qualification, plus:
- At least 1 OpportunityContactRole with `IsPrimary = TRUE`
- `Pain_Point__c` not null
- `Compelling_Event__c` not null

### Solutioning

- All of Discovery, plus:
- `Decision_Criteria__c` not null
- `Decision_Process__c` not null
- At least 2 OpportunityContactRoles

### Negotiation

- All of Solutioning, plus:
- `Economic_Buyer_Identified__c = TRUE`
- `Mutual_Action_Plan_URL__c` not null

### Verbal Commit

- All of Negotiation, plus:
- `Procurement_Status__c` not null
- `Close_Date` within the next 45 days

### Closed Won

- All of Verbal Commit, plus:
- `Close_Date` not in the future
- `Amount` not null and greater than zero
- `Contract_URL__c` not null
- At least 1 `Quote` record with `Status = "Accepted"`

### Closed Lost

- `Close_Date` not in the future
- `Loss_Reason__c` not null
- `Competitor__c` not null when `Loss_Reason__c = "Competitor"`

## Skip-stage rules

Stages that may be legitimately skipped (the Skill does not flag a violation if the row passes through them):

- `Solutioning` may be skipped for inbound deals under $10k ACV
- `Verbal Commit` may be skipped for self-serve conversions

## Last edited

{YYYY-MM-DD}

# Survivor ranking — TEMPLATE

> Replace this template's contents with your team's actual weighting.
> The Skill uses these weights when proposing which record survives a
> merge. Defaults below reflect the bias "where the team is actually
> working today" rather than "who has the most history."

## Composite score

For each record in a duplicate pair, the Skill computes:

```
score = 0.40 * activity_recency_signal
      + 0.30 * contact_count_signal
      + 0.20 * opportunity_history_signal
      + 0.10 * not_integration_user_signal
```

Higher score wins survivor status. Ties default to the record with the lower (older) Salesforce Id, which is conventionally the canonical record.

## Signal definitions

### activity_recency_signal

- 1.0 if Tasks + Events in the last 30 days exist
- 0.7 if in the last 90 days
- 0.3 if in the last 365 days
- 0.0 otherwise

### contact_count_signal

- Normalized count of active Contacts attached to the Account. `min(count, 20) / 20`. Capped to avoid one record's bloat dominating.

### opportunity_history_signal

- 0.5 weight on count of Opportunities with `IsClosed = FALSE`
- 0.5 weight on log10(1 + sum of `Amount` across all Opportunities)
- Both halves min-max normalized across the candidate pair only

### not_integration_user_signal

- 1.0 if `LastModifiedById` is not in the integration-user allowlist
- 0.0 otherwise

The integration-user allowlist (set by RevOps admin):

- `dataloader@example.com.invalid`
- `marketo-sync@example.com.invalid`
- `outreach-sync@example.com.invalid`
- {add yours}

## Override columns

Even after the Skill proposes a survivor, RevOps can override per-row in the dry-run CSV. The columns the Skill respects on read-back:

- `survivor_override` — set to the Id you want as survivor
- `do_not_merge` — set to `Y` to drop this row from `apply_fix`
- `defer_to_owner_review` — set to `Y` to route to the rep instead

## Disqualifiers — never auto-propose a survivor

Skip survivor proposal entirely if any of:

- Both records have an open Opportunity in `Negotiation` or later — too much risk of breaking deal motion mid-flight
- Records have different Account Owners and one is in their first 30 days on the team (avoid trampling new-hire pipelines)
- One record carries a `Strategic_Account__c = TRUE` flag — kick to a RevOps human

## Last edited

{YYYY-MM-DD}