La predicción de churn es la práctica de puntuar a cada cliente según qué tan probable es que cancele o haga downgrade antes de que realmente lo haga, para que un CSM pueda intervenir mientras todavía hay tiempo de cambiar el resultado. Convierte la retención de una función reactiva — reaccionar después de que llega el email de cancelación — en una proactiva — trabajar la cuenta en riesgo con 60 a 90 días de anticipación.
No es lo mismo que un health score, y no es lo mismo que la tasa de churn. Un health score es una foto compuesta del estado de la cuenta; la tasa de churn es un input retrospectivo de GRR/NRR que te dice lo que ya pasó. La predicción de churn es una probabilidad adelantada: “esta cuenta tiene 38% de probabilidad de no renovar en los próximos 90 días”. Un health score puede ser un input de esa probabilidad, pero los dos son objetos distintos.
Los indicadores adelantados que de verdad mueven el modelo
Un modelo de churn vale lo que valen sus features. Las señales que cargan más peso, más o menos en orden:
- Decaimiento del uso de producto. El indicador adelantado más fuerte. No el uso absoluto — la tendencia. Un conteo de logins que cae 40% trimestre contra trimestre predice el churn mucho mejor que uno bajo-pero-estable. Mide usuarios activos semanales por cuenta, profundidad de adopción de features, y seats provisionados vs. seats activos.
- Salida del champion. Cuando tu economic buyer o power user deja la empresa, el riesgo de renovación se dispara. Detéctalo por emails rebotados, cambios de título en LinkedIn, o una caída repentina en la actividad de ese contacto.
- Señal de soporte. Volumen de tickets en alza, CSAT a la baja, escalaciones repetidas, o — contraintuitivamente — una caída a cero (la cuenta dejó de intentar).
- Engagement con CS. QBR perdidos, tasas de apertura de email en descenso, respuestas lentas, ausencias en las llamadas.
- Señales comerciales. Pagos atrasados, solicitudes de downgrade, procurement pidiendo términos mes a mes, contracción a nivel de línea de detalle.
- Onboarding fallido. Las cuentas que nunca llegan al primer valor (TTV) hacen churn a múltiplos de las que sí. La ventana de onboarding de 90 días es el input de predicción de mayor apalancamiento que tienes.
Un modelo que se apoya solo en el uso va a perderse por completo las clases de salida-del-champion y comercial, por lo cual los scores puramente de telemetría de producto sub-predicen en enterprise.
Modelos de scoring, del más barato al más defendible
- Modelo de reglas / umbrales. Reglas escritas a mano: “uso abajo >30% Y un QBR perdido Y menos de 90 días para renovar → en riesgo”. Transparente, explicable al CSM, barato de construir, fácil de gamear. Por donde la mayoría de los equipos debe empezar.
- Scorecard ponderado. Asigna puntos por señal, suma, banda en verde/amarillo/rojo. Esto es lo que la mayoría de las features de health score en Gainsight, ChurnZero y Vitally traen de fábrica. Mejor que nada; los pesos suelen ser adivinados, no ajustados.
- ML supervisado (regresión logística, gradient boosting). Entrena sobre churn histórico etiquetado. Aquí es donde viene el lift real — el modelo aprende los pesos e interacciones en vez de que tú los adivines. Requiere un dataset etiquetado limpio: como mínimo unos cientos de eventos de churn con historial de features al momento del riesgo, no al momento de la cancelación (o filtras la etiqueta).
Evalúa con precision/recall y una matriz de confusión, no con “accuracy”. Sobre una tasa base de churn anual de 8%, un modelo que predice “nadie hace churn” tiene 92% de accuracy y es completamente inútil. Lo que te importa es: de las cuentas que el modelo marcó en rojo, cuántas de verdad hicieron churn (precision), y de las cuentas que hicieron churn, a cuántas marcó el modelo a tiempo (recall).
Dónde ayuda la IA — y dónde promete de más
Dónde ayuda de verdad: el ML le gana a los scorecards ajustados a mano cuando tienes suficiente historial etiquetado, porque encuentra interacciones no obvias (el uso bajo está bien para una cuenta que siempre entra mensualmente a exportar un reporte; es una alarma de cinco campanas para una que antes era diaria). Los LLM son buenos en la capa no estructurada que los scorecards ignoran — resumir la tendencia de sentiment a lo largo de un año de tickets de soporte y emails, o señalar “el champion suena desconectado” desde transcripciones de llamadas. Usa el LLM para enriquecer features, no para ser el clasificador.
Dónde promete de más: se repiten tres modos de fallo. Primero, el problema de cold-start — un modelo necesita churn etiquetado del cual aprender, y una empresa en etapa Seed con 40 clientes y 3 eventos de churn no tiene nada con qué entrenar. Comprar una feature de “predicción de churn con IA” ahí es puro teatro; usa reglas. Segundo, confusión de tasa base vendida como accuracy — los vendors citan “90% de accuracy” contra una tasa base de churn baja donde el modelo ingenuo ya está en 92%. Siempre pide precision y recall sobre las banderas rojas. Tercero, predicción sin prescripción — una probabilidad sobre la que nadie actúa es decoración de dashboard. El modelo tiene que alimentar un playbook (auto-crear una tarea de save, disparar un outreach ejecutivo, escalar al renewal manager), o no cambia nada.
Errores comunes
- Filtración de etiqueta (label leakage). Features de entrenamiento capturadas al momento de la cancelación (uso ya en cero, tickets de soporte ya cerrados) en vez de en el horizonte de predicción. El modelo se ve brillante offline y falla en vivo. Guarda: toma la foto de features a 90 días antes del evento de churn, nunca el día de.
- Actuar demasiado tarde. Una ventana de predicción de 30 días es muy corta para salvar una renovación enterprise — la decisión se tomó hace meses. Predice a 60-90 días en enterprise, donde la motion de save tiene pista.
- Un solo modelo para todos los segmentos. El churn de SMB self-serve (precio, uso bajo) y el churn enterprise (pérdida del champion, desalineación ejecutiva) tienen drivers distintos. Un solo modelo los mezcla en una papilla. Segmenta primero, luego modela.
- Scoring sin ownership. Una bandera roja sin un CSM nombrado y sin un SLA para actuar muere en el dashboard. Empareja cada cuenta roja con un dueño y una regla de “responder en X días”.
Relacionados
- Customer health score — el compuesto que muchas veces alimenta el modelo
- Customer churn — el resultado que estás prediciendo
- Cálculo de la tasa de churn — la medida retrospectiva
- NRR vs GRR — dónde se ve la retención financieramente
- Métricas de Customer Success — el set de métricas más amplio