Aprendiendo de las Arritmias Cardíacas para Mejorar la Satisfacción del Cliente — Trabajando con Datos Desbalanceados

Felipe Alonso-Atienza CRM&Advice

Antecedentes

La satisfacción del cliente es un indicador complejo. Puede cambiar después de cada interacción, puede ser influenciada por factores externos y puede conducir a múltiples resultados. La insatisfacción acumulativa puede llevar al cliente a terminar la relación con el proveedor de servicios y, sin embargo, es difícil de medir con métodos tradicionales como las encuestas de satisfacción del cliente. Los algoritmos de Machine Learning ofrecen hoy en día la posibilidad de utilizar datos de diferentes fuentes para estimar la satisfacción del cliente.

Los avances recientes en el tratamiento de las arritmias potencialmente mortales ofrecen soluciones interesantes para estimar la satisfacción del cliente. Las arritmias cardíacas son cambios en la secuencia normal de impulsos eléctricos en el corazón. Las arritmias graves pueden causar un paro cardíaco y ser causa de muerte. La única manera efectiva de tratar estas arritmias letales es la aplicación de un choque de desfibrilación eléctrica de alta energía utilizando un desfibrilador externo automatizado (AED, por sus siglas en inglés), que incluye un algoritmo de asesoramiento de choque que analiza el electrocardiograma (ECG, por sus siglas en inglés) y emite un choque eléctrico si se detectan arritmias letales (llamadas “impactantes”). Este algoritmo procesa datos en tiempo real del corazón y calcula la intensidad del electroshock necesario para revertir la arritmia.

La metodología de Machine Learning aplicada en la detección de arritmias potencialmente mortales también puede ser utilizada para identificar clientes insatisfechos, utilizando diferentes tipos de datos.

Marco Analítico y Fuentes de Datos

El desarrollo de un detector de arritmias impactantes en los AED mediante el uso de técnicas de Machine Learning requiere trabajar con conjuntos de datos desequilibrados en los que los algoritmos de clasificación estándar están sesgados a la clase mayoritaria, lo que compromete su rendimiento.

Hay varias maneras de tratar los datos desbalanceados en la clasificación:

  • Muestreo de datos, cuyo objetivo es reducir (submuestreo) la clase mayoritaria, o aumentar la clase minoritaria (sobremuestreo o sintetizando nuevas muestras).
  • Aprendizaje sensible a los costes, introduciendo un mayor coste de penalización para los errores de clasificación errónea de la clase minoritaria.
  • Utilizar métricas de evaluación singulares. La precisión no debe ser la métrica que guíe el proceso de aprendizaje de los algoritmos, sino la tasa de error equilibrada (BER) o la puntuación F1.

En el caso de las arritmias, la métrica BER se puede utilizar para establecer parámetros libres de algoritmos de Machine Learning, por varias razones: i) se define como un equilibrio entre la sensibilidad (Se) y la especialidad (Sp).

BER = 1 – 0.5*(Se + Sp),

que son métricas clave en entornos de diagnóstico médico; ii) es fácil de calcular; y iii) proporciona un buen rendimiento resultante. Además, será necesario introducir un mayor coste de penalización para la clase minoritaria.

Resultados

Mediante el uso de las métricas BER para evaluar el rendimiento de los algoritmos de Machine Learning, es posible i) proporcionar un detector de arritmia potencialmente mortal robusto; y ii) identificar qué parámetros del ECG eran más importantes para la detección de ritmos de choque en los EADs.

En BBVA, esta metodología se está probando para otro tipo de escenarios, como el de Quality by Behavioral Analytics (Calidad por Análisis de Comportamiento). El objetivo es obtener una puntuación de satisfacción del cliente basada en su comportamiento. Los atributos de entrada incluyen el perfil del cliente, la sociodemografía, el comportamiento digital, las transacciones realizadas, los productos de propiedad o las reclamaciones.

Para probar la validez del modelo, entrenamos un modelo de desgaste asumiendo que los clientes insatisfechos son los que abandonan el banco. Esto constituye un conjunto de datos desbalanceado (p+1 ≈ 3%), y la metodología utilizada para el estudio de las arritmias demostró resultados prometedores. Alcanzamos valores Se y Sp superiores al 80% y un área bajo la curva ROC de 0,91.