la modelización predictiva como herramienta de innovación
TRANSCRIPT
La Modelización Predictiva como Herramienta de Innovación
Jorge Martín Arevalillo
Universidad Nacional Educación a Distancia
U.N.E.D
Lima (Perú). Junio de 2015 http://www.bigdatasummit.pe/
La U.N.E.D en cifras
Centro en Lima. Casa de España - Avda. Salaverry, nº 1910-Jesús María, Lima (Perú)
DOCENCIA
260000 estudiantes
Más de 70 centros en España. Presencia en
4 continentes
27 títulos de Grado
49 Másteres EEES
INVESTIGACIÓN
Una Escuela de
doctorado
163 grupos de investigación
151 tesis doctorales de reciente lectura
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
TRANSFERENCIA
Plan de transferencia de conocimiento al sector productivo
90 contratos
Facturación 2,5 MM $
12 patentes y registros 4 spin off
Guión
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
1. Modelización predictiva. Métodos y algoritmos
2. Aplicaciones y casos de uso
3. Soluciones innovadoras en BIO BIG DATA
4. Conclusiones
Modelización predictiva
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelización predictiva
Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que
sirva para predecir casos futuros (Gartner IT Glossary)
Target:
abandono del cliente
Modelo de
propensión de abandono
Target:
Colocación de crédito. Impago
Modelos de
propensión adquisición y de riesgo de mora
Target: Fraude
(Banca, Sector seguro, Laboral)
Modelos de
detección de anomalías
Target:
Siniestralidad o riesgo
Modelos de
perfilamiento del riesgo
Target: cesta de
la compra cancelada
Modelos de
navegación web de propensión a la cancelación
Target: Volumen
de venta Modelos de
forecasting para predicción de las ventas
Modelización predictiva. Una historia en evolución
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Experto Know-how de negocio
¿Se podrá reemplazar el hombre por la máquina?
Modelos lineales
Modelos no lineales
Agregación de Modelos
Modelos con regularización
Modelos algorítmicos
Modelización predictiva. Aspectos técnicos
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Redes neuronales
- Toma de decisiones sobre la concesión de préstamos
- Recibe una media de 10 solicitudes diarias. Sopesa, valora y decide
- Recibe informes mensuales sobre los niveles de morosidad de los créditos concedidos
- Evalúa los errores cometidos y modifica su valoración sobre los clientes. Esto le permitirá tomar mejores decisiones
- Este mecanismo se repite hasta que el experto está entrenado para tomar buenas decisiones
Discriminante lineal y Regresión logística
- Las variables predictoras se relacionan con la respuesta (target de negocio a explicar) de una forma aditiva
- Las técnicas están basadas en un modelo lineal, también en hipótesis matemáticas acerca del mecanismo estocástico que genera los datos
- Útiles cuando no hay patrones no lineales en los datos altamente asociados con el target de negocio a predecir (ej: relaciones no lineales entre las característica de los clientes para predecir fuga, captación de clientes, up-selling…)
Modelos algorítmicos y Técnicas basadas en el bootstap
y la agregación de modelos
- ÁRBOLES. No asume la existencia de una relación concreta entre el target de negocio y las variables predictoras. Útiles para identificar potenciales interacciones en los atributos de los clientes
- RANDOM FORESTS. Agrega las predicciones de muchos árboles en un solo modelo ensamblador
- TREENET. Agrega las predicciones de muchos modelos de árboles en un solo ensamblador mediante un mecanismo de aprendizaje de los errores
Técnicas de regularización
- Técnicas basadas en la optimización de una función de pérdida con un término de penalización
- El método de regularización lleva incrustado un procedimiento de selección de variables capaz de identificar las variables inputs con mayor relevancia
- Es una aproximación muy utilizada en bases de datos de alta dimensión
- La modelización con SVM responde al paradigma de la regularización. Además se pueden adaptar mediante el uso de kernels a fin de reconocer patrones no lineales en los datos
SVM y Kernels
Modelización predictiva Algunos casos de uso
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Pérdida de productividad
de recursos humanos Por interrupciones de
tareas debidas a la constante recepción de correo basura
Diseño de un detector
automático de spam que permita filtrar el correo no deseado
Compañía en el sector
teleco con un problema de abandono de clientes
El esfuerzo comercial de
captación de un nuevo cliente es cinco veces superior al de retención de un cliente
Se prioriza la retención de
clientes mediante la elaboración de un modelo de propensión de fuga
Retos y desafíos recientes en
el desarrollo de modelos predictivos
Modelos orientados al
estudio de la respuesta incremental (planteamiento del problema)
Priorizar los esfuerzos
comerciales sobre los clientes que no adquieren el producto a menos que se les haga una oferta comercial
El problema del correo basura en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto (California) y presencia en todo el mundo
Estimación de 350000 trabajadores en el año 2011
635 Millones de correo basura al año
Pérdida de 10.6
Millones de horas de trabajo por año
Pérdida de 106 MM $
al año
Correos clasificados (empleado promedio)
El problema del correo basura Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Si aparece la palabra “remove” clasificar
como spam
TP (764)
FN (1049)
FP (43)
TP (2745)
Matriz de confusión
FP. No spam clasificado como spam FN. Spam clasificado como no spam Coste de clasificación: 5/1
Estimado de 267 Millones de spam detectados y un estimado
de 15 Millones de FP
Proporcionan un ahorro neto de 3,2 millones de horas anuales
Reducción de la pérdida en 32 MM $
ROI del 30%
El problema del correo basura Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
VARIABLES
1-48
VARIABLES
49-54 VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58
Son palabras.
Miden la
frecuencia con
que aparece
cada palabra. El
prefijo num es
identificador de
número
Frecuencia con
que aparecen los
caracteres: ; ( [ ! $
y #
CapitalAve:
Longitud media de
las secuencias de
letras mayúsculas
CapitalLong:
Longitud de la
secuencia de
letras mayúsculas
más larga
CapitalTotal:
Número total de
letras mayúsculas
en el e-mail
type:
Etiqueta de clase
(1 para spam y 0
para no spam)
MODELO DETECCIÓN SPAM
Basada en los datos obtenidos de la monitorización del correo entrante a lo largo de un período de un año
Monitorización de
correo entrante
Modelos predictivos anti spam
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO DETECCIÓN SPAM
Técnicas empleadas: Regresión Logística, árbol de decisión CART, Random Forests y SVM
Ajuste del modelo sobre una muestra de entrenamiento
Validación y selección del modelo
óptimo sobre una muestra test
Modelos predictivos anti spam Resultados y retorno
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Modelo Score
umbral FP FN
Pérdida estimada
ROI (%)
ARBOL CART 0,83 8,2% 20% 8,8 MM de
horas 17,6%
REG. LOGÍSTICA 0,77 4% 20% 5,4 MM de
horas 49,6%
SVM 0,79 2,9% 20% 4,5 MM de
horas 57,8%
RAND. FORESTS 0,77 1,1% 20% 3 MM de
horas 71,8%
Indicadores para un 80% de detección
Reducción de la pérdida
en 32 MM $
ROI del 30% con un 42% de detección
(sobre una muestra test del 33% de los datos)
Modelos predictivos anti spam Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
RANDOM FORESTS
Score umbral
Detección (TPR)
FPR ROI
Estimado
0,68 85% 1.3% 75%
SVM
Score umbral
Detección (TPR)
FPR ROI
Estimado
0,89 74% 1.7% 61%
REGRESIÓN LOGÍSTICA
Score umbral
Detección (TPR)
FPR ROI
Estimado
0,71 83,6% 4,2% 51,5%
ÁRBOL CART
Score umbral
Detección (TPR)
FPR ROI
Estimado
0,92 69,6% 6,3% 22%
Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el 4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados
El problema de fuga de clientes en cifras
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el segmento de alto valor para telefonía móvil.
Problema de abandono de clientes
Plan de retención de la fuga mediante una oferta competitiva consistente en el disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un compromiso de permanencia por un año
Para ello se busca identificar los clientes con mayor propensión al abandono
145000 clientes cancelaron su contrato
Pérdida anual
promedio de 900$ por cliente (75$ / mes)
Pérdida total por fuga
130,5 MM $
Tasa de abandono
El problema de fuga de clientes Primera alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
REGLA DE CLASIFICACIÓN
Propensión de fuga por incidencias reportadas Campaña sobre el segmento de alta incidencia con una
oferta comercial de descuento de 15$ en la factura
92%
8%
Promedio de incidencias = 1,56 Segmento alta incidencia: Mayor doble del promedio (8% de la cartera)
51.7% 48.3%
00%
20%
40%
60%
80%
Fuga (%) No fuga (%)
11.3%
88.7%
00%
20%
40%
60%
80%
100%
Fuga (%) No fuga (%)
Efectividad de la oferta
FP TP con
respuesta + (campaña)
Monto retenido
(balance neto) ROI (%)
100% 38640 41360 22,8 MM $ 17,5%
50% 38640 20680 7,9 MM $ 6,1%
25% 38640 10340 0,5 MM $ 0,4%
10% 38640 4136 -4 MM $ -3%
El problema de fuga de clientes Segunda alternativa
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Data Warehouse
Demográfica
Uso del servicio
Tipo de plan y coberturas
State, Account length, Area code, Phone number, International plan, Voice
Mail plan, Number of voicemail messages, Total day minutes, Total day calls,
Total day charge, Total evening minutes, Total evening calls, Total evening
charge, Total night minutes, Total night calls, Total night charge, Total
international minutes, Total international calls, Total international charge,
Number of calls to customer service.
Modelos predictivos de fuga de clientes Análisis de relevancia de variables
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
- R
elev
anci
a d
e va
riab
les
+ Mediante el algoritmo Random
Forests (Leo Breiman, 2001) de agregación de modelos de árbol se identifican las variables que son más relevantes en la predicción del abandono de clientes
Modelos predictivos de fuga de clientes
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MODELO PROPENSIÓN DE FUGA
Modelos empleados: Regresión Logística, árbol de decisión
CART, Random Forests y SVM
Ajuste del modelo sobre una
muestra de entrenamiento
Selección del modelo óptimo
por validación en muestra test
Selección de variables mediante análisis de
relevancia
MODELO ÓPTIMO
Modelos predictivos de fuga de clientes Selección del modelo de máximo ROI
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
SVM
Retención (TPR)
FPR Retención Estimada
(MM $)
91% 2% 92
RANDOM FORESTS
Retención (TPR)
FPR Retención Estimada
(MM $)
82% 2,5% 82
ÁRBOL CART
Retención (TPR)
FPR Retención Estimada
(MM $)
80% 13,5% 63
REGRESIÓN LOGÍSTICA
Retención (TPR)
FPR Retención Estimada
(MM $)
72,5% 20% 45
15$ -20%
10$ -13%
SVM
Retención (TPR)
FPR Retención Estimada
(MM $)
45,5% 2% 49
RANDOM FORESTS
Retención (TPR)
FPR Retención
Estimada (MM $)
41% 2,5% 44
ÁRBOL CART
Retención (TPR)
FPR Retención
Estimada (MM $)
40% 13,5% 31
REGRESIÓN LOGÍSTICA
Retención (TPR)
FPR Retención
Estimada (MM $)
36% 20% 20
La respuesta incremental. Breves reflexiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Half the money
I spend on advertising is wasted,
the trouble is I don’t know which half
Infl
ue
nci
ado
s p
or
ac
ció
n c
om
erc
ial
Resultados de la campaña
TARGET DE NEGOCIO
LA RESPUESTA INCREMENTAL
Medición de la respuesta incremental
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Tasa
de
colo
caci
ón
0%
4%
6%
8%
10%
2%
Prior de respuesta
A B C D E F G H I J
Control
Tratamiento
0%
1%
-1%
Modelos predictivos de respuesta incremental Nuevas tendencias
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
MÉTODOS DIRECTOS
• Decision trees for uplift modeling • Uplift random forests
Grupo
Tratamiento
Grupo
Control
Campaña
Piloto
Modelo
Uplift
Lanzamiento
de campaña
0%
1%
-1%
0%
1%
-1%
MÉTODOS INDIRECTOS
• Difference score de dos modelos • Difference score de un modelo
único (tratamiento incluido en el modelo)
SOLUCIONES
Protrait Uplift Optimizer
http://www.portraitsoftware.com/
SAS Incremental Response Modeling http://www.sas.com/
Uplift R package
http://www.r-project.org/
BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
ANGELINA JOLIE » Angelina Jolie se extirpa los ovarios para evitar el cáncer
Quería que otras mujeres en situación de riesgo supieran
las opciones que hay
Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de parejas de genes con expresión diferencial bidimensional
Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París
Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests with data augmentation. Fundamenta Informaticae. 113 (2). 97-115
Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6
Soluciones innovadoras en BIO BIG DATA
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Aplicación al reconocimiento de patrones en datos de expresión genética
Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y con baja redundancia en sus niveles de expresión
Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego
Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive - minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443
Conclusiones
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
La información que las compañías almacenan es un diamante en bruto. Una buena explotación de esta información redundará en un incremento de beneficios o reducción de costes de la organización; también en su posicionamiento ventajoso respecto a la competencia.
La explotación de toda esta información requiere un análisis a conciencia de los datos; y
un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos y la demanda creciente de perfiles como el de científico de datos obedecen a esta necesidad.
Las investigaciones que han conducido al desarrollo de nuevos procedimientos y
algoritmos que abordan el problema de la modelización predictiva responden la necesidad creciente de un análisis científico de los datos.
La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de
modelización nos permitirá encontrar la solución con el mayor retorno de la inversión para nuestra compañía.
Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo
de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará un cambio en su visión de negocio que necesariamente debe comenzar por la capacitación de sus equipos y recursos humanos.
Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/
Dr. Jorge Martín Arevalillo Profesor de Universidad
Consultor Estadístico / Data Mining
Tel. +34 91 398 72 64 U.N.E.D Celular. 616 87 13 53 [email protected]
www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192
http://www.uned.es/personal/jmartin/
La Modelización Predictiva como Herramienta de Innovación