la modelización predictiva como herramienta de innovación

La Modelización Predictiva como Herramienta de Innovación

Jorge Martín Arevalillo

Universidad Nacional Educación a Distancia

U.N.E.D

Lima (Perú). Junio de 2015 http://www.bigdatasummit.pe/

http://www.uned.es/

La U.N.E.D en cifras

Centro en Lima. Casa de España - Avda. Salaverry, nº 1910-Jesús María, Lima (Perú)

DOCENCIA

260000 estudiantes

Más de 70 centros en España. Presencia en

4 continentes

27 títulos de Grado

49 Másteres EEES

INVESTIGACIÓN

Una Escuela de

doctorado

163 grupos de investigación

151 tesis doctorales de reciente lectura

Lima (Perú). Junio de 2015. http://www.bigdatasummit.pe/

TRANSFERENCIA

Plan de transferencia de conocimiento al sector productivo

90 contratos

Facturación 2,5 MM $

12 patentes y registros 4 spin off

http://www.uned.es/

Guión


1. Modelización predictiva. Métodos y algoritmos

2. Aplicaciones y casos de uso

3. Soluciones innovadoras en BIO BIG DATA

4. Conclusiones

http://www.uned.es/

Modelización predictiva


Modelización predictiva

Técnica estadística para predecir el comportamiento futuro. La soluciones basadas en modelos predictivos utilizan técnicas de Data Mining para analizar información histórica y generar un modelo que

sirva para predecir casos futuros (Gartner IT Glossary)

Target:

abandono del cliente

Modelo de

propensión de abandono

Target:

Colocación de crédito. Impago

Modelos de

propensión adquisición y de riesgo de mora

Target: Fraude

(Banca, Sector seguro, Laboral)

Modelos de

detección de anomalías

Target:

Siniestralidad o riesgo

Modelos de

perfilamiento del riesgo

Target: cesta de

la compra cancelada

Modelos de

navegación web de propensión a la cancelación

Target: Volumen

de venta Modelos de

forecasting para predicción de las ventas

http://www.uned.es/

Modelización predictiva. Una historia en evolución


Experto Know-how de negocio

¿Se podrá reemplazar el hombre por la máquina?

Modelos lineales

Modelos no lineales

Agregación de Modelos

Modelos con regularización

Modelos algorítmicos

http://www.uned.es/

Modelización predictiva. Aspectos técnicos


Redes neuronales

- Toma de decisiones sobre la concesión de préstamos

- Recibe una media de 10 solicitudes diarias. Sopesa, valora y decide

- Recibe informes mensuales sobre los niveles de morosidad de los créditos concedidos

- Evalúa los errores cometidos y modifica su valoración sobre los clientes. Esto le permitirá tomar mejores decisiones

- Este mecanismo se repite hasta que el experto está entrenado para tomar buenas decisiones

Discriminante lineal y Regresión logística

- Las variables predictoras se relacionan con la respuesta (target de negocio a explicar) de una forma aditiva

- Las técnicas están basadas en un modelo lineal, también en hipótesis matemáticas acerca del mecanismo estocástico que genera los datos

- Útiles cuando no hay patrones no lineales en los datos altamente asociados con el target de negocio a predecir (ej: relaciones no lineales entre las característica de los clientes para predecir fuga, captación de clientes, up-selling…)

Modelos algorítmicos y Técnicas basadas en el bootstap

y la agregación de modelos

- ÁRBOLES. No asume la existencia de una relación concreta entre el target de negocio y las variables predictoras. Útiles para identificar potenciales interacciones en los atributos de los clientes

- RANDOM FORESTS. Agrega las predicciones de muchos árboles en un solo modelo ensamblador

- TREENET. Agrega las predicciones de muchos modelos de árboles en un solo ensamblador mediante un mecanismo de aprendizaje de los errores

Técnicas de regularización

- Técnicas basadas en la optimización de una función de pérdida con un término de penalización

- El método de regularización lleva incrustado un procedimiento de selección de variables capaz de identificar las variables inputs con mayor relevancia

- Es una aproximación muy utilizada en bases de datos de alta dimensión

- La modelización con SVM responde al paradigma de la regularización. Además se pueden adaptar mediante el uso de kernels a fin de reconocer patrones no lineales en los datos

SVM y Kernels

http://www.uned.es/

Modelización predictiva Algunos casos de uso


Pérdida de productividad

de recursos humanos Por interrupciones de

tareas debidas a la constante recepción de correo basura

Diseño de un detector

automático de spam que permita filtrar el correo no deseado

Compañía en el sector

teleco con un problema de abandono de clientes

El esfuerzo comercial de

captación de un nuevo cliente es cinco veces superior al de retención de un cliente

Se prioriza la retención de

clientes mediante la elaboración de un modelo de propensión de fuga

Retos y desafíos recientes en

el desarrollo de modelos predictivos

Modelos orientados al

estudio de la respuesta incremental (planteamiento del problema)

Priorizar los esfuerzos

comerciales sobre los clientes que no adquieren el producto a menos que se les haga una oferta comercial

http://www.uned.es/

El problema del correo basura en cifras


Hp. Una de las mayores empresas tecnológicas del mundo con sede en Palo Alto (California) y presencia en todo el mundo

Estimación de 350000 trabajadores en el año 2011

635 Millones de correo basura al año

Pérdida de 10.6

Millones de horas de trabajo por año

Pérdida de 106 MM $

al año

Correos clasificados (empleado promedio)

http://www.uned.es/

El problema del correo basura Primera alternativa


REGLA DE CLASIFICACIÓN

Si aparece la palabra “remove” clasificar

como spam

TP (764)

FN (1049)

FP (43)

TP (2745)

Matriz de confusión

FP. No spam clasificado como spam FN. Spam clasificado como no spam Coste de clasificación: 5/1

Estimado de 267 Millones de spam detectados y un estimado

de 15 Millones de FP

Proporcionan un ahorro neto de 3,2 millones de horas anuales

Reducción de la pérdida en 32 MM $

ROI del 30%

http://www.uned.es/

El problema del correo basura Segunda alternativa


VARIABLES

1-48

VARIABLES

49-54 VARIABLE 55 VARIABLE 56 VARIABLE 57 VARIABLE 58

Son palabras.

Miden la

frecuencia con

que aparece

cada palabra. El

prefijo num es

identificador de

número

Frecuencia con

que aparecen los

caracteres: ; ( [ ! $

y #

CapitalAve:

Longitud media de

las secuencias de

letras mayúsculas

CapitalLong:

Longitud de la

secuencia de

letras mayúsculas

más larga

CapitalTotal:

Número total de

letras mayúsculas

en el e-mail

type:

Etiqueta de clase

(1 para spam y 0

para no spam)

MODELO DETECCIÓN SPAM

Basada en los datos obtenidos de la monitorización del correo entrante a lo largo de un período de un año

Monitorización de

correo entrante

http://www.uned.es/

Modelos predictivos anti spam


MODELO DETECCIÓN SPAM

Técnicas empleadas: Regresión Logística, árbol de decisión CART, Random Forests y SVM

Ajuste del modelo sobre una muestra de entrenamiento

Validación y selección del modelo

óptimo sobre una muestra test

http://www.uned.es/

Modelos predictivos anti spam Resultados y retorno


Modelo Score

umbral FP FN

Pérdida estimada

ROI (%)

ARBOL CART 0,83 8,2% 20% 8,8 MM de

horas 17,6%

REG. LOGÍSTICA 0,77 4% 20% 5,4 MM de

horas 49,6%

SVM 0,79 2,9% 20% 4,5 MM de

horas 57,8%

RAND. FORESTS 0,77 1,1% 20% 3 MM de

horas 71,8%

Indicadores para un 80% de detección

Reducción de la pérdida

en 32 MM $

ROI del 30% con un 42% de detección

(sobre una muestra test del 33% de los datos)

http://www.uned.es/

Modelos predictivos anti spam Selección del modelo de máximo ROI


RANDOM FORESTS

Score umbral

Detección (TPR)

FPR ROI

Estimado

0,68 85% 1.3% 75%

SVM

Score umbral

Detección (TPR)

FPR ROI

Estimado

0,89 74% 1.7% 61%

REGRESIÓN LOGÍSTICA

Score umbral

Detección (TPR)

FPR ROI

Estimado

0,71 83,6% 4,2% 51,5%

ÁRBOL CART

Score umbral

Detección (TPR)

FPR ROI

Estimado

0,92 69,6% 6,3% 22%

Incrementar la detección hasta el 85% implica un aumento de las detecciones falsas (FP), hasta el 4,3% en el modelo SVM, el 5,5% en el de Reg. Logística y el 12,3% en el Árbol. Los FP reducen el ROI desde los niveles óptimos hasta el 52,2%, 46% y -8,5% en cada uno de los modelos mencionados

http://www.uned.es/

El problema de fuga de clientes en cifras


Una compañía del sector de las telecomunicaciones con 1 Millón de clientes en el segmento de alto valor para telefonía móvil.

Problema de abandono de clientes

Plan de retención de la fuga mediante una oferta competitiva consistente en el disfrute de una promoción de descuento de 15$ mensuales. La promoción exige un compromiso de permanencia por un año

Para ello se busca identificar los clientes con mayor propensión al abandono

145000 clientes cancelaron su contrato

Pérdida anual

promedio de 900$ por cliente (75$ / mes)

Pérdida total por fuga

130,5 MM $

Tasa de abandono

http://www.uned.es/

El problema de fuga de clientes Primera alternativa


REGLA DE CLASIFICACIÓN

Propensión de fuga por incidencias reportadas Campaña sobre el segmento de alta incidencia con una

oferta comercial de descuento de 15$ en la factura

92%

8%

Promedio de incidencias = 1,56 Segmento alta incidencia: Mayor doble del promedio (8% de la cartera)

51.7% 48.3%

00%

20%

40%

60%

80%

Fuga (%) No fuga (%)

11.3%

88.7%

00%

20%

40%

60%

80%

100%

Fuga (%) No fuga (%)

Efectividad de la oferta

FP TP con

respuesta + (campaña)

Monto retenido

(balance neto) ROI (%)

100% 38640 41360 22,8 MM $ 17,5%

50% 38640 20680 7,9 MM $ 6,1%

25% 38640 10340 0,5 MM $ 0,4%

10% 38640 4136 -4 MM $ -3%

http://www.uned.es/

El problema de fuga de clientes Segunda alternativa


Data Warehouse

Demográfica

Uso del servicio

Tipo de plan y coberturas

State, Account length, Area code, Phone number, International plan, Voice

Mail plan, Number of voicemail messages, Total day minutes, Total day calls,

Total day charge, Total evening minutes, Total evening calls, Total evening

charge, Total night minutes, Total night calls, Total night charge, Total

international minutes, Total international calls, Total international charge,

Number of calls to customer service.

http://www.uned.es/

Modelos predictivos de fuga de clientes Análisis de relevancia de variables


- R

elev

anci

a d

e va

riab

les

+ Mediante el algoritmo Random

Forests (Leo Breiman, 2001) de agregación de modelos de árbol se identifican las variables que son más relevantes en la predicción del abandono de clientes

http://www.uned.es/

Modelos predictivos de fuga de clientes


MODELO PROPENSIÓN DE FUGA

Modelos empleados: Regresión Logística, árbol de decisión

CART, Random Forests y SVM

Ajuste del modelo sobre una

muestra de entrenamiento

Selección del modelo óptimo

por validación en muestra test

Selección de variables mediante análisis de

relevancia

MODELO ÓPTIMO

http://www.uned.es/

Modelos predictivos de fuga de clientes Selección del modelo de máximo ROI


SVM

Retención (TPR)

FPR Retención Estimada

(MM $)

91% 2% 92

RANDOM FORESTS

Retención (TPR)


(MM $)

82% 2,5% 82

ÁRBOL CART

Retención (TPR)


(MM $)

80% 13,5% 63


Retención (TPR)


(MM $)

72,5% 20% 45

15$ -20%

10$ -13%

SVM

Retención (TPR)


(MM $)

45,5% 2% 49

RANDOM FORESTS

Retención (TPR)

FPR Retención

Estimada (MM $)

41% 2,5% 44

ÁRBOL CART

Retención (TPR)

FPR Retención

Estimada (MM $)

40% 13,5% 31


Retención (TPR)

FPR Retención

Estimada (MM $)

36% 20% 20

http://www.uned.es/

La respuesta incremental. Breves reflexiones


Half the money

I spend on advertising is wasted,

the trouble is I don’t know which half

Infl

ue

nci

ado

s p

or

ac

ció

n c

om

erc

ial

Resultados de la campaña

TARGET DE NEGOCIO

LA RESPUESTA INCREMENTAL

http://www.uned.es/

Medición de la respuesta incremental


Tasa

de

colo

caci

ón

0%

4%

6%

8%

10%

2%

Prior de respuesta

A B C D E F G H I J

Control

Tratamiento

0%

1%

-1%

http://www.uned.es/

Modelos predictivos de respuesta incremental Nuevas tendencias


MÉTODOS DIRECTOS

• Decision trees for uplift modeling • Uplift random forests

Grupo

Tratamiento

Grupo

Control

Campaña

Piloto

Modelo

Uplift

Lanzamiento

de campaña

0%

1%

-1%

0%

1%

-1%

MÉTODOS INDIRECTOS

• Difference score de dos modelos • Difference score de un modelo

único (tratamiento incluido en el modelo)

SOLUCIONES

Protrait Uplift Optimizer

http://www.portraitsoftware.com/

SAS Incremental Response Modeling http://www.sas.com/

Uplift R package

http://www.r-project.org/

http://www.uned.es/



http://www.sas.com/

http://www.sas.com/





BIO BIG DATA


ANGELINA JOLIE » Angelina Jolie se extirpa los ovarios para evitar el cáncer

Quería que otras mujeres en situación de riesgo supieran

las opciones que hay

http://www.uned.es/

http://cultura.elpais.com/tag/angelina_jolie/a/



Soluciones innovadoras en BIO BIG DATA


Aplicación al reconocimiento de patrones en datos de expresión genética

Búsqueda de parejas de genes con expresión diferencial bidimensional

Jorge M. Arevalillo, Hilario Navarro (2009). Using random forests to uncover bivariate interactions in high dimensional small data sets. StReBio'09 Proceedings of the KDD-09 Workshop on Statistical and Relational Learning in Bioinformatics. París

Jorge M Arevalillo, Hilario Navarro (2011). Uncovering bivariate interactions in high dimensional data using Random Forests with data augmentation. Fundamenta Informaticae. 113 (2). 97-115

Jorge M Arevalillo, Hilario Navarro (2011). A new method for identifying bivariate differential expression in high dimensional microarray data using quadratic discriminant analysis. BMC Bioinformatics. 12 (Suppl 12):S6

http://www.uned.es/

http://www.sigkdd.org/kdd2009/

http://www.sigkdd.org/kdd2009/

Soluciones innovadoras en BIO BIG DATA


Aplicación al reconocimiento de patrones en datos de expresión genética

Búsqueda de genes con alta capacidad de discriminación del fenotipo de interés y con baja redundancia en sus niveles de expresión

Arevalillo J.M, Navarro H (2006). A Feature Selection Algorithm with Redundant Expressed Gene Filtering from Microarray Data. Predictive Accuracies with Random Forests. Proceedings Salford Systems Data Mining Conference. San Diego

Jorge M Arevalillo, Hilario Navarro (2013). Exploring correlations in gene expression microarray data for maximum predictive - minimum redundancy biomarker selection and classification. Computers in Biology and Medicine. 43 (10). 1437-1443

http://www.uned.es/

Conclusiones


La información que las compañías almacenan es un diamante en bruto. Una buena explotación de esta información redundará en un incremento de beneficios o reducción de costes de la organización; también en su posicionamiento ventajoso respecto a la competencia.

La explotación de toda esta información requiere un análisis a conciencia de los datos; y

un análisis a conciencia implica un análisis con ciencia. El desarrollo de la ciencia de datos y la demanda creciente de perfiles como el de científico de datos obedecen a esta necesidad.

Las investigaciones que han conducido al desarrollo de nuevos procedimientos y

algoritmos que abordan el problema de la modelización predictiva responden la necesidad creciente de un análisis científico de los datos.

La aplicación de los métodos más estándar junto con las nuevas técnicas emergentes de

modelización nos permitirá encontrar la solución con el mayor retorno de la inversión para nuestra compañía.

Queda a las organizaciones el desafío de adaptar sus esquemas y estructuras a un modelo

de negocio cuyas decisiones se soportan por la analítica de datos. El nuevo reto implicará un cambio en su visión de negocio que necesariamente debe comenzar por la capacitación de sus equipos y recursos humanos.

http://www.uned.es/


Dr. Jorge Martín Arevalillo Profesor de Universidad

Consultor Estadístico / Data Mining

Tel. +34 91 398 72 64 U.N.E.D Celular. 616 87 13 53 [email protected]

www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192

http://www.uned.es/personal/jmartin/

La Modelización Predictiva como Herramienta de Innovación

http://www.uned.es/

http://www.linkedin.com/pub/jorge-martín-arevalillo/58/992/192









la modelización predictiva como herramienta de innovación

Data & Analytics