la práctica de machine learning en la empresa

32
La práctica de Machine Learning en la Empresa Emilio Osorio García Chief Technology Officer Predictive Technologies [email protected] Dr. Manuel Reyez Gomez Chief Data Scientist Predictive Technologies [email protected]

Upload: emilio-osorio-garcia

Post on 19-Jun-2015

211 views

Category:

Data & Analytics


4 download

DESCRIPTION

Recomendaciones de por qué y que considerar al iniciar una práctica de machine learning en la empresa.

TRANSCRIPT

Page 1: La práctica de Machine Learning en la empresa

La práctica de Machine Learning en la Empresa

Emilio Osorio García

Chief Technology Officer Predictive Technologies

[email protected]

Dr. Manuel Reyez Gomez

Chief Data Scientist Predictive Technologies [email protected]

Page 2: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

¿Qué imaginábamos hace 30 años?

Page 3: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

El presente...

* Traducción Liberal

“Las mejores mentes de mi generación están pensando en como hacer que la gente haga

click en un anuncio. Eso no esta chido”*

-Jeff Hammerback Cofundador de Cloudera

Page 4: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

¿Donde estaremos en 30 años?

Page 5: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

El estado del arte

• No existen soluciones que

sean “llave en mano”

• Los datos estructurados

crecen exponencialmente

• Se requiere investigación

de los problemas

específicos de negocio

• Baja utilización de los

sistemas analíticos

existentes

• Lidiar con el cambio

constante en los datos

Page 6: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

¿Qué es “Machine Learning”?

• Es una rama de la Inteligencia artificial

• Aprender de los datos

• Descubrir, codificar y modelar patrones

encontrados en los datos (historicos) que

después permitan estimar variables

desconocidas, mediante el uso del contexto

• Representación de los datos (Arte)

• Modelo probabilístico • Genéricos: Neural Networks, SVMs, Decision Trees, etc

• A la medida usando la infraestructura de modelos

gráficos “Graphical Models Framework”

Page 7: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Detección de fuentes de sonido

F

R

E

C

U

E

N

C

I

A

Page 8: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Prediciendo usando el contexto

Page 9: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Usando el modelo para hallar anomalías

Puntos donde los datos no siguen el modelo

Page 10: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Page 11: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Bing Local

Page 12: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Bing Local

Page 13: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Bing Local

Page 14: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Recomendación de Películas

? ? ? ?

Page 15: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Caracterización de Variables

Es Romántica : (0,1)

Es infantil: [0,1]

Es animada: (0,1)

Tiene director famoso: (0,1)

Tiene actores famosos: (0,1)

Grado de violencia: (0,1,2,3,4,5)

Edad promedio de actores: (Continua)

Año de publicación: (Discreta)

…..

…..

…..

x0

x1

x2

x3

x4

x5

x6

x7

.

.

.

Clasificación : (0,1,2,3,4,5) y

X

Page 16: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Estimación del modelo

X1 = [0, 1, 0, 1, 0, 3, 23.6, 1981]; y1 = 3

X2 = [1, 1, 0, 1, 1, 4, 43.3, 2013]; y2 = 5

X3 = [0, 1, 1, 1, 1, 5, 14.4, 1999]; y3 = 2

X4 = [1, 1, 1, 1, 0, 4, 35.3, 1954]; y4 = 3

X5 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y5 = 3

X6 = [0, 1, 0, 1, 0, 3, 23.6, 2001]; y6 = 1

….

f(W,X) = y’

w0+w1x1+w2x2+w3x3+…= y’

Estimar el modelo consiste

en estimar W usando los

valores de los ejemplos Xi,

yi de tal manera que

minimice:

(𝑦′𝑖 − 𝑦𝑖)2=

𝑁

𝑖=1

(𝑓(𝑊,𝑋𝑖) − 𝑦𝑖)2

𝑁

𝑖=1

Page 17: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

En producción

• Para nuevos elementos y sus representaciones X, se estima sus y’ usando el modelo estimado

?

x0

x1

x2

x3

x4

x5

x6

x7

.

.

.

X

w0+w1x1+w2x2+w3x3+…= y’

y’ =

Page 18: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Otras soluciones

• Estimación de riesgo crediticio

• Estimación optima de abasto de suministros

• Estimación de probabilidad de perdida del cliente

• Estimación optima de cantidades de mercancía por tipo y locación (datos no estructurados)

• Selección automática de mejores candidatos para puestos disponibles

Page 19: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

No se necesita descubrir el hilo negro

• Modelos genéricos accesibles en el mercado • Lineal Regression

• Neural Networks

• Logistic Regression

• Support Vector Machines

• Decision Trees

• Software Libre

– R Studio

– Mahout

– Weka

– MLib

• Software Licenciado – Oracle Data Mining

– SAS Advance Analytics

– IBM Predictive Analytics

– Matlab

Page 20: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

60% Arte – 40% Ciencia

• Representación (Arte) • Representación que generalice correctamente

• Representación que induzca transferencia

• Limpieza de datos

• Normalización de valores

• Ajustar representación a las limitaciones del modelo • Fecha de Publicación: Decision Tree-> Continua

• Logistic Regression: discretizada binaria. [1985-1990]

• Ciencia • Selección o diseño del modelo

• Prevención de “overfitting”

• Regularización de parámetros

• Análisis de errores (experto de dominio)

• Estar consciente de las limitaciones del modelo

Page 21: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Modelos genéricos vs. a la medida

• Modelos genéricos

• Modelos a la medida

Información

del

sistema Modelo

Información del sistema se debe transformar/adaptar al modelo

Información

del

sistema Modelo

Modelo

Modelo se diseña dada la Información del sistema

Page 22: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Modelos genéricos vs. a la medida

• Modelos genéricos • Pros

• Sus propiedades y características han sido ampliamente estudiadas

• Muchas implementaciones optimas disponibles

• Fáciles de entrenar y probar

• Cons • La información del sistema requiere de un proceso adecuado de los

valores en sus variables para ajustarlas a las predisposiciones y limitaciones de cada modelo

• Tienen Limitaciones, al ser genéricos no son los suficientemente ricos para modelar sistemas complejos

• No son apropiadas para problemas con mas de una variable de salida que interactúan entre si

Page 23: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Modelos genéricos vs. a la medida

• Modelos a la medida • Pros

• Como se diseñan para modelar el sistema sin las limitaciones de los modelos genéricos tienen mejor desempeño

• Se pueden patentar

• Dan ventajas competitivas

• Apropiados para sistemas donde se requiere estimar varias variables de salida que interactúan entre si. (Predicción de Trafico)

• Cons • Requieren diseño especializado por lo tanto las soluciones son mas

caras que cuando usando modelos genéricos

• Soluciones

• Soluciones basadas en modelos a la medida requieren mas testeo que las basadas en modelos genéricos

• Soluciones requieren mas tiempo de implementación

Page 24: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Pasos para implementar en relación al data scientist

• Fase 1 • Análisis de factibilidad en datos históricos disponibles.

Determinar si se tienen suficientes y diversos datos que cubran las diferentes condiciones del sistema

• Fase 2 con modelos genéricos • Diseño e implementación de la representación de variables • Selección del modelo • Estimación del modelo (con regularización y “tunning” para

evitar “overfitting”) • Análisis de errores • Recalibración del modelo

Page 25: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Machine Learning como Práctica

• En esencia es

investigación y

desarrollo

• El reto es como crear

una práctica que tenga

resultados de negocio

• ¿Como operacionalizar

la inteligencia artificial?

Page 26: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Las fases de la metodología CRISP-DM

Page 27: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Lean Machine Learning

• Eliminar el derroche • Construir con Calidad

Incluida • Respetar a las Personas • Crear conocimiento • Diferir los compromisos • Entregar Rápido • Optimizar el Todo

Page 28: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Los roles de equipo en Machine Learning

• Business Product Owner • Business Domain Expert • Data Scientist • Data Analyst • Machine Learning

Engineer • Data Engineer

Page 29: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Nuevas habilidades requeridas

• Formulación correcta de problemas • Cultura de Prototipaje • Intuición para tomar realizar asunciones a

problemas no muy bien definidos • Diseñar experimentos para probar hipótesis • Analizar resultados y plantear mejoras

continuamente

Page 30: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Tecnología: Software Libre para aprender

Page 31: La práctica de Machine Learning en la empresa

Manuel Reyes / [email protected] SGCE 2014 Emilio Osorio / [email protected]

Tecnología: Proveedores para escalar

Page 32: La práctica de Machine Learning en la empresa

Preguntas y Respuestas

Emilio Osorio García

Chief Technology Officer Predictive Technologies

[email protected]

Dr. Manuel Reyez Gomez

Chief Data Scientist Predictive Technologies [email protected]