Download - aplicaciones de minería de datos
Aplicaciones de minería de
datos
Por:
M.C. Leopoldo González Rosas
www.cnys.com.mx
campodeEncinos.wordpress.com
Agenda
• Presentación
• Motivación
• ¿qué es minería de datos? – Disciplinas involucradas
• Aplicaciones – Bibliotecas
– Universidades
– otras
• ¿cómo funciona? – Arquitectura de inteligencia de negocios
Agenda (cont.)
– Metodología: El proceso de descubrimiento de conocimiento en bases de datos (KDD)
– Recolección/preparación de datos
– Algoritmos
– Modelo predictivo y su interpretación
– Utilizando los resultados • Toma de decisiones
• Sistemas operacionales
• Software de minería de datos
• Minería de datos y ética
• Conclusión
Presentación
Yo: Formación académica:
Licenciatura en Ciencias de la computación – BUAP FCC
Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP
Experiencia profesional CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)
gedas VW (BI, preventas, consultoría, LP)
BBVA Bancomer (BI, LP)
SFA Puebla (soporte técnico BD)
Experiencia académica Programación
Bases de datos / Inteligencia de negocios
Universidades: UDLAP, UPAEP, BUAP
Áreas de interés Bases de datos e inteligencia de negocios
Desarrollo de software
Proceso de enseñanza - aprendizaje
Motivación
• “Knowing is not enough; we must apply. Willing is not enough; we must do.”. Goethe
Generamos datos de manera exponencial Era de información
Obtener el conocimiento
oculto en esos datos Datos información conocimiento
Competir en este mundo de
negocios globalizado
¿qué es minería de datos?
• Minería de datos es el proceso por el cual generamos un modelo que sirva para la predicción,
– este modelo se genera a partir de datos aplicándoles algún algoritmo que construye el modelo.
• El modelo se evalúa para saber que tan certero será respecto a sus predicciones y posteriormente
• se utiliza para predecir el comportamiento de cualquier dato nuevo
USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS
NEGOCIOS
¿qué es minería de datos? (cont.)
• Es la extracción de información implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011]
• Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012]
• Es la extracción automatizada de información escondida a partir de (grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]
Minería de datos - disciplinas
ejemplo: reglas if-then
if tasaProducciónLagrimas = reducida
then recomendacion = ninguna
Else
if edad=joven and astigmatismo=no
then recomendación = suaves
ejemplo: árbol de decisión
Aplicación en bibliotecas MBA
ID PRODUCTOS
OCT-1 1 QA QB
OCT-1 2 QC QD
OCT-1 3 QE QA
OCT-1 4 QB QC
OCT-1 5 QD QE QA
OCT-2 6 QB QC
OCT-2 7 QD QE
OCT-2 8 QA QB
OCT-2 9 QC QA QB
OCT-2 10 QC QA QB
OCT-2 11 QC QA QB
OCT-2 12 QC QD QE
Aplicación en bibliotecas DT
Aplicación en universidades
Aplicación universidades
Otras aplicaciones
• Marketing
• Predicción de ventas, precios, acciones e índices financieros.
• Detección de fraudes en tarjetas de crédito
• Clasificación y filtrado de documentos, e-mails y noticias.
• Análisis de llamadas en Centros de atención telefónica.
• Clasificación automática de Quejas y Sugerencias de Clientes.
Arquitectura de inteligencia de
negocios
• Software del sistema (system software)
– Sistemas operativos, DBMS, compiladores
• Software de aplicación (app software)
– Operacional
• OLTP y batch
• Office, nomina, ventas, ERP
– Para la toma de decisiones -> inteligencia
de negocios
Arquitectura
Metodología: KDD
Metodología (cont.)
1) Establecer de manera precisa el problema a resolver
- No gastes dinero, antes de comprar un software
primero establece que es lo que quieres resolver
2) Exploración inicial
-preparación y limpieza de datos
-transformaciones de datos
- Probar con estadística descriptiva para conocer datos
3) Construcción del modelo y validación
- Probar algunos modelos y elegir el mejor para el
problema que se está resolviendo
4) Liberación
- Una vez construido el modelo se puede usar muchas
veces
- Los árboles de decisión son fáciles de liberar
Recolección/preparación de datos
• Extraer, transformar, cargar
– Posiblemente ya existe un almacén de datos
• Limpieza / calidad de datos
• Transformaciones para la minería
– “Discretizar” (ejemplo: E B R M)
• Muestra(s) -> vistas minables
– Cómo se obtiene
– Tamaño de la muestra
Algoritmos de minería de datos
• Clasificación – predicen una o más variables discretas, basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión
• Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos.
• Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares.
• Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA.
• Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.
Modelo predictivo y su interpretación
If temperatura = agradable then humedad = normal
Utilizando los resultados
• Se recorre el modelo cada vez que se desea predecir
– Por ejemplo para decidir a quien otorgarle un apoyo adicional
– Por ejemplo para decidir si se le presta o no dinero a alguien
• El modelo se puede usar para calificar a los datos de los sistemas operacionales para:
– Por ejemplo: identificar “Preferentes”
– Por ejemplo: identificar “ evasores fiscales”
Software de DM
• Weka y pentaho
• Rapid Miner
• Microsoft SQL Server 2008 R2
• sas enterprise miner
• IBM spss
• Oracle data mining
Minería de datos y ética
•Es difícil hacer que los datos sean “anónimos”
– 85% de la gente puede ser identificada por su C.P., fecha de nacimiento y genero
•La minería de datos se usa para discriminar •Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético
•La situación etica depende de la aplicación •Ejemplo: la misma información esta bien en aplicaciones medicas
•Los atributos pueden contener información problematica
–Ejemplo: el CP se puede correlacionar con la raza
Conclusiones
• Minería de datos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país
– Educación, salud, el campo, eliminar la pobreza
• Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas)
• Es una tecnología que ya está al alcance de todo el mundo
• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …
GRACIAS POR SU ATENCIÓN
Bibliografía
• campodeEncinos.wordpress.com
• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez_r_l/
• http://www.uppuebla.edu.mx/Revista/revista10.pdf
• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009.pdf
• http://www.cs.waikato.ac.nz/~ml/weka/book.html
• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1
• Kiron D. et al. Analytics:the widening divide – how companies are achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011
• http://www.kdnuggets.com/software/suites.html
• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digitales.pdf