aplicaciones de minería de datos

Post on 13-Jun-2015

2.479 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

mi presentación para la U. de Cd. Serdán, en 11 2011

TRANSCRIPT

Aplicaciones de minería de

datos

Por:

M.C. Leopoldo González Rosas

www.cnys.com.mx

campodeEncinos.wordpress.com

Agenda

• Presentación

• Motivación

• ¿qué es minería de datos? – Disciplinas involucradas

• Aplicaciones – Bibliotecas

– Universidades

– otras

• ¿cómo funciona? – Arquitectura de inteligencia de negocios

Agenda (cont.)

– Metodología: El proceso de descubrimiento de conocimiento en bases de datos (KDD)

– Recolección/preparación de datos

– Algoritmos

– Modelo predictivo y su interpretación

– Utilizando los resultados • Toma de decisiones

• Sistemas operacionales

• Software de minería de datos

• Minería de datos y ética

• Conclusión

Presentación

Yo: Formación académica:

Licenciatura en Ciencias de la computación – BUAP FCC

Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP

Experiencia profesional CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)

gedas VW (BI, preventas, consultoría, LP)

BBVA Bancomer (BI, LP)

SFA Puebla (soporte técnico BD)

Experiencia académica Programación

Bases de datos / Inteligencia de negocios

Universidades: UDLAP, UPAEP, BUAP

Áreas de interés Bases de datos e inteligencia de negocios

Desarrollo de software

Proceso de enseñanza - aprendizaje

Motivación

• “Knowing is not enough; we must apply. Willing is not enough; we must do.”. Goethe

Generamos datos de manera exponencial Era de información

Obtener el conocimiento

oculto en esos datos Datos información conocimiento

Competir en este mundo de

negocios globalizado

¿qué es minería de datos?

• Minería de datos es el proceso por el cual generamos un modelo que sirva para la predicción,

– este modelo se genera a partir de datos aplicándoles algún algoritmo que construye el modelo.

• El modelo se evalúa para saber que tan certero será respecto a sus predicciones y posteriormente

• se utiliza para predecir el comportamiento de cualquier dato nuevo

USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS

NEGOCIOS

¿qué es minería de datos? (cont.)

• Es la extracción de información implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011]

• Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012]

• Es la extracción automatizada de información escondida a partir de (grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]

Minería de datos - disciplinas

ejemplo: reglas if-then

if tasaProducciónLagrimas = reducida

then recomendacion = ninguna

Else

if edad=joven and astigmatismo=no

then recomendación = suaves

ejemplo: árbol de decisión

Aplicación en bibliotecas MBA

ID PRODUCTOS

OCT-1 1 QA QB

OCT-1 2 QC QD

OCT-1 3 QE QA

OCT-1 4 QB QC

OCT-1 5 QD QE QA

OCT-2 6 QB QC

OCT-2 7 QD QE

OCT-2 8 QA QB

OCT-2 9 QC QA QB

OCT-2 10 QC QA QB

OCT-2 11 QC QA QB

OCT-2 12 QC QD QE

Aplicación en bibliotecas DT

Aplicación en universidades

Aplicación universidades

Otras aplicaciones

• Marketing

• Predicción de ventas, precios, acciones e índices financieros.

• Detección de fraudes en tarjetas de crédito

• Clasificación y filtrado de documentos, e-mails y noticias.

• Análisis de llamadas en Centros de atención telefónica.

• Clasificación automática de Quejas y Sugerencias de Clientes.

Arquitectura de inteligencia de

negocios

• Software del sistema (system software)

– Sistemas operativos, DBMS, compiladores

• Software de aplicación (app software)

– Operacional

• OLTP y batch

• Office, nomina, ventas, ERP

– Para la toma de decisiones -> inteligencia

de negocios

Arquitectura

Metodología: KDD

Metodología (cont.)

1) Establecer de manera precisa el problema a resolver

- No gastes dinero, antes de comprar un software

primero establece que es lo que quieres resolver

2) Exploración inicial

-preparación y limpieza de datos

-transformaciones de datos

- Probar con estadística descriptiva para conocer datos

3) Construcción del modelo y validación

- Probar algunos modelos y elegir el mejor para el

problema que se está resolviendo

4) Liberación

- Una vez construido el modelo se puede usar muchas

veces

- Los árboles de decisión son fáciles de liberar

Recolección/preparación de datos

• Extraer, transformar, cargar

– Posiblemente ya existe un almacén de datos

• Limpieza / calidad de datos

• Transformaciones para la minería

– “Discretizar” (ejemplo: E B R M)

• Muestra(s) -> vistas minables

– Cómo se obtiene

– Tamaño de la muestra

Algoritmos de minería de datos

• Clasificación – predicen una o más variables discretas, basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión

• Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos.

• Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares.

• Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA.

• Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.

Modelo predictivo y su interpretación

If temperatura = agradable then humedad = normal

Utilizando los resultados

• Se recorre el modelo cada vez que se desea predecir

– Por ejemplo para decidir a quien otorgarle un apoyo adicional

– Por ejemplo para decidir si se le presta o no dinero a alguien

• El modelo se puede usar para calificar a los datos de los sistemas operacionales para:

– Por ejemplo: identificar “Preferentes”

– Por ejemplo: identificar “ evasores fiscales”

Minería de datos y ética

•Es difícil hacer que los datos sean “anónimos”

– 85% de la gente puede ser identificada por su C.P., fecha de nacimiento y genero

•La minería de datos se usa para discriminar •Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético

•La situación etica depende de la aplicación •Ejemplo: la misma información esta bien en aplicaciones medicas

•Los atributos pueden contener información problematica

–Ejemplo: el CP se puede correlacionar con la raza

Conclusiones

• Minería de datos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país

– Educación, salud, el campo, eliminar la pobreza

• Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas)

• Es una tecnología que ya está al alcance de todo el mundo

• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …

GRACIAS POR SU ATENCIÓN

lgr811@cnys.com.mx

lgr811@yahoo.com

Bibliografía

• campodeEncinos.wordpress.com

• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez_r_l/

• http://www.uppuebla.edu.mx/Revista/revista10.pdf

• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009.pdf

• http://www.cs.waikato.ac.nz/~ml/weka/book.html

• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1

• Kiron D. et al. Analytics:the widening divide – how companies are achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011

• http://www.kdnuggets.com/software/suites.html

• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digitales.pdf

top related