tÉcnicas de inducciÓn

Upload: zaira-platri

Post on 10-Jul-2015

1.396 views

Category:

Documents


0 download

TRANSCRIPT

APLICACIN DE TCNICAS DE INDUCCIN DE RBOLES DE DECISIN A PROBLEMAS DE CLASIFICACIN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).

FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008

APLICACIN DE TCNICAS DE INDUCCIN DE RBOLES DE DECISIN A PROBLEMAS DE CLASIFICACIN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).

PAULA ANDREA VIZCAINO GARZON

FUNDACIN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERA DE SISTEMAS BOGOT 2008 2

CONTENIDOLISTA DE FIGURAS ........................................................................................................... 4 INTRODUCCION ................................................................................................................ 7 1.MINERA DE DATOS ....................................................................................................... 8 1.1. CARACTERSTICAS Y OBJETIVOS DE LA MINERA DE DATOS ...................................... 8 2.RBOLES DE DECISIN .............................................................................................. 11 2.1. CICLO DE UN RBOL DE DECISIN ....................................................................... 12 2.2. CONSTRUCCIN DE RBOLES DE DECISIN .......................................................... 13 2.3. CLASIFICACIN DE RBOLES DE DECISIN ........................................................... 14 2.3.1. ADTree - Alternating Decision Tree [4] ................................................. 14 2.3.2. Decision Stump o rbol de decisin de un nivel ..................................... 15 2.3.3. ID3 ........................................................................................................... 16 2.3.4. J48 o C4.5 ............................................................................................... 18 2.3.5. LMT (Logistic Model Tree) ...................................................................... 20 2.3.6. M5P (rbol de regresin) ........................................................................ 21 2.3.7. NBTree (Naive Bayes Tree) .................................................................... 21 2.3.8. RandomForest ........................................................................................ 22 2.3.9. RandomTree ........................................................................................... 23 2.3.10. REPTree ................................................................................................. 24 2.3.11. UserClassifier .......................................................................................... 24 3.WEKA Waikato Environment for Knowledge Analysis................................................ 26 3.1. 3.2. 3.3. INSTALACIN Y EJECUCIN ........................................................................ 27 FORMAS DE UTILIZAR WEKA ....................................................................... 28 FICHEROS .ARFF ........................................................................................... 31

4.SELECCIN Y SOLUCIN DEL PROBLEMA .............................................................. 34 4.1. SELECCIN DE EJEMPLO............................................................................. 34 4.2. EMPEZANDO CON WEKA .............................................................................. 37 Paso 1 - Lanzar el interfaz Explorer. ........................................................................ 37 Paso 2 - Cargar la base de datos............................................................................. 37 Paso 3 - Generacin de grficos .............................................................................. 38 4.3. RBOLES DE DECISIN CON WEKA ........................................................... 43 4.4. REVISANDO RESULTADOS .......................................................................... 68 5.BIBLIOGRAFA .............................................................................................................. 74

3

LISTA DE FIGURASFigura 1. Mapa Conceptual de Minera de Datos ............................................................... 9 Figura 2. Representacin del conocimiento...................................................................... 11 Figura 3. Ejemplo de un rbol ADTree ............................................................................. 15 Figura 4. Ejemplo de un rbol ID3 .................................................................................... 17 Figura 5. Ejemplo aplicado de rbol de decisin adaptado para C4.5 ............................. 19 Figura 6. Ejemplo de un rbol de decisin generado por C4.5 ........................................ 19 Figura 7. Pseudo cdigo para el algoritmo LMT ............................................................... 20 Figura 8. Esquema del algoritmo Random Forest ............................................................ 22 Figura 9. Proceso para construir un Random Tree .......................................................... 23 Figura 10. Ejemplo de UserClassifier bsico .................................................................... 24 Figura 11. Ejemplo de UserClassifier final ........................................................................ 25 Figura 12. Imagen de una Weka ....................................................................................... 26 Figura 13. Ventana inicial de Weka .................................................................................. 29 Figura 14. Interfaz Simple CLI .......................................................................................... 29 Figura 15. Interfaz Explorer............................................................................................... 30 Figura 16. Interfaz Experimenter ...................................................................................... 30 Figura 17. Interfaz KnowledgeFlow .................................................................................. 31 Figura 18. Interfaz Explorer con archivo Empleados.arff.................................................. 37 Figura 19. Opcin Visualice para Empleados.arff ............................................................ 38 Figura 20. Resultado de un nodo grfico {Casado x Sueldo} ........................................... 39 Figura 21. Visualizacin de caractersticas atributo Sueldo ............................................. 39 Figura 22. Visualizacin de caractersticas atributo Casado ............................................ 40 Figura 23. Visualizacin de caractersticas atributo Coche .............................................. 40 Figura 24. Visualizacin de caractersticas atributo Hijos ................................................ 41 Figura 25. Visualizacin de caractersticas atributo Alq/Prop........................................... 41 Figura 26. Visualizacin de caractersticas atributo Sindicato.......................................... 42 Figura 27. Visualizacin de caractersticas atributo Bajas/Ao ........................................ 42 Figura 28. Visualizacin de caractersticas atributo Antigedad ...................................... 43 Figura 29. Visualizacin de caractersticas atributo Sexo ................................................ 43 Figura 30. Visualizacin de pantalla clasificacin ADTree ............................................... 44 Figura 31. Visualizacin de pantalla al generar el rbol ADTree...................................... 44 Figura 32. Ventana Run information del rbol ADTree ..................................................... 45 Figura 33. Ventana Classifier model del rbol ADTree .................................................... 45 Figura 34. Ventana Stratified cross-validation del rbol ADTree ...................................... 46 Figura 35. Men desplegable para visualizacin de rboles ............................................ 46 Figura 36. Ventana de visualizacin de rbol de decisin ADTree. ................................. 47

4

Figura 37. Visualizacin de pantalla clasificacin DecisionStump. .................................. 47 Figura 38. Ventana al generar el rbol DecisionStump .................................................... 48 Figura 39. Ventana Run information del rbol DecisionStump ......................................... 48 Figura 40. Ventana Classifier model del rbol DecisionStump......................................... 49 Figura 41. Ventana Stratified cross-validation del rbol DecisionStump .......................... 49 Figura 42. Visualizacin de pantalla clasificacin Id3....................................................... 50 Figura 43. Ventana al generar el rbol Id3. ...................................................................... 50 Figura 44. Visualizacin de pantalla clasificacin J48. ..................................................... 51 Figura 45. Ventana al generar el rbol J48....................................................................... 51 Figura 46. Ventana Run information del rbol J48 ........................................................... 52 Figura 47. Ventana Classifier model del rbol J48 ........................................................... 52 Figura 48. Ventana Stratified cross-validation del rbol J48 ............................................ 52 Figura 49. Ventana de visualizacin de rbol de decisin J48. ........................................ 53 Figura 50. Visualizacin de pantalla clasificacin LMT. ................................................... 53 Figura 51. Ventana al generar el rbol LMT. .................................................................... 54 Figura 52. Ventana Run information del rbol LMT .......................................................... 54 Figura 53. Ventana Classifier model del rbol LMT .......................................................... 55 Figura 54. Ventana Stratified cross-validation del rbol LMT ........................................... 55 Figura 55. Ventana de visualizacin de rbol de decisin LMT. ...................................... 56 Figura 56. Visualizacin de pantalla clasificacin M5P. ................................................... 56 Figura 57. Ventana al generar el rbol M5P. .................................................................... 57 Figura 58. Visualizacin de pantalla clasificacin NBTree. .............................................. 57 Figura 59. Ventana al generar el rbol NBTree. ............................................................... 58 Figura 60. Ventana Run information del rbol NBTree ..................................................... 58 Figura 61. Ventana Classifier model del rbol NBTree .................................................... 59 Figura 62. Ventana Stratified cross-validation del rbol NBTree ...................................... 59 Figura 63. Ventana de visualizacin de rbol de decisin NBTree. ................................. 60 Figura 64. Visualizacin de pantalla clasificacin RandomForest. ................................... 60 Figura 65. Ventana al generar el rbol RandomForest. ................................................... 61 Figura 66. Ventana Run information del rbol RandomForest ......................................... 61 Figura 67. Ventana Classifier model del rbol RandomForest ......................................... 61 Figura 68. Ventana Stratified cross-validation del rbol RandomForest .......................... 62 Figura 69. Visualizacin de pantalla clasificacin RandomTree....................................... 62 Figura 70. Ventana al generar el rbol RandomTree. ...................................................... 63 Figura 71. Ventana Run information del rbol RandomTree ............................................ 63 Figura 72. Ventana Classifier model del rbol RandomTree ............................................ 64 Figura 73. Ventana Stratified cross-validation del rbol RandomTree ............................. 64 Figura 74. Visualizacin de pantalla clasificacin REPTree. ............................................ 65

5

Figura 75. Ventana al generar el rbol REPTree. ............................................................ 65 Figura 76. Ventana Run information del rbol REPTree .................................................. 66 Figura 77. Ventana Classifier model del rbol REPTree .................................................. 66 Figura 78. Ventana Stratified cross-validation del rbol REPTree ................................... 66 Figura 79. Visualizacin de rbol de decisin REPTree. .................................................. 67 Figura 80. Visualizacin de pantalla clasificacin UserClassifier. .................................... 67

6

INTRODUCCION Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo siglo, las entidades educativas y empresariales han buscado maneras de explotar al mximo la informacin existente en sus sistemas de informacin, esto basndose en tcnicas y software especializados que permiten interpretacin fcil y real de los resultados. Es as como para dar apoyo en la toma de decisiones a niveles administrativos o gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada de la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente manual de usuario basado en la tecnologa de informacin y software especializado WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en Nueva Zelanda, este utiliza tcnicas de minera de datos basndose en diferentes reglas y tipos de clasificacin de informacin tales como rboles de decisin, reglas de clasificacin, agrupamiento, etc. Al ser un software especializado brindara apoyo suficiente para interpretar resultados de manera matemtica y estadstica y por medio de visualizacin de grficos o rboles que agregarn valor a los resultados obtenidos. Finalmente al usuario final se deja el trabajo profundo de investigacin de teoremas o teoras si as lo desea para complementar sus interpretaciones, pero se deja por parte del autor conceptos que facilitaran la comprensin de funcionamiento de la herramienta para la generacin de resultados adecuados y continuar en la mejora constante de la misma.

7

1. MINERA DE DATOS La Minera de Datos busca el procesamiento de informacin de forma clara para el usuario o cliente, de tal forma que pueda clasificar la informacin de acuerdo a parmetros inicialmente establecidos y de acuerdo a las necesidades que se buscan, es decir por medio de la minera de datos se dan acercamientos claros a resultados estadsticamente factibles a entendimiento y razn de una persona. Segn Vallejos [1] varios autores describen la minera de datos como: Rene las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996)1. La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin (Molina y otros, 2001) 2.1.1. CARACTERSTICAS Y OBJETIVOS DE LA MINERA DE DATOS

o Explorar los datos que se encuentran en las profundidades de las bases de datos. o El entorno de la minera de datos suele tener una arquitectura clientes-servidor. o Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados o El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas. o Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. o Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. o Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos.1

Citado en S. Vallejos, Trabajo de adscripcin minera de datos, Corrientes - Argentina, 2006, pp. 11. 2 Citado en S. Vallejos, Trabajo de adscripcin minera de datos, Corrientes - Argentina, 2006, pp. 11.

8

o La minera de datos produce cinco tipos de informacin: - Asociaciones. - Secuencias. - Clasificaciones. - Agrupamientos. - Pronsticos. Como se puede observar en la Figura 1 la minera de datos clasifica la informacin y la procesa para obtener un resultado, para esto se debe pasar por ciertos procedimientos que se describen segn [2] como: 1. 2. 3. Limpieza de datos: Pre-procesar la data a fin de reducir el ruido y los valores nulos. Seleccin de caracterstica: Eliminar los atributos irrelevantes o redundantes. Transformacin de datos: Estandarizar, normalizar o generalizar los datos.

Figura 1. Mapa Conceptual de Minera de Datos As mismo y segn [2] lo que permite este modelo de minera de datos es dar exactitud de la prediccin (eficacia); velocidad y escalabilidad en trminos del tiempo para construir el modelo y el tiempo para usar el modelo; robustez en cuanto a administracin del ruido y de valores nulos; 9

escalabilidad para buscar eficiencia disco; interpretabilidad para dar proporcionados por el modelo; y por cuanto a buscar tamao de rbol de de clasificacin.

en bases de datos residentes en entendimiento y descubrimientos ltimo dar bondad de las reglas en decisin y compacidad de la reglas

10

2. RBOLES DE DECISIN Un rbol de decisin es un conjunto de condiciones o reglas organizadas en una estructura jerrquica, de tal manera que la decisin final se puede determinar siguiendo las condiciones que se cumplen desde la raz hasta alguna de sus hojas. Un rbol de decisin tiene unas entradas las cuales pueden ser un objeto o una situacin descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en ltimas es una decisin que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan ms los valores discretos por simplicidad. Cuando se utilizan valores discretos en las funciones de una aplicacin se denomina clasificacin y cuando se utilizan los continuos se denomina regresin. Un rbol de decisin lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar as una decisin. El rbol de decisin suele contener nodos internos, nodos de probabilidad, nodos hojas y arcos [3]. Un nodo interno contiene un test sobre algn valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema, este tipo de nodos es redondo, los dems son cuadrados. Un nodo hoja representa el valor que devolver el rbol de decisin. Las ramas brindan los posibles caminos que se tienen de acuerdo a la decisin tomada.

Y0 1

X0 0 0 0 1 0 1 1 1

X1

Z

Z0 0 1 1

Figura 2. Representacin del conocimiento. 11

2.1.

CICLO DE UN RBOL DE DECISIN

De acuerdo al ciclo que debe ser aplicado a un rbol de decisin, se tiene: 1. Aprendizaje:

2. Clasificacin:

Un ejemplo para la compra de un computador se puede dar primero, especificando las reglas o condiciones que se han recolectado de una base de datos.age 40 >40 3140