la minerÍa de datos como herramienta de apoyo en los procesos de investigaciÓn
DESCRIPTION
Uso del software RapidMiner para el análisis de las limitantes en la recepción de las alertas ante fenómenos naturales en la zona norte de la región andina de Colombia.TRANSCRIPT
LA MINERÍA DE DATOS COMO HERRAMIENTA DE APOYO EN LOS PROCESOS DE INVESTIGACIÓN.
Uso del software RapidMiner para el análisis de las limitantes en la recepción de las alertas ante fenómenos naturales en la zona norte de la región andina de Colombia.
FABIÁN LEONARDO YORY SANABRIAEstudiante de Doctorado en Tecnologías de Información y
Análisis de DecisionesUniversidad Popular Autónoma del Estado de PueblaDocente del Programa de Ingeniería Ambiental de la
Universidad Libre Seccional [email protected]
Línea de Investigación Sistemas de Gestión y
Conservación
Socorro, Septiembre de 2015
JUAN PABLO SALAZAR GIRALDODoctor en Ingeniería - énfasis Ambiental
Grupo GIRNA, Centro de Recursos Naturales Renovables, La Salada Sena – Antioquia.
La necesidad de encontrar relaciones ocultas engrandes volúmenes de datos obtenidos al medirlas diversas variables presentes en unainvestigación, es una tarea que puede encontrarsoporte en la minería de datos y surepresentación en los árboles de decisión, loscuales son gráficos generados a partir de cálculoscomo la entropía e impureza de los datos (Gini).
La aplicación de esta técnica ha permitidoestablecer que la sociedad presenta un alto nivelde vulnerabilidad ante los fenómenos naturalespor diversos aspectos enmarcados en laslimitantes políticas, académicas y tecnológicasprincipalmente. Los resultados dejan ver que lasalertas generadas no cuentan con el soporteadecuado para llegar hasta la población y porconsiguiente no logran el objetivo de reducir lavulnerabilidad.
RESUMEN
2
En el trabajo de investigación presentado, se requiere establecer elcomportamiento de las limitantes académicas, tecnológicas, políticas yeconómicas que impiden que la sociedad reciba las alertas generadas antefenómenos naturales. Para establecer comportamientos se han planteadoalgunas preguntas objetivo como (no se presentan todas por su extensión):
1. ¿Qué tipo de población es la que más se interesa por indagarpor la amenaza ante fenómenos naturales en su área deresidencia?
2. ¿Qué nivel de estudio tienen las personas que se preocupan porindagar por la amenaza ante fenómenos naturales?
3. ¿Cuáles son las características de la población que ha recibido yentendido las alertas por fenómenos naturales en su área deresidencia?
4. ¿Dónde se encuentra y cuál es el nivel de estudio de lapoblación que tiene problemas para acceder a internet?
PROBLEMA
3
En total se realizaron 314 entrevistas.
1. MATERIALES Y MÉTODOS
4Figura 1. Tabla de datos con la fuente de información ya pre-procesada.
1.1 Consolidación de Datos
Análisis estándar de la información
1. MATERIALES Y MÉTODOS
5
Tabla 1. Distribución de las entrevistas por departamento. Fuente: Autor.
¿Cuál Departamento? Frecuencia Porcentaje Porcentaje
válido
Porcentaje
acumulado
Válidos
Boyacá 53 16,9 16,9 16,9
Norte de Santander 11 3,5 3,5 20,4
Santander 250 79,6 79,6 100,0
Total 314 100,0 100,0
Tabla 2. Distribución de los habitantes según el sitio de residencia. Fuente: Autor.
¿Vive en la Ciudad o en el
Campo?
Frecuencia Porcentaje Porcentaje
válido
Porcentaje
acumulado
Válidos
Ciudad 192 61,1 61,1 61,1
Campo 122 38,9 38,9 100,0
Total 314 100,0 100,0
1.2 Análisis Estadístico de los Datos
1. MATERIALES Y MÉTODOS
6
¿Cuál Departamento?
Boyacá Norte de
Santander
Santander Total
% del N de
la columna
% del N
de la
columna
% del N de
la columna
% del N de
la columna
¿En la zona
donde vive
se presentan
algunos
fenómenos
de estos?
No
¿Alguna vez ha
intentado averiguar
sobre los
fenómenos
naturales que
ocurren en su área
de residencia?
No 92,6% 100,0% 93,7% 93,7%
Si7,4% 0,0% 6,3% 6,3%
Si
¿Alguna vez ha
intentado averiguar
sobre los
fenómenos
naturales que
ocurren en su área
de residencia?
No 73,1% 57,1% 73,4% 72,7%
Si26,9% 42,9% 26,6% 27,3%
Tabla 5. Nivel de indagación de fenómenos naturales en el área de residencia. Fuente: Autor.
1.2 Análisis Estadístico de los Datos
1. MATERIALES Y MÉTODOS
7
¿Cuál Departamento?
Boyacá Norte de
Santander
Santander Total
% del N de
la columna
% del N de
la columna
% del N de
la columna
% del N de
la columna
¿En la zona
donde vive se
presentan
algunos
fenómenos de
estos?
No
¿En algún momento
de su vida ha recibido
algún tipo de aviso
para que pueda
protegerse de un
fenómeno natural?
No 66,7% 100,0% 67,6% 68,3%
Si33,3% 0,0% 32,4% 31,7%
Si
¿En algún momento
de su vida ha recibido
algún tipo de aviso
para que pueda
protegerse de un
fenómeno natural?
No 53,8% 42,9% 62,6% 60,5%
Si46,2% 57,1% 37,4% 39,5%
Tabla 6. Recepción de alertas por fenómenos naturales en zonas afectadas. Fuente: Autor.
1.2 Análisis Estadístico de los Datos
1. MATERIALES Y MÉTODOS
8
La Minería de Datos
Nemati & Barko, 2004 plantea que “para poder
encontrar de manera más amigable la relación
entre las diversas variables en estudio, la
minería de datos puede convertirse en un
aliado del investigador, dicha técnica puede
definirse como el proceso de descubrimiento e
interpretación de patrones desconocidos en
bases de datos”
Tufféry, 2011 que dice que es “el conjunto de
métodos y técnicas para la exploración y el
análisis de grandes conjuntos de datos, de
forma automática o semiautomática, con el fin
de encontrar entre estos datos ciertas reglas,
asociaciones o tendencias desconocidas u
ocultas”
Hancock, 2011 la propone asociada al
campo de la investigación como que “la
minería de datos encuentra sus
definiciones como la aplicación del
método científico a los datos”.
1. MATERIALES Y MÉTODOS
9
La Minería de Datos y los Árboles de Decisión
La herramienta que se utilizó para encontrar las asociaciones entre las
diversas variables medidas en la investigación adelantada, fue la de los
árboles de decisión, utilizados por Bramer, 2013 quien expresa que “son
creados por un proceso conocido como división sobre el valor de los
atributos y tienen como objetivos fundamentales la compresión de los
datos y la predicción”.
La compresión de los datos debería ser entendida realmente como la
representación de los grandes volúmenes de datos obtenidos por el
investigador en un diagrama que facilita la comprensión de los
mismos. Para su desarrollo, se comprueba el valor de un atributo clave
para el investigador como perspectiva (objetivo de predicción) y luego
se crea una rama para cada uno de sus posibles valores. En el caso de
atributos continuos, la prueba que se aplica normalmente es determinar si
el valor es -menor o igual a- o -mayor que- un valor dado conocido como
el valor de división. El proceso de división continúa hasta que cada rama
se puede marcar con sólo una clasificación.
1. MATERIALES Y MÉTODOS
10
RapidMiner® 5.3: es un programa informático para el análisis y minería de datos.
Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de
operadores a través de un entorno gráfico.
1.3 Aplicación en RapidMiner
FASES PARA LA IMPLEMENTACIÓN
1. Definición del Problema: Planteamiento de preguntas y definición de variable
objetivo
2. Preparación de los Datos: Importación de datos y configuración en función de la
pregunta a resolver
3. Exploración de los Datos: Cálculo de estadísticas descriptivas y análisis
preliminar de los datos
4. Fase de Modelamiento: Generación del modelo de predicción, visualización del
resultado y análisis el nivel de riesgo.
1. MATERIALES Y MÉTODOS
11
1.3 Aplicación en RapidMiner
VARIABLES CONFIGURADAS EN EL SOFTWARE
ID: secuencial numérico.
GENERO: masculino, femenino.
EDAD: numérico.
NIVEL_ESTUDIO: Primaria, Secundaria, Técnico, Tecnológico, Universitario
Pregrado y Universitario Posgrado.
VIVIENDA: Ciudad, Campo. Indica donde vive el entrevistado.
DEPARTAMENTO: Boyacá, Santander, Norte de Santander.
INDAGA_FN: Si, No. Indica si el entrevistado se ha preocupado por indagar su
nivel de amenaza.
VIVIENDA_FN: Si, No. Indica si en la zona de residencia del entrevistado se
presenta alguna amenaza por fenómeno natural.
RECIBE_AVISO: Si, No. Advierte si el entrevistado ha recibido algún tipo de
alerta ante fenómenos naturales.
COMPRENDE_AVISO: Si, No. Establece si se ha comprendido el aviso recibido
ante la amenaza por fenómenos naturales.
1. MATERIALES Y MÉTODOS
12
1.3 Aplicación en RapidMiner
FASE DE MODELAMIENTO
1. Retrieve
2. Set Role
3. Split Validation
4. Decision Tree
• Criterion
• Maximal Depth
• Confidence
• No Pre-Pruning
• No Pruning
5. Apply Model
6. Performance
1. MATERIALES Y MÉTODOS
13
1.3 Aplicación en RapidMiner
FASE DE MODELAMIENTO
1. Retrieve
2. Set Role
3. Split Validation
4. Decision Tree
• Criterion
• Maximal Depth
• Confidence
• No Pre-Pruning
• No Pruning
5. Apply Model
6. Performance
2. RESULTADOS
14
Pregunta 1
¿Qué tipo de población es la que más se interesa por indagar por la amenaza
ante fenómenos naturales en su área de residencia?
Solamente los entrevistados del
Departamento de Norte de
Santander que viven en la ciudad y
que en su área de residencia se
presenta algún tipo de problemática
por fenómenos naturales se han
preocupado por indagar acerca del
tema relacionado.Precisión de predicción del modelo del 87,30%
2. RESULTADOS
15
Pregunta 2
¿Qué nivel de estudio tienen las personas que se preocupan por indagar por la
amenaza ante fenómenos naturales?
• Ninguna persona que en su área de
residencia se crea susceptible a la amenaza
por fenómenos naturales indaga acerca de
esta problemática.
• Solamente los entrevistados de nivel
técnico y tecnológico que viven en el
campo y que en su zona de residencia se
presentan fenómenos naturales han
indagado acerca del tema.
Precisión de predicción del modelo del 87,30%
• Solamente los entrevistados que viven en la ciudad
y que en su zona de residencia se presentan
fenómenos naturales han indagado acerca del tema
si su nivel de estudio corresponde a primaria o
técnico.
• Ningún entrevistado cuyo nivel de formación sea
pregrado universitario que viva en la ciudad o el
campo y que en su zona de residencia se presentan
fenómenos naturales han indagado acerca del tema.
2. RESULTADOS
16
Pregunta 3
¿Cuáles son las características de la población que ha recibido y entendido las
alertas por fenómenos naturales en su área de residencia?
Calculado con las Frecuencias:
• Sólo el 46,75% de la
población ha recibido algún
tipo de alerta por fenómenos
naturales.
• El 47,15% de la población
que no recibe ningún aviso
manifiesta que en su área de
residencia se presenta algún
tipo de fenómeno natural.
• El 25,92% de la población
que recibe los mensajes
reside en el campo.
Precisión de predicción del modelo del 75%
2. RESULTADOS
17
Pregunta 4
¿Dónde se encuentra y cuál es el nivel de estudio de la población que tiene
problemas para acceder a internet?
Precisión de predicción del modelo del 80,89%.
• Se establece que la población que vive en el
campo es la que tiene menor conocimiento
en lo referente al acceso a internet.
• Todos los entrevistados con nivel de
formación de técnico, tecnólogo y
universitarios tanto de pregrado como de
posgrado saben cómo acceder a internet.
• Ningún entrevistado con nivel de formación de
primaria sabe cómo acceder a internet.
• Los únicos entrevistados con nivel de
formación de secundaria que manifiestan no
saber cómo acceder a internet son los que viven
en el campo en el departamento de Norte de
Santander.
3. DISCUSIÓN
18
En el trabajo titulado “Modelo aumentado
de árbol de decisión utilizando mapas auto
organizados”, Castillo-Rojas, Medina-
Quispe, & Meneses-Villegas, 2014
proponen que “la visualización de datos
apoya el análisis exploratorio de los datos
en la etapa previa al proceso de minería de
datos y que puede ser utilizada para
obtener un entendimiento preliminar de los
datos y refinar los objetivos y tareas
definidas inicialmente por el usuario en la
fase de formulación del problema”, esta
afirmación es coherente con los resultados
obtenidos al poder establecer con claridad
algunas relaciones que no son evidentes en
las tablas de datos.
La facilidad en la interpretación de
éste tipo de gráficas permite que sean
una alternativa viable sobre todo para
aquellos investigadores que requieran
más que un análisis estadístico
encontrar estas relaciones entre las
variables, criterio que comparte
Fernando, 2002 donde expresa que “a
pesar de carecer de la expresividad de
las redes semánticas o de la lógica de
primer orden, la sencillez de los
árboles de decisión los convierte en
una alternativa muy atractiva de cara
al usuario final de un sistema de
extracción de conocimiento”.
3. DISCUSIÓN
19
Respecto de la precisión de los modelos
presentados en los árboles de decisión, tal
como lo plantea Yan-yan SONG & Ying LU,
2015 “la principal desventaja es que puede
estar sujeto a fallas en su ajuste, en particular
cuando se utiliza un conjunto de datos pequeño
y que este problema puede limitar la
generalización y la robustez de los modelos
resultantes”.
Este aspecto sin duda justificado, el
investigador puede compensarlo con un tamaño
de muestra adecuado a su proyecto ya que
como se explicó previamente la técnica
propuesta no pretende reemplazar el soporte
estadístico de cada investigación sino funcionar
como una herramienta que facilite la labor del
investigador.
4. CONCLUSIONES
20
La aplicación de los árboles de decisión en
el estudio de las limitantes en la recepción
de las alertas ante fenómenos naturales en la
zona norte de la región andina de Colombia
como herramienta de apoyo en el análisis de
los datos, ha permitido encontrar
asociaciones entres las variables que
complementan los análisis realizados
pudiendo generarse una mejor
caracterización de la población en estudio y
su comportamiento con las diferentes
limitantes planteadas en el proyecto de
investigación.
Las principales conclusiones se resumen en:
LIMITANTES ACADÉMICAS
• La población en estudio no es consciente
de los fenómenos naturales que los
amenazan y esto eleva su índice de
vulnerabilidad
• Solamente aquellas personas de
formación superior a la secundaria
presentan algún grado de interés en
averiguar acerca de la temática
• La población de las ciudades que se han
visto afectados por al menos un
fenómeno natural es la más preocupada
por la ocurrencia de los mismos
4. CONCLUSIONES
21
LIMITANTES POLÍTICAS
• A pesar que existen diferentes tipos de
alerta, menos de la mitad de la población
reciben información que le sirva de
soporte a la toma de decisiones
• Casi la mitad de la población que no
recibe ningún tipo de alerta, reporta que
en su área de residencia se presenta algún
fenómeno natural
LIMITANTES TECNOLÓGICAS
• Como era de esperarse la población que
vive en el campo es la que menos
presenta competencias en el manejo de
información a través de internet
• Ningún entrevistado con nivel de
formación de primaria sabe cómo
acceder a internet.
5. REFERENTES
22
Ato García, M., & López García, J. J. (1996). Análisis Estadístico para Datos Categóricos.
SÍNTESIS. Recuperado a partir de http://www.casadellibro.com/libro-analisis-estadistico-para-
datos-categoricos/9788477383925/536612
Bramer, M. (2013). Principles of Data Mining (2d ed.). Springer. Recuperado a partir de
http://library.books24x7.com/toc.aspx?bookid=77035
Castillo-Rojas, W., Medina-Quispe, F., & Meneses-Villegas, C. (2014). Modelo aumentado
de árbol de decisión utilizando mapas autoorganizados. Augmented decision tree models using
self-organizing maps. (English), 22(3), 351-362.
Fernando, B. G. (2002). Art: un método alternativo para la construcción de árboles de
decisión. Universidad de Granada. Recuperado a partir de
http://sibulgem.unilibre.edu.co:2051/servlet/tesis?codigo=12069
Hancock, M. F. (2011). Practical Data Mining. Auerbach Publications. Recuperado a partir de
http://library.books24x7.com/assetviewer.aspx?bookid=47194&chunkid=298662833&rowid=4
0¬eMenuToggle=0&hitSectionMenuToggle=0&leftMenuState=1
Nemati, N. R., & Barko, C. D. (2004). Organizational Data Mining: Leveraging Enterprise
Data Resources for Optimal Performance. IGI Global. Recuperado a partir de
http://library.books24x7.com/toc.aspx?bookid=6518
5. REFERENTES
23
Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones con SPSS.
Recuperado a partir de http://www.casadellibro.com/libro-tecnicas-de-analisis-multivariante-
de-datos-aplicaciones-con-sps-s/9788420541044/974026
Sayad, S. (2014). Data Mining Map. Recuperado 10 de mayo de 2015, a partir de http://chem-
eng.utoronto.ca/~datamining/dmc/data_mining_map.htm
Torres, D. L., Meyer, R. D., & Cárdenas, V. T. (2011). Minería de Datos en la Encuesta
Permanente de Hogares2009, Universidad Nacional del Litoral, Argentina. Application Of Data
Mining To Panel Surveys 2009, National University Of The Litoral, Argentina. (English),
10(1), 19-28.
Tufféry, S. (2011). Data Mining and Statistics for Decision Making. John Wiley & Sons.
Recuperado a partir de http://library.books24x7.com/toc.aspx?bookid=40918
Wilford Rivera, I. (2010). MINERÍA DE DATOS: HERRAMIENTA DE APOYO EN LA
SELECCIÓN DE EQUIPOS DE PROYECTOS INFORMÁTICOS. Ingeniería Industrial, 27(2-
3), 4 pág.
Yan-yan SONG, & Ying LU. (2015). Decision tree methods: applications for classification
and prediction. Shanghai Archives of Psychiatry, 27(2), 130-135.
http://doi.org/10.11919/j.issn.1002-0829.215044