propuesta para trabajo de gradopegasus.javeriana.edu.co/~cis1410is02/descargas/memoria... · web...
TRANSCRIPT
CIS1410IS02APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO,
CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA
Autor (es):ALEX ARIEL ARIAS RIOS
PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA
CARRERA DE INGENIERIA DE SISTEMASBOGOTÁ, D.C.
2014
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
CIS1410IS02APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA
BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO
CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA
Autor (es):ALEX ARIEL ARIAS RIOS
MEMORIA DEL TRABAJO DE GRADO REALIZADO PARA CUMPLIR UNO DE LOS REQUISITOS PARA OPTAR AL TITULO DE INGENIERO DE
SISTEMAS
Director
BLANCA ELVIRA OVIEDO TORRESJurados del Trabajo de Grado
Julio Ernesto Carreño
Freddy Grajales
Página web del Trabajo de Grado
http://pegasus.javeriana.edu.co/~CIS1410IS02/
Página ii
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica
PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA
CARRERA DE INGENIERIA DE SISTEMASBOGOTÁ, D.C.
2014
PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA
CARRERA DE INGENIERIA DE SISTEMAS
Rector Magnífico
Joaquín Emilio Sánchez García S.J.
Decano Académico Facultad de Ingeniería
Ingeniero Jorge Luis Sánchez Téllez
Decano del Medio Universitario Facultad de Ingeniería
Padre Antonio José Sarmiento Nova S.J.
Director de la Carrera de Ingeniería de Sistemas
Ingeniero Germán Alberto Chavarro Flórez
Director Departamento de Ingeniería de Sistemas
Ingeniero Rafael Andrés González Rivera
Página iiiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Artículo 23 de la Resolución No. 1 de Junio de 1946
“La Universidad no se hace responsable de los conceptos emitidos por sus alumnos en sus proyectos de grado. Sólo velará porque no se publique nada contrario al dogma y la moral católica y porque no contengan ataques o polémicas puramente personales. Antes bien, que se vean en ellos el anhelo de buscar la verdad y la Justicia”
Página iv
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica
AGRADECIMIENTOS
Agradezco primeramente a Dios por permitirme llegar hasta este punto de la carrera, sin él
todas las cosas serían prácticamente imposibles de hacer.
Agradezco a la Secretaria Distrital del Ambiente Bogotá, especialmente al grupo de la Red
de Monitoreo de Calidad del Aire (RMCAB) por el acompañamiento, la provisión de recurso
y el interés constante durante el desarrollo del proyecto. Agradezco a Jhon Freddy Grajales
(coordinador de la RMCAB), Oscar Molina y Helberth Morales por su comprensión, disposi-
ción, consejos e interés en el avance del trabajo de grado.
También Agradezco a la Ingeniera Blanca Elvira Oviedo por su disposición, enseñanzas,
consejos y correcciones constantes que hicieron posible que este trabajo de grado sea exitoso.
Así mismo agradezco a la Ingeniera Alexandra Pomares por brindarme una asesoría incondi -
cional en las inquietudes que se presentaron.
De igual forma mis más sinceros agradecimientos a mi familia que fueron el motor para lu-
char por este objetivo. A mi madre Flor Ríos por su amor y apoyo constante tanto espiritual
como anímicamente, a mi padre Alex Arias por acompañarme, ser mi amigo, brindarme sus
consejos y sobre todo por apoyarme incondicionalmente en mis decisiones, a mis hermanas
Ana María y Eddy Alexandra por su motivación y amor constante a lo largo de mi carrera. A
mi abuela Estela Sierra por apoyarme y motivarme en escoger esta prestigiosa universidad, la
Pontificia Universidad Javeriana a la cual también le agradezco por el conocimiento brindado
durante toda la carrera.
A mi novia Camila Romero, la cual estuvo en todo el transcurso de mi carrera, me apoyo en
todas las decisiones y me brindo ese amor incondicional que hizo posible que hoy esté a pun-
to de culminar una etapa tan importante de mi vida.
Página vPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Contenido
INTRODUCCIÓN.......................................................................................................1
I. DESCRIPCION GENERAL DEL TRABAJO DE GRADO...............................2
1. OPORTUNIDAD, PROBLEMÁTICA, ANTECEDENTES....................................................21.1 Descripción del contexto...........................................................................................41.2 Formulación del problema que se resolvió...................................................................51.3 Justificación..............................................................................................................61.4 Impacto Esperado..........................................................................................................7
2. DESCRIPCIÓN DEL PROYECTO....................................................................................82.1 Visión global..................................................................................................................92.2 Objetivo general.............................................................................................................92.3 Fases Metodológicas por cada objetivo específico.......................................................92.4 Método que se propuso para satisfacer cada objetivo especifico...............................10
II - MARCO TEÓRICO............................................................................................11
1. MARCO CONTEXTUAL..............................................................................................11
2. MARCO CONCEPTUAL..............................................................................................112.1 Contaminación atmosférica.........................................................................................112.2 Variables Meteorológicas.......................................................................................122.3 Series Temporales........................................................................................................132.4 Red de Monitoreo de Calidad del Aire........................................................................132.5 Minería de Datos.........................................................................................................152.6 Correlación de Pearson...............................................................................................17
III – DESARROLLO DEL TRABAJO....................................................................17
1. ENTENDER EL PROBLEMA.................................................................................181.1 Selección de herramientas a utilizar............................................................................18
2. ENTENDER LOS DATOS.............................................................................................192.1 Recopilar Registros......................................................................................................192.2 Explorar Datos.............................................................................................................202.3 Describir los datos iniciales........................................................................................202.4 Verificar la calidad de los datos..................................................................................22
3. PREPARAR LOS DATOS.............................................................................................243.1 Integración de las fuentes de la base de datos...........................................................241.2 Limpieza de Datos...................................................................................................24
Página vi
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica
1.3 Recopilar información de las técnicas de minería de datos...¡Error! Marcador no definido.3.4 Seleccionar las técnicas de minería de datos..............................................................263.5 Definir muestra del subconjunto de datos................¡Error! Marcador no definido.3.6 Creación de Variables Derivadas...........................................................................273.7 Crear formato de los atributos para las técnicas de minería de datos selecciona-das ¡Error! Marcador no definido.3.8 Vista Minable..........................................................................................................30
4. MODELAR.................................................................................................................314.1 Creación del diseño de Pruebas.............................................................................314.2 Selección de los algoritmos....................................................................................324.3 Generación de los Modelos de Minería..................................................................33
5. EVALUAR..................................................................................................................385.1 Evaluación de resultados.............................................................................................385.2 Comparar los modelos creados...................................................................................395.3 Creación de la base de conocimiento..........................................................................415.4 Revisión general............................................................¡Error! Marcador no definido.
6. DESARROLLO............................................................................................................426.1 Definir los requerimientos de la aplicación................................................................436.2 Crear el prototipo de alertas tempranas.....................................................................436.3 Pruebas de funcionalidad............................................................................................46
IV - RESULTADOS Y REFLEXIÓN SOBRE LOS MISMOS.............................46
1. CUMPLIMIENTO DE LOS OBJETIVOS ESPECÍFICOS.............................................461.1 Objetivo Especifico 1: “Determinar la información de calidad del aire pertinente para este proyecto, de acuerdo con los datos suministrados por la Secretaria Distrital de Ambiente.”.........................................................................................................................471.2 Objetivo Especifico 2: “Establecer una vista minable, enfocándose en los rezagos en el tiempo que este acentuando la relación entre una variable y otra.”............................471.3 Objetivo Especifico 3: “Determinar los modelos apropiados de minería de datos para buscar la relación entre las variables atmosféricas y los contaminantes.”.............481.4 Objetivo Especifico 4: “Validar los resultados que provea el entrenamiento de las técnicas de minería de datos con los resultados esperados y seleccionar la técnica de minería con más precisión.”..............................................................................................611.5 Objetivo Especifico 5: “Crear un prototipo de Sistema de Información que se integre con los resultados de la técnica de minería de datos seleccionada.”...............................64
CUMPLIMIENTO DEL OBJETIVO GENERAL.....................................................................67
V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS....67
1. CONCLUSIONES.................................................................................................67Calidad del aire.................................................................................................................691.3 Relaciones encontradas...............................................................................................70
Página viiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
2. RECOMENDACIONES.........................................................................................72
3. TRABAJOS FUTUROS.........................................................................................73
VI - REFERENCIAS Y BIBLIOGRAFÍA..............................................................74
VII - ANEXOS............................................................................................................81
ANEXO P. POST-MORTEM............................................................................................81
ANEXO M. MARCO CONCEPTUAL................................................................................81
ANEXO 1.DOCUMENTO COMPRENSIÓN Y PREPARACIÓN DE LOS DATOS.....................81
ANEXO 2. TÉCNICAS DE MODELADO Y DISEÑO DE PRUEBAS......................................81
ANEXO 3. MUESTRA VISTA MINABLE.........................................................................81
ANEXO 4. CONSTRUCCIÓN DE LOS MODELOS...............................................................82
ANEXO 5. ANÁLISIS DE RESULTADOS DE LOS MODELOS..............................................82
ANEXO 6. BASE DE CONOCIMIENTO.............................................................................82
ANEXO 7. PLAN DE PRUEBAS.......................................................................................82
ANEXO 8. REQUERIMIENTOS........................................................................................82
ANEXO 9. DOC. DESCRIPCIÓN DE ARQUITECTURA DE SOFTWARE...............................82
ANEXO 10. MANUAL DE USUARIO...............................................................................82
ANEXO 11. MANUAL DE ADMINISTRACIÓN..................................................................83
ANEXO 12.MANUAL DE INSTALACIÓN.........................................................................83
Página viii
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica
ABSTRACT
Currently data mining is a process of extracting previously unknown valid, understandable
and useful knowledge found in large databases. This concept is typically applied when there
is a huge amount of data the trend is unknown. Unfortunately, traditional mining techniques
are not applicable to data variables corresponding to time series and today there is an infor-
mation system to make early warning of air pollution in the city based on data mining mod-
els. This work proposes applying grade data mining techniques for finding relationships be-
tween atmospheric variables and pollution variables (PM10 and O3) that match time series in
order to define the extreme values of pollution and link it to system early warning informa-
tion.
RESUMEN
Actualmente la minería de datos es un proceso que consiste en extraer conocimiento valido,
entendible y útil previamente desconocido que se encuentra en grandes bases de datos. Este
concepto se aplica típicamente cuando hay una enorme cantidad de datos cuya tendencia es
desconocida. Desafortunadamente las técnicas de minería de datos tradicionales no son apli-
cables a variables que responden a series de tiempo y en la actualidad no existe un sistema de
información que haga alertas tempranas de contaminación atmosférica en la localidad basada
en modelos de minería de datos. Este trabajo de grado propone aplicar técnicas de minería de
datos para la búsqueda de relaciones entre variables atmosféricas y variables contaminantes
(PM10 y O3) que responden a series de tiempo con el fin de definir los valores extremos de
contaminación y vincularlo a un sistema de información de alertas tempranas.
Página ixPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
RESUMEN EJECUTIVO
En la actualidad, la localidad de Puente Aranda se caracteriza por ser una de las zonas con
mayor contaminación atmosférica [12], esto se debe a las actividades constantes que ejerce el
ser humano en su proceso de desarrollo e industrialización, siendo estos procesos los princi-
pales causantes de que existan contaminantes tales como: Material Particulado (PM 10) y
Ozono Troposférico (O3) que a un nivel de exposición prolongando puede ocasionar enferme-
dades coronarias y respiratorias que más adelante podrían causar la muerte del involucrado.
Lastimosamente, en la actualidad no se cuenta con un sistema de información de alertas tem-
pranas basado en modelos de minería de datos que haga pronóstico y a su vez genere alertas a
la comunidad para prevenir estas enfermedades. A su vez los modelos que buscan relaciones
entre los contaminantes y las variables climatológicas que responden a series de tiempo son
muy costosos en su procesamiento y en la contratación de expertos que manejen dichos mo-
delos [81] [24] [82] [6][13][26][8] [15].
Con el fin de crear alertas tempranas a la comunidad de Puente Aranda y explorar ramas de la
estadística que permitan reducir los costos tanto operacionales como de contratación, el obje-
tivo del presente trabajo de grado es encontrar y aplicar técnicas de minería de datos que en -
cuentren relaciones relaciones entre variables atmosféricas que responden a series de tiempo
y variables contaminantes (ozono y material Particulado) para la localidad de Puente Aranda
y desarrollar un prototipo de Sistema de Información de alertas tempranas de contaminación
atmosférica a partir de las relaciones encontradas. La minería de datos extrae conocimiento
valido, entendible y útil que se encuentra oculto en los datos.
Paralelamente al aplicar y crear modelos de minería de datos que encuentren dichas relacio-
nes, con la intención de que futuros proyectos puedan extender el presente proyecto o aplicar
a un problema de cualquier ámbito minería de datos, se propone utilizar la metodología
CRISP DM que se enfoca en la orientación para el desarrollo de proyectos con minería de
datos y es flexible para personalizarlo de acuerdo a la necesidad del trabajo.
Página x
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica
Dado que el presente trabajo de grado se basa en la metodología CRISP DM, las fases de esta
metodología encajaron en los objetivos específicos, lo cual facilito el desarrollo y cumpli -
mento de cada uno de ellos. A continuación se presentan las fases y los métodos principales
usados para resolver los objetivos del proyecto.
Entender el problema: En esta fase se recopila la bibliografía referente a calidad del
aire, en especial en la localidad de Puente Aranda, las funciones de la Red de Monitoreo
de Calidad del Aire Bogotá (RMCAB), los trabajos relacionados al proyecto y todo lo
referente a minería de datos. Además se seleccionaron las herramientas que iban a
realizar las funciones del proyecto. (Ver sección Entender el problema del capítulo de
desarrollo).
Entender los datos: En esta fase se estudian más de cerca los datos entregados por la
RMCAB con el fin de definir si los datos pueden ser utilizados por las técnicas de
minería. Para el análisis de datos se utilizaron correlaciones de Pearson con el fin de
identificar cuales atributos se relacionan más fuerte con los atributos objetivos (que son el
O3 y PM10) utilizando las características de las series temporales. Se verifica la calidad
con que vienen los datos y las tendencias en alto nivel que se pueden percibir. (Ver
sección 2. Entender los Datos del capítulo de desarrollo).
Preparar los datos: En esta fase se acomodan los datos para aplicarles técnicas de
minería, para que fuera fácil el procedimiento se integraron las tablas entregadas y
segmentadas por años y previo a la creación de los formatos de los datos para cada
técnica, se seleccionaron dichas técnicas para encontrar las relaciones.(Ver sección 3.
Preparar los Datos del capítulo de desarrollo).
Modelar: Esta fase se ejecutó en múltiples iteraciones, donde se iban calibrando los
parámetros y verificando la precisión y la legibilidad de los patrones que se estaban
generando, para esta fase se seleccionaron los algoritmos que implementaron cada
técnica y se definió el conjunto de entrenamiento del modelo y el conjunto de prueba.
(Ver sección 4. Modelar del capítulo de desarrollo).
Evaluar: En esta fase se evaluaron los resultados generados por los modelos
seleccionados, teniendo en cuenta criterios de expertos en calidad del aire y
meteorología, también comparando los resultados obtenidos con trabajos relacionados a
lo que se estaba desarrollando. Los modelos generados se compararon entre sí con el fin
Página xiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
de seleccionar el más preciso para formar la base de conocimiento que hizo parte del
sistema de alertas tempranas. (Ver sección 5. Evaluar del capítulo de desarrollo).
Desarrollo: Esta fase implicó el desarrollo del prototipo con base en los modelos de
minería de datos seleccionados, donde cada modelo tenía un atributo objetivo distinto
(Ozono o Material Particulado). (Ver sección 6. Desarrollo del capítulo de desarrollo).
El proyecto dio como resultado seis modelos pertenecientes a las técnicas de reglas de asocia-
ción, agrupamiento (Clustering) y clasificación por arboles de decisión, donde tres modelos
pertenecen al atributo objetivo de Ozono y representan a cada una de las técnicas nombradas
anteriormente y los otros tres pertenecen al Material Particulado con las mismas característi -
cas. Cada uno de los modelos generados pasó las pruebas técnicas y teóricas a excepción del
modelo CPM10 (ver sección resultados). Las pruebas técnicas consistían en la ejecución del
conjunto de pruebas sobre el modelo generado con el conjunto de entrenamiento, en el cual se
revisaba su utilidad con base en gráficos de precisión, matrices de clasificación y validación
cruzada. Los modelos respondieron a una precisión de más del 80% de los datos de prueba
con base en el modelo y en el caso de las reglas de asociación, las métricas de mejora fueron
superiores a 1. Las pruebas teóricas se basaron en la revisión de los patrones comunes extraí-
dos por la experta en meteorología y con base en la tesis de maestría de la Ing. Blanca Ovie -
do. (Ver las relaciones encontradas y anexo 5).
Los modelos seleccionados para la creación de la base de conocimiento recibieron el nombre
de CAO3 y CAPM10 que implementan la técnica de clasificación por arboles de decisión
cuya poda se fundamenta en los patrones comunes extraídos por los modelos pertenecientes a
las otras técnicas.
Como resultado final los modelos escogidos se representan mediante un prototipo de sistema
de alertas tempranas que se basa en realizar un pronóstico de los contaminantes PM10 y O3
con estándares de peligrosidad que define la Agencia de Protección Ambiental (EPA por sus
siglas en inglés) por medio de la RMCAB que a su vez informe a la comunidad el peligro que
puede causar estos contaminantes en la salud de acuerdo a los parámetros establecidos por el
usuario. El prototipo fue revisado por el coordinador de la RMCAB. (Ver resultados de la re-
visión del producto final).
Página xii
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
INTRODUCCIÓN
El presente trabajo de grado se enfoca en la contaminación atmosférica de la localidad de
Puente Aranda, donde se busca encontrar relaciones entre variables climatológicas y las series
de tiempo con los contaminantes Material Particulado (PM10) y Ozono troposférico (O3) por
medio de técnicas de minería de datos que se puede definir como el proceso de extraer cono-
cimiento valido, útil y comprensible que se encuentra en grandes conjuntos de datos [42].
La característica principal de la minería de datos es que detecta tendencias escondidas en un
conjunto de datos que no son fáciles de identificar por medio de consultas o filtros a las varia -
bles (atributos) pertenecientes a la base de datos.
Para analizar la problemática de la calidad del aire en la localidad de Puente Aranda es nece-
sario mencionar sus causas. Una de ella es la actividad de tipo industrial. Se entiende por
actividad de tipo industrial, el conjunto de proceso y actividades que tienen como fin transfor-
mar las materias primas en productos de utilidad para el ser humano, otra causa fundamental
es el tráfico automotor [52].
El trabajo de grado se realizó por el interés de conocer y entender cuáles son las variables
climatológicas que influyen en la concentración de los contaminantes PM10 y O3 teniendo
en cuenta las series de tiempo y así implementar un prototipo de alertas tempranas para tomar
acciones correctivas que controlen la concentración alta de dichos contaminantes.
En el capítulo 1 se realiza el planteamiento del trabajo de grado, definiendo la problemática
que genera la mala calidad del aire a nivel global y en especial de la localidad de Puente
Aranda, se define la necesidad de realizar el proyecto, lo esperado por los involucrados, la
metodología trabajada y la finalidad, y limitación del desarrollo del trabajo de grado.
En el capítulo 2 se hará referencia a los trabajos relacionados con el presente proyecto, la
definición de los elementos que se utilizaron para el desarrollo del mismo y los conceptos
necesarios para que los involucrados comprendan lo realizado.
Página 1
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
En el capítulo 3 se describe cómo se llevó a cabo el presente trabajo de grado, que técnicas y
algoritmos de minería de datos se utilizaron (con su respectiva justificación) y cómo fue el
proceso de desarrollo de cada una de las fases de la metodología propuesta con sus respecti-
vos anexos.
En el capítulo 4 se presentan los resultados obtenidos en el capítulo 3 por medio de gráficas,
tablas y el software de interacción.
En el capítulo 5 se presenta un resumen de la reflexión de los resultados, la argumentación
del cumplimiento de los objetivos y el aporte a la problemática.
I. DESCRIPCION GENERAL DEL TRABAJO DE GRADO
1. Oportunidad, Problemática, Antecedentes
Existen problemáticas que afectan la salud de poblaciones muy grandes, esas problemáticas,
que están relacionadas con la morbilidad y la mortalidad, se denominan causantes de proble-
mas de salud pública. Según el Ministerio de Salud y Protección Social [54] un problema de
salud pública es una situación global que afecta la salud de la poblacional.
En la actualidad la calidad del aire juega un papel muy importante para la sociedad, principal-
mente en el área de la salud pública mundial, donde las concentraciones al aire de los conta -
minantes exceden las normas nacionales e internacionales de la calidad del aire. La mayoría
de los problemas de la contaminación del aire se deben a las actividades constantes que ejerce
el ser humano en su proceso de desarrollo e industrialización, siendo estos procesos los prin -
cipales causantes de que existan contaminantes tales como: Material Particulado (PM10) y
Ozono Troposférico (O3), por este motivo, se han creado organismos mundiales y locales que
trabajan por cuidar el medio ambiente [46][36]. Siendo un ejemplo de ello la Agencia de
Protección Ambiental de Estados Unidos (EPA por sus siglas en inglés), que se encarga de
proteger la salud pública y el medio ambiente desde 1970[46].
El Material Particulado, cuando se compone de partículas con diámetro menor a 10 micras
(PM10), puede afectar el sistema respiratorio humano produciendo enfermedades que tienden
al cáncer de pulmón [36] [5]. El Ozono troposférico (O3 ¿ es un gas altamente reactivo, de
Página 2
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
color azul pálido, que se encuentra cerca a nivel del suelo a una distancia entre los 0 y 12 km
de altura (por eso recibe su nombre de Ozono troposférico). Por su calidad oxidante, daña los
tejidos vivos causando síntomas como: irritación ocular, de nariz y garganta, tos, dificultad de
respiración profunda entre otras [36] [73] [72] [74].
La contaminación en el aire es un problema que lleva afectando a la población desde hace
décadas. En Londres en diciembre de 1873, una espesa nube de contaminación cubrió por
completo la ciudad dejando como resultado 1.115 muertes, así mismo en 1952 se experimen-
tó otro episodio de contaminación similar al anterior el cual ocasiono entre 4.000 y 8.000
muertes [75].
En 1930 en el tramo de valle de Meuse ubicado en Bélgica, caracterizada por su amplio desa-
rrollo industrial, una espesa niebla por causa de la dispersión de los contaminantes en el aire
cubrió gran parte del tramo donde vivían alrededor de 9000 personas, dejando como resultado
63 muertes de personas y 6.000 enfermos [77].
En Norteamérica el primer informe de desastre de contaminación del aire ocurrió en Donora,
Pensilvania en Octubre de 1948, ubicada en el condado de Washington, la ciudad contenía
grandes plantas de producción de acero, alambre, Zinc y ácido sulfúrico. Una nube de niebla
se encerró en dicha área, acompañada por el atrapamiento de contaminantes aéreo lo que
causó 20 muertes y 1.190 enfermos [75].
En Latinoamérica, cada año más de 70.000 personas mueren a consecuencia de la contamina-
ción aérea. Según un informe del Clean Air Institute [10] indican que en América Latina y el
Caribe hay alrededor de 100 millones de personas que están expuestas a las concentraciones
de contaminantes atmosféricos por encima de los límites recomendados por la Organización
Mundial de la Salud (OMS). Brasil, en especial la ciudad de Sao Paulo es el primer país (se-
gún dicho informe) que lidera la lista de los más contaminados de la región con 24.000 muer-
tes anuales por esta causa. México (con 15.000 fallecimientos anuales) y Argentina (con
10.000 muertes anuales), ocupan el segundo y tercer puesto de la lista por esta misma causa.
Página 3
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Colombia, un país perteneciente a América Latina, se ha caracterizado por sus proyecciones
en el aumento de la población, crecimiento industrial y el tráfico vehicular en los últimos
años, sin embargo, esto hace que los niveles de dióxido de azufre y Material Particulado pue-
dan aumentar entre el 100% y el 200% anualmente. Hay estudios que reflejan que cerca de
6.000 personas mueren al año por la contaminación del aire, según el Ministerio de Ambien-
te, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino tam-
bién económicas ya que se pierden anualmente cerca de 1.5 billones de pesos por cuenta de
las ausencias laborales por enfermedades del sistema respiratorio y por los gastos hospitala -
rios que se corran [52].
Estudios realizados en la Habana-Cuba en 1998, en Cartagena (España) en el periodo de
1992-1996, en Bogotá Colombia en 1997, en la Ciudad de Taipéi- Taiwán en el periodo de
1994-1998, demuestran los expertos en salud junto con cardiólogos de la Universidad de
California (EE.UU), que las personas que se exponen a corto, mediano y largo plazo a conta-
minantes como Material Particulado (PM10) y ozono (O3) afectan la salud en el ámbito cardio-
vascular y respiratorio, aumentando así la mortalidad prematura y morbilidad en asma y otros
efectos secundarios como la conversión del agua en un elemento no consumible, la falta de
suelos limpios para sembrar, el daño en la vegetación, las flores, el deterioro del algodón y
los materiales sintéticos, las roturas en el caucho, el desteñido de ciertas pinturas, entre otros
[14][1][73].
1.1 Descripción del contexto
En este capítulo se describe el enfoque del presente trabajo de grado y el impacto generado para el entorno.
Según el IDEAM (Instituto de Hidrología, Meteorología y Estudios Ambientales) [23], Bogo-
tá es una de las ciudades que se encuentra en el ranking de los ambientes más contaminados
en Colombia, debido a su alto desarrollo industrial, alta población, cantidad de carros, entre
otros. Por este motivo, la capital cuenta con un sistema de monitoreo ambiental continuo con
transmisión de datos cuyo nombre es Red de Monitoreo de Calidad del Aire (RMCAB), per-
teneciente a la Secretaría Distrital de Ambiente (SDA), que cuenta con 15 estaciones de me-
dición distribuidas estratégicamente en Bogotá. La RMCAB cuenta con sensores meteoroló-
Página 4
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
gicos para la medición de temperatura, velocidad del viento, radiación solar, humedad relati-
va, presión atmosférica y precipitación.
Según los informes de calidad del aire [11] [12] emitidos por la RMCAB y el informe del
IDEAM [23], las zonas con mayores grados de contaminación nacional se encuentran en los
barrios Tunal, Kennedy y Puente Aranda. La localidad de Puente Aranda, ubicada al occiden-
te de Bogotá, se caracteriza por ser una zona industrial, en esta localidad se encuentran indus-
trias relacionadas con la elaboración y procesamiento de plásticos, textiles, químicos, metal-
mecánica, gaseosas, tabaco, concentrados e industrias alimenticias[26] y otras fuentes que
afectan al aire y que se encuentran en el sector, por esta razón la estación de la RMCAB ubi -
cada en el sector, presenta constantemente altos valores de concentración en O3 y PM10 [76]
[77][14][78].
Por otro lado, la dinámica de la atmósfera depende de la hora del día y los valores de las con-
centraciones de contaminantes son modulados por dicho comportamiento horario, por lo tan-
to, la concentración de los contaminantes depende de la hora del día [83]. Es decir, las series
de datos de mediciones de variables meteorológicas y de concentraciones de contaminantes,
responden a series de tiempo.
Según lo anterior, surge la inquietud de si un modelo de minería de datos podría dar un pro -
nóstico o una información temprana de episodios extremos de contaminación con el fin de
proveer una herramienta que permita tomar decisiones rápidas para las instituciones encarga-
das. Cabe recalcar que este proyecto tiene ámbitos investigativos en el sentido de explorar si
las técnicas de minería de datos se pueden utilizar en este contexto y de aplicación ya que se
requiere crear modelos y una aplicación que genere alertas tempranas.
1.2 Formulación del problema que se resolvió
¿Cómo encontrar relaciones entre variables que responden a series de tiempo, en especial de
aquellas relacionadas con la contaminación atmosférica en la localidad de Puente Aranda,
utilizando técnicas de minería de datos?
Página 5
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
1.3 Justificación
La contaminación atmosférica se ha convertido en un problema mundial, donde los principa-
les afectados somos nosotros los seres humanos y la naturaleza. Los contaminantes PM10 y O3
troposférico, tienden afectar a la población más sensible que son los niños; adultos mayores;
personas con problemas respiratorios, coronarios; personas que están expuestas al aire conta-
minado durante varias horas y la población de bajos estratos socio-económicos.
Puente Aranda, una localidad que dentro del Plan de Ordenamiento Territorial de Bogotá
(Decreto 190 de 2004), es una de las zonas industriales más importantes de Bogotá, en la cual
se realizan actividades del mismo tipo consideradas de alto impacto ambiental (mencionadas
en la sección 1.2) y que presenta altos valores de concentración de PM10 y O3 [51]. Lo cual
hace que este proyecto se enfoque en mejorar por medio de alertas tempranas los niveles de
salubridad de la calidad del aire.
Debido al alto peligro que puede causar la mala calidad del aire en la población de la locali -
dad de Puente Aranda, se desea buscar relaciones entre las concentraciones de los contami-
nantes O3 troposférico y PM10 y las variables atmosféricas como precipitación, velocidad de
los vientos, radiación solar y temperatura mediante técnicos de minería de datos.
Los resultados que se llevaron a cabo en el presente trabajo de grado permitirán a entidades
como la RMCAB crear reportes de contaminación a la comunidad con el fin de concientizar a
las personas más vulnerables a enfermedades cardiacas, respiratorias (como niños y ancianos)
[78] [72] y a los contribuyentes de la contaminación a crear campañas y mecanismos que
disminuyan las concentraciones de estos contaminantes, buscando así reducir sus concentra-
ciones.
Otro aspecto por el cual se consideró importante realizar este proyecto es debido a que la
Secretaria Distrital del Ambiente (SDA) tiene un programa llamado Plan Decenal para la
Descontaminación de la Calidad del Aire [79] (PDDCA) que consiste en la organización de
los proyectos orientados a la descontaminación reuniendo medidas que deberán ser imple-
mentadas con ayuda de sectores públicos y privados para lograr la reducción de contaminan-
Página 6
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
tes [79].Por ende este programa de PDDCA hace que este proyecto tenga relevancia en el
sector de contaminación, en especial en la localidad de Puente Aranda, ya que ofrecerá infor -
mación relevante para tomar decisiones políticas ambientales.
En la búsqueda de entender la relación entre las concentraciones de los contaminantes y las
variables atmosféricas, tradicionalmente se han utilizado las técnicas estadísticas enfocadas a
series de tiempo [6] [13]. Teniendo en cuenta que la Minería de datos se basa en la estadísti-
ca, [15] [8], se convirtió en una oportunidad para investigar si a través de esta técnica se pue-
den trabajar series de tiempo con resultados satisfactorios.
Los proyectos relacionados con el presente trabajo de grado han sido de tipo confirmatorio,
es decir que su objetivo es confirmar hipótesis ya planteadas, mientras que el presente trabajo
de grado busca explorar nuevos patrones y a su vez afirmar las relaciones existentes [81] [24]
[82] [6] [13] [26] [8] [15].
Este proyecto se enmarca en dos de las problemáticas que pretende atacar la Pontificia Uni-
versidad Javeriana desde su misión y es en el solucionar la “deficiencia y lentitud en el desa -
rrollo científico y tecnológico” y en “La irracionalidad en el manejo del medio ambiente y de
los recursos naturales.”[77]. Además es importante recalcar que la Ingeniería de Sistemas no
solo puede solucionar problemas en el ámbito tecnológico sino que también busca soluciones
eficaces en diversos ámbitos como en este caso el ambiental.
1.4 Impacto Esperado
Este proyecto tiene un impacto en el ámbito académico en cuanto a la investigación y aplica-
ción de si el uso de técnicas de minería de datos responde a relaciones entre las variables
climatológicas con los contaminantes teniendo en cuenta las series de tiempo y en cuanto a un
apoyo en la toma de decisiones en el ámbito ambiental, social, económico y tecnológico.
Página 7
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
1.4.1 Impacto Ambiental
Al ser un proyecto que se enfoca en dar una herramienta adicional para mejorar el conoci -
miento de la calidad del aire, se puede considerar que existe un impacto ambiental ya que
busca el beneficio del ambiente, en especial de la localidad de Puente Aranda, también contri-
buye al medio ambiente por sus resultados debido a que son generados y analizados de mane-
ra digital.
1.4.2 Impacto Social
Al ser un proyecto que se enfoca en ofrecer una herramienta adicional para mejorar el conoci-
miento de la salud pública de los habitantes, ya que se busca concientizar y prevenir a la so-
ciedad acerca de las consecuencias que causa la contaminación en la localidad de Puente
Aranda, además este proyecto puede ser útil para grupos de investigación o proyectos futuros
con el fin de ampliarlo o tomarlo como base a proyectos similares. Los principales beneficia-
dos en la identificación de las condiciones de ciertas variables atmosféricas que influyen en
las altas concentraciones de O3 y PM10 son niños, adultos mayores, personas que realizan
actividades al aire libre, personas con enfermedades respiratorias y cardiacas [13].
1.4.3 Impacto Económico
Este proyecto tendrá impacto en el ámbito económico ya que se puede ofrecer un modelo de
minería de datos que implica menos costo de operación que otros modelos que requieren alto
costo de procesamiento al analizar los patrones encontrados, los costos de conseguir un profe-
sional en estadística o matemáticas que ayude a interpretar dichas predicciones y además la
reducción de ausencias laborales y de gastos hospitalarios por enfermedades relacionadas con
calidad del aire.
1.4.4 Impacto Tecnológico
Este proyecto tendrá un impacto en el ámbito tecnológico ya que, por medio de un caso de
estudio específico, se podrá concluir si el uso de técnicas de Minería de Datos con series de
tiempo puede ser una alternativa viable para encontrar relaciones entre variables y pronosticar
comportamientos de las mismas.
Página 8
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
2. Descripción del Proyecto
En este capítulo se describen los detalles del trabajo de grado, alcance, fases de desarrollo
del proyecto, definición de herramientas y definición de variables de cada fase utilizada.
2.1 Visión global
En este trabajo de grado se realizó un prototipo que hace pronóstico de los contaminantes O3
y PM10 con el fin de crear alertas tempranas. Este prototipo es fundamentado en la creación
de modelos de minería de datos que permiten encontrar relaciones y detectar tendencias es-
condidas entre las variables atmosféricas cuyo valor depende de la hora y la fecha: velocidad
de los vientos, radiación solar global, precipitación, temperatura superficial con los contami-
nantes O3 y el PM10. Se incluyó el dióxido de nitrógeno (NO2) y el óxido de nitrógeno porque
aportan a la formación de O3. Este proyecto se enfocó en la localidad de Puente Aranda situa-
da al occidente de la ciudad de Bogotá y dio como resultado una nueva base de conocimiento.
2.2 Objetivo general
Encontrar y aplicar técnicas de minería de datos, que permitan hacer relaciones entre varia-
bles atmosféricas y variables contaminantes (ozono y material Particulado) para la localidad
de Puente Aranda con el fin de definir los valores asociados a eventos extremos de contami-
nación y desarrollar un prototipo de Sistema de Información de alertas tempranas de contami-
nación atmosférica a partir de las relaciones encontradas.
2.3 Fases Metodológicas por cada objetivo específico
En esta sección se especifican las fases metodológicas propuestas para el desarrollo del traba -
jo de grado, para cada fase se relacionan los objetivos específicos propuestos que se esperan
que se completen en el transcurso de cada fase. La primera fase contiene un sub-proceso con
el fin de utilizar la metodología por completo.
Página 9
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
2.3.1 Entender el problema
Sub- Proceso. Analizar los requerimientos del trabajo de grado para así acoplarlo a una defi-
nición de un problema de minería de datos.
2.3.2 Entender los datos
Objetivo 1. Determinar la información de calidad del aire pertinente para este proyecto, de
acuerdo con los datos suministrados por la Secretaria Distrital de Ambiente.
2.3.3 Preparar los datos
Objetivo 2. Establecer una vista minable, enfocándose en los rezagos en el tiempo que este
acentuando la relación entre una variable y otra.
2.3.4 Modelar
Objetivo 3. Determinar los modelos apropiados de minería de datos para buscar la relación
entre las variables atmosféricas y los contaminantes.
2.3.5 Evaluar
Objetivo 4. Validar los resultados que provea el entrenamiento de los modelos de minería de
datos con los resultados esperados y seleccionar los modelos de minería con más precisión.
2.3.6 Desarrollo
Objetivo 5. Crear un prototipo de Sistema de Información que se integre con los resultados de
los modelos de minería de datos seleccionada.
2.4 Método que se propuso para satisfacer cada objetivo especifico
Por ser un proyecto de aplicación práctica en el ámbito de la minería de datos, se propuso
trabajar con las metodologías SEMMA y CRIPS DM paralelamente ya que SEMMA abarca
el proceso a nivel general mientras que CRISP DM de forma más detallada para cada activi -
dad a resolver [80]. En el anexo P que contiene el Post – Mortem, se encuentra la justifica-
ción del cambio en las fases metodológicas de acuerdo a CRIPS DM.
Página 10
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
El ciclo vital contiene 6 fases (ver Ilustración 1 Ciclo Vital del Modelo [29]) de las cuales se
asignaron a partir de la fase 2 los objetivos específicos definidos en la propuesta. Para la fase
1 fue necesario asignar un sub- proceso mas no es un objetivo específico ya que se asemeja
más a una actividad. La asignación de los objetivos a cada una de las fases se encuentra en la
sección anterior. Por cada fase se pretende crear anexos que contenga información detallada
(reportes) del avance del proyecto y las justificaciones de lo que se ha realizado.
Ilustración 1 Ciclo Vital del Modelo [29]
II - MARCO TEÓRICO
1. Marco Contextual
La contaminación ambiental se ha convertido en un tema de estudio fundamental, donde dife-
rentes ciencias, como la ambiental, buscan la forma de identificar y tratar los contaminantes
que afectan a la salud humana y a la atmósfera. Se han realizado modelos dinámicos, compu-
tacionalmente muy complejos; modelos estadísticos que tienen dificultades para relacionar
físicamente las variables relacionadas; y modelos mixtos. En el Anexo M se detallan los tra-
bajos en el tema.
Página 11
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
2. Marco Conceptual
En este capítulo se presenta el estado del arte en cinco ámbitos principales de investigación
del presente trabajo de grado, donde cada uno de los ámbitos presentados a continuación
aporta información útil para el desarrollo exitoso de este proyecto.
2.1 Contaminación atmosférica
La contaminación atmosférica está compuesta por contaminantes clasificada como primaria o
secundaria. Los contaminantes primarios son aquellos procedentes directamente de las fuen-
tes de concentración como lo es para el caso de material Particulado (PM10) y los contaminan-
tes secundarios son aquellos originados en el aire por la interacción de dos o más contaminan-
tes clasificados como primarios, en este caso aplica para el O3 troposférico [25] [20].
El Ozono troposférico (O3) es un contaminante que se encuentra en la parte baja de la at-
mosfera cerca al suelo y se produce como resultado de relaciones entre los óxidos de nitró -
geno emitidos por los automóviles y por la industria, con compuestos orgánicos volátiles,
procedentes tanto de la industria (gasolina, disolventes y otros) como de la vegetación natural
(isopreno, terpenos y otros) y todos estos componentes en presencia de la radiación solar
producen dicho contaminante secundario [25]. El O3 troposférico, se produce cuando los
óxidos de nitrógeno (NOX) y los compuestos orgánicos volátiles (COV) reaccionan mediante
procesos fotoquímicos a la luz del sol [25].
El Material Particulado menor a 10 micras (PM10) son partículas sólidas y/o liquidas pre-
sentes en la atmósfera, dichas partículas se forman principalmente por compuestos inorgáni-
cos como silicatos y aluminatos, metales pesados y material orgánico asociados a las partícu-
las de carbono. Estas partículas penetran fácilmente en el sistema respiratorio, causando así
efectos adversos en especial para personas con enfermedades respiratorias y cardiacas, ya que
al viajar profundamente por los pulmones y por estar compuesta por elementos tóxicos debili-
ta el sistema respiratorio llegando a causar cáncer de pulmón, tos, dificultad al respirar, agra-
va el asma y en casos extremos muerte prematura en personas con padecimientos cardiacos o
respiratorios [5] [68].
Página 12
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
2.2 Variables Meteorológicas
Las variables meteorológicas son las que hacen referencia al estado climatológico de la zona,
es de suma importancia definir las variables que se tomaron en cuenta para el proyecto [68]
[12]:
Velocidad de los Vientos: El viento es el movimiento del aire en la atmósfera, en especial en
la tropósfera (ubicada a unos 12 km cerca al suelo), producido por causas naturales. Los vien-
tos se generan debido a los movimientos de rotación y de traslación terrestres que dan origen
a diferencias considerables en la radiación solar, la cual genera diferencias de temperatura en
masas de aire, produciendo el movimiento de las mismas.
Temperatura Superficial: Es una magnitud escalar relacionada con la energía sensible que
hace parte de la energía interna de un sistema termodinámico, dicha energía sensible está
asociada a los movimientos de las partículas del sistema y a medida que es mayor la energía
sensible de un sistema, su temperatura es mayor.
Radiación Solar: es el conjunto de ondas electromagnéticas emitidas por el sol. El sol se
comporta como un cuerpo negro que emite energía siguiendo la ley de Planck a una tempera-
tura de un 6000 k. En función de cómo reciben la radiación solar los objetos situados en la
superficie terrestre, se pueden distinguir cuatro tipos de radiación:
1. Radiación Directa: Es aquella que llega directamente del sol sin haber sufrido nin-
gún cambio en su dirección.
2. Radiación Difusa: Es la radiación reflejada por las nubes o absorbida por ella.
3. Radiación Reflejada: Es la radiación reflejada por la superficie terrestre.
4. Radiación Global: Es la suma de las tres radiaciones.
Lluvia: o también llamada precipitación, es un fenómeno atmosférico de estado líquido o
sólido que cae de las nubes hasta llegar a la tierra. La unidad de medida de la precipitación es
el milímetro (mm).
Página 13
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
2.3 Series Temporales
Una serie de tiempo es “una secuencia en el tiempo de valores del sistema x (t) que registra
una secuencia de valores experimentales x (t¿¿1) , x (t ¿¿2), x (t ¿¿3) ,… ..x (t ¿¿n)¿¿¿¿
para un intervalo de tiempo t=N con t 1< t2<t3<…<t n “[13], es decir que es un conjunto de
valores ordenados cronológicamente, en donde cada uno de estos valores describe el compor-
tamiento de una o más variables.
2.4 Red de Monitoreo de Calidad del Aire
La red de monitoreo de calidad del aire de Bogotá (RMCAB) es un sistema de monitoreo
ambiental continuo que cuenta con 15 estaciones de medición con disponibilidad de datos
meteorológicos y contaminación del aire.
La RMCAB actualmente monitorea partículas, gases y variables meteorológicas [36]. Cuenta
con una metodología para el procesamiento y captura de los datos, donde es aplicada en cada
una de las estaciones. En la Ilustración 2 se presenta dicha metodología.
Ilustración 2 Metodología para captura y análisis de datos Fuente: RMCAB [36]
Índice de Calidad del Aire (AQI)
La contaminación aérea cambia constantemente de un día para el otro o de hora en hora de-
pendiendo de la actividad antropogénica y las variables atmosféricas que se presentan en ese
Página 14
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
momento. Con el fin de capturar esa información cambiante, la EPA tiene una herramienta
llamada el (AQI) que es un índice que se enfoca en proporcionar de forma presentable y en-
tendible, información sobre la calidad del aire a nivel local y diariamente, y los relaciona con
los problemas de salud que causan los diversos niveles de concentración de un contaminante.
El AQI es un índice va de 0 a 500, cuando mayor sea el valor del AQI, mayor es el nivel de
contaminación y por ende la afectación de la salud. En la Tabla 1 se muestran las categorías y
los rangos del AQI para los contaminantes regulados.
Tabla 1 Índice Calidad del Aire Fuente: EPA [3]
La clasificación anterior se valores de variables de Ozono y PM10 con el fin de facilitar el uso
de técnicas de minería de tienen en cuenta para agrupar datos descriptivas y predictivas.
2.5 Minería de Datos
La minería de datos corresponde a una de las etapas del proceso llamado “Knowledge Disco-
very in Databases” (KDD) que consiste en extraer conocimiento valido, útil y comprensible
que se encuentre oculto en la base de datos, es decir, que a ojo humano o por medio de con-
sultas sea imposible de reflejar [7] [8] [22] [42]. La minería de datos se representa de la si -
guiente forma:
Tarea Predictiva: Esta tarea se encarga de los objetivos de un proyecto que requiera estimar
valores futuros o desconocidos de variables pertenecientes al conjunto de datos. Dentro de las
tareas predictivas se encuentran técnicas de clasificación y regresión. Los modelos predicti -
Página 15
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
vos requieren ser entrenados, utilizando un conjunto de datos cuyo valor de variable objetivo
es desconocido [29] [30] [42].
Tarea Descriptiva: Esta tarea se encarga de los objetivos de un proyecto que requiera identi-
ficar patrones y relaciones en los datos, explorando de forma profunda las propiedades de los
registros del conjunto de datos. Dentro de las tareas descriptivas se encuentran técnicas de
Clustering y las reglas de asociación.
2.5.3 Técnica de Reglas de Asociación
La función principal de las reglas de asociación es encontrar patrones y reglas útiles a partir
de grandes conjuntos de datos, para así detectar las relaciones que hay entre las variables de
entrada (pertenecientes al conjunto de datos) y la variable objetivo [29] [30] [42].
Las medidas que validan una regla de asociación son: el soporte, la confianza, la mejora y
para el caso del algoritmo PredictiveApriori, la medida PredictiveAccuracy.
2.5.4 Técnicas de Clasificación
Las técnicas de clasificación examinan las características de un registro de la base de datos y
lo asigna a una de las clases predefinidas, dichas clases predefinidas son estados del atributo
objetivo, el cual se quiere predecir. El objetivo de esta técnica es utilizar un conjunto de da-
tos y generar automáticamente un modelo que podrá predecir un comportamiento futuro.
2.5.4.1 Árboles de Decisión
Los arboles de decisión son: “un conjunto de condiciones organizadas en una estructura
jerárquica, de tal manera que la decisión final a tomar se pueda determinar siguiendo las
condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas [39].”
Este algoritmo genera un modelo de minería de datos mediante la construcción de una serie
de divisiones en el árbol, cada división se representa como nodos. El algoritmo adiciona un
nodo interno al modelo cada vez que un atributo de entrada tiene correlación con el atributo
predictivo. Los arboles de decisión de Microsoft utilizan la sección de características con el
fin de guiar la selección de loa atributos más útiles para el modelo, esta selección de caracte -
Página 16
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
rísticas ayuda a mejorar el rendimiento y la calidad del análisis ya que los atributos irrelevan-
tes utilizan tiempo en el procesador y desvían el modelo a resultados erróneos o confusos
[63].
2.5.5 Técnica de Clustering (Agrupamiento)
El proceso de agrupar un conjunto de elementos en clases o grupos, basado en la noción de
cercanía o similitud entre sus elementos recibe el nombre de Clustering [41] [58]. Dentro de
cada clúster o clase hay una colección de datos que son muy parecidos entre ellos y diferentes
a los datos pertenecientes a otros clústeres. Las técnicas de clustering son técnicas de clasifi-
cación no supervisada, es decir que no cuentan con un conocimiento a priori acerca de clasifi-
car un objeto dentro de una categoría o clase [59].
2.5.6 Vista Minable
La Vista Minable se enfoca en recoger y preparar la información necesaria para realizar una
tarea de minería de datos [38]. Es por esto que es de vital importancia realizar la preparación
y el análisis del conjunto de entrada para obtener unos modelos realmente significativos, ade-
más que sigue los estándares definidos para realizar proyectos der minería de datos [42] [43].
2.6 Correlación de Pearson
Para encontrar correlaciones entre los atributos de las bases de datos se utilizó el método de
correlación de Pearson , que se basa en analizar la relación entre dos variables medidas por
un intervalo, este intervalo va comprendido entre -1 y 1 y es llamado coeficiente de correla-
ción, su signo coincide por la pendiente de la recta de regresión (por eso fue fundamental
presentar los resultados de forma gráfica con tendencia lineal y de forma numérica), este
coeficiente es el que mide el grado de variación entre las variables que se pretenden analizar.
Si el resultado del coeficiente toma un valor de -1, la interpretación es que las dos variables
presentan una correlación negativa perfecta. Si el resultado del coeficiente toma un valor de
0, es porque no existe una correlación entre dichas variables. Si el coeficiente toma un valor
de 1 es porque la correlación es positiva perfecta.
Página 17
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
III – DESARROLLO DEL TRABAJO
Durante el desarrollo del trabajo de grado las fases de la metodología CRISP DM encajaron
en cada proceso del proyecto, por tal motivo para este capítulo se presenta el desarrollo del
trabajo de grado segmentado en cada fase metodológica, donde cada fase metodología tiene
uno o más anexos que muestran en detalle su procedimiento y los resultados obtenidos. Adi-
cionalmente para una mejor comprensión se muestra un diagrama de procesos de alto nivel,
usando la notación BPMN representada en cada fase.
1. Entender el problema
En esta fase fue necesario recopilar información acerca del contexto en el que se enmarca el
proyecto y en especial la localidad de Puente Aranda y los problemas de calidad del aire que
rodean el sector, también fue necesario revisar con el director de trabajo de grado los objeti -
vos específicos, generales y la pregunta generadora con el fin de crear una estrategia para
resolver cada tarea de una forma ordenada e incremental. Se tuvo una reunión en la RMCAB
en el departamento calidad del aire en las cuales se resolvieron preguntas de contexto y prin-
cipalmente se aclaró la justificación de realizar el trabajo de grado.
En la Ilustración 3 se presenta el diagrama de procesos para la fase 1.
Ilustración 3 Proceso alto nivel fase 1Fuente: Autor por medio de la herramienta Bizagi
1.1 Selección de herramientas a utilizar
Para escoger las herramientas que iban hacer parte del proceso de desarrollo del trabajo de
grado fue necesario recopilar información acerca de las herramientas mejor calificadas por
Página 18
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
los usuarios y su especialidad funcional. Se requirió instalarlas y probarlas con ejemplos pro-
vistos por dichas herramientas. Las herramientas elegidas están en la tabla Tabla 2
Herramienta Función
SPSS de IBM v.20 Fue necesaria para realizar correlaciones entre las variables (atributos) y fue seleccionada gracias a su facilidad de uso y su especialidad en el manejo de series temporales.
Weka 3.6 Esta herramienta fue utilizada para generar los modelos de reglas de asociación ya que la herramienta de Microsoft no contenía los algoritmos Apriori, PredictiveApriori y Tertius.
RapidMiner 5 Fue utilizada para generar gráficos de la técnica de Clustering ya que su visualización es fácil de entender y útil para el análisis de resultados.
SQL Analysis Services de Microsoft y Add –In de Excel para Minería de Datos 2010
Fue útil para la construcción de la vista minable, los modelos de clasificación y agrupamiento y las posteriores pruebas del modelo ya que este software es robusto, permitiendo así el tratamiento de grandes volúmenes de datos y fácil exportación de la base de conocimiento de los modelos.
NetBeans IDE 7.4 Utilizada para el prototipo de alertas tempranas.
Bizagi Process Modeler 2.7 Para crear el diagrama de procesos del proyecto.
Tabla 2 Herramientas utilizadas
2. Entender los Datos
Ilustración 4 Proceso alto nivel fase 2Fuente: Autor por medio de la herramienta Bizagi
En el anexo 1, capitulo 1 se encuentra en detalle el desarrollo y los resultados acordes a esta fase.
Página 19
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
2.1 Recopilar Registros
Para este proceso fue necesario crear una estrategia con la directora de grado experta en me-
teorología para identificar los datos iniciales que debían ser parte del desarrollo del proyecto,
recopilando bibliografía para encontrar información útil acerca de los contaminantes a traba-
jar en especial con variables climatológicas y precursores que contribuyen en la formación
del contaminante O3 y observando trabajos relacionados con calidad del aire donde se en-
contraban hipótesis acerca de la relaciones de algunas variables climatológicas con los conta-
minantes a trabajar. Esto fue necesario ya que la RMCAB entidad encargada de la entrega de
la información exigía una carta física detallando los atributos que se necesitan, el nombre de
la estación de la cual quieren la información y el motivo de la solicitud. Para este caso se
solicitó los registros históricos de la estación de Puente Aranda (por ser el caso de estudio) y
de Simón Bolívar ya que la primera estación no contaba con la captura de los valores de ra -
diación solar y según la investigación previa y la reunión con la experta en meteorología este
atributo era necesario para el proceso y extraerlo de otra estación no alteraba los resultados ya
que la distancia entre las dos estaciones es de 5 km.
2.2 Explorar Datos
Los registros históricos recibidos tienen una característica importante para el impacto del
proyecto y son las series de tiempo, por tal motivo fue necesario analizar el comportamiento
del este atributo en especial la hora y el mes con los contaminantes O3 y PM10. Para esto, se
separó este atributo de tipo date llamado fecha&Hora (cuyo formato es: día/mes/año hora:
minutos), en los atributos derivados hora, día y mes. Esta serie temporal contiene información
desde el primer día del mes de enero de 1999 a las 12 de la madrugada hasta el último día del
mes de diciembre del 2012 a las 12 de la madrugada. Adicionalmente esta división es de ayu-
da para crear otras variables derivadas relacionadas con las series temporales y por ende
cumplir el objetivo general del trabajo de grado. Se realizaron gráficos para conocer el com-
portamiento del O3 y PM10 tanto mensual como anualmente. Para más detalle diríjase al
anexo 1, capítulo 1 de análisis y exploración de datos.
Página 20
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
2.3 Describir los datos iniciales
Este proceso consistió en describir los atributos adquiridos, incluyendo el formato de los da-
tos, la cantidad y la calidad de los mismos. Para esto fue importante recopilar información
acerca de los equipos especializados que se encargan de la captura de los datos junto con las
coordenadas geográficas de la ubicación de la estación. Para conocer más a fondo los atribu-
tos de la base de datos fueron necesario utilizar la herramienta SQL Server Managment Stu-
dio 2012 ya que el formato en el que se adquirieron los registros históricos era compatible
con dicha herramienta.
2.3.1 Estado inicial de la Base de datos
En cada uno de los archivos se encontraron 4 tablas con los registros históricos del año 1999
hasta el año 2013, donde estaban distribuidas de la siguiente forma:
Página 21
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Tabla 3 Modelo de fuente de datos de 1999 a 2013Fuente: Autor por medio de RMCAB
Los atributos entregados por la RMCAB en los registros históricos entregados son los si -
guientes:
Nombre del Atributo Tipo de variable Tipo de Medición y/o formato Descripción
Fecha & Hora Datos Temporales dd/mm/aaaa h:mm Este atributo especifica la fecha y la hora en la que se toma la medición de cada uno de los atributos descritos posteriormente.
Ozono Continua Partes por billón (Ppb) Muestra el valor que presenta el contaminante de Ozono troposférico en tiempo real, según el índice de AQI [3]
PM10 Continua Microgramos por metro cubico (µg/ Muestra el valor que presenta el contaminante de Material Particulado en
Página 22
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
m3) tiempo real, según el índice AQI [3]
Vel Viento Continua Metros por segundo (m/s) Muestra el valor tomado en tiempo real de la velocidad del viento, que es la intensidad del viento, que se mide de acuerdo a una cantidad vectorial, su intensidad es variable ya que el flujo del aire no es constante.[17]
Temperatura Continua Grados centígrados (C°) Muestra el valor tomado en tiempo real de la temperatura, que es la medida de calor en un instante de tiempo, sus valores son >=0º.[17]
Lluvia Continua Milímetros (mm) Muestra el valor que se está tomando en tiempo real de la lluvia, que es el agua en forma líquida o sólida que viene de la atmosfera a la tierra. Esta variable incluye valores catalogados como: Lluvia, llovizna, roció, granizo, escarcha, nieve, etc...[17]
NO2 Continua Partes por billón (Ppb) Muestra el valor que presenta el contaminante de Dióxido de Nitrógeno en tiempo real, según el índice de AQI [3]
NOX Continua Partes por billón Muestra el valor del óxido de nitrógeno y este valor es calculado mediante la fórmula: NOX=NO+NO2 [33], siendo NO2 el atributo descrito anteriormente y NO es nobelio.
R_S Global ContinuaWatts por metro cuadrado (
wm2 )
Muestra el valor de la Radiación global solar, que viene siendo el resultado entre la suma de la radiación global directa y la radiación ultravioleta.
Tabla 4 AtributosFuente: Autor, con información de la página de la RMCAB
2.4 Verificar la calidad de los datos
La base de datos descrita en la tabla 5 y 6 contiene información únicamente continua por lo
que en muchos casos se presentaron campos que no contenían dicha característica y se identi-
ficaron como campos anómalos. Para identificar los datos anómalos fue necesario exportar la
base de datos que contenía los registros históricos a Weka con el fin de observar fácilmente la
cantidad de campos vacíos o con valores erróneos y gráficos de frecuencia que detectan los
dichos valores. Se listaron los valores de campos erróneos y posteriormente se consultó con
expertos en el tratamiento de las bases de datos de la RMCAB sobre cada uno de estos valo-
res donde explicaron el significado de cada valor y el tratamiento permitido para no alterar
los resultados posteriores. A continuación se muestra el tipo de errores que presentaban algu-
nos campos pertenecientes a los tres archivos de las bases de datos:
Valor del Campo Frecuencia Descripción
Página 23
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
de Campos
Vacío 123.743 No tiene valores numéricos ni ningún tipo de carácter.
Sin Data 89.316 El motivo de este valor es porque en ese momento se estaban realizando mantenimiento a las maquinas.
<Muestra 2.482 El motivo de este valor es porque al realizar la exportación por parte de la RMCA a un archivo .xls, el archivo toma algunos valores vacíos como muestra.
Apagado 860 Sucede cuando apagan el equipo de medición para realizar alguna actividad de chequeo en su funcionamiento.
Unknown 354 Sucede cuando el equipo de medición está en proceso de calibración.
FallTech 2.312 Sucede cuando el equipo de medición presenta fallas técnicas.
Fechas 2 El motivo de este valor es porque hay una interrupción de la operación en la estación.
Calib 1061 Sucede cuando el equipo de medición está en proceso de calibración.
Cero 99 Error de almacenamiento en la base de datos y queda como un carácter.
Spam 3 Error de almacenamiento.
Tabla 5 Base de datos con campos anómalosFuente: Autor gracias a la entrevista con el experto
2.3.2.1 Calidad de los atributos de la base de datos
La herramienta Weka permite identificar tanto de forma estadística como grafica los campos
erróneos y valores únicos que presenta cada atributo perteneciente a la base de datos, con el
fin de que en la siguiente fase se pueda identificar y solucionar los problemas de los datos.
Atributo % Campos Erróneos % Valores únicosOzono 14% 1%PM10 6% 0%
Vel vientos 2% 0%Temperatura 1% 0%
Lluvia 4% 0%R_S Global 6% 0%
NO2 6% 1%NOX 6% 4%
Tabla 6 Calidad de los campos por cada atributo
Página 24
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Fuente: Autor por medio de la herramienta Weka
Es importante recalcar que la RMCAB realiza mensualmente una validación de los datos
capturados por los equipos y esto hace que se ahorre el paso de evaluar la coherencia de los
datos.
3. Preparar los Datos
Ilustración 5 Proceso alto nivel fase 3Fuente: Autor por medio de la herramienta Bizagi
El anexo 1 (a partir del capítulo 2) contiene toda la información detallada de la construcción
de la vista minable. En el anexo 3 se encuentra la muestra de la vista minable por cada atribu-
to objetivo y técnica de minería.
3.1 Integración de las fuentes de la base de datos
La base de datos adquirida tenía 4 tablas divididas por los años en las que se capturaron los
datos de los contaminantes y las variables meteorológicas. Para mayor facilidad en la prepa-
ración de los datos y con el fin de mejorar la eficiencia y el tiempo de ejecución de los mode-
los, fue necesario unir estas 4 fuentes con los registros de cada fuente. La unión (dividido en
años) se realiza por medio de sentencias SQL.
3.2 Limpieza de Datos
En este proceso se realizó el tratamiento aplicado a los datos con valores únicos, datos incon-
sistentes, datos perdidos y problemas de integración con el fin de obtener una vista minable
Página 25
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
consistente para aplicar las técnicas de minería de datos y evitar que se distorsionen los resul-
tados.
Datos Perdidos:
En el motor de base de datos SQL Server 2012 los datos perdidos se representan con el valor
“NULL”. Debido a que los datos no contienen ninguna información, se consultó al experto en
el conocimiento de los datos quien sugirió no reemplazarlos por el promedio ni predecirlos
sino ignorar los registros con dichos campos perdidos ya que no representaban una cantidad
significativa en el total de registros. En muchos casos habían registros que contenían 2 o más
campos perdidos o vacíos.
Datos Inconsistentes:
Los campos clasificados como inconsistentes son los que tienen valores que no son de tipo
numérico para todos los atributos excepto para el atributo fecha&Hora. No se tuvieron en
cuenta los registros con datos inconsistentes ya que se podrían alterar los resultados de las
técnicas de minería de datos, sobre todo porque en muchos de los registros se encontraban
más de 2 campos con valores inconsistentes.
Valores Únicos
Los atributos de la base de datos contienen valores únicos que representaron el 6% de los
campos de la base de datos. Los valores únicos pueden desviar los resultados que provean las
técnicas de minería de datos, en especial la técnica de reglas de asociación, así que para este
caso fue necesario discretizar los siguientes atributos: Ozono, PM10, VelViento, Lluvia, NOX,
NO2 y Temperatura.
Reducción de dimensionalidad
La limpieza de datos, consistió en detectar los datos que podían presentar problemas de in-
consistencias y rendimiento a la hora de tomarlos como muestra de entrada en los algoritmos
de minería, así que los registros que contenían los campos que se describían en esa sección,
se eliminaron. La descripción en detalle del porcentaje de registros eliminados y los restantes
se encuentra en el anexo 1.
Página 26
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Suavizado de Datos
Es importante recalcar que la base de datos inicial, tiene la mayoría de sus atributos de tipo
numérico, por lo que puede suceder que en un escenario negativo cada campo pueda tomar
tanto valores como registros hay. En este caso muchas de las diferencias entre los valores de
los campos son a nivel de los decimales, así que son insignificantes para los resultados del
algoritmo de minería pero pueden degradar su desempeño.
3.3 Seleccionar las técnicas de minería de datos
Para el presente trabajo de grado se utilizaron diferentes técnicas de minería de datos para
solucionar el problema desde diferentes puntos de vista, con el fin de explorar cada uno de los
comportamientos de los modelos y concluir patrones comunes, especiales y únicos que pue-
den ser útiles para el prototipo de alertas tempranas. Además este proyecto busca generar un
nuevo conocimiento en el ámbito investigativo, afirmando que la minería de datos también
puede resolver problemas de calidad del aire usando series de tiempo.
Para seleccionar las técnicas de minería de datos apropiadas se tuvieron en cuenta diversos
aspectos como: si las técnicas escogidas tienen una forma de validar los resultados (por ejem-
plo por métricas de confianza y mejora o dividir el conjunto de entrenamiento y prueba), si el
tipo de dato de cada atributo se puede adecuar fácilmente para aplicar las técnicas selecciona-
das y si la cantidad y la calidad de los datos son suficientes para producir los modelos con
resultados fiables y útiles. Cabe recalcar que un filtro para seleccionar las técnicas de minería
es que no se hayan trabajado con frecuencia en proyectos relacionados y que sus resultados se
representen de forma distinta. En el anexo 2 se encuentra en detalle la justificación de las
técnicas seleccionadas.
Las técnicas seleccionadas que cumplen estos requisitos son:
3.3.1 Técnica de Reglas de Asociación
Esta técnica por ser descriptiva, se utilizó para determinar reglas que definan con que estados
climatológicos, las concentraciones de los contaminantes de Ozono y Material Particulado,
Página 27
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
son altas o bajas. También fue de utilidad para comprobar los patrones generados por la técni-
ca de clasificación.
3.3.2 Técnica de Clasificación
Esta técnica por ser predictiva, robusta frente a variables independientes y detalladas en su
resultado de precisión, se utilizó para crear la base de conocimiento que va hacer consultada
por el prototipo.
3.3.3 Técnica de Agrupamiento (Clustering)
Esta técnica fue de gran utilidad para conocer el comportamiento de cada variable climatoló-
gica y temporal con el contaminante objetivo, además fue de gran importancia para facilitar la
interpretación de los resultados generados por las otras técnicas.
3.4 Creación de Variables Derivadas
Las variables derivadas fueron creadas a partir de la combinación de los valores de dos o
más campos, con el fin de facilitar la interpretación de resultados, la construcción del modelo
de minería y el cumplimiento de los objetivos específicos del proyecto. La creación de las
variables derivadas se enfocó en extraer de las series de tiempo atributos útiles y concernien-
tes al tiempo que es fundamental para el cumplimiento de los objetivos. Las variables deriva-
das creadas que hacen parte de la vista minable son: Fin de semana, Trimestres del año, Pro-
mRadiacionSG, PromNOX y PromNO2. Las variables derivadas: Hora Pico, Clasificacio-
nHora, resultaron del atributo Hora, donde fue necesario investigar y asesorase con la exper-
ta en meteorología sobre cuáles son las horas pico en Bogotá (donde hay mayor congestión
vehicular) y los rangos horarios donde aumenta alguna variable climatológica que puede
afectar a los contaminantes. Los atributos Fin de Semana y Trimestre del Año derivaron del
atributo original mes donde su creación fue importante con el fin de explorar la dinámica de
la ciudad. El atributo PromRadiacionSG fue necesario para evitar el sobreajuste de la técnica
de clasificación y se utilizó el atributo radiación solar y ClasificacionHora calculando el
promedio por clasificación horaria.
La descripción y el detalle de cada una de las variables derivadas se encuentran en el anexo 1
sección 2.1.4 Creación de variables derivadas.
Página 28
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
3.5 Preparación de datos para las técnicas Reglas de asociación y
Clasificación
Una de las desventajas de las técnicas de Reglas de asociación y Clasificación, es que no
manejan muy bien los datos de entrada cuyos valores son continuos ya que afecta el desem-
peño, el cálculo de medidas como la confianza y el soporte y la certeza en clasificación de los
casos al atributo objetivo. Por tal motivo es necesario realizar una conversión de los atributos
de continuo a nominal. Esta conversión se realiza con escalas definidas por entidades científi-
cas como la EPA y la RMCAB entre otras. A continuación se muestran los atributos a los que
se les realizo la conversión. Los detalles de las escalas se encuentran en el anexo 1 capítulo 2.
VelViento
Este atributo por ser de tipo continuo fue necesario discretizarlo. El atributo VelViento se
categoriza de acuerdo a la escala de velocidad del viento – Beaufor [11] [12] especificado en
el informe anual de calidad del aire.
Temperatura
El atributo contiene un índice definido llamado temperatura efectiva Missenard, este índice
mide el estrés térmico tanto por altas como por bajas temperaturas y con este índice se realizó
el proceso de conversión.
Lluvia
Este atributo también tiene una escala definida por lo cual se usa para realizar la discretiza-
ción de los valores posibles, la escala es definida en los informes anuales de calidad del aire
realizado por la RMCA [12].
RadiaciónSolarGlobal
El atributo de radiación solar global no tiene como tal un índice de medición, así que fue
necesario utilizar las herramientas de SQL Server detección de categorías, donde se detecta-
ron 5 que se presentan en el anexo 1 con su respectiva importancia.
Página 29
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Óxido de Nitrógeno (NOX)
Este atributo no tiene un índice de medición como tal, así que fue necesario utilizar las herra -
mientas de detección de categorías que proporciona Aanalysis Services de SQL Server 2012,
esta herramienta crea categorías de tal modo que cada una de ellas quede con una cantidad de
campos proporcionado. Es importante recalcar que estas categorías creadas no definen si el
NOX es bajo o alto, simplemente se utiliza esta categorización por motivos de este trabajo de
grado para facilitar el proceso de aplicación de las técnicas de minería .La categoría que toma
el nombre “ALTO” cuando es mayor o igual a 195 ppb no se muestra con una importancia
alta ya que hay muy pocos valores que se encuentran con este estado. La categoría más fre-
cuente es “MUY BAJO”.
Ozono Troposférico (O3 ¿
A este atributo por su característica de tipo continua fue necesario aplicar discretización se-
gún los criterios que maneja la (EPA), dichos criterios se basan en un índice llamado AQI, así
que fue necesario primero convertir los valores del O3 a el índice.
En la sección 2.4 del marco teórico y en el anexo 1 se encuentran especificadas las escalas
para cada contaminante con valores AQI que fueron a los que se convirtieron para realizar
dicha categorización.
Dióxido de Nitrógeno NO2
Este atributo está incluido entre los contaminantes principales medidos por la EPA [3] y es
necesario realizar la conversión de ppb a AQI, y luego categorizar por rangos de AQI de
acuerdo al nivel de preocupación por la salud.
En la sección 2.4 del marco teórico y en el anexo 1 se encuentran especificadas las escalas
para este contaminante con valores AQI.
Material Particulado (PM10)
El Material Particulado (PM10), tiene un índice de calidad del aire definido por la EPA.
Página 30
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
3.6 Preparación de datos para las técnicas de Agrupamiento
Esta técnica por estar basada en distancias, aplica algunos procesos distintos a los de las re-
glas de asociación y clasificación, en esta sección se presentan los procesos a nivel general
que se realizaron a la base de datos para aplicar esta técnica.
3.6.1 Normalización
El método de normalización que se aplicó a la base de datos fue Min-Max [41], como su mis-
ma palabra lo dice se basa en el valor máximo y mínimo del campo de cada atributo.
Los atributos del conjunto de datos a los cuales se les aplico normalización son los siguientes:
ozono, NOX, NO2, radiacionSolar, temperatura, lluvia, VelViento, PM10. Es decir que estos
atributos quedaron en rangos de 0 a 1 para facilitar el proceso de agrupamiento de la técnica y
no viciar la distancia. Para esto fue necesario utilizar los valores continuos de cada atributo y
aplicar la fórmula de Min-Max. Este procedimiento se pudo realizar con Excel, importando la
base de datos de SQL server.
3.7 Vista Minable
Como se especificó anteriormente, fue necesario crear una vista minable dependiendo del
atributo objetivo y de la técnica de minería de datos. Para la técnica de Clustering se crearon
dos vistas minables, una que contiene la información acerca del atributo O3 y la otra el PM10.
Para las técnicas de reglas de asociación y clasificación se crearon dos vistas minables con las
mismas características anteriores. Si desea ver una muestra de las vistas minables generadas
abra el script del anexo 3 que contiene la vista minable.
Página 31
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
4. Modelar
Ilustración 6 Diagrama de procesos fase 4 alto nivelFuente: Aturo por medio de la herramienta Bizagi
En esta fase se presentaron varias iteraciones junto con la fase de preparación de datos, ya
que fue necesario ajustar la vista minable para ejecutar varios modelos ajustando los paráme-
tros de acuerdo a las necesidades del negocio y la precisión de los modelos utilizando el con -
junto de prueba. El anexo 2 contiene el plan de diseño de pruebas y la justificación de las
técnicas de modelado, el anexo 4 contiene un documento llamado “Proceso de construcción
de los modelos” donde se encuentra detalladamente el proceso realizado. El anexo 5 contiene
los resultados de los modelos generados por cada técnica.
4.1 Creación del diseño de Pruebas
El objetivo de crear el diseño de pruebas es para probar la calidad y validez de los resultados
arrojados por los modelos de minería generados (para más detalle ver anexo 2). De acuerdo a
los criterios establecidos, el plan para probar los modelos se basó en las siguientes:
1. Se dividió el total de registros, en el conjunto de prueba y entrenamiento para cono-
cer la precisión del modelo (ver fase de evaluación).
2. Se algunos patrones generados por las técnicas con patrones encontrados por otra
tesis de meteorología utilizando modelos estadísticos validados previamente. Esto fue
teniendo en cuenta los patrones comunes generados en ambos proyectos.
3. Se preguntó al equipo de la RMCAB algunas relaciones frecuentes en los datos con
el fin de comparar y revisar algunos patrones generados.
Página 32
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
4. Para el modelo CAO3 y CAPM10 pertenecientes al árbol de clasificación, fue nece-
sario realizar proceso de poda. (especificado en la fase de evaluación).
5. Se compararon los resultados de los modelos generados por las distintas técnicas
implementadas entre ellos, teniendo en cuenta los patrones comunes y especiales
(poco comunes).
6. Se seleccionan las reglas de asociación para los modelos RAO3 y RAPM10 que cum-
plan con la medida probabilística mejora mayor a 1 y cuyos resultados son redundan-
tes entre los atributos (un ejemplo son reglas que contengan el atributo mes y trimes-
tres del año).
7. Los patrones son revisados por la directora experta en meteorología.
8. Para la aplicación se realizaron pruebas con los posibles estados que podían tomar los
contaminantes y en qué casos pasaban dichos contaminantes, además se revisó su
funcionalidad por parte del equipo de la RMCAB.
9. Se reciben los registros históricos del 2013 para pasarlos como segundo conjunto de
prueba y observar los resultados de precisión con un porcentaje mayor al 75%.
4.2 Selección de los algoritmos
Para cada técnica de minería de datos, fue necesario realizar pruebas de cada algoritmo con
diferentes conjuntos (pequeño: 5.000 registros, mediano: 10.000 y grande 30.000 registros)
de datos para evaluar el desempeño y la precisión de cada uno de ellos por medio de métricas
probabilísticas y gráficos de precisión. También se tuvieron en cuenta los siguientes criterios:
1. El tipo de datos que soporta.
2. Cuales han sido los más populares por cada técnica.
3. Cuál es su estrategia con los datos para generar los modelos.
4. Si es robusto frente a outliers o variables independientes.
5. La estructura de datos para almacenar los registros.
Los algoritmos seleccionados para las reglas de asociación fueron: Apriori y PredictiveAprio-
ri. Algoritmo probado y rechazado: Tertius (desempeño muy bajo). Los algoritmos seleccio-
nados para Clasificación por arboles de decisión fueron: Arboles de decisión Microsoft. Al-
Página 33
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
goritmo probado y rechazado: J48 (resultados similares al de Microsoft y difíciles de exportar
a un archivo legible por el involucrado) y C.4.5 (resultados difíciles de entender).Los algorit-
mos seleccionados para Clustering fueron: K- means.
4.3 Generación de los Modelos de Minería
Este proceso se basó en la ejecución de los algoritmos, la selección de los atributos de entrada
y la configuración de paramentos cuyo proceso fue iterativo de acuerdo a su rendimiento.
Cada algoritmo de minería tiene una configuración de parámetros y atributos de entrada dife-
rentes, por ende se explica cada modelo generado en detalle.
4.3.1 Proceso para generar los modelos RAO3 y RAPM10
Estos modelos son los que implementan las técnicas de reglas de asociación por medio de los
algoritmos: Apriori y PredictiveApriori.
Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedían los
algoritmos y estudiar los posibles valores que dichos parámetros podrían tomar, además fue
necesario realizar un proceso de análisis y selección de las reglas generadas. La dinámica en
cuanto a ejecuciones de los algoritmos seleccionados se enfocó en la generación de reglas
detalladas y generales. Fue necesario realizar varias ejecuciones para cada conjunto de datos
que contienen el valor objetivo O3 y PM10. Se manejaron dos tipos de ejecuciones, donde
cada uno de ellos contenía algunos atributos de entrada distintos entre sí.
4.3.1.1 Selección de los atributos de entrada para los algoritmos
Como esta técnica permite seleccionar las reglas de asociación cuyas métricas de confianza,
soporte y mejora sean altas o bajas (dependiendo de la necesidad del problema) y gracias a
las correlaciones encontradas en la fase 2 entre las variables climatológicas y temporales con
los contaminantes O3 y PM10, se utilizaron la mayoría de los atributos con el fin de seleccio-
nar las reglas más interesantes. Los atributos seleccionados fueron: HoraPico, Hora, Clasifi-
cacionHora, Trimestres del Año, Mes, Lluvia, VelViento, RadiacionSolar, NOX, NO2 y tem-
peratura.
Página 34
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
4.3.1.2 Criterios para la selección de reglas de Asociación
Cada regla de asociación fue revisada con el fin de no encontrar los siguientes problemas:
reglas redundantes (con atributos que tienen el mismo sentido. Ejemplo: Mes, trimestre),
reglas obvias (reglas que reproducen éxitos pasados), reglas innecesarias (que tienen otro
atributo como consecuente, diferente al de cada contaminante), medida de Mejora ( lift) y Re-
glas con una confianza baja. Si la regla no cumple alguno de los criterios de selección, dicha
regla es descartada. La explicación de cada criterio de selección se encuentra detallada en el
anexo 2.
4.3.2 Proceso para generar los modelos CO3 y CPM10
Para crear estos modelos fue necesario utilizar las vistas minables con los atributos normali-
zados con el fin que los cálculos de distancia sean más precisos.
4.3.2.1 Selección de los atributos de entrada para el Algoritmo
El procedimiento realizado para la selección de atributos en ambos conjuntos de datos (cuyos
atributos objetivo son el PM10 y O3 ) se apoyó en la herramienta de SQL Analysis Services
con dos funcionalidades provistas por el mismo, gracias a la asesoría de expertos en el tema y
las correlaciones encontradas en la fase dos Entender los datos. Estas funcionalidades se en-
cargan de detectar los atributos que son más influyentes con el atributo objetivo. A continua -
ción se presentan las dos funcionalidades utilizadas:
Red de Dependencias de Microsoft: Esta herramienta contiene una opción de red de depen-
dencias, dicha red de dependencias analiza el conjunto de datos y muestra los atributos que
deberían pertenecer al conjunto de datos de entrada con el atributo predictor (que en este caso
sería el O3 o PM10) para obtener buenos resultados provistos por el algoritmo, teniendo una
certeza optima ya que se basa meramente en los registros históricos. Es importante recalcar
que para aplicar esta función se incluyeron todos los atributos iniciales y creados en la vista
minable.
Página 35
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Ilustración 7 Red de DependenciasFuente: Herramienta Visual Studio Data Tools 2010
Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en la red
de dependencias de ambos conjuntos de datos, lo cual según esta función, estas dos variables
no son buena opción para pertenecer en el conjunto de entrada de la técnica.
4.3.2.2 Ejecución del Algoritmo
Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales se
asignaron al componente de vista de origen de datos y fue necesario tener un proceso iterativo
con la configuración de los parámetros.
4.3.3 Proceso para generar los modelos CAO3 y CAPM10
Esta sección consistió en generar dos modelos de clasificación, que permita asignar registros
de los conjuntos de datos a los estados del atributo objetivo O3 y PM 10.
4.3.3.1 Algoritmo de Microsoft para Arboles de decisión
Una de las principales características por la que se escogió este algoritmo es que es robusto
frente al ruido de los datos y los atributos considerados independientes, aunque el ruido y la
calidad de los datos están controladas y tratadas en la fase de preparación de datos, es impor-
tante tener en cuenta esta característica para cuando otros trabajos de grado quieran escalar el
proyecto con otros conjuntos de datos. Otro aspecto importante por el cual se seleccionó este
algoritmo es por su facilidad de interpretar los resultados ya que contiene herramientas de
visualización muy fáciles de entender y de forma organizada, estas herramientas son creadas
por Microsoft.
Página 36
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
4.3.3.2 Selección de los Atributos de entrada
Se definieron los atributos de entrada utilizando tres criterios: el primero gracias a las depen-
dencias encontradas de algunos de los atributos de la base de datos con el atributo predictor
por medio de las correlaciones realizadas en la fase anterior, el segundo es gracias a la aseso-
ría de expertos en el tema y el tercero es por la funcionalidad de la herramienta Analysis Ser-
vices 2010 cuyo nombre es Selección de características.
4.3.3.2.1 Aplicación del método Selección de características para identificar los atributos de entrada
Esta función utiliza un conjunto de técnicas predeterminadas para aplicar de forma inteligente
la reducción de cardinalidad. El método eligió a los atributos que tienen una correlación sig-
nificativa con el atributo predictivo y tiene una probabilidad que indica su relación y la con-
fianza de que esos atributos seleccionados se usaran por el modelo. A continuación se mues-
tra el resultado de aplicar esta función en la construcción de los modelos con los dos conjun-
tos de datos:
Se puede observar que los atributos lluvia en ambos conjuntos de datos no tienen una relación
con el atributo objetivo. Cabe recalcar que el atributo RSG es el mismo RadiacionSolar.
Página 37
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
4.3.3 Evaluación técnica de los modelos
Este proceso se caracteriza por ser iterativo con el de generar el modelo ya que es importante
evaluar los modelos generados antes de presentarlos y/o implementarlos para uso de los ex-
pertos. La evaluación técnica realizada a los modelos es importante ya que esto evita que los
modelos generados arrojen reglas inútiles y ocasionen problemas de precisión y rendimiento
a la hora de utilizarlos. Este proceso se enfoca en la calidad y desempeño del modelo técnica-
mente, para esto fue necesario evaluar los modelos con los criterios establecidos (en el anexo
2 se encuentran en detalle estos criterios). A continuación se definen dichos criterios:
1. Se revisaron los gráficos de precisión (para modelos de Clustering y clasificación),
matriz de confusión (para modelos de clasificación) y métricas de confianza (para los
modelos de reglas de asociación) generados por el resultado de aplicar el conjunto de
prueba al modelo generado con el conjunto de entrenamiento. Si los resultados eran
precisos en más del 75% (valor definido por la herramienta), el modelo estaba listo
para ilustrar y analizar lo patrones generados [62].
2. Cada resultado provisto por cada técnica fue revisado por personas no expertas ni en
calidad del aire ni en minería con el fin de clasificar cuales técnicas tenían resultados
fáciles de interpretar y cuáles no.
3. Los resultados generados por cada técnica se compararon entre sí con el fin de encon-
trar patrones comunes para tener una confianza alta de las relaciones encontradas,
para esto también fue importante revisar que cada patrón generado tuviera una proba-
bilidad de predicción y/o de confianza superior al 60% que es lo sugerido para que un
patrón sea considerado confiable.
4. Los resultados deben tener sentido lógico (por ejemplo habían reglas que decían si el
O3=bueno → O3=bueno).
Página 38
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
5. Evaluar
Ilustración 8 Diagrama de procesos fase 5 alto nivelFuente: Autor por medio de la herramienta Bizagi
En esta fase se evaluaron los resultados generados por los modelos de minería de acuerdo al
contexto de calidad del aire, se definieron los resultados de precisión de los modelos seleccio-
nados cuyos resultados fueron generados por la herramienta Analysis Services, se definieron
los gráficos y documentación de análisis de los modelos seleccionados y se eligieron los mo-
delos (uno de cada contaminante) que iban hacer parte de la base de conocimiento del prototi-
po.
5.1 Evaluación de resultados
Este proceso consistió en analizar los resultados de los patrones comunes generados por los
modelos de minería con la directora del trabajo de grado experta en meteorología con ayuda
de algunos resultados generados por su tesis de maestría [83], la cual se basó en la creación
de modelos dinámicos en los que se arrojaron patrones que muestran relaciones entre las va-
riables climatológicas y los contaminantes tratados, comparando los resultados comunes de
dichos trabajos con los resultados provistos por el modelo de minería. Los resultados de los
modelos documentados (que se encuentran en el anexo 5) se presentaron a un experto en
calidad del aire quien está en proceso de revisión de los documentos. (Los resultados de la
validación de algunos patrones generados se encuentran en el anexo 7). Por el lado de la fun-
cionalidad del prototipo, se realizó una reunión con el equipo de la RMCAB quienes aproba-
ron su uso y formato (En la sección de resultados se encuentra los resultados de la califica-
ción de la visualización de los modelos escogidos y el prototipo).
Página 39
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
5.2 Comparar los modelos creados
Para la creación de la base de conocimiento que fue la base del prototipo fue necesario selec -
cionar dos modelos correspondientes a cada contaminante estudiado (PM10 y O3 ¿. En total
fueron 6 modelos de mineria de datos correspondientes a las técnicas de Agrupamiento, Re-
glas de Asociación y Clasificación (dos por cada técnica) que se generaron y se estudiaron
con el fin de cumplir uno de los objetivos principales que era la aplicación de técnicas de
minería en la contaminación, tres modelos tienen como atributo objetivo el O3 y los otros tres
el PM10.
Para cada uno de los modelos de minería, fue necesario realizar pruebas prácticas enfocándo-
se en criterios no funcionales con el fin de seleccionar los modelos más apropiados para crear
la base de conocimiento. Algunos de los criterios de evaluación son sugeridos por IBM y
Microsoft y los otros son definidos gracias a la recopilación de los trabajos de minería de
datos resueltos. Cada criterio de evaluación fue calificado en una escala de 1 a 10 teniendo en
cuenta que 1 es la puntuación más baja y 10 la más alta. Los modelos que no son selecciona -
dos quedan documentados con su proceso de creación y análisis de los resultados generados
en el anexo 4 y 5 respectivamente. A continuación se presenta el proceso realizado en cada
criterio de evaluación:
Criterio 1. ¿Los resultados son presentados con claridad y facilidad? :
Para evaluar este criterio fue necesario revisar los resultados que genera cada técnica de mi-
nería implementada y en especial los resultados de cada modelo. También fue importante el
concepto emitido por los de la RMCAB quienes entendieron los modelos de clasificación por
arboles de decisión con mayor facilidad.
Criterio 2. Facilidad de incorporar en la necesidad del prototipo:
Este criterio se evaluó de acuerdo a la funcionalidad del prototipo de alertas tempranas pla-
neado, donde la idea fue que de acuerdo a unos datos de entrada (que son datos de los atribu-
tos de los registros históricos), se estime el estado del contaminante junto con una probabili-
dad de confianza.
Página 40
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
En cuanto a los modelos pertenecientes a las técnicas de Clustering se pudo observar que la
salida que generan estos modelos de acuerdo a unos datos de entrada son: una medida proba-
bilística de asignación y el nombre del cluster al que se asignó ese registro de entrada, por lo
cual estos modelos no se acoplan fácilmente a la funcionalidad requerida.
Para los modelos pertenecientes a la técnica de reglas de asociación, la salida que generan los
modelos puede ser la adecuada al prototipo funcional, sin embargo hay reglas que obtuvieron
un porcentaje de soporte bajo (por debajo del 25%) y que no son significativas para el algorit-
mo aunque puedan ser importantes para el contexto del proyecto.
La salida generada por los modelos de árboles de decisión es la más adecuada para el prototi-
po, además la herramienta utilizada tiene facilidad para importar y generar la base de conoci-
miento de acuerdo a las especificaciones que tenga el usuario involucrado.
Criterio 3. Confiabilidad y precisión:
Para calificar los modelos por este criterio fue necesario revisar los gráficos de precisión, la
matriz de confusión de los modelos de clasificación y las métricas probabilísticas de mejora
de los modelos de reglas de asociación. Se compararon los modelos buscando los más preci-
sos por cada conjunto de datos correspondiente a los contaminantes.
Criterio 4. Rendimiento al ser escalable y calidad de resultados:
Se compararon los modelos generados por medio de diferentes tamaños de conjunto de datos
de entrada utilizando los registros históricos del año 1998 (que no se aplicaron como conjunto
de entrenamiento) y se dividieron en 3 partes: una con tamaño pequeño (5000 registros), me-
dio (15000 registros) y grande (30000 registros). Estos conjuntos se aplicaron a cada modelo
de minería, observando los tiempos de respuesta y la precisión de cada modelo, para observar
cual modelo se podría adaptar en cuanto a tiempos de respuesta de mejor forma en el momen-
to en que se quisieran aplicar los modelos a las demás estaciones diferentes a Puente Aranda.
Criterio 5. Tolerante a atributos no significativos:
Este criterio se definió para ser evaluado con el fin de que el proyecto sea escalable para en
futuros trabajos adicionar más atributos de entrada y ser aplicable a otras localidades de la
ciudad. Para esto se crearon modelos de prueba con los mismos parámetros y conjuntos de
Página 41
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
entrenamiento, con la diferencia que se agregaron atributos en los que no se encontraron rela-
ciones fuertes como lo son: lluvia y HoraPico. Después se observaron los resultados genera-
dos, las métricas de confianza y los gráficos de precisión para el caso de Clasificación y Clus-
tering.
5.3 Creación de la base de conocimiento
La base de conocimiento contiene información extraída de los modelos de minería de datos
seleccionados, esta información son las reglas seleccionadas y aprobadas con una clasifica -
ción de precisión alta donde se presentan todas las posibles combinaciones de los atributos de
entrada. Esta base de conocimiento de acuerdo a los registros de entrada consulta los modelos
de minería y genera como salida: la predicción de cada contaminante objetivo (el O3 y PM 10)
y la probabilidad de estimación que es calculada por el modelo de acuerdo a las relaciones
encontradas por el mismo.
Para crear la base de conocimiento fue necesario seleccionar el modelo de minería correspon-
diente a cada contaminante que iba hacer implementados y crear una tabla donde estuvieran
todas las posibles combinaciones de los estados de los atributos de entrada de los modelos,
estos recibieron el nombre de casos de prueba. Este procedimiento se hizo de igual forma
para los dos modelos seleccionados pertenecientes a cada contaminante, ya que sus conjuntos
de entrada eran distintos al igual que su resultado de predicción.
Después de tener la tabla con todos los casos de prueba creada en la herramienta SQL Server
Managent Studio por medio de la misma herramienta fue necesario conectarse a Analysis
Services (entorno donde se crearon los modelos ) y se realizó una consulta de predicción len-
guaje DMX (para modelos de minería de datos) asignando un origen de datos (que en este
caso es cada tabla con los casos de prueba) al modelo de minería de datos seleccionado, espe-
cificando que columnas de los atributos pertenecientes a los casos de prueba coinciden con
las columnas del modelo. Este procedimiento se realizó de forma independiente para los dos
modelos seleccionados. A continuación se muestra la consulta de predicción realizada al mo-
delo del contaminante O3:
Página 42
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Ilustración 9 Consulta de predicción al modelo CAO3Fuente: Autor por medio de Analysis Services
Después de realizar la consulta a cada modelo, los resultados (que son la predicción y la pro-
babilidad de predicción) se anexaron automáticamente como columnas a los casos de prueba
generando así la base de conocimiento para cada modelo seleccionado. Es importante recalcar
que previo a la creación de la base de conocimiento todos los modelos candidatos pasaron por
las pruebas de calidad y selección de patrones de acuerdo a los criterios anteriormente descri-
tos. En el anexo 6 se encuentra el script de la base de conocimiento.
6. Desarrollo
Ilustración 10 Diagrama de procesos fase 6 alto nivelFuente: Autor por medio de la herramienta Bizagi
El desarrollo de esta fase corresponde al anexo del código fuente de la aplicación creada, el
manual de usuario, manual de instalación y el manual de administración junto con una lista
Página 43
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
de los requerimientos funcionales y no funcionales sugeridos por la RMCAB y la directora
del trabajo de grado, además del documento de descripción de la arquitectura con el fin de
obtener un pronóstico de la concentración de O3 y PM10 de acuerdo a las variables tempora-
les y climatológicas de entrada.
6.1 Definir los requerimientos de la aplicación
Para levantar los requerimientos tanto funcionales como no funcionales de la aplicación a
desarrollar fue necesario hacer una reunión con la Ing. Blanca Oviedo y el equipo de la
RMCAB, donde se presentaron los modelos seleccionados junto con sus características fun-
cionales y de acuerdo con esto y la necesidad de la RMCAB se identificaron los requerimien-
tos que debía tener el prototipo para que en algún momento fuera útil para los stakeholders.
También se mostraron las herramientas con las que iba a funcionar la aplicación y sus limita -
ciones. La lista de los requerimientos se encuentra en el anexo 8.
6.2 Crear el prototipo de alertas tempranas
Para crear el prototipo se tuvieron en cuenta los siguientes aspectos:
6.2.1 Descripción de la aplicación
La aplicación fue desarrollada en java con el fin de ser usada en el futuro por entidades gu -
bernamentales en especial por la Secretaria Distrital del Ambiente, el gestor donde se encuen-
tra la base de conocimiento y donde se pueden realizar las consultas de minería de datos es
una versión exprés. En los anexos (8) manual de usuario, (9) manual de instalación y (10)
requerimientos se encuentra la información detallada del su funcionamiento.
La aplicación construida cuenta con 2 características importantes que son:
Pronóstico : Es una de las funcionalidades más importantes de la aplicación, la cual está
basada en los modelos de clasificación CAO3 y CAPM10 donde de acuerdo a unos paráme-
tros climatológicos y temporales dados se permite pronosticar el estado del contaminante de
Ozono y Material Particulado.
Página 44
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Alertas tempranas: Gracias al pronóstico se permitió crear cuadros de diálogos que de
acuerdo al estado del contaminante permite crear alertas a la sociedad para prevenir la exposi-
ción y las consecuencias que pueden causar estos contaminantes.
Visor de Red de Dependencias: Esta funcionalidad permite visualizar el estado de las varia-
bles más influyentes dado un contaminante y estado específico. Esta red de dependencias se
crea con base en los patrones extraídos comúnmente por las técnicas de minería aplicadas.
6.2.2 Arquitectura de la aplicación
La aplicación de alertas tempranas contiene información acerca de los modelos CAO3 y
CAPM10, dadas unos valores como entrada con el fin de que los stakeholders puedan realizar
consultas y análisis del estado de la calidad del aire en tiempo real. Esta arquitectura se deno -
minó MVC distribuida en capas donde se divide la presentación, las consultas y el modelo en
paquetes de desarrollo. En el anexo 9 se encuentra con detalle la descripción de la arquitectu-
ra de la aplicación y de cada uno de sus componentes. A continuación se presenta en la Ilus-
tración 11, la arquitectura de la aplicación:
Página 45
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Ilustración 11 Arquitectura global de la aplicación de alertas tempranasFuente: Autor por medio de la herramienta Enterprise Architect 7.5
6.2.3 Funcionalidad de la aplicación
La aplicación tiene 2 funcionalidades principal. La primera consiste en realizar un pronóstico
de acuerdo a unas variables de entrada ingresados manualmente por el usuario, dichos varia-
bles son las mismas que se definieron como atributos de entrada en los modelos de minería.
Cuando se ingresan los valores de las variables, estas pasan como parámetros a la consulta
que se realizara a la base de conocimiento, donde dicha base busca el caso de prueba especifi -
co y retorna el valor de predicción junto con la probabilidad de confianza.
Página 46
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
La segunda funcionalidad consiste en filtrar los contaminantes por su estado y de esta manera
se muestra un visor de red de dependencias con las variables más influyentes del estado del
contaminante seleccionado. Esta red de dependencias es sugerida por Microsoft para repre-
sentar relaciones entre variables con el atributo objetivo y contiene una probabilidad de con-
fianza en cada enlace. La red de dependencias es construida gracias al análisis de los resulta -
dos de los modelos pertenecientes a las técnicas de reglas de asociación, clustering y clasifi-
cación por arboles de decisión donde se extrajeron los patrones comunes de cada modelo y de
cada estado del contaminante, calculando la probabilidad de confianza de cada modelo para
cada patrón seleccionado. Fue necesario por cada modelo y estado de los contaminantes cal -
cular el promedio de probabilidad de confianza de la ocurrencia de ese patrón para luego
seleccionar los patrones cuya probabilidad era mayor a 0.55. En los anexos 10 y 12 se en-
cuentra en detalle la descripción de la aplicación.
6.3 Pruebas de funcionalidad
Se realizaron casos de prueba que dieran como resultado todos los estados que puede tomar
los contaminantes con el fin de evaluar si el prototipo está realizando de forma correcta las
consultas. Estos casos de prueba se extrajeron de los modelos CAO3 y CAPM10 y fueron
ejecutados una vez que la funcionalidad del prototipo está en un nivel de cumplimiento alto.
Si el primer caso de prueba se ejecuta sin retornar errores se procede a aplicar el caso de
prueba siguiente.
La descripción detallada de los casos de prueba y sus resultados se encuentran en el anexo 7.
IV - RESULTADOS Y REFLEXIÓN SOBRE LOS MISMOS
Para cada fase de la metodología se obtuvieron resultados que cumplieron satisfactoriamente
los objetivos específicos propuestos en capítulo 2.
1. Cumplimiento de los objetivos específicos
En esta sección se muestra un resumen de los resultados obtenidos a lo largo del proyecto,
cumpliendo así a cabalidad los objetivos específicos y por consecuencia el objetivo general.
Página 47
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
1.1 Objetivo Especifico 1: “Determinar la información de calidad del aire pertinente
para este proyecto, de acuerdo con los datos suministrados por la Secretaria Distrital de
Ambiente.”
Estado: Cumplido
Resultados Obtenidos: El desarrollo de este objetivo se enfocó en las fases 1 y 2 del proyec-
to, en donde se pudo identificar información relevante por medio de las correlaciones realiza-
das por el método de Pearson, la reunión con expertos en calidad del aire y meteorología, la
recopilación de bibliografía en especial tesis relacionadas con calidad del aire y con los atri -
butos de los registros históricos entregados por parte de la RMCAB, esto hizo posible que se
entendiera el contexto en el que iba a trabajar y la necesidad de utilizar minería de datos para
dicho contexto. El anexo 1 contiene toda la información detallada del auto-correlaciones y
correlaciones encontradas entre los atributos de la base de datos con los atributos objetivos
con el fin de conocer el comportamiento y las tendencias de los contaminantes a trabajar con
las variables meteorológicas. Se obtuvo los registros históricos con los contaminantes pro-
puestos en el objetivo general.
1.2 Objetivo Especifico 2: “Establecer una vista minable, enfocándose en los rezagos
en el tiempo que este acentuando la relación entre una variable y otra.”
Estado: Cumplido
Resultados Obtenidos: Se crearon 2 vistas minables por cada contaminante, donde cada una
tenía un tipo de datos distintos con el fin de aplicar las técnicas de minería seleccionadas (la
muestra de cada una de estas vistas se encuentra en el anexo 3), el enfoque de cada una de las
vistas minables fueron el crear variables derivadas en función del tiempo con el fin de obtener
resultados que muestren relaciones entre los contaminantes PM10 y O3 (que eran los atributos
objetivo) con variables temporales y meteorológicas. Los atributos pertenecientes a las vistas
minables pasaron por procesos de correlaciones con los contaminantes estudiados en función
de los rezagos horarios con 1 y 2 horas con el fin de que sea fácil para los modelos detectar
patrones y obtener una precisión útil.
Página 48
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Los resultados de las correlaciones realizadas entre los atributos de la vista minable con los
atributos objetivo tomando rezagos de 1 y 2 horas arrojaron que la relación entre las variables
descritas en la Tabla 4 Atributos y los contaminantes de O3 y PM10 es más fuerte con rezagos
de 1 hora que con 2. Pero sucede lo contrario con el atributo radiación solar ya que se puede
observar que entre más pasa el tiempo mayor es la influencia de la radiación solar con dichos
contaminantes. Otro aspecto a observar es que la lluvia no presenta una relación fuerte con
los dos contaminantes en ninguno de los rezagos y para el contaminante PM10 se puede ob-
servar que el NOX y NO2 no presentan una relación significativa. Esto hizo se tuvieran en cuen-
ta para la aplicación de alertas tempranas el uso de rezagos horarios. Este objetivo se desarro-
lló en las fases 2 y 3.
1.3 Objetivo Especifico 3: “Determinar los modelos apropiados de minería de datos
para buscar la relación entre las variables atmosféricas y los contaminantes.”
Estado: Cumplido
Resultados Obtenidos: Se crearon varios modelos pertenecientes a las técnicas de reglas de
asociación, agrupamiento y clasificación por árboles de decisión para cada atributo objetivo
que en este caso son el contaminante Ozono (O3 ¿ y Material Particulado (PM10), estos resul-
tados hicieron que se cumplieran los objetivos propuestos. Este objetivo fue desarrollado en
la Fase 3 y 4.
Es importante recalcar que los algoritmos de árboles de decisión utilizados para generar los
modelos son hechos por Microsoft, sin embargo se pueden implementar sin necesidad de
licenciamiento ya que estos modelos son personalizados y con un origen de datos en particu-
lar.
Para los modelos de PM10 creados con las técnicas anteriormente descritas, se pudo observar
que el modelo CPM10 perteneciente a la técnica de Clustering (Agrupamiento) no presentó
resultados provechosos ya que los grupos creados en el modelo contenían características si -
milares y no presentaban ninguna distinción significativa entre ellos, además el grafico de
precisión no fue acorde con el modelo ideal. Para los otros modelos CAPM10 y RAPM10 los
resultados fueron de utilidad, cumpliendo los objetivos propuestos para este contaminante.
Página 49
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Es importante recalcar que la mayoría de los resultados de los modelos del O3 y PM10 pre-
sentaron patrones comunes, lo cual permitieron afirmar las relaciones encontradas. A conti-
nuación se presenta una descripción de los modelos detallada de los modelos de minería se-
leccionados, sin embargo la mayoría de los patrones encontrados en estos modelos, se encon-
traron de igual forma en los modelos pertenecientes a las otras técnicas de minería de datos.
Patrones encontrados para el Ozono (O3)
A continuación se presenta una descripción general de los resultados encontrados por los
modelos, en especial el que se vinculó a la aplicación el cual recibe el nombre de CAO3. Se
presenta los trozos del árbol que tengan relación con la variable meteorológica y el contami-
nante enunciado.
Cada nodo del árbol contiene el nombre del atributo seguido de su estado categórico y un
histograma en la parte inferior que indica la distribución de los estados del atributo de predic-
ción (para este caso el Ozono), ordenado por popularidad y representado cada estado por un
color que los diferencie de los demás estados. Los colores y su respectiva categoría que repre-
sentan el estado del Ozono para el modelo son los siguientes:
Ilustración 12 Estado del atributo Ozono por colorFuente: Autor por medio de la herramienta Visual Studio Data Tools 2012
Es importante recalcar que para un mejor análisis de los resultados la categoría “bueno” se
clasifica como una concentración de O3 baja mientras que las categorías “Moderado” y ”Des-
favorable” como una concentración alta, según los informes de calidad del aire [11][12].
Patrones de relación entre el O3 y la temperatura
Los estados de la temperatura son la primera división del árbol de decisión (ver O3Ilustración
13 Porción del árbol que representa la relación entre el y la temperatura y esto quiere decir
Página 50
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
que la concentración de O3 tiene una correlación fuerte con la temperatura. La relación detec-
tada muestra que la concentración O3 es directamente proporcional con la temperatura.
Como se puede observar en la siguiente ilustración cuando la temperatura es catalogada como
frio comprendida entre 6 y 12 º C, el nivel de preocupación de O3 según la EPA es bajo con
una probabilidad de precisión del 99.9% y esto es debido a las épocas donde la atmosfera se
enfría ya que carece de radiación solar y como esta variable influye en su formación, hace
que la concentración de O3 disminuya. Esto se presenta con mayor frecuencia en las horas de
la noche y la madrugada
Cuando la temperatura se encuentra entre los 12.1 y 18 º C catalogada como menos tibio, la
concentración de O3 tiene una probabilidad de ser baja en el 92,30% y de ser moderada con
el 7,62%, sin embargo más adelante se puede observar que hay atributos que influyeron para
que la clasificación sea opuesta al estado bueno con una temperatura de menos tibio. Para la
temperatura mayor a los 18º C, la concentración de O3 es alta con una probabilidad de predic-
ción del 65% confirmando así su relación directa.
Ilustración 13 Porción del árbol que representa la relación entre el O3 y la temperaturaFuente: Herramienta Visual Studio Data Tools 2012
Patrones de relación entre la hora del día y la concentración de O3
En la siguiente ilustración que representa el modelo CAO3 y según los patrones comunes
generados por los otros modelos, el atributo clasificación Hora con los estados: madrugada
(entre las 12:00 am hasta las 4:00 am), mañana (entre las 5:00 am y 10:00 am), medio día
(entre las 11:00 am hasta las 2:00 pm), tarde (entre las 3:00 pm y 6:00 pm ) y noche (entre las
Página 51
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
7:00 pm y 11:00 pm) presentan una influencia fuerte con respecto a la concentración de O3
.En especial las horas clasificadas entre la madrugada y la noche, lo cual se puede observar
que la concentración de O3 es baja con una probabilidad promedio de precisión del 99,5% y
se presenta en temperaturas entre los 12 y 17 º C, esto se debe a las inversiones térmicas que
ocurren en las horas donde la atmosfera se enfría y hacen que se reduzca la dispersión vertical
de los contaminantes y por ende su concentración. Para las horas del mediodía, mañana y
tarde se puede observar una influencia importante de la temperatura y los trimestres del año
con la concentración O3.
Para la concentración de O3 alta, la clasificación horaria se presenta con mayor frecuencia en
el medio día, según los resultados del algoritmo PredictiveApriori (hecho por el modelo de
reglas de asociación) su mayor influencia es en las horas de las 12:00 pm, 11:00 am y 1:00
pm.
Ilustración 14 Porción del árbol que representa la relación entre la hora del día y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012
Patrones de relación entre los trimestres del año y la concentración de O3
En la siguiente ilustración se puede observar que los trimestres del año son dependientes de la
hora del día y la temperatura por estar clasificados con base en la climatología Colombiana,
donde los meses comprendidos entre diciembre y febrero corresponden al trimestre 1 y los de
Página 52
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
marzo hasta mayo al trimestre 2 y así sucede con los siguientes meses. Sin embargo a nivel
general y basándose en los patrones comunes de los otros modelos generados se puede obser-
var y afirmar que los trimestres 1 y 2 son los que presentan mayoría de valores extremos en la
concentración de O3 en especial cuando la temperatura es mayor a 18 º C y es el medio día.
Ilustración 15 Porción del árbol que representa la relación entre los trimestres y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012
Patrones de relación entre la velocidad de los vientos y la concentración de O3
Ilustración 16 Porción del árbol que representa la relación entre la velocidad de los vientos y el O3Fuente: Herramienta Visual Studio Data Tools 2012
La velocidad de los vientos a pesar de ser dependiente de las diferencias horizontales de la
temperatura, la hora, la radiación solar y los trimestres del año, se puede observar en la ilus-
tración (ver imagen 20) que corrobora los patrones concernientes a la relación entre la veloci-
Página 53
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
dad de los vientos con el O3, que dicha relación es inversamente proporcional. Se puede ob-
servar que para una velocidad de los vientos leve (entre 3.4 m/s y 5.2 m/s) se presenta un
nivel bajo de O3 ya que la velocidad de los vientos es uno de los componentes que influye en
la dispersión de los contaminantes y por ende su permanencia en una zona es poca lo cual
hace que la concentración sea baja. Mientras que para una velocidad de los vientos baja cata-
logada como suave (entre 1.8 m/s y 3.3 m/s) y ventolina (entre 0.6 y 1.7 m/s) hace que la
concentración O3 sea alta, ya que el contaminante permanece en capas bajas de la atmosfera
y no se transporta ni se dispersa. Sin embargo se puede observar que la influencia de los atri-
butos dependientes anteriormente nombrados es más fuerte que el de la velocidad de los vien-
tos ya que para una velocidad catalogada como moderada (5.3 m/s y 7.4 m/s) con una tempe-
ratura superior a los 18ºC (tibio), trimestres 1,2 y las horas del mediodía la concentración de
O3 tiende hacer alta. Según los informes de calidad del aire [11] [12] los vientos bajos se
presentan en horas del día y por ende la concentración de O3 suele en muchos casos ser alta.
Patrones de relación entre la radiación solar y la concentración de O3
Ilustración 17 Porción del árbol que representa la relación entre la radiación solar y el O3Fuente: Herramienta Visual Studio Data Tools 2012
Página 54
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
En la ilustración anterior y según los patrones comunes encontrados en los otros modelos de
minería de datos se puede afirmar que la radiación solar tiene una relación directamente pro-
porcional con la concentración de O3, es decir que entre más alta sea la radiación el nivel de
O3 es más alto, sin embargo esto no se ve en todos los casos ya que es dependiente de la hora,
la velocidad de los vientos, los trimestres del año y la temperatura. Esta relación tiene sentido
ya que la temperatura es dependiente de la radiación solar debido a que la tierra refleja el
55% de la radiación incidente y absorbe el 45% restante, convirtiéndose en calor y generando
una dependencia directamente proporcional de la temperatura hacia la radiación solar. Se
puede observar que cuando la temperatura es superior a los 18º C (tibio), los trimestres son
1,2 y las horas están catalogadas en medio día, la velocidad de los vientos no tiene mucha
influencia en la radiación solar y como el promedio del medio día de la radiación es 529,74
wm2 el O3 es alto con una probabilidad del 70%. Para la temperatura tibia en el trimestre 3, la
radiación solar no tiene una influencia significativa con en el O3 y por ende tiende a tener una
concentración baja con una probabilidad del 79%. Para las temperaturas inferiores a los
18ºC , los trimestres del año son los que más influyen en la radiación solar para determinar la
concentración de O3.
Página 55
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Patrones de relación entre NOX y la concentración de O3
Ilustración 18 Porción del árbol que representa la relación entre NOX y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012
En la Ilustración 18 se puede observar que el valor de NOX depende de los trimestres del año,
la velocidad de los vientos, la clasificación horaria y la temperatura. Es importante recalcar
que estas categorías fueron creadas por el add-in de Excel en minería de datos, así que dichas
categorías no tienen que ver con categorías de calidad del aire para el N OX. Para una tempera-
tura inferior a los 18ºC (menos tibio) entre las horas de la mañana y en los trimestres 1 y 2 se
puede observar una correlación con la concentración de O3, sin embargo dicha correlación
tiende hacer más fuerte tomando rezagos horarios que directamente ya que se puede observar
que a cualquier valor de NOX con las restricciones descritas anteriormente, la concentración de
O3 es baja. Para una temperatura superior e igual a los 18ºC (tibio), con trimestres del año 1,2
y horas entre la mañana o con vientos suaves (entre 1.8 y 3.3 m/s), el comportamiento del
NOX es inversamente proporcional con la concentración de O3.
Página 56
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Patrones de relación entre NO2 y la concentración de O3
Se puede encontrar una relación directamente proporcional entre el nivel de NO2 con la con-
centración de O3. Para una temperatura inferior a los 18ºC (menos tibio), entre las horas de
las 6 am y 10 am, los meses comprendidos entre marzo y mayo, la concentración de NOX entre
71,71 y 122,78 ppb y el valor de NO2 superior a los 100 ppb, la probabilidad de que el O3 sea
alto es del 69.23%. Para un NO2 (con las mismas especificaciones anteriores) inferior a los 53
ppb la probabilidad de que el O3 sea bueno es del 92.31%.
Ilustración 19 Porción del árbol que representa la relación entre NO2 y O3Fuente: Herramienta Visual Studio Data Tools 2012
Relación entre la lluvia y el contaminante O3
La lluvia no presenta ninguna relación significativa con la concentración de O3, ni tomando
rezagos horarios ni directamente, se pudo corroborar esta afirmación con los modelos perte-
necientes a cada técnica y las correlaciones de Pearson.
Patrones encontrados para el Material Particulado (PM10)
A continuación se presenta una descripción general de los resultados encontrados por los
modelos, en especial el que se vinculó a la aplicación el cual recibe el nombre de CAPM10.
Se presenta los trozos del árbol que tengan relación con la variable meteorológica y el conta-
minante enunciado.
Este modelo implementa la técnica de Clasificación utilizando el Árbol de decisión para el
atributo objetivo (a predecir) PM10. Este modelo representa las variables tanto climatológi-
cas como temporales que influyen en la concentración del contaminante PM10. El orden en
Página 57
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
que se presenta cada relación de este documento representa el nivel del árbol en orden ascen -
dente. A continuación se presenta la estructura del modelo CAPM10:
Los colores que representan el estado del atributo objetivo son los siguientes:
Ilustración 20 Estados del atributo objetivo por coloresFuente: Autor por medio de la herramienta Visual Studio Data Tools 2012
Patrones de relación entre la hora y el contaminante PM10
De acuerdo a los resultados del modelo de clasificación (ver ilustración 25) y después de
comparar los resultados provistos de los modelos de las técnicas de reglas de asociación y
agrupamientos, se percibe una relación significativa entre la clasificación horaria con la con-
centración de PM10, la siguiente ilustración representa el primer nivel del árbol de decisión y
se puede observar que para las horas de la noche, medio día y mañana la concentración de
PM10 es alta con un promedio mayor al 65% de probabilidad de clasificación, para las horas
de la tarde y la madrugada, la concentración de PM10 tiende hacer baja catalogada como
buena según la EPA.
Ilustración 21 Relación entre la hora y el contaminante PM10Fuente: herramienta Visual Studio Data Tools 2012
Página 58
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Patrones de relación entre la velocidad de los vientos y el contaminante PM10
Se puede observar en la siguiente ilustración que representa una parte del árbol que la veloci-
dad de los vientos, tiene una relación inversamente proporcional a la concentración de PM10 ,
sin embargo existe una influencia de la clasificación horaria y la radiación solar en la intensi-
dad de los vientos. Para la velocidad de los vientos catalogados como: calma (entre 0 y 0.05
m/s), ventolina (entre 0.6 y 1.7 m/s) y suave (entre 1.8 y 3.3 m/s), la concentración de PM10
es alta con una probabilidad de clasificación promedio del 75% y sus categorías son modera-
da (entre 55 y 154 µg/m3) y desfavorable (mayor e igual a 155 µg/m3). Para los vientos clasi-
ficados como leve (entre 3.4 y 5.2 m/s), moderado (entre 5.3 y 7.4 m/s) y regular (mayor a
7.4 m/s) la concentración de PM10 es baja y se encuentra catalogada como buena (menor a
54 µg/m3) con una probabilidad media del 60%.
Ilustración 22 Porción del árbol que representa la relación entre la velocidad de los vientos y el PM10Fuente: Herramienta Visual Studio Data Tools 2012
Página 59
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Patrones de relación entre la radiación solar y el contaminante PM10
La relación entre la radiación solar y la concentración de PM10 no es tan significativa y esto
se debe a que la radiación solar tiene menos incidencia con el PM10 que con el O3 [10]. Para
rezagos de 2 horas se puede observar una influencia de la radiación solar en la concentración
de este contaminante más fuerte que en horas directas como se presenta en el modelo. En la
siguiente ilustración se puede observar que la radiación solar es dependiente de la velocidad
de los vientos y la clasificación horaria, se puede observar que para las horas de la mañana
(entre las 6:00 am y 10:00 am) y en especial cuando la velocidad del viento es catalogada
como leve, la radiación solar puede tomar cualquier valor (mayor o menor a los 228 µg/m3)
y sigue manteniendo la concentración de PM10 alta con los estados moderado y desfavorable
teniendo una probabilidad promedio de clasificación del 85%. Para las horas de la madrugada
(entre las 12:00 am y 5:00 am) el promedio de radiación solar no existe y la concentración de
PM10 es de estado moderado con un 62,73% de probabilidad, pasa lo contrario con la radia-
ción solar mayor al promedio a las horas de la madrugada que no supera los 2 µg/m3 y la
concentración de PM10 es baja con una probabilidad del 70%.
Ilustración 23 Porción del árbol que representa la radiación solar y el contaminante PM10Fuente: Herramienta Visual Studio Data Tools 2012
Patrones de relación entre los trimestres del año y el contaminante PM10
Página 60
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Ilustración 24 Porción del árbol que representa la relación entre trimestres del año y el PM10Fuente: Herramienta Visual Studio Data Tools 2012
En la anterior ilustración que representa una parte del árbol se puede observar que los trimes-
tres del año dependen de la velocidad de los vientos y de la radiación solar. Para el trimestre 3
comprendido entre junio y julio se presenta con una probabilidad promedio de clasificación
del 65% que la concentración de este contaminante es alta presentando estados de moderado
y desfavorable. Los resultados de los otros modelos mostraron patrones más específicos acer-
ca de los trimestres del año, afirmando que el trimestre 1 (comprendido en los meses de di -
ciembre a febrero) que la concentración de PM10 es alta y los trimestres 3 y 4 tienen una
dependencia más fuerte con la velocidad de los vientos y la radiación solar.
Patrones de relación entre la temperatura y el contaminante PM10
La temperatura no tiene una fuerte influencia en la concentración de PM10 según los resulta-
dos de los modelos aplicados al PM10, sin embargo se puede observar en la siguiente imagen
que representa un trozo del modelo CAPM10 que la temperatura es depende de la hora, la
velocidad de los vientos y los trimestres del año para estimar la concentración de PM10. Se
puede percibir una relación directamente proporcional entre la temperatura con el contami-
nante ya que cuando la temperatura es menos tibio (entre los 12 y 18 ºC) la contaminación
tiende hacer alta con estados entre moderado y desfavorable con una probabilidad del 75%,
mientras que cuando es diferente del estado menos tibio, en especial el estado frio (menor a
Página 61
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
los 11 ºC, ya que según los patrones generados por los modelos RAPM10 y CPM10, en las
horas de la noche (entre las 7:00 pm y 11:00 pm) la temperatura no asciende a más de los 18
ºC ) la concentración de PM10 es baja con estado bueno.
Ilustración 25 Porción del árbol que representa la relación entre la temperatura y el PM10Fuente: Herramienta Visual Studio Data Tools 2012
Patrones de relación entre la lluvia y el contaminante PM10
La lluvia no presenta ninguna relación significativa con la concentración de PM10 , ni toman-
do rezagos horarios ni con relación horaria directa. Se pudo corroborar esta afirmación con
los modelos pertenecientes a cada técnica, las correlaciones de Pearson, la red de dependen-
cias y el método de Selección de características de Analysis Services de Microsoft. Si desea
ver todos los resultados en detalle consulte el anexo 5.
Patrones de relación entre los fines de semana y el contaminante PM10
No se percibe una relación entre el fin de semana y la concentración de PM10 y se puede
confirmar en la red de dependencia y el método selección de características de los modelos
CPM10 y CAPM10. En el anexo 5 se explica en detalles los resultados.
Patrones de relación entre el NOX y NO2 con el contaminante PM10
Gracias a los resultados arrojados en la red de dependencias, la función de selección de ca-
racterísticas, las correlaciones de Pearson y los modelos en especial los de árboles de clasifi-
cación, no se encuentra una relación entre el NOX y NO2 con el contaminaPM10.Los resultados
arrojados por los métodos se encuentran con detalle en el anexo 5.
Página 62
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Patrones especiales para el O3
En las horas pico (7:00 am, 5:00 pm y 8:00 pm) el O3 presenta un estado catalogado como
bueno y esto puede deberse a que en estas horas la radiación solar es baja.
Patrones especiales para el PM10
En horas pico el PM10 presenta valores altos que comprende las categorías: moderado y des-
favorable.
1.4 Objetivo Especifico 4: “Validar los resultados que provea el entrenamiento de los
modelos de minería de datos con los resultados esperados y seleccionar los modelos de
minería con más precisión.”
Estado: Cumplido
Resultados Obtenidos: Se evaluaron los modelos tanto teórica como experimentalmente,
seleccionando así un modelo por cada contaminante que fuera más apropiado que los demás.
Este objetivo fue desarrollado en la Fase 4 y 5.
En total fueron 6 modelos de minería de datos correspondientes a las técnicas de Agrupa-
miento, Reglas de Asociación y Clasificación que se generaron y se estudiaron con el fin de
cumplir uno de los objetivos principales que era la aplicación de técnicas de minería en la
contaminación, tres modelos tienen como atributo objetivo el O3 y los otros tres el PM10.
En el anexo 7 llamado Plan de Pruebas se encuentra en detalle la evaluación de cada uno de
estos modelos que afirmar su precisión aplicando el conjunto de prueba y la validación de los
resultados hechos por el experto en meteorología. En esta sección se presentan algunos de los
motivos de selección de los modelos CAO3 y CAPM10 que fueron seleccionados para imple-
mentar el prototipo.
Selección de los modelos de minería para el prototipo
A continuación se presenta una tabla con los modelos generados y estudiados en las fases
anteriores junto con la evaluación en cada uno de los filtros definidos por la metodología
CRIPS-DM. La evaluación se realizó en escala de 1 a 10, tomando 1 como el más bajo y 10
Página 63
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
la calificación más alta. Cabe recalcar que otro criterio de selección fue la evaluación de pre-
cisión de cada uno de los modelos frente al conjunto de prueba y métricas de confianza.
Tabla 7 Calificación de los Modelos de minería generadosFuente: Autor
Los criterios de esta clasificación se presentan en la sección de desarrollo y fueron califica-
ciones hechas con base en los resultados y pruebas prácticas realizadas. Como se observó en
la fase anterior los modelos CAO3 y CAPM10 pertenecientes a la técnica de árboles de clasi-
ficación fue la seleccionada de acuerdo a los criterios establecidos anteriormente y por su
característica de ser una técnica que cumple la tarea predictiva en la minería hace que el obje-
tivo general del presente proyecto se cumpla satisfactoriamente.
Evaluación de precisión modelo CAO3
Los gráficos de precisión resultantes de cada modelo se encuentran con detalle en el anexo 7
del plan de pruebas.
Matriz de Clasificación
En las siguientes tablas se muestra los resultados de la matriz de clasificación para el modelo
CAO3. Esta matriz determina si el valor de predicción realizado con el conjunto de pruebas
(los estados del contaminante O3 se representan en las filas) coincide con el valor real clasifi-
cado con el conjunto de entrenamiento (los estados se representan en las columnas).
Se puede observar que las 2 últimas filas de la matriz representan el porcentaje de falsos posi-
tivos y verdaderos positivos de cada columna.
Página 64
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Tabla 8 Matriz de clasificación del modelo CAO3Fuente: Herramienta Visual Studio Data Tools 2012
En la siguiente tabla se puede observar que el porcentaje total de falsos positivos no supera el
20% de los registros pertenecientes al conjunto de prueba, por lo cual el modelo es útil para
aplicar en el prototipo de alertas tempranas.
Tabla 9 porcentaje total de falsos positivos y verdaderos positivos del Modelo CAO3Fuente: Herramienta Visual Studio Data Tools 2012
Evaluación de precisión modelo CAPM10
Los gráficos de precisión resultantes de cada modelo se encuentran con detalle en el anexo 7
del plan de pruebas.
Matriz de Clasificación
En las siguientes tablas se muestra los resultados de la matriz de clasificación para el modelo
de Árboles de Decisión del contaminante PM10.
Tabla 10 Matriz de clasificación del modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012
Página 65
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
En la siguiente tabla se puede observar que el porcentaje total de falsos positivos no supera el
20% de los registros pertenecientes al conjunto de prueba, por lo cual el modelo es útil para
aplicar en el prototipo de alertas tempranas.
Tabla 11 Total de falsos positivos del modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012
1.5 Objetivo Especifico 5: “Crear un prototipo de Sistema de Información que se
integre con los resultados de los modelos de minería de datos seleccionada.”
Estado: Cumplido
Resultados Obtenidos: Se desarrolló un prototipo de alertas tempranas que consulta la base
de conocimiento creada por los modelos de minería seleccionados. Fase 5 y 6.
Funcionalidad de hacer pronóstico:
Esta funcionalidad permite el ingreso de los datos del clima y el tiempo que se quieran pro-
nosticar de forma manual. El sistema de información se conecta directamente con los patro-
nes de los modelos CAO3 y CAPM10 donde se producen los resultados del pronóstico. A
continuación se presenta la interfaz de pronóstico:
Página 66
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Pronostico por cada contaminante
Página 67
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Las columnas con el nombre Nivel de preocupación para la salud y % Probabilidad de Pre-
dicción son resultados generados por los modelos, los cuales se visualizan en la aplicación sin
ningún tratamiento.
Alertas Tempranas
El sistema de información tiene la funcionalidad de Alertas tempranas la cual se basa de
acuerdo al estado y el tipo de contaminante generado con los parámetros provistos. Las aler-
tas generadas son documentadas y basadas en las recomendaciones que hace la EPA para
casos específicos. A continuación se presenta la interfaz que se usa para las alertas tempranas:
Ilustración 26 Interfaz de alertas
El sistema de información además de las funcionalidades principales descritas contiene un vi-
sualizador de red de dependencias en el que el usuario especifica el contaminante y el esta-
do que quiere consultar para observar las relaciones más influyentes, además contiene las
series temporales que muestran el estado de los contaminantes con rezagos de más de 2 horas
con base en la hora seleccionada. Estas consultas hechas a los modelos de minería selecciona-
dos.
A continuación se presenta los resultados de la encuesta hecha al coordinador de la RMCAB.
Página 68
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Cumplimiento del objetivo general
El objetivo es cumplido en su totalidad ya que se aplicaron técnicas de minería de datos a
registros históricos confiables tomados por los equipos de la estación perteneciente a la
RMCAB, que capturan hora por hora datos del estado climatológico de la localidad y los
contaminantes O3 y PM10 y se detectaron patrones que definen los valores extremos de dichos
contaminantes. Estos patrones se presentan en un prototipo desarrollado que consiste en aler-
tar a la comunidad frente a eventos extremos de contaminación.
V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS
1. Conclusiones
Se observó que se pueden encontrar relaciones entre variables que responden a series de tiem-
po utilizando técnicas descriptivas y predictivas de minería de datos con el fin de extraer
patrones útiles para las personas interesadas en la calidad del aire.
Página 69
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
El objetivo general y los objetivos específicos se cumplieron a cabalidad y esto se ve refleja-
do en el desarrollo de cada fase metodológica.
Usando técnicas de minería de datos en especial clustering, clasificación y reglas de asocia-
ción, es posible encontrar patrones que representen relaciones entre variables como: la veloci-
dad de los vientos, la radiación solar global, el dióxido de carbono, el óxido de nitrógeno, la
temperatura, los trimestres del año y la hora del día con los contaminantes O3 y PM10.
Los tipos de datos entregados por la RMCAB de la localidad de Puente Aranda permitieron
adecuarse para aplicar técnicas de minería de datos y resolver problemas concernientes con
la calidad del aire.
Respecto a las técnicas de minería de datos, se comprendió la diferencia entre las reglas de
asociación, clasificación y agrupamiento junto con sus fortalezas y debilidades, dejando un
panorama amplio para el desarrollo de aplicaciones basadas en minería de datos.
Mediante técnicas de minería de datos es posible ver el comportamiento de variables climato-
lógicas con los contaminantes tomando rezagos horarios e involucrando la dinámica de la
ciudad como las horas pico o los trimestres del año.
Los modelos CAO3, CAPM10, RAO3, RAPM10 y CO3 son de utilidad para realizar pronós-
ticos de calidad del aire o investigaciones que involucren las actividades de alertas tempranas
para la ciudad de Bogotá, en especial la localidad de puente Aranda ya que sus resultados
arrojan una precisión correcta en más del 80% de los registros.
El modelo CAPM10 perteneciente a la técnica de Clustering para el PM10 no arrojo informa-
ción de utilidad y precisión, esto puede ser porque las distancias calculadas por el algoritmo
k-means entre los atributos no fueron significativos y por ende se crearon grupos con valores
muy cercanos entre ellos.
Se comprende que al aplicar varias técnicas de minería de datos a un mismo problema, hace
que se exploren los datos de formas diferentes, generando así un nuevo conocimiento y a su
vez la validación de cada resultado generado por una técnica con base en las demás.
Página 70
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Se puede realizar un sistema de información que haga pronóstico de los contaminantes PM 10
y O3 utilizando modelos de clasificación cuyo porcentaje promedio de clasificaciones correc-
tas es del 90%.
Se comprende el valor de la minería de datos en problemas de calidad del aire en especial de
la contaminación atmosférica y que hay mucho campo por explorar en especial por las locali-
dades contiguas a puente Aranda.
El sistema de información de alertas tempranas puede ser escalable y aplicable a otras locali -
dades de la ciudad que presenten las mismas condiciones climatológicas, siempre y cuando
no cambie la dinámica de la ciudad.
Calidad del aire
Se pudo observar que el ciclo anual de la concentración de los contaminantes O3 y PM10 tie-
nen una tendencia decreciente, es decir que el nivel de concentración ha disminuido a lo largo
de los años.
Se pudo observar mediante las auto correlaciones realizadas, que la concentración de O3 en la
hora actual tiende hacer dependiente de las horas anteriores y esto ocurre en especial en las
horas de la mañana, el medio día y la tarde y se debe a que la radiación solar a estas horas es
más fuerte que en las horas como la noche y la madrugada donde no se ve una dependencia
de la concentración del O3 significativa.
En cuanto a la concentración de PM10 no hay una dependencia tan significativa con la hora
anterior como lo fue para el O3 y esto puede ser por la característica de formación de este
contaminante ya que es primario.
Los contaminantes tienen una relación más fuerte con las variables climatológicas tomando
rezagos de 1 hora que con rezagos más altos.
A partir de las correlaciones observadas, se puede afirmar que hay una relación significativa
entre la concentración de O3 con los precursores NOX y NO2 principalmente con rezagos hora-
Página 71
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
rios de 1 hora y esto se debe a que el NOX y NO2 contribuyen a la formación del O3. Sucede lo
mismo con la temperatura.
Se encontró una relación significativa entre la radiación solar y la concentración del O3 to-
mando rezagos horarios de 2 horas, donde se observó que mientras más grande sea el rezago
horario, mayor tiene relación con la concentración de O3.
La lluvia no presentó una relación significativa con la concentración del O 3 y PM10 ni con
rezagos de 1 ni 2 horas.
Se pudo observar que la concentración del PM10 tiene una relación significativa con la tempe-
ratura tomando rezagos de 1 hora.
El PM10 no presenta ninguna relación significativa con el NOX y NO2 ni con 1 ni 2 horas de
rezago, por lo que se pudo observar que en los modelos de minería tampoco se encontró una
relación significativa.
1.3 Relaciones encontradas
Se pudo observar que el comportamiento anual de los contaminantes PM10 y O3, es decrecien-
te a medida que avanzan los años y esto se debe a los trabajos preventivos que se han realiza -
do en la SDA.
Se pudo observar que la concentración de O3 es altamente dependiente de la hora del día,
donde las horas comprendidas entre las 11 am y 2 pm, su concentración tiende hacer más alta
y esto se debe a que en estas horas la radiación solar y la temperatura son más intensas.
Los modelos CAO3, RAO3 y CO3 encuentran que el O3 está muy relacionado con la veloci-
dad de los vientos y esta relación tiene una tendencia hacer inversamente proporcional, donde
a menor velocidad de los vientos mayor concentración de O3. Sin embargo la velocidad del
viento muestra una dependencia entre la temperatura, los trimestres del año y la hora del día.
Los modelos CAO3, RAO3 y CO3 encuentran una relación directamente proporcional entre
la radiación solar y la concentración de O3, donde a mayor radiación, mayor es la concentra-
Página 72
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
ción del O3 y esto se debe a que la radiación es influyente en la formación del O3. La radia-
ción solar también tiene una dependencia directa con los trimestres del año, la velocidad del
viento, la hora del día y el NOX.
Existe una relación fuerte entre la temperatura y la concentración del O3, donde su tendencia
es directamente proporcional. En el modelo CAO3 se representa esta relación como la más
fuerte a diferencia de las relaciones encontradas con otras variables y esto se debe a que la
temperatura es dependiente de la radiación solar.
En los trimestres del año 1 y 2 (siguiendo la climatología Colombiana) la concentración del
O3 tiende hacer más alta que en el resto de los trimestres, donde dichos trimestres dependen
altamente de la temperatura.
Los modelos CAO3, CO3 y RAO3 presentan una relación con el NOX en especial en los tri-
mestres 1 y 2 donde se observa mayor probabilidad de que ocurran concentraciones de O3
altas.
El modelo CAO3 muestra una relación particular entre la concentración de O3 y la del NO2,
donde dicha relación es directamente proporcional.
Se presentó en el modelo RAO3 que en las horas pico (7 am, 5 am y 8pm) la concentración
de O3 es baja y esto se debe a que en estas horas la radiación solar no es tan fuerte como en
las horas del mediodía.
Mediante los modelos CAPM10 y RAPM10 se pudo observar que existe una relación fuerte
entre la concentración de PM10 y la hora del día, donde en las horas de la mañana (entre las 6
am y 10 am) y la tarde (entre las 3pm y 6 pm), dicha concentración tiende hacer muy alta.
Los modelos CAPM10 y RAPM10 encuentran que el PM10 tiene una relación significativa
con la velocidad de los vientos y su tendencia es inversamente proporcional, donde a menor
velocidad de los vientos mayor concentración de PM10. La velocidad de los vientos presenta
una relación fuerte con la hora del día.
Página 73
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Los modelos CAPM10 y RAPM10 encuentran una relación menos fuerte entre el PM10 y la
radiación solar y esto es debida a que la radiación solar tiene menos incidencia para este con-
taminante.
Los modelos CAPM10, CAO3, CO3, RAO3 y RAPM10 no encuentran una relación signifi-
cativa entre la lluvia y la concentración de los contaminantes PM10 y O3 y esto se debe a que
en la mayoría de los registros históricos se registraban lluvias escasas.
Los modelos CAPM10 y RAPM10 muestran que el trimestres del año 3 (entre junio y agos-
to), la concentración de PM10 es más alta que en el resto de trimestres del año y es altamente
dependiente de la hora del día y la velocidad de los vientos.
En las hora pico, el modelo RAO3 muestra que la concentración de PM10 es alta y esto se
debe por la emisión de combustible a esas horas.
Se pudo observar que por el comportamiento de los registros históricos en las técnicas de
minería de datos, el contaminante PM10 es más complejo en la extracción de patrones que el
O3.
2. Recomendaciones
La recomendación antes de decidirse a realizar un proyecto de minería de datos es investigar
si los datos a recopilar se entregarán fácilmente por parte de la entidad encargada o hay algún
riesgo de permisos al obtener estos datos. Si no hay riesgo, recopilar los datos con anticipa-
ción ya que estos trámites son demorados y pueden perjudicar el cronograma del proyecto.
Las recomendaciones para aplicar técnicas de minería a un problema de calidad del aire es
llevar un registro de la configuración de los parámetros, antes de generar los modelos de mi-
nería con el fin de que no se repitan la misma configuración más adelante y encontrar una
forma de validar estos resultados.
También es importante definir en la creación de la vista minable las técnicas que se van a
utilizar con el fin de acoplar la vista minable a cada técnica seleccionada, para que en la fase
de modelar no se tenga que devolver al paso anterior a cambiar la vista minable.
Página 74
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Dedicar la mayor parte del desarrollo del proyecto a la exploración y la preparación de los
datos ya que si esto se hace de forma inadecuada de ahí para adelante todo saldrá mal.
3. Trabajos Futuros
Actualmente el prototipo toma como datos de entrada: la velocidad de los vientos, la tempera-
tura, la hora del día, el mes del año, el NOX, el NO2 y la radiación solar. Se propone como tra-
bajo fututo analizar y si es el caso incluir como atributos de entrada tanto al modelo de mine-
ría como al prototipo la humedad relativa y los días de la semana (a petición de la RMCAB).
Actualmente el prototipo no se conecta remotamente a las bases de datos de la RMCAB que
contienen información de los registros históricos de las localidades de Bogotá en tiempo real
para realizar las predicciones de acuerdo a los modelos de minería de datos seleccionados. Se
propone solicitar anticipadamente un permiso a la red de monitoreo para obtener acceso a las
bases de datos de la RMCAB y conectarse directamente a Analysis Services para realizar
consultas a los modelos ya creados con un origen de datos externo.
Página 75
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
VI - REFERENCIAS Y BIBLIOGRAFÍA
[1] E.R.Rommel J.C. Júnior, D.Silva, R.R.Azevedo, and W.C.Veras, “Uma análise comparativa entre
algoritmos estadísticos de mineracao de dados,” Nov. 2008.
[2] D. Conti and F. J. M. de Pisón Ascacíbar, “Reglas de Asociación en Series Temporales: panorama
referencial y tendencias.”
[3] “A Guide to Air Quality and your Health,” pp. 1–16.
[4] J. F. R. Saldaña and R. G. Flores, “El proceso de descubrimiento de conocimiento en bases de
datos,” Ingenierías, vol. 8, no. 26, p. 37, 2005.
[5] S. Barrios Casas, F. Peña-Cortés, and S. Osses Bustingorry, “Efectos de la contaminación atmosfé-
rica por material particulado en las enfermedades respiratorias agudas en menores de 5 años,” Ciencia
y enfermería, vol. 10, no. 2, pp. 21–29, 2004.
[6] S. Ramos-Herrera, R. Bautista-Margulis, and A. Valdez-Manzanilla, “Estudio estadístico de la
correlación entre contaminantes atmosféricos y variables meteorológicas en la zona norte de Chiapas,
México,” Universidad y ciencia, vol. 26, no. 1, pp. 65–80, 2010.
[7] IBM, “Manual de minería Interna de la base de datos de IBM SPSS modeler 15,” 1994.
[8] J.Alargon, “Estadística y Minería de Datos: Similitudes y Diferencias,” p. 24, Feb. 2008.
[9] T. Scheffer, “Finding association rules that trade support optimally against confidence,” in Princi-
ples of Data Mining and Knowledge Discovery, Springer, 2001, pp. 424–435.
[10] J. Green and S. Sánchez, “La Calidad del Aire en América Latina: Una Visión Panorámica,” Was-
hington, DC: Clean Air Institute, 2013.
[11] A. M. de Bogotá, Informe anual de calidad del aire de Bogotá, año 2012. Bogotá, Secretaría
Distrital de Ambiente, 2008.
Página 76
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
[12] H.Ospino, D.A.Gomez, J.L.Lopez, N.A. Barahona, and A.T.Luengas, Informe Anual Calidad del
Aire de Bogotá 2008. Bogotá, Secretaría Distrital de Ambiente.
[13] M. A. Paredes-Farrera, K. Ramírez-Amaro, C. Bustillo-Hernández, and E. Castillo-Montiel,
“Comparación de modelos de predicción de Series de Tiempo,” Instituto Politécnico Nacional. Centro
de Investigación en Computación, 2008.
[14] S.C. Cooperación Ambiental, “Ozono Troposférico,” C.E.G Org, May 2009.
[15] María Aldehuela Lucena, “Análisis comparativo entre métodos estadísticos y de Minería de Da-
tos,” UNIVERSIDAD PONTIFICIA COMILLA, Madrid, España, 2005.
[16] N.J.Calderón, “Minería de Datos una Herramienta para la toma de decisiones,” San Carlos, Guate-
mala, México, 2006.
[17] Guillermo Gilberto Molero, “Desarrollo de un modelo basado en técnicas de Minería de Datos
para clasificar zonas climatológicamente similares en el estado de Michogan,” M.S, Universidad Na-
cional Atunóma de México, México, 2008.
[18] J.M.Molina, J.García, “Aplicaciones prácticas utilizando Microsoft Excel y Weka,” Carlos de
Madrid, Madrid, España, 2006.
[19] J.M.Rodríguez, “Clasificación de Series de Tiempo por Minería de Datos,” M.S, Politécnico Na-
cional, México, 2006.
[20] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C. Riquelme, “Mining quanti-
tative association rules based on evolutionary computation and its application to atmospheric pollu-
tion,” Integrated Computer-Aided Engineering, vol. 17, no. 3, pp. 227–242, 2010.
[21] P. Chausa Fernández, E. J. Gómez Aguilera, C. Cáceres Taladriz, F. García Alcaide, and J. M.
Gatell Artigas, “Extracción de Reglas de Asociación en una Base de Datos Clínicos de Pacientes con
Vih/Sida,” 2006.
[22] R.D.Lezcano, “Minería de Datos,” Universidad Nacional Nordeste.
Página 77
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
[23] M. Gaitán and B. Eduardo, “Evaluación del estado de la calidad del aire en Bogotá,” MSc thesis,
Universidad de Los Andes, 2009.
[24] M. Gorritty Portillo, “Pronóstico de concentraciones máximas diarias de ozono: caso estación
SEMAPA, Red MoniCA,” Revista Acta Nova, vol. 3, no. 2, 2011.
[25] J. H. Seinfeld and S. N. Pandis, Atmospheric chemistry and physics: from air pollution to climate
change. John Wiley & Sons, 2012.
[26] C. A. R. Varela, M. A. M. Rey, A. R. Varela, and L. D. A. Nieto, “Sistema Difuso Evolutivo para
la Predicción del Nivel de Contaminación del Aire por Material Particulado: Caso Puente Aranda (Bo-
gotá),” Ingeniería, vol. 17, no. 2, pp. 55–62, 2012.
[27] F. Herrera and J. R. Cano, “Técnicas de reducción de datos en KDD: El uso de Algoritmos Evolu-
tivos para la Selección de Instancias,” Actas del I Seminario Sobre Sistemas Inteligentes (SSI’06),
Universidad Rey Juan Carlos, Madrid, pp. 165–181, 2006.
[28] M. N. M. García, L. A. M. Quintales, F. J. G. Peñalvo, and M. J. P. Martín, “Aplicación de Técni-
cas de Minería de Datos en la Construcción y Validación de Modelos Predictivos y Asociativos a Partir
de Especificaciones de Requisitos De Software.,” in ADIS, 2001.
[29] J. H. Orallo, M. J. R. Quintana, and C. F. Ramírez, Introducción a la Minería de Datos. Pearson
Prentice Hall, 2004.
[30] J.H.Orallo, M.J.Ramirez, and C.Ferrari, Introducción a la Minería de Datos, 4th ed.
[31] “Correlaciones con SPSS.”
[32] D. M. Elsom, “Atmospheric pollution: a global problem.. ed. 2.,” 1992.
[33] S. E. Manahan, Environmental chemistry. CRC press, 2004.
[34] F. Berzal, “Reglas de asociación.”
[35] F. Berzal, “Clustering Clustering.”
Página 78
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
[36] Secretaria Distrital del Ambiente, “Red de Monitoreo de Calidad del Aire de Bogotá,” Bogotá.
[37] A. Pomares, “Reglas de Asociación y Patrones secuenciales,” Pontificia Universidad Javeriana.
[38] A. Pomares, “Preparación de datos,” Pontificia Universidad Javeriana.
[39] A. Pomares, “Clasificación,” Pontificia Universidad Javeriana.
[40] A. Pomares, “Clasificación Bayesiana,” Pontificia Universidad Javeriana.
[41] A. Pomares, “Clustering - Agrupación Automática,” Pontificia Universidad Javeriana.
[42] A. Pomares, “Minería de Datos,” Pontificia Universidad Javeriana.
[43] A. Pomares, “Ejecución de Proyectos de Minería de Datos,” Bogotá.
[44] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data Clustering: A Review,” ACM Comput. Surv., vol.
31, no. 3, pp. 264–323, Sep. 1999.
[45] J. R. Quinlan, “Induction of Decision Trees,” Mach Learn, vol. 1, no. 1, pp. 81–106, Mar. 1986.
[46] O. of A. US EPA, “Sobre la EPA.” [En línea]. Disponible: http://www.epa.gov/espanol/sobreepa/.
[Accedido: 27-Ene-2014].
[47] “Algoritmos de minería de datos (Analysis Services: Minería de datos).” [En línea]. Disponible:
http://msdn.microsoft.com/es-es/library/ms175595.aspx. [Accedido: 19-Feb-2014].
[48] I. Wilford Rivera, A. Rosete Suárez, and A. Rodríguez Díaz, “Análisis de Información Clínica
mediante técnicas de Minería de Datos,” RevistaeSalud.com, vol. 5, no. 20, Oct. 2009.
[49] W. Bach, Atmospheric Pollution, McGraw-Will. 1962.
[50] “CONTAMINACIÓN DEL AIRE,” El Colombiano.com. [En línea]. Disponible: http://www.el-
colombiano.com/BancoConocimiento/C/contaminacion_del_aire/contaminacion_del_aire.asp. [Acce-
dido: 11-Feb-2014].
Página 79
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
[51] “CONTAMINACIÓN EN PUENTE ARANDA.” [En línea]. Disponible: http://contaranda.blogs-
pot.com/. [Accedido: 11-Feb-2014].
[52] “En Colombia mueren seis mil personas al año por contaminación del aire, revela Ministerio de
Ambiente.” [En línea]. Disponible: http://www.caracol.com.co/noticias/ecologia/en-colombia-mueren-
seis-mil-personas-al-ano-por-contaminacion-del-aire-revela-ministerio-de-ambiente/20090717/nota/
846956.aspx. [Accedido: 11-Feb-2014].
[53] “Herramientas de gráficos de precisión de modelos (Analysis Services - Minería de datos).” [En
línea]. Disponible: http://technet.microsoft.com/es-es/library/ms174947(v=sql.105).aspx. [Accedido:
27-Mar-2014].
[54] Impacto de los desastres en la salud pública. Pan American Health Org, 2000.
[55] “Sistema de información Ambiental de Colombia - SIAC - Estudios de calidad del aire.” [En
línea]. Disponible: https://www.siac.gov.co/contenido/contenido.aspx?catID=466&conID=606. [Acce-
dido: 27-Mar-2014].
[56] “Algoritmos de minería de datos (Analysis Services: Minería de datos).” [En línea]. Disponible:
http://msdn.microsoft.com/es-es/library/ms175595.aspx. [Accedido: 07-Mar-2014].
[57] “Visualización o modificación de propiedades y reglas de desencadenadores.” [En línea]. Dispo-
nible: http://technet.microsoft.com/es-es/library/cc753161(v=ws.10).aspx. [Accedido: 17-Abr-2014].
[58] F. Martínez, “Análisis de las series temporales de los precios del mercado eléctrico mediante
técnicas de Clustering,” Universidad de Sevilla–España, http://www. lsi. us. es/docs/doctorado/mem
orias/Martinez,% 20Francisco. pdf.
[59] “Clasificación supervisada y no supervisada,” Advanced Tech Computing Group UTPL. .
[60] N. Y. R. Roa, E. E. Vega, and B. E. O. Torres, “Diagnóstico de la Red Meteorológica de Bogotá.”
[61] “Ver un modelo de minería de datos con el Visor de clústeres de Microsoft.” [En línea]. Disponi -
ble: http://technet.microsoft.com/es-es/library/ms174801(v=sql.105).aspx#BKMK_Diagram. [Accedi-
do: 27-May-2014].
Página 80
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
[62] “Matriz de clasificación (Analysis Services - Minería de datos).” [En línea]. Disponible: http://
msdn.microsoft.com/es-es/library/ms174811.aspx. [Accedido: 27-Mar-2014].
[63] “Algoritmo de árboles de decisión de Microsoft.” [En línea]. Disponible: http://msdn.microsoft. -
com/es-es/library/ms175312.aspx. [Accedido: 02-Abr-2014].
[64] “Selección de características (minería de datos).” [En línea]. Disponible: http://msdn.microsoft.-
com/es-es/library/ms175382.aspx. [Accedido: 13-Abr-2014].
[65] “Estructuras de minería de datos (Analysis Services - Minería de datos).” [En línea]. Disponible:
http://msdn.microsoft.com/es-es/library/ms174757.aspx. [Accedido: 09-Abr-2014].
[66] “Examinar un modelo usando el Visor de árboles de Microsoft.” [En línea]. Disponible: http://te-
chnet.microsoft.com/es-es/library/ms174503.aspx#BKMK_DecisionTree. [Accedido: 27-May-2014].
[67] “Prueba y validación (minería de datos).” [En línea]. Disponible: http://msdn.microsoft.com/es-
es/library/ms174493.aspx. [Accedido: 11-May-2014].
[68] “Air Resources Manager.” [En línea]. Disponible: http://201.245.192.252:81/. [Accedido: 22-
Mar-2014].
[69] A. Pomares, “Redes Neuronales y Algoritmos Genéticos,” Pontificia Universidad Javeriana, 2012.
[70] U. Nacional, “Introducción a las redes neuronales.” [En línea]. Disponible: http://www.virtual.u-
nal.edu.co/cursos/ingenieria/2001832/lecciones/cap_4/intro_rna.htm. [Accedido: 22-Mar-2014].
[71] “Clustering - Introduction.” [En línea]. Disponible: http://home.deib.polimi.it/matteucc/Cluste-
ring/tutorial_html/.[Accedido: 11-Mar-2014].
[72] “Ambiente Bogotá - Secretaria Distrital de Ambiente.” [En línea]. Disponible: http://www.am-
bientebogota.gov.co/. [Accedido: 19-Mar-2014].
[73] L. Aguilar. “Contaminación Ambiental”. [En línea].Disponible: http://contaminacion-ambiente.-blogspot.com. [Accedido: 02-Mar-2014].
[74] “¿Cómo se mide la concentración ambiente de ozono? - Ozono troposférico y calidad del aire -
Evaluación, análisis e interpretación de datos - Red Valenciana de Vigilancia y Control de la Contami-
nación Atmosférica - Calidad del aire - Calidad Ambiental - Conselleria de Infraestructuras, Territorio
Página 81
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
y Medio Ambiente.” [En línea]. Disponible: http://www.cma.gva.es/web/indice.aspx?nodo=57276.
[Accedido: 27-Feb-2014].
[75] B. E. Jiménez, La contaminación ambiental en México. Editorial Limusa, 2001.
[76] A. Hernández, “La participación ciudadana en Bogotá, 1990-2010,” Colombia Internacional, vol.
71, pp. 85–107, 2010.
[77] C. Saldiaz, R .Henao, G. Camacho, C. Orjuela, J.E. León, L.G Duquino. “Recorriendo Puente Aranda”. [En línea]. Disponible: http://impuestos.shd.gov.co/portal/page/portal/portal_internet_sdh/pu-blicaciones/Est_fis_pub/localidades_est_pub/RECORRIENDO_PUENTE_ARANDA.pdf. [Accedido: 27-Feb-2014].
[78] J. J. Castillo, Estimación de los beneficios en salud asociados a la reducción de la contaminación
atmosférica en Bogotá, Colombia. Bogotá CO, Observatorio Ambiental de Bogotá; 2010 [Internet]. .
[79] G. M. Torres, Y.Pinilla, Secretaría Distrital de Ambiente, “Plan Decenal para la Descontamina-
ción de la Calidad del Aire,” Diciembre de-2010.
[80] H. Camargo and M. Silva, “Dos caminos en la búsqueda de patrones por medio de Minería de
Datos: SEMMA y CRISP,” Rev. Tecnol, vol. 9, no. 1.
[81] “Diagnóstico y predicción de la contaminación atmosférica mediante la aplicación de técnicas de
minería de datos”. [En línea]. Disponible: http://www.upo.es/upotec/catalogo/energia-y-medioambien-
te/diagnostico-prediccion-contaminacion-mineria-datos/. [Accedido: 03-Sep-2013].
[82] M. García., A.S Cofiño, J. Fernández, J.M. Gutiérrez Santander Meteorology Group, “Predicción
Meteorológica Local: Métodos Dinámicos y Estadísticos,” Mayo 10.
[83] B. Oviedo, “ANÁLISIS DEL EFECTO DEL CAMBIO CLIMÁTICO EN LA DISPERSIÓN DE
OZONO Y MATERIAL PARTICULADO EN BOGOTÁ,” FACULTAD DE CIENCIAS, UNIVERSIDAD NACIONAL DE COLOMBIA, BOGOTÁ D.C., 2009
Página 82
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
VII - ANEXOS
En esta sección se presentan los anexos del documento memorias de grado, los cuales hacen
parte del proceso de desarrollo del trabajo de grado:
Anexo P. Post-Mortem
Este documento contiene el post- mortem del trabajo de grado, el archivo recibe el nombre
de: Anexo P.Post-Mortem.docx
Anexo M. Marco Conceptual
Este documento contiene el post- mortem del trabajo de grado, el archivo recibe el nombre
de: Anexo M.Marco Contextual.docx
Anexo 1.Documento Comprensión y Preparación de los datos
Este documento contiene el procedimiento de análisis y preparación de los datos para la cons-
trucción de la vista minable, el archivo recibe el nombre de: Anexo 1.Comprension y Prepa-
ración de los datos.docx
Anexo 2. Técnicas de Modelado y Diseño de Pruebas
Este documento contiene la justificación de la selección de las técnicas de minería y el plan
de diseño de pruebas para evaluar los modelos, el archivo recibe el nombre de: Anexo 2.Tec-
nicas de Modelado y Diseño de Pruebas.docx
Anexo 3. Muestra Vista Minable
Este archivo contiene los scripts de la muestra de la vista minable por cada técnica y atributo
objetivo, el archivo recibe el nombre de: VistasMinables.sql.
Página 83
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008
Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02
Anexo 4. Construcción de los modelos
Este documento contiene el procedimiento y la información con la que se construyeron los
modelos de minería, el archivo recibe el nombre de: Anexo 4.Construccion de los Modelos. -
docx
Anexo 5. Análisis de resultados de los modelos
Este documento contiene una descripción detallada de los resultados de los modelos genera-
dos, el archivo recibe el nombre de: Anexo 5.Analisis de resultados de los modelos.docx
Anexo 6. Base de Conocimiento
Este archivo contiene los patrones resultantes de los modelos de minería, recibe el nombre de:
Base de Conocimiento.sql
Anexo 7. Plan de Pruebas
Este documento contiene una descripción detallada de las pruebas realizadas a los modelos y
el prototipo, el archivo recibe el nombre de: Anexo 7.Plan de Pruebas.docx
Anexo 8. Requerimientos
Este documento tiene la lista de los requerimientos (priorizados) del prototipo de alertas tem-
pranas: Anexo 8.Plan de Pruebas.docx
Anexo 9. Doc. Descripción de arquitectura de software
Este documento contiene la descripción de la arquitectura que usa el prototipo, el nombre que
recibe el documento es: Anexo 9.SAD.docx
Anexo 10. Manual de Usuario
Este documento contiene la descripción completa para utilizar la aplicación: Anexo 10.Ma-
nual de Usuario.docx
Página 84
Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica
Anexo 11. Manual de administración
Este documento contiene una descripción paso a paso para realizar mantenimiento futuro a
los modelos y el prototipo: Anexo 11.Manual de Administracion.docx
Anexo 12.Manual de Instalación
Este documento contiene una descripción paso a paso para instalar el prototipo, el documento
recibe el nombre de: Anexo 11.Manual de Administracion.docx
Página 85
Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008