experimentos computacionales en un estudio de...

EXPERIMENTOS

COMPUTACIONALES EN UN

ESTUDIO DE SIMULACIÓN DE

MODELOS DE REGRESIÓN

PARA UNA MEJOR

COMPRENSIÓN DE LAS

HERRAMIENTAS RANDOM

FORESTS Y CONDITIONAL

TREES

SEPTIEMBRE 2016

Álvaro Rollón de Pinedo

DIRECTORES DEL TRABAJO FIN DE GRADO:

José Mira McWilliams

Francisco Javier Cara Cañas

TRABAJO FIN DE GRADO PARA

LA OBTENCIÓN DEL TÍTULO DE

GRADUADO EN INGENIERÍA EN

TECNOLOGÍAS INDUSTRIALES

Dedicatoria y agradecimientos

Es fácil mentir a través de la Estadística. Es imposible decir la verdad sin ella. AndrejsDunkels.

A mis padres, Eduardo y Myriam, sin cuyo apoyo constante jamás habría llegado hastaaquí.

A mi hermana Ángela, una de las principales razones por las cuales merece la penalevantarse por la mañana.

A mis tutores, José Mira y Javier Cara, y a la profesora Camino González, que entodo momento estuvieron disponibles para cualquier consulta.

A todos mis amigos, pero especialmente a Iván, Patricia Manchado, Alberto, Belén,Héctor, Nacho, Dani, Andrés, Víctor y Magda, que hacen que no haya día por el que nomerezca la pena ir a la Escuela. También quiero mencionar a Patricia Martín, uno de losejemplos en los que más me miro, y a Hua Chen, cuya ayuda en la redacción de este textoha sido inestimable.

Finalmente, a todos los profesores de esta Escuela que consiguen despertar las ganasde aprender y superarme a mí mismo, sean cuales sean las di�cultades a las que haya queenfrentarse.

1

2 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Resumen

El presente Trabajo de Fin de Grado tiene como objetivo fundamental la realizaciónde experimentos y simulaciones que permitan mejorar la comprensión que se posee de unade las herramientas estadísticas más potentes de las últimas décadas, especialmente enproblemas de regresión y clasi�cación, los Random Forests.

Descripción de Random Forest

Los algoritmos de Bosques Aleatorios surgen como la evolución natural de los modelosestadísticos de árboles individuales de decisión, entre los cuales se pueden destacar dosprincipalmente: CART y los Conditional Inference Trees. En base a estos dos modelosmás simples es posible construir dichos Bosques a través de una técnica conocida comoBagging (Bootstrap Aggregating), que permite mejorar la capacidad de los diversos algo-ritmos de Aprendizaje Automático, aumentando su estabilidad, reduciendo su varianza ypreviniendo el problema que supone el fenómeno del over�tting (sobreajuste) en casos enlos que se manejan grandes cantidades de datos.

Básicamente, el proceso consiste en tomar de manera aleatoria una cantidad determi-nada de variables (un subconjunto de todas las variables posibles) con las cuales construircada uno de los árboles individuales, realizándose con ellos una predicción concreta, queposteriormente será ponderada a través del cálculo de la media de cada uno de dichosárboles, para generar la predicción �nal del Random Forest.

Si bien es cierto que este proceder se ha demostrado válido en numerosas aplicacionesy tiene gran cantidad de ventajas, el hecho de que en muchos aspectos se comporte comouna caja negra a la que sencillamente se le introduce información y directamente aporteuna solución al problema, hace que conocer en detalle sus capacidades y característicasconstituya un problema considerablemente complejo. Para solventarlo, se realizarán unaserie de simulaciones programadas que permitan facilitar la comprensión de la herramien-ta.

Las pruebas que se irán realizando tendrán en cuenta diversos parámetros a modi�carpara posteriormente poder analizar la respuesta. En general, se generarán variables alea-torias de diferentes características y número de observaciones. Asimismo, dicho conjuntode variables en ocasiones se generará de tal manera que las mismas estén correlacionadas(variaciones en el valor numérico de las mismas tienen relación con variaciones de lasdemás) o sean totalmente independientes dependiendo del caso.

Asimismo, también se observará el efecto que tiene la introducción de ruido en elsistema, pudiéndose observar la adaptación de Random Forests a modelos deterministasy no deterministas.

3

Los modelos

Como es natural en cualquier problema de regresión, las variables dependientes sonel resultado de una serie de relaciones matemáticas entre las variables independientes oregresores que, en general, no son conocidas a priori.

Sin embargo, para facilitar la comprensión de los resultados obtenidos en los diversosexperimentos, se emplearán dos modelos relativamente sencillos, que son además muyempleados en el caso de la regresión: El modelo lineal múltiple y el modelo lineal múltiplecon interacciones de segundo orden entre las variales. El hecho de que en el segundo casono se hayan incluido interacciones de orden tres o superior obedece al hecho de que raravez en un proceso real se da dicha situación.

El primer modelo se puede representar (incluyendo el ruido) como:

y =n∑i=1

βixi + εi

mientras que el segundo, para un ejemplo de tres variables con ruido tiene la siguienteforma:

y = β0 + β1x1 + β2x2 + α1x21 + α2x1x2 + α3x

22 + ε

Los Experimentos

A lo largo de todo el documento se llevan a cabo gran cantidad de simulaciones. Sinembargo, los principales experimentos realizados para analizar la repuesta de los modelosde Random Forest son los siguientes:

Variación del número de variables: Una de las grandes ventajas de los árboles dedecisión es su gran capacidad para el manejo de enormes cantidades de datos y variablesy aun así proporcionar buenos resultados, característica que se quería comprobar en esteapartado.

En este tipo de experimentos se modi�cará la cantidad de variables (llegándose a loscentenares), y con el número de observaciones que se tiene de la misma. En general, seproporcionará poca información al sistema, de tal manera que la tarea de encontrar lasrelaciones entre las mismas resulte aún más complicado.

El haber procedido de esta manera permite comprobar cómo incluso el ajuste demodelos lineales (que teóricamente deberían arrojar resultados mucho mejores que losárboles de decisión en estos casos concretos), falla a partir de cierto punto en el que le faltademasiada información para ajustar un modelo correcto (problema de dimensionalidad).

Sin embargo, se comprueba que Random Forest se mantiene robusto pese a que estáclaramente desfavorecido en este caso.


EXPERIMENTOS PARA MODELOS DE ÁRBOLES

Un ejemplo en el cual se aprecia dicho fenómeno es el siguiente, realizado con unmodelo lineal sin interacción, con variables correlacionadas y con ruido:

Figura 1: Tasa de acierto en un modelo lineal sin interacción, con regresores correlaciona-dos y con ruido

Dimensionalidad: Si bien está claro que los algoritmos realizados con árboles dedecisión poseen una gran robustez a la hora de tratar con problemas en los que se poseepoca información, es decir, en los cuales o bien la información está muy dispersa o senci-llamente no hay su�cientes datos para tantas variables explicativas, al �nal todo modelomatemático está sujeto a este tipo de problema.

La intención de dicho experimento era forzar hasta tal punto al sistema que inclusolos modelos de árboles tuvieran complicaciones serias a la hora de abordarlos.

Tras diversas simulaciones, en las cuales se analizó la variación del MAPE1 se llegóa encontrar una relación exponencial entre la necesidad de observaciones de las variablesy la cantidad de las mismas, estando en todo momento dicha relación acotada por labisectriz del primer cuadrante, es decir, se necesitan más observaciones, como es lógico.

Para llegar a dichas conclusiones fue necesario analizar modelos de Random Forestque llegaron a estar construidos hasta con 3000 variables y observaciones (nueve millonesde datos).

Número de árboles: El número de árboles que se incluyen en el Bosque Aleatorioes uno de los parámetros más discutidos en cuanto a la in�uencia que pueden tener en laprecisión de las predicciones o la aparición de fenómenos como el sobreajuste.

En principio la metodología del Bagging2 resulta muy e�caz en estos modelos a lahora de evitar el over�tting, de modo que en principio un aumento del tamaño del bosqueúnicamente debería redundar en un aumento del coste computacional del análisis y quizáen un aumento de la precisión.

1Mean Absolute Percentage Error, medida del error típica en estadística.2Bootstrap Aggregating

Álvaro Rollón de Pinedo 5

En general se ha podido comprobar que Random Forest posee una fuerte resistenciaal sobreajuste y se produce una rápida convergencia hacia la solución con el aumento dedicho número.

Figura 2: Dependencia del MAPE con el número de árboles. Modelo con interacción de 3variables correlacionadas con ruido.

mtry : El parámetro conocido como mtry hace referencia a la cantidad de variablesque se emplearán a la hora de analizar cómo conseguir la mayor mejora posible de un de-terminado parámetro, como puede ser la ganancia de información según se va rami�candoel árbol.

En general, es considerado uno de los parámetros que más in�uyen en la calidad delRandom Forest que se ajuste a un modelo concreto, de forma que lo esperable es quehaya un gran sensibilidad de la precisión de las predicciones ante variaciones de dichoparámetro.

En los experimentos llevados a cabo en los cuales se varía elmtry, se analiza la respuestaque aportan los modelos a lo largo de todo el espacio de valores que puede tomar, tomandoun mayor o menor paso de análisis en función de la cantidad de variables y de observacionesconsideradas.

Conviene señalar que los valores de mtry recomendados para los casos de regresiónhan de oscilar en torno a

n

3para los casos de regresión y

√n para clasi�cación, siempre a

nivel teórico y siendo n el número de variables implicadas, de modo que resulta interesanteanalizar si la experiencia corrobora la teoría.

Importancia de variables: Se trata de un concepto complicado de de�nir peroque pretende expresar la relevancia que tienen los diversos regresores en la respuesta.Existen diversos métodos de medición indirecta de la misma, de modo que en función delcaso se intentará comprobar hasta qué punto los métodos implementados en los diversosalgoritmos a analizar se acercan a la relevancia ponderada que se puede asignar a cadaregresor dado que el modelo con el que se generan las repuestas es conocido a priori.



Intervalos de con�anza: Resulta una característica típica de la mayoría de docu-mentos relativos al comportamiento de Random Forest el análisis de la calidad de laspredicciones en función del error relativo (independientemente de cómo se mida), dejandode lado un aspecto fundamental del análisis estadístico en cualquier proceso de regresióno que implique problemas de predicción: la incertidumbre sobre la misma.

Se denomina intervalo de con�anza al número o dupla de número a partir del cual oentre los cuales es posible encontrar el parámetro estimado con una cierta probabilidad,de modo que se puede emplear como una medida de la incertidumbre.

En el caso de Random Forest, dichos intervalos serán construidos mostrando dóndese sitúa la predicción del conjunto respecto de la totalidad de predicciones de cada árbolindividual.

Un grá�co de ejemplo de cómo se pueden observar dichas predicciones e intervalos esel siguiente:

Figura 3: Intervalos de con�anza para predicciones con modelo lineal con 5 variables coninteracción.

Palabras Clave: Random Forest, Árboles de decisión, MAPE, Intervalo de con�anza,Conditional Inference Trees, Bagging, Aprendizaje Automático.

Códigos UNESCO:120304, 120326, 120903, 120904, 120909, 120914.


Índice general

Resumen 3

1. Introducción 13

1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.1. Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.2. Usos del Aprendizaje automático . . . . . . . . . . . . . . . . . . . 14

1.2.3. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.4. Máquina de Vectores Soporte . . . . . . . . . . . . . . . . . . . . . 16

1.2.5. Árboles de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.2.6. Maldición de la dimensionalidad . . . . . . . . . . . . . . . . . . . . 17

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.4. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. Herramientas empleadas 21

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2. Classi�cation and Regression Trees, CART . . . . . . . . . . . . . . . . . . 21

2.2.1. Principios básicos de CART . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2. La función impureza . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.1. Out Of Bag Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4. Over�tting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5. Validación Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.6. Importancia de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

9

ÍNDICE GENERAL

2.6.1. Incremento del Error Cuadrático Medio . . . . . . . . . . . . . . . . 32

2.7. Conditional Inference Trees . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.8. Paquete Estadístico R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.8.1. Funciones más empleadas . . . . . . . . . . . . . . . . . . . . . . . 35

2.9. MAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3. Experimentos con Modelo de Regresión Lineal Múltiple 39

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3. Aspectos a analizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.1. Parámetros que variar . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.2. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4. Experimentos Independientes . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.4.1. Cambio de variables Correlacionadas . . . . . . . . . . . . . . . . . 42

Modelo determinista . . . . . . . . . . . . . . . . . . . . . . 42

Modelo no Determinista . . . . . . . . . . . . . . . . . . . . 43

3.4.2. Cambio de variables no Correlacionadas . . . . . . . . . . . . . . . 44

Modelo Determinista . . . . . . . . . . . . . . . . . . . . . . 44

Modelo no Determinista . . . . . . . . . . . . . . . . . . . . 45

3.4.3. Búsqueda de la Maldición de la Dimensionalidad para los modelosde árboles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4.4. Dependencia del número de árboles . . . . . . . . . . . . . . . . . . 48

3.5. Experimentos con mtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.5.1. Variación de mtry con 100 observaciones . . . . . . . . . . . . . . . 51



3.6. Importancia de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.6.1. Experimento 1 de Importancia de Variables, 10 regresores y 50 ob-servaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.6.2. Experimento 2 de Importancia de Variables, 10 regresores y 150observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59



3.6.3. Experimento 3 de Importancia de Variables, 10 regresores y 300observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4. Experimentos con Sistema Lineal con Interacción 63

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3. Experimentos Independientes . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3.1. Cambio de variables Correlacionadas . . . . . . . . . . . . . . . . . 66


Modelo no determinista . . . . . . . . . . . . . . . . . . . . . 68

4.3.2. Cambio de variables no Correlacionadas . . . . . . . . . . . . . . . 69


Modelo no determinista . . . . . . . . . . . . . . . . . . . . . 70

4.4. Dependencia respecto del número de árboles . . . . . . . . . . . . . . . . . 70

4.5. Experimentos con mtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73




5. Intervalos de Con�anza 77

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2. Descripción de los Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.3. Experimento 1: 20 variables . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.4. Esperimento 2: 40 variables . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.5. Experimento 3: 60 variables . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6. Bibliografía 83

7. Conclusión y Líneas Futuras 85

7.1. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7.2. Líneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8. Plani�cación temporal y presupuesto 87


ÍNDICE GENERAL

8.1. Estructura de Descomposición del Proyecto (EDP) . . . . . . . . . . . . . 87

8.2. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

8.3. Presupuesto del TFG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

9. Bibliografía 93

Apéndices 93

Índice de Figuras 99

Índice de Tablas 101

Índice de Códigos 103


Capítulo 1

Introducción

1.1. Antecedentes

En un mundo en constante evolución, la revolución digital supuso un aumento extra-ordinario de la cantidad de información que la humanidad era capaz de generar. El año2002, en el cual la cantidad de datos digitales generados igualó a la de analógicos, eshabitualmente considerado el punto de inicio de la conocida como Era digital, y supusoun hito a partir del cual la generación y almacenamiento de información sufrieron uncrecimiento exponencial hasta el día de hoy.

Según Martin Hilbert, profesor de la Universidad de California, en el año 2007 la hu-manidad tenía una capacidad de almacenamiento de aproximadamente 300 exabytes1, locual equivale al número de estrellas en nuestra galaxia como bits por persona. Ese mis-mo año la humanidad trans�rió unos 65 exabytes a través de medios de comunicaciónbidireccionales. Naturalmente, estas cifras no han hecho otra cosa que incrementarse ma-sivamente los años posteriores, de tal manera que para poder hacer uso de tan tremendacantidad de información se hace imprescindible apartar los modelos de tratamiento dedatos tradicionales y recurrir a técnicas más modernas que permitan analizar tan colosalcantidad de información, conocida como Big Data.

1.2. Estado del Arte

A continuación se realizará un bosquejo del estado actual de la ciencia estadística ycomputacional, que en muchos casos se solapan en tanto en cuanto ambos campos estánespecialmente interesados en las técnicas de análisis de datos.

1.2.1. Machine Learning

El Aprendizaje automático, más conocido por su nomenclatura en inglés, MachineLearning es una disciplina computacional pertenciente al campo de la inteligencia arti�cial

13 · 1020 bytes

13

1.2. ESTADO DEL ARTE

cuyo objetivo primordial es la búsqueda de patrones en el análisis de un fenómeno a partirde una muestra aleatorizada de variables y respuestas. Asimismo, su característica másimportante es el diseño de programas capaces de aprender por ellos mismos a través dela experiencia de los datos previos analizados.

Por supuesto, esta idea general es en la práctica extremadamente complicada, pues enel momento en el que el input del sistema son centenares o incluso miles de variables, todasellas distintas entre sí, la variabilidad de posibles outputs del sistema es aparentementeimpredecible, razón por la cual los diversos algoritmos de Machine Learning se diseñande tal manera que todo el conocimiento que vayan adquiriendo se vaya convirtiendo enexperiencia que nutra al sistema y le ayude a aprender.

Cabe distinguir dos tipos generales de aprendizaje llevados a cabo por este tipo dealgoritmos: el conocido como Aprendizaje supervisado, en el cual el algoritmo se encargade establecer algún tipo de correspondencia (función) entre las variables de entrada y lassalidas asignadas. El otro caso típico es el de Aprendizaje no supervisado, en el cual elsistema es únicamente alimentado con variables de entrada, de tal manera que se vuelvecrítico reconocer los patrones establecidos entre los inputs. Naturalmente, existen otrostipos intermedios, como el Aprendizaje semisupervisado, en el cual solo se alimenta alsistema con un porcentaje de las respuestas totales conocidas, o el Aprendizaje median-te ensayo y error. Conviene señalar que el aprendizaje supervisado es el que está másorientado a las típicas labores de regresión y predicción estadística, pues es capaz de di-ferenciar qué conjunto de conclusiones es satisfactorio, mientras que el no supervisado esmás frecuentemente empleado en labores de clasi�cación de las variables suministradas alsistema, en base a patrones que el algoritmo pudiera ser capaz de reconocer.

1.2.2. Usos del Aprendizaje automático

Existen in�nidad de usos para las diversas técnicas deMachine Learning, como puedenser el modelado de funciones de densidad, empleo en optimización de problemas o, más enrelación con el presente trabajo, clasi�cación y regresión, las cuales se relacionan tambiéncon modelado de funciones de densidad de probabilidad condicionadas.

En el caso de Clasi�cación, dado un conjunto de variables de entrada y de salida(Aprendizaje supervisado), el objetivo es la asignación de una determinada categoría (losoutputs del sistema)a los nuevos datos que se pretenden clasi�car. Ahondando en la no-menclatura, en el caso del Aprendizaje Automático, las categorías que se asignan a lasvariables se suelen denominar Clases, mientras que las observaciones son más comúnmenteconocidas como Instancias.

En cuanto a la Regresión, se trata de un campo cuyo objetivo es encontrar la relaciónentre una variable dependiente escalar, en función de una serie de variables explicativas.Los modelos de regresión son ampliamente utilizados para multitud de aplicaciones, peroconviene destacar las más importantes. Primeramente, estos modelos pueden ser emplea-dos en labores de predicción, de tal manera que en base a las respuestas previamenteobtenidas por parte de las variables explicativas del conjunto de entrenamiento (trainingset), el sistema es capaz de predecir con mayor o menor precisión la posible respuestaa nuevas observaciones. Otro uso típico de los modelos de regresión es el estudio de larelación entre la respuesta y los regresores, en de�nitiva, el objetivo es el análisis de cómo



de importante es cada regresor a la hora de conocer la respuesta.

Entre los muchos modelos que existen, conviene destacar los siguientes, que asimismoson los más utilizados hoy en día.

1.2.3. Redes Neuronales

Las Redes Neuronales Arti�ciales (en inglés, Arti�cial Neural Networks) son un modeloestadístico de Aprendizaje automático que se inspira en los modelos de procesamiento ytratamiento de información de sistemas biológicos reales, si bien a una escala muchomenor.

La base de las mismas es la cooperación de conjuntos de nodos (neuronas) que perma-nentemente colaboran entre sí para dar respuesta al estímulo de entrada, de tal maneraque durante su etapa de aprendizaje (se le proporcionan al sistema las respuestas apro-piadas a los estímulos), la red va generando de forma autónoma su modelo neuronal. Esteproceder tiene la ventaja del almacenamiento de información redundante y contraste dela misma, de tal manera que en caso de que parte de la red maneje información errónea,el conjunto de la red es robusto ante errores, además de poseer una gran tolerancia antevariables de entrada no relevantes, o ruido.

A modo de resumen, la salida que cada neurona aportará a la siguiente será combi-nación de tres funciones. La primera de ellas es conocida como Función de Propagación,en la cual la salida será una combinación de las entradas multiplicada cada una de ellaspor un peso. En base a ella, la Función de Activación de la neurona puede o no actuarsobre la respuesta, para �nalmente aplicarse a la respuesta la conocida como Función deTransferencia, que acota los tipos de salida que se pueden obtener de cada neurona yfacilita la comunicación e interconexión entre ellas.

Figura 1.1: Esquema de una Red Neuronal


1.2. ESTADO DEL ARTE

1.2.4. Máquina de Vectores Soporte

Las Máquinas de Vectores Soporte (Support Vector Machines) son otro conjunto dealgoritmos de Machine Learning de tipo supervisado especialmente empleados en laboresde clasi�cación y regresión.

Intuitivamente, dado un conjunto de puntos que quiere ser sometido a una clasi�ca-ción, las Máquinas de Vectores Soporte (MVS) se encargan de encontrar una separaciónóptima entre dichos puntos, siendo cada conjunto de puntos pertenciente a una categoría.Generalmente, ello se consigue mediante la proyección de dichos puntos en subespacios dedimensión superior a la inicialmente considerada, de tal manera que se facilita la tarea deencontrar un hiperplano capaz de realizar la separación óptima entre las variables. Estaúltima es una de las características fundamentales de las MVS, ya que la cantidad deposibilidades de separación es in�nita. Al vector que está conformado por el conjunto depuntos más cercano al mencionado hiperplano es al que se conoce en la literatura comoVector Soporte. Típicamente las variables predictoras se denominan atributos, mientrasque al factor principal de clasi�cación se lo conoce como característica.

Conviene destacar la importancia de la proyección en subespacios de superior superiorde los atributos. La utilidad de esta metodología es que permite una separación muchomás e�ciente de las variables de otra manera no serían tan sencillas de separar como conun hiperplano (en dos dimensiones sería una recta, siendo muy complicado separar elconjunto de puntos de forma e�ciente con dicho elemento geométrico). Esta mencionadaproyección se logra a través de funciones conocidas como Kernel, entre las cuales se puededestacar la Polinomial/homogénea, o la Radial Gaussiana.

Figura 1.2: Esquema del funcionamiento de la función Kernel



1.2.5. Árboles de decisión

Los árboles de decisión son herramientas o algoritmos cuya �nalidad fundamentalradica en la toma de decisiones en base a criterios determinados en cada uno de sus nodosu "hojas", de tal manera que en función de las características que toma la entrada delsistema, se produzca una salida determinada en base a un criterio establecido.

Este tipo de algoritmos se analizarán en profundidad en capítulos posteriores.

1.2.6. Maldición de la dimensionalidad

La Maldición de la dimensionalidad es un concepto en realidad simple pero comple-tamente antintuitivo, razón por la cual tardó un tiempo considerable en ser contempladapor parte de la comunidad cientí�ca.

Se trata de un problema que se hace evidente en el momento en el que se procedeal manejo de gran cantidad de datos (Razón por la cual es importante tenerlo en con-sideración en todo tipo de temas relacionados con Big Data). Resulta que en el casode fenómenos que se pretenden explicar estudiando la variación de muchas variables, lacantidad de datos necesarios para que exista la posibilidad de ajustar un modelo va cre-ciendo exponencialmente con el número de variables. Ello supone un gran contratiempoen el momento en el que se sabe a ciencia cierta que un fenómeno depende de demasiadasvariables en comparación con el tamaño de muestra y la cantidad de datos de la que sedispone.

Debido a ello, la capacidad de medir de alguna manera la importancia de las variablesen función de las cuales quiere dar respuesta a un cierto caso resulta fundamental, parapoder seleccionar las menos relevantes y despreciar su efecto en el caso de que no sedisponga de un tamaño de muestra lo su�cientemente grande.

En general, la mayoría de algoritmos de aprendizaje son susceptibles de padecer enmayor o menor medida este efecto, y teniendo en cuenta que la mayoría trabajan con Bigdata, la robustez de los mismos ante el manejo de grandes cantidades de datos (necesariapara hacer viable el manejo de muchas variables), resulta una faceta importante a teneren cuenta a la hora de seleccionar qué algoritmo sería el óptimo.

Este problema de dimensionalidad, debido a su carácter antintuitivo, es frecuentementeexplicado a través de ejemplos sencillos. Uno típico es el siguiente:

Si se quisiera localizar una moneda en una linea de 100 metros en la carretera, noresultaría muy complicado, ya que solo sería necesario recorrerla hasta encontrarla y enpoco tiempo se podría. La posición de la moneda solo depende de la variable distancia,resulta un problema unidimensional. Si en cambio se extiende el conjunto posible depuntos en los que puede estar la moneda a un cuadrado de 100×100 metros, el mismoproblema de encontrar la moneda, con un número mayor de variables, no solo no resultamás sencillo sino que se complica, y lo mismo sucede en el caso de un cubo de dimensionesanálogas, de modo que la di�cultad del problema además es exponencial.

Por supuesto, dicho ejemplo no quiere decir que para explicar un fenómeno complejoque dependa de muchas variables lo idóneo sea seleccionar solo una de ellas, ya que las


1.3. OBJETIVOS

demás también aportarán información, sino que en el momento en el que la dimensiona-lidad del problema crece, el número de datos que se deben aportar también debe hacerlo,y de manera exponencial, para evita la contingencia de que la cantidad de datos de quese dispone sea insu�ciente.

1.3. Objetivos

El presente Trabajo de Fin de Grado tiene como objetivo primordial expandir el co-nocimiento que se tiene de una de las herramientas de análisis estadístico más utilizadashoy en día: los conocidos como Random Forest.

Si bien está claro que su potencial en el análisis y tratamiento de datos está más quedemostrado, aun no se ha llevado a cabo un análisis riguroso de algunas de sus capacidadesfundamentales y de cómo estos algoritmos manejan la información para obtener los buenosresultados que obviamente proporcionan.

Más especí�camente, este documento busca ayudar a mejorar la comprensión de losRandom Forest en algunas de sus aplicaciones más típicas, en particular la Regresióny el análisis de importancia de variables. Si bien está claro que un gran avance en lacompresión de esta herramienta no es sencillo de abordar en un proyecto de la dimensiónde un Trabajo de Fin de Grado, sí es posible mostrar un acercamiento a cómo analizarde forma exhaustiva el comportamiento de los Random Forest, así como aportar ciertasconclusiones o características interesantes que son únicamente abordables a través de lasimulación o la experiencia.

Otro gran objetivo es el análisis de la incertidumbre que este tipo de modelos arrojan ensus resultados. Actualmente, la inmensa mayoría de los usos de este tipo de herramientasestadísticas modernas se focalizan en la obtención de resultados muy concretos sin entrartanto a analizar la incertidumbre de los mismos. Parte del presente trabajo se centraráen la creación de intervalos de con�anza en cuanto a la calidad de las predicciones oclasi�caciones realizados con los diversos modelos que se analizarán.

Asimismo, es bien sabido que Random Forest, si bien es una técnica en general nodemasiado susceptible al tipo de variables que tenga que analizar, o al tipo de modelo (yasea simulado o real) que se aplica, sí es cierto que se han encontrado de�ciencias en sufuncionamiento en cuanto al sesgo que pueda llegar a tener por ciertos tipos de variableso con ciertos valores de sus parámetros. Es interesante comprobar hasta qué punto sucedeeste fenómeno o si es algo que sucede siempre o solo en algunos casos concretos.

1.4. Metodología

La metodología seguida es consistente a lo largo del trabajo, y se puede resumir encuatro puntos fundamentales:

De�nir el experimento de simulación a realizar.

Escritura del código en R.



Análisis de los resultados arrojados por parte del código y comprobación de suconsistencia para asegurar que no se han cometido errores.

Conclusiones sobre los resultados arrojados por el modelo y contraste con lo espe-rado.

Como es lógico, la complejidad de los modelos a analizar no debe ser excesiva, de talmanera que se facilite su análisis. Por ejemplo, no sería útil de�nir un modelo matemáticotan complejo que no fuera posible saber si los resultados que arroja el modelo son realistaso están sesgados de alguna manera. De igual forma, conviene que los experimentos arealizar tengan una solución de sobra conocida que permita contrastar los resultados.


1.4. METODOLOGÍA


Capítulo 2

Herramientas empleadas

2.1. Introducción

En el presente capítulo se dará una visión general del conjunto de herramientas, tantoestadísticas como computacionales, de las cuales se hará uso a lo largo del proyecto.La comprensión del funcionamiento de dichas herramientas es fundamental para poderrealizar un análisis exhaustivo y más o menos profundo de los resultados que se obtengan.

2.2. Classi�cation and Regression Trees, CART

Los Árboles de Clasi�cación y Regresión (CART por sus siglas en inglés,”Breiman,Friedman, Olshen, y Stone 1984”), son una técnica estadística no paramétrica que per-mite resolver con acierto problemas de clasi�cación en los que las variables implicadaspueden ser tanto continuas como discretas. El nombre que se asigna al árbol dependefundamentalmente de la naturaleza de la variable respuesta, de tal manera que en casode ser continua el árbol se denominará de Regresión, y en caso contrario de Clasi�cación.

En las propias palabras de Breiman: "Tanto en los casos de Clasi�cación como deRegresión, el principal objetivo de CART es producir un conjunto preciso de variables cla-si�cadoras que permitan descubrir la estructura predictiva del modelo en consideración".

En de�nitiva, CART es una herramienta cuya �nalidad fundamental es encontrar unarelación entre variables explicativas para dar respuesta a un cierto fenómeno.

El empleo de la metodología CART tiene ciertas ventajas frente a otros algoritmosde clasi�cación. Más concretamente, Breiman destaca los siguientes puntos frente a otrostipos de técnicas similares:

CART no realiza asunciones acerca de las posibles distribuciones de probabilidadde las variables independientes y dependientes, lo cual es extremadamente útil en elanálisis de sistemas reales.

Las variables explicativas pueden ser tanto continuas como discretas (categóricas).

21

2.2. CLASSIFICATION AND REGRESSION TREES, CART

CART no es afectado por los típicos problemas de los modelos paramétricos, comopueden ser la correlación entre las variables o la heterocedasticidad.

Es capaz de descubrir interacciones entre las variables explicativas.

Los árboles producidos con CART no varían ante transformaciones monótonas delas variables explicativas.

La principal ventaja de CART es que es capaz de lidiar con grandes cantidades devariables y datos, pudiendo distinguir qué variables son las más relevantes a la horade realizar el análisis.

La estructura de los árboles resultantes es intuitiva y de fácil comprensión paracualquier persona independientemente del campo de aplicación.

2.2.1. Principios básicos de CART

Según la doctora Jia Li, profesora de la Penn State University, la construcción de unÁrbol de Clasi�cación y Regresión depende de tres elementos fundamentales:

La selección de cómo partir un nodo.

En qué momento declarar a un nodo terminal o continuar partiéndolo.

La asignación de una clase a cada nodo terminal

Cumpliendo con lo anterior, un CART ya terminado debería tener un aspecto similaral siguiente:

Figura 2.1: Ejemplo sencillo de un CART

Así, para conseguir crear el árbol, será necesaria la generación de un conjunto depreguntas binarias que permitan moverse por una rama u otra, así como un criterio debondad de partición aplicable a todo nodo analizado. También es necesario establecer uncriterio de parada para decidir cuándo parar de partir los nodos, además de otro criterioque permita asignar una clase a cada nodo terminal.

Lo que se conoce como bondad de partición es medible a partir de la conocida comoFunción de Impureza (Impurity Function). Resulta bastante intuitiva la idea de que lo



más deseable es que cada nodo que se separe debe ser todo lo puro posible, es decir, que ala hora de asignar una clase determinada a un nodo terminal todos los datos ahí asignadosresulten ser muy homogéneos y de la misma naturaleza.

2.2.2. La función impureza

La función impureza (φ) resulta ser una medida indirecta de la llamada "pureza"decada nodo. Dicha función está compuesta por unas n-uplas de números: (p1, ..., pn) que

satisfacen: pj ≥ 0 yn∑j=0

pj = 1. Asimismo, debe cumplir las propiedades:

φ tiene un máximo único en (1

n, ...,

1

n)

φ solo tiene mínimos únicos en (1, 0, ..., 0), (0, 1, 0, ..., 0)...(0, 0, ..., 1)

φ es una función simétrica en pj, es decir, la permutación de cualquier par de pjdeja la función invariante

Así, dada una fución impureza φ es posible de�nir la impureza i(t) de un nodo t de lasiguiente manera:

i(t) = φ(p(1|t), p(2|t), ..., p(n|t))

donde p(j|t) es la probabilidad estimada de que a un nodo t le sea asignada la clasej. A partir de estas consideraciones, es posible calcular la pureza de los nodos asociadosa un CART, con lo cual es asimismo posible establecer una tasa de error de clasi�caciónen el árbol.

Existen tres funciones habitualmente empleadas como funciones de impureza en lamayoría de Árboles de Regresión:

Entropía:n∑j=0

pj log1

pj, y en caso de que pj = 0, emplear el límite: lım

j→∞pj log pj

Tasa de error de Clasi�cación:1−maxjpj

Índice de Gini:n∑j=1

pj(1− pj) = 1−n∑j=1

p2j

Existe bastante aceptación en torno al hecho de que el Índice de Gini es el que suelefuncionar mejor en la mayoría de los casos.

Como es lógico, la construcción del CART se va realizando empleando siempre elcriterio de que la función impureza elegida alcance un mínimo, y se va realizando laclasi�cación de variables con dicho objetivo, hasta llegar al árbol resultante con la máximapureza posible en los nodos.

Por supuesto, como ya se ha mencionado es imprescindible establecer un criterio deparada, pues si no sería posible por ejemplo seguir haciendo particiones hasta que en cadanodo hoja o terminal hubiera un único dato, de tal manera que evidentemente la pureza


2.2. CLASSIFICATION AND REGRESSION TREES, CART

de todos esos nodos sería del 100 %, pero resultaría en un árbol gigantesco de proporcionesinmanejables, que además no proporcionaría ninguna información, además de aumentarseostensiblemente el coste computacional.



2.3. Random Forest

Una vez entendidas las bases de cómo funciona CART y los árboles de decisión engeneral, es posible proceder a una explicación somera de las bases en las que se apoya elalgoritmo de Random Forest (Bosques o Selvas Aleatorios, aunque rara vez se los llamaasí) para realizar sus predicciones.

Primeramente, se genera un conjunto de árboles, de tal manera que la nueva observa-ción es aplicada a cada uno de dichos árboles y, mediante un proceso de "votación", a laobservación le es asignada la clase más votada. Conviene recalcar que no todos los árbolesse construyen de la misma manera, de forma que, en general, pueden arrojar resultadosdistintos.

Profundizando en la manera en la que el bosque es construido, cada árbol de decisiónse diseña así:

Dado un tamaño de muestra N , se escogen de esa misma muestra N datos deforma aleatoria, pero con reemplazamiento. Dicha metodología seguida de selecciónde muestras con reemplazamiento es lo que se conoce como Bootstrapping, y es unmétodo muy generalizado empleado tanto en Random Forest como en otras técnicasde Machine Learning.

DadasM variables de entrada, se escoge un número considerablemente inferiorm�M de variables para que en cada nodo se vayan seleccionando nuevas de formaaleatoria para buscar la mejor partición posible de cada nodo. El número de variablesm escogido es constante en todo el Random Forest.

Se genera cada árbol sin podar hasta la máxima extensión posible.

Teniendo estos factores en cuenta, según el paper original de Random Forest la tasade error de un Random Forest es dependiente de dos parámetros fundamentales:

La correlación existente entre árboles. A mayor correlación entre distintos árbolesdel bosque mayor será en general la tasa de error del algoritmo. Este problema espaliado en parte gracias a la aleatorización con la que se se toman las variablesexplicativas.

La fuerza de cada árbol individual. La existencia de árboles que aporten muchainformación mejora en general la capacidad predictiva del Random Forest.

Conviene tener en cuenta que ambos factores son muy sensibles a parámetro m, deforma que la disminuir su valor, se reduce sensiblemente la correlación entre árboles, peroes menos probable que aporten una mayor cantidad de información de manera global.

Existen diversas razones por las cuales los Random Forest son tan ampliamente em-pleados actualmente, entre las cuales cabe destacar:

Es uno de los algoritmos existentes más precisos.

Es capaz de manejar cantidades enormes de datos y variables.

Puede arrojar resultados de importancia de variables en la clasi�cación.


2.4. OVERFITTING

Sigue siendo capaz de realizar aproximaciones relativamente precisas aun descono-ciendo parte de la información.

Es capaz de captar la interacción entre las distintas variables explicativas.

2.3.1. Out Of Bag Error

El Out Of Bag Error (OOB) es un concepto de error aplicado generalmente a losdiversos algoritmos que emplean el modelo de toma de muestras con reemplazamientoconocido como bootstrapping. Para cada conjunto de variables, el OOB representa el errorcometido por el conjunto de árboles que no contienen esas determinadas variables, y porlo tanto no las tienen en cuenta a la hora de realizar sus particiones nodales.

En el caso de Random Forest, es típico observar un decremento continuado del OOBcon el aumento del número de árboles generados, llegándose en general a un valor asin-tótico al llegar al orden de centenares de árboles, por lo que la mayoría de los programasque manejan los Random Forests tienen un número determinado de árboles que generanpor defecto, para reducir el coste computacional de los cálculos y simulaciones, ademásde evitar incurrir en otros peligros como el over�tting.

Una representación de la reducción del OOB error en un modelo ejemplo de RandomForest es la siguiente:

Figura 2.2: Ejemplo sencillo de la disminución del OOB con el número de árboles

2.4. Over�tting

El concepto de over�tting (sobreajuste), es un término comúnmente empleado en al-goritmos de Machine Learning y estadística en general. En ambos ámbitos es típica lanecesidad de tener que ajustar un modelo estadístico a un conjunto de variables explica-tivas, de tal manera que siempre se busque un ajuste todo lo preciso que se pueda.



Sin embargo, dependiendo de los procedimientos que se empleen o el tipo de mode-lo que se ajuste a un determinado conjunto de datos, así como el ruido que los mismospuedan tener, es posible terminar con un modelo que se ajuste con mucha precisión a losdatos de partida, pero que resulte incapaz de predecir cualquier conjunto de valores quese hallen fuera de dicho intervalo de actuación. Ello resulta en el concepto de Over�ttingo Sobreajuste. Se trata de un concepto muy similar al conocido problema de interpola-ción polinomial por el cual en numerosas ocasiones ajustar un polinomio de grado muygrande resulta en valores ridículos fuera del intervalo de actuación de las variables que seemplearon en la generación del modelo.

Existen diversas técnicas generales que permiten subsanar este problema común, comola poda de los árboles, obligándoles a aportar una ganancia mínima de información parapermitir la partición de un nodo, técnicas de variación cruzada etc.

En el caso de Random Forest, por la forma en la que está diseñado el algoritmo, esconsiderablemente improbable que se produzca el fenómeno de over�tting, sin embargo,dependiendo del número de variables que se empleen en la creación de los árboles (antesdenotado por la letra m), o incluso en función del número de árboles que se generen,existe la posibilidad de que se produzca dicho fenómeno, si bien es un tema sobre el queprecisamente se quiere investigar en este trabajo. También es conocido el aumento de latendencia al sobreajuste por parte de los modelos estadísticos ante la falta de datos, deforma que si existe una ausencia severa de los mismos, aumenta la tendencia.

Un buen ejemplo es el típico caso ofrecido por Mathworks,Inc. en el cual se muestra có-mo el ajuste de un polinomio de primer grado ofrece unos resultados razonables en cuantoa la variación poblacional de EEUU, mientras que un modelo parabólico se aproxima aúnmejor, pero al intentar ajustar un polinomio de grado 6 la curva presenta valores absurdosfuera del intervalo de los datos aportados:

Figura 2.3: Caso de over�tting en el modelo poblacional de EEUU


2.5. VALIDACIÓN CRUZADA

2.5. Validación Cruzada

La Validación Cruzada (Cross Validation) es una técnica empleada en el manejo degrandes cantidades de datos cuya �nalidad es garantizar la independencia de los resul-tados obtenidos a la hora de realizar una partición de los datos empleados como set deentrenamiento y prueba, típicamente conocidos como training set y test set. Resulta muyútil en la generación de algoritmos de inteligencia arti�cial o Aprendizaje Automático, yaque permite comprobar que los resultados que se obtengan sean en general independientesde la muestra elegida.

Este método consiste en una variación del llamado Holdout method, por el cual dadauna muestra de datos, éstos son separados en dos conjuntos de datos bien diferenciados,los ya mencionados training set y test set. El modelo que se desea generar se hará em-pleando únicamente los datos contenidos en el set de entrenamiento, para posteriormenteveri�car los resultados de las predicciones con el set de prueba, ya que en este conjuntode información son conocidas las variables de entrada y las respuestas que éstas generan.

Como es lógico, este proceder es válido únicamente en el caso del Aprendizaje super-visado.

Sin embargo, si bien es cierto que el Holdout method es una técnica práctica a lahora de analizar datos, resulta inconsistente por sí mismo, ya que no hay manera degarantizar que no haya sesgo o independencia a la hora de elegir las variables con lasque se generará el modelo. Dicho problema se puede paliar parcialmente aleatorizando lamuestra antes de elegir qué conjuntos de variable explicativas y respuesta formarán partedel test de entrenamiento (procedimiento que por otra parte se seguirá a lo largo de todoeste Trabajo de Fin de Grado).

En cualquier caso, para asegurar la independencia de los resultados obtenidos de lamuestra, la manera más sencilla y práctica de conseguirlo es mediante la validación cru-zada. Existen dos tipos fundamentales de Cross validation, siendo el primero de ellos elque, por su mayor sencillez y claridad el que se empleará en este documento.

Ambos modelos se engloban en lo que se conoce como validación cruzada no exhaus-tiva, que es con mucho el tipo más empleado. El otro tipo, la validación exhaustiva,tiene un coste computacional en general más alto, ya que contemplan todas las posiblescombinaciones de datos a la hora de realizar el muestreo.

K-fold cross validation : Este tipo de validación cruzada consiste en dividir lamuestra completa en K subconjuntos, de manera que en cada ocasión se elegiráuno de dichos subconjuntos, que constituirá el conjunto de prueba, mientras queel modelo a considerar se generará con el resto de subconjuntos. Será necesariorepetir este proceder con cada uno de los K subconjuntos seleccionados, de maneraque el trabajo a realizar es mucho mayor, ya que será necesario generar K vecesmás modelos que lo inicialmente previsto. Una vez se tienen en cuenta todos losmodelo creados con este proceder, lo más común es utilizar la media aritmética delos resultados para obtener los valores que se querían predecir.



Figura 2.4: Esquema del proceder empleando K-fold validation

Validación cruzada aleatoria: Es una manera de proceder menos empleada peroque también arroja buenos resultados en general. En este caso, en vez de aletorizarlos datos y dividirlos en secciones, primero se aleatoriza y posteriormente, se selc-ciona qué datos pasarán a formar parte del set e entrenamiento también de maneraaleatoria. Por supuesto, será necesario de�nir qué cantidad de datos (en número)van a formar parte de cada conjunto de entrenamiento, así como el número de itera-ciones que se pretende realizar. Surgen cierto problemas derivados de este proceder,como por ejemplo que existe una probabilidad alta de solapes entre training set ytest set, además de que habrá muestras evaluadas repetidas veces y otras que senci-llamente no se tendrán en cuenta. Dicho problema se puede abordar aumentando elnúmero de iteraciones, pero ello conlleva como contrapartida el aumento del riesgode over�tting.

Figura 2.5: Ejemplo de lo anterior con 3 iteraciones


2.6. IMPORTANCIA DE VARIABLES

2.6. Importancia de variables

El concepto Importancia de variables es quizá uno de los más habitualmente empleadosen campos estadísticos como problemas de regresión o clasi�cación, y sin embargo siguesiendo uno de los más complejos de de�nir y sobre todo de medir.

A grandes rasgos el análisis de la Importancia de variables pretende expresar cómovaría la variable dependiente (normalmente denotada por Y ) ante cambios en las variablesde entrada (las X), buscando en cierta forma expresar la sensibilidad de la respuesta antecambios en los inputs.

Sin embargo, aunque conceptualmente resulte una idea sencilla de asimilar, resultatremendamente complejo medir dicha dependencia debido a la multitud de factores quein�uyen.

Probablemente la manera más ilustrativa de explicar dicha di�cultad sea con un ejem-plo práctico sencillo, pero que permite dar una idea de la magnitud del problema.

Supóngase un modelo de regresión lineal básico como el siguiente:

y = β0 + β1x1 + β2x2 + εj

En este caso, sin tener en cuenta los residuos, se puede a�rmar que la variable respuestay depende de cinco factores: β0, β1, x1, β2, x2. Un análisis de importancia de variables típicopretendería establecer cuál de las dos variables explicativas, x1 o x2, tiene más peso enla respuesta del modelo. La primera consideración que se tiene es bastante intuitiva,la importancia de cada una de las variables será función de los valores que tomen suscoe�cientes, ya que si, por ejemplo, β1 fuera diez veces mayor que β2, los valores quepudiera tomar la primera variable sería mucho más importantes que los de la segunda,que en ciertos casos podría incluso considerarse como irrelevante.

En el siguiente ejemplo simulado, ambas variables explicativas toman valores aleatorioscomprendidos entre cero y diez mediante una distribución uniforme, mientras que loscoe�cientes β1 y β2 toman respectivamente los valores 10 y 1, de tal manera que la mayorin�uencia en la respuesta se asigna a la variable x1. En este ejemplo, se ha representado enazul el valor �real� de la respuesta, mientras que en negro se representa el mismo modelopero sin considerar el valor de la variable x2, como si β2 = 0, mientras que en rojo apareceel caso inverso, en el cual no se considera la primera variable explicativa. En este casoresulta sencillo a�rmar que x1 es la variable más signi�cativa, pero no es tan sencillocuanti�car dicha relación.



Figura 2.6: Variación de la respuesta ante alteraciones del modelo

Asimismo, existe otra posibilidad, que es que el rango de variación de los valores quetoman las variables sea muy dispar, por ejemplo, variando una entre 0 y 10, y otra entre 103

y 105, con lo cual la variable de menor rango resultaría prácticamente despreciable. Estees en realidad otro problema típico en diversos campos de análisis de datos que se puedecorregir hasta cierto punto mediante escalado de las variables implicadas, usualmentehaciéndolas variar entre cero y uno.

Otro problema que se tiene que tener en consideración es la distribución de las va-riables, ya que incluso hablando de una misma variable puede que haya un porcentajealto de valores con un rango muy estrecho de variación, como sucedería por ejemplo enuna distribución gaussiana de poca amplitud, o en otras ocasiones tener un rango muchomayor. En de�nitiva, diferencias en las distribuciones de probabilidad de las variablesexplicativas di�cultan el análisis de importancia, y más aún cuando dichas funciones sondesconocidas a priori.

Finalmente, un último factor a considerar es la posibilidad de que las variables queconforman el modelo puedan ser continuas o discretas, de manera que sus diferenciasdi�cultan aún más la labor de comparar su relevancia.

Si bien no se ha profundizado en la cuestión, ha quedado clara la di�cultad de realizarun análisis de Importancia de Variables incluso en los ejemplos más sencillos, máxime sidichos modelos son desconocidos, con centenares o miles de variables, y todas distintasentre sí en todos los aspectos.



2.6.1. Incremento del Error Cuadrático Medio

A pesar de las di�cultades ya mencionadas, sí que existen métodos que, al menos deforma indirecta, permiten medir hasta cierto punto la importancia de las variables a partirde las cuales se ha conformado un modelo.

Uno de los ejemplos más típicos es el del Incremento del Error Cuadrático Medio(ECM). Dicha forma de cálculo se basa en el conocido concepto de Error CuadráticoMedio, muy empleado en estadística, así como en ajustes por mínimos cuadrados. En elcaso de estudio, denotando por y al valor predicho de la respuesta, y, consecuentemente,como y al valor real de la misma, para todo el conjunto de respuestas obtenidas, se calculael ECM a partir de la expresión:

ECM =1

n

n∑j=1

(y − y)2

Este error es asimismo el segundo momento sobre el origen del error cometido, demodo que también aporta información sobre la varianza y el sesgo del estimador, en estecaso y, de hecho, para un estimador insesgado, el Error Cuadrático Medio se correspondecon la varianza.

Para el caso concreto de Random Forest, los grá�cos más típicos empleados en elanálisis de importancia de variables tienen un forma similar a la siguiente:

Figura 2.7: Importancia de Variables



Generalmente estos grá�cos pueden representar dos cosas. La primera de ellas puedeser el Incremento de ECM, el cual es un parámetro que mide indirectamente la importanciade cada variable observando cúanto varía el Out Of Bag error en caso de permutar unade las variables con las que se había realizado el modelo, de tal manera que se computade media dicha variación de error al dejar fuera unas variables u otras. En base a cómovaría dicho parámetro de error se estima la importancia de cada variable considerada.

La otra posibilidad es que dichos grá�cos hagan referencia al incremento de pureza quese produce en cada nodo si se eligen unas variables u otras a la hora de ralizar los splits(particiones) de los mismos. Conviene recordar que la pureza viene dada por una funciónde impureza, la cual normalmente es el índice de Gini en los problemas de clasi�cación.

En términos generales el criterio más empleado es el de incremento de ECM, y solose usaría el criterio de la pureza de nodos en los casos en los que el coste temporal deemplear el modelo anterior fuera excesivo. Dado que en términos de trabajo de cálculo,el incremento de ECM requiere en la mayoría de los casos entre el 5 y el 25% más, eneste trabajo se ofrecerán generalmente ambos grá�cos, que además en ocasiones otorgaránimportancias distintas a cada variable.


2.7. CONDITIONAL INFERENCE TREES

2.7. Conditional Inference Trees

Los Conditional Inference Trees (ctrees), son una evolución de los típicos árboles declasi�cación, así como otras técnicas dedicadas al mismo campo, como pueden ser losCART o los algoritmos C4.5, pretenden así mismo solucionar los problemas más comunesque este tipo de modelos presentan.

El primero de dichos problemas es el ya comentado over�tting al que tienden la ma-yoría de los árboles si no se lleva una tarea apropiada de ”poda”, pruning, en la cual sepretende reducción del tamaño del árbol mediante la eliminación de ramas en las cualesse compruebe que aportan poca información global. Asimismo, el empleo del pruning con-juntamente con el establecimiento de un criterio de parada en los nodos del árbol reduceconsiderablemente el riesgo de sobreajuste.

El segundo problema de este tipo de algoritmos es el sesgo que se produce hacia ciertasvariables correlacionadas y que actúan como entrada del sistema.

Ambos problemas son exhaustivamente analizados en el paper : Hothorn, Hornik yZeileis (2006), en el cual aportan su solución, a la par que introducen el nuevo conceptode Conditional Tree. A nivel básico, una diferencia importante entre este tipo de árboles ylos mas clásicos es la sistematización del algoritmo en el aspecto del pruning, de modo quelos árboles construidos no se dejan crecer inde�nidamente, sino que se van so�sticandosegún se van construyendo.

Sin embargo, el aspecto diferencial que es más importante destacar es la manera enla que se realizan los splits nodales de los árboles. En vez utilizar la metodología clásica(que por ejemplo utiliza CART), los Conditional trees realizan un test de signi�cación encada nodo para determinar qué variable emplear en la partición en lugar de simplementeelegir la variable que maximice la ganancia de información.

Si bien estos mecanismos de análisis no son el centro de este Trabajo, dado que suprogramación es similar a la de los demás algoritmos,se realizarán comparaciones entrelos resultados que aportan los ctrees, y los correspondientes bosques generados con ellos.

2.8. Paquete Estadístico R

Todos los análisis estadísticos llevados a cabo en este Trabajo de Fin de Grado hansido realizados empleando R.

R es tanto un lenguaje de programación como un entorno de desarrollo que permite larealización de los más complejos (y también básicos) procedimientos de estadística y estáespecí�camente diseñado para el tratamiento de datos e información, razón por la cuales ampliamente utilizado en campos tan diversos como la Minería de datos, matemáticas�nancieras y campos biológicos, especialmente en el ámbito sanitario.

Forma parte del GNU project, de modo que se trata de un software gratuito, escritoprincipalmente en C y Fortran, y es compatible con la mayoría de sistemas operativoscomerciales convencionales. Asimismo, posee una amplia variedad de packages, que permi-



ten ampliar considerablemente sus opciones expandiendo las funciones a ámbitos como elanálisis mediante árboles de decisión, series temporales, modelos avanzados de regresión,modelado lineal y no lineal, o problemas de clasi�cación.

Otro gran fuerte del paquete R es la posibilidad de realizar grá�cos muy variados, conposibilidad de ser interactivos e incluir simbología matemática.

Figura 2.8: Muestra de las posibilidades grá�cas de R

La mayoría de posibilidades de expansión vienen recogidas en la página web del proyec-to CRAN, en la cual aparece asimismo una lista con todos los packages más importantes.

Sin embargo, a la hora de trabajar es mucho más práctico emplear el programa Rstudio,el cual es un IDE (Integrated Development Environment), diseñado para facilitar el manejodel entorno de R, de modo que todo el código fuente y los grá�cos empleados en el presentetrabajo han sido realizados con dicha IDE.

2.8.1. Funciones más empleadas

A la hora de la escritura del código fuente de los programas que conforman las si-mulaciones que se han realizado, han sido empleadas, como es natural, gran cantidad defunciones implementadas en los distintos packages de R. Si bien no es de interés comentarla totalidad de las que se han usado, sí puede resultar útil mencionar la utilidad de lasmás importantes, especialmente en el caso de que se desee consultar el código adjunto enlos anexos del Trabajo.

randomForest(). Ajusta un modelo de Random Forest dado un conjunto de variablesy observaciones de las mismas, así como la respuesta ante dichos valores tomados.Es necesario especi�car cuál es la variable dependiente, y conviene que los datos sele pasen aleatorizados.

lm(). Similar a la función anterior, pero en lugar de devolver un modelo de bosquealeatorio proporciona un modelo lineal compatible con los datos que se le pasancomo argumentos. Calcula los coe�cientes del modelo que proporciona.

glm(). Igual que las anteriores, pero el modelo ajustado es uno Lineal Generalizado,el cual aúna varios, como el de Regresión Lineal, Regresión Logística y la Regresiónde Poisson.


2.9. MAPE

rpart(). Ajusta un CART y realiza una clasi�cación en categorías en función de lasvariables explicativas.

ctree(). Exactamente lo mismo que la función anterior, pero en lugar emplear unmodelo CART, ajusta un Conditional Inference Tree.

genPositiveDefMat(). Pasándole como argumento un número entero, devuelve unamatriz cuadrada de dicho orden de�nida positiva y simétrica, de modo que puedeser empleada para generar de manera rápida matrices de covarianzas aleatorias quese pueden usar para correlacionar rápidamente tantas variables como se desee.

diag(). Retorna una matriz identidad (diagonal de unos) del orden que se le pasacomo argumento. Útil para emplear como matriz de covarianzas si se quiere que lasvariables sean independientes.

sample(). Realiza permutaciones de los valores deseados de manera aleatoria. Losdatos pueden estar contenidos en un vector, una matriz, un dataframe etc.

ggplot(). Genera grá�cos más variados y estéticos que los prede�nidos originalmentepor el paquete R.

mvrnorm(). Devuelve un vector con tantas variables y observaciones de las mismasgeneradas cada una según una distribución normal diferente. Es necesario pasarcomo argumento un vector de medias de cada una de las variables que se deseagenerar, así como una matriz de covarianzas de las mismas, de modo que si se desease pueden correlacionar las variables que convenga. Es una manera fácil y rápida degenerar gran cantidad de variables independientes o no.

2.9. MAPE

El conocido como MAPE (del inglés: Mean Absolute Percentage Error), también co-nocido como MAPD (Mean Absolute Percentage Deviation) es un parámetro que permitepretende medir la precisión de una determinada predicción realizada con un algoritmo.

La fórmula que permite calcularlo es la siguiente:

MAPE =n∑j=1

| Y − YY|

Es uno de los datos más empleados para mostrar y comparar resultados estadísticos,ya que aporta información de una manera clara y sencilla, y su cálculo no es complejo.Además, analizar su variación con la modi�cación de una variable del modelo permiteestimar cómo varía la calidad del mismo en función del parámetro analizado.

Una grá�ca de ejemplo de la evolución del MAPE de dos modelos estadísticos enfunción de las variables que analiza cada modelo es la siguiente:

Sin embargo, a pesar de su utilidad innegable, y de ser uno de los parámetros másmostrados en la literatura, el MAPE tiene diversos problemas severos que es necesario



Figura 2.9: Ejemplo de la evolución del MAPE de un Modelo de Random Forest y uno deConditional Inference Trees

tener en cuenta a la hora de emplearlo, ya que puede dar lugar a interpretaciones erróneaso fallos de programas en caso contrario:

Imposibilidad de manejar valores reales de cero: Ya que hay un cociente entre el valorreal de la predicción, el MAPE no contempla la posibilidad de que dicho valor seacero, ya que tendría que dividir por el mismo, de modo que el conjunto de númerosa manejar está limitado.

Rango de las predicciones: Aunque en ningún momento se divida por cero, si elrango de las predicciones es en algunos tramos muy cercano a dicho punto, el valornumérico del MAPE se incrementaría drásticamente y resulta complicado de com-parar con otros, ya que incluso aun siendo una predicción considerablemente buena,su MAPE sería elevado. Es importante tener en cuenta estos dos problemas cuandose trabaja con variables escaladas entre cero y uno.

Inexistencia de límite superior: Los errores estimados mediante MAPE pueden su-perar, para valores predichos relativamente grandes, el 100% de error incluso porórdenes de magnitud, di�cultando la tarea de medir dichos errores.

Realiza una estimación parcial en tanto en cuanto a la hora de seleccionar un modeloestadístico óptimo es probable que se decante por aquel cuyas predicciones son máspequeñas, incluso para un mismo nivel teórico de calidad de la predicción.

Diferencias de porcentajes de error: La metodología de cálculo del error de MAPEotorga mayor peso a los errores de predicción cuando el valor predicho es negativoque en los positivos, lo cual constituye un caso más de parcialidad, ya que para unerror de la misma magnitud según MAPE el de los valores negativos será muchomayor.


2.9. MAPE


Capítulo 3

Experimentos con Modelo de RegresiónLineal Múltiple

3.1. Introducción

En el presente capítulo se mostrarán los experimentos, resultados y conclusiones quese han realizado sobre un modelo de regresión lineal simple. A lo largo del mismo se iránrealizando las variaciones de parámetros (número de variables consideradas, observacio-nes de cada una de las variables, árboles empleados...) de tal manera que los resultadospuedan compararse y veri�carse de la manera más sistemática y concienzuda posible conla �nalidad de extraer toda la información y conclusiones posibles del modelo de RandomForest.

Para facilitar la interpretación de los resultados obtenidos, en general se procurarágenerar los experimentos en condiciones de ceteris paribus, cambiando únicamente la va-riable cuya in�uencia se desea estudiar en cada momento. Se procederá así con todas lasvariables que sean escogidas como de interés, y una vez hecho esto, se evaluará la variaciónconjunta de varias y su impacto en las predicciones.

3.2. El modelo

El modelo objeto de estudio es uno de los más importantes y estudiados históricamenteen la ciencia Estadística. Se enseña en cualquier curso de regresión y sus propiedades,utilidades y limitaciones son de sobra conocidas. Estos hechos, añadidos a la simplicidadmatemática de la relación entre la variable respuesta y las variables explicativas son lasprincipales razones de su elección.

39

3.3. ASPECTOS A ANALIZAR

Inicialmente se considerará un modelo determinista (carente de ruido) en el cual paraciertos valores de las variables explicativas la respuesta está perfectamente de�nida. Dichomodelo, para n variables es el que sigue:

y =n∑i=1

βixi

Como se puede observar, cada una de las variables estará multiplicada por un coe�-ciente βi, que como ya se mencionó en capítulos anteriores in�uye signi�cativamente enla importancia de la variable, por lo que resulta fundamental controlar su rango y valorconcreto en todo momento.

Todos los modelos lineales que se generarán a lo largo del documento se realizan de lamisma manera. Primeramente, es creado un vector, que se denominará de importancias,cuya dimensión coincide con el número de variables que se considerarán en dicho modelolineal, de tal manera que los valores almacenados en el mismo puedan servir como co-e�cientes de las variables. Posteriormente, se genera un vector para cada variable de ladimensión del número de observaciones que se van a emplear. La manera de crear dichosconjuntos de variables diferirá en función de la distribución de probabilidad con la que segeneren, así como el rango que se les quiera dar, o incluso si son categóricas o continuas.

Según se vayan realizando experimentos, irán cambiando aspectos aspectos del modelo.Efectivamente, el primer aspecto que se tendrá en cuenta es la correlación de las variables,y se analizarán tanto el caso en el que las variables son independientes como el caso en elque no, pero hay otro factor muy importante a tener en cuenta, que es el determinismo.Se comprobarán tanto la respuesta de los modelos en el caso determinista como en el queno, en el cual se introducirá un ruido blanco que haga variar la respuesta ante entradas devariables idénticas, de modo que el modelo de regresión quedará con el aspecto siguiente:

y =n∑i=1

βixi + εi

El último término añadido resulta fundamental en el análisis de la respuesta, y di�cultaconsiderablemente la interpretación de los resultados y la elaboración de un modelo quelos ajuste. Resulta de interés conocer la distribución de probabilidad con la cual se generandichos sumandos.

3.3. Aspectos a analizar

3.3.1. Parámetros que variar

Hay in�nidad de parámetros que se pueden ir cambiando para analizar la respuestadel sistema ante dichos cambios. Sin embargo, no todos serán de utilidad, por lo queserá necesario seleccionar cuáles serán más representativos de los cambios del sistema,veri�cándose dicha relación con la respuesta. Los parámetros que se variarán son:



Número de variables : Uno de los mantras más repetidos por los defensores de Ran-dom Forest es su capacidad de aportar buenos resultados aun con cantidades enor-mes de variables predictivas. Se intentará contrastar hasta qué punto ello es cierto.

Número de observaciones : Es esperable que haya una gran sensibilidad a la cantidadde observaciones que se hagan de las variables explicativas.

Parámetro mtry : Se trata de uno de los parámetros fundamentales de la funciónrandomForest. Expresa el número de variables que tomará en cuenta cada árbol ala hora de realizar los splits nodales.

Parámetro ntree: expresa el número de árboles que generará el Bosque Aleatorio.Presumiblemente, si es demasiado pequeño la precisión del modelo debería resentir-se, mientra que si es demasiado elevado podría producirse el fenómeno del over�tting.Modi�car este parámetro podría ayudar a comprobar hasta qué punto es cierta lasupesta resistencia de los modelos de Random Forest a dicho fenómeno.

3.3.2. Procedimiento

En los apartados siguientes se realizarán experimentos en los cuales se generará unnúmero concreto de variables, cada una con sus coe�cientes, y posteriormente se calcularála respuesta que otorgan según el modelo. Una vez hecho, se dividirá la muestra en untraining set y un test set, de forma que con el primero se ajusten los modelos de regresiónrequeridos, y con el segundo se elaboran las predicciones que se contrastarán con losresultados almacenados en el set de prueba.

Finalmente, según los resultados que se deseen analizar, se construirán grá�cos quefaciliten la interpretación de las tasas de acierto de cada modelo. En general, se consideraráacierto todo resultado en el que el error relativo entre la predicción y el valor real sea menorque el 1%:

Error =| y − yy|⇒ si

≤ 0,01 acierto

> 0,01 fallo


3.4. EXPERIMENTOS INDEPENDIENTES

3.4. Experimentos Independientes

3.4.1. Cambio de variables Correlacionadas

Modelo determinista

En este experimento se comprobará cómo, a igualdad de los demás parámetros, la va-riación del número de variables que componen el modelo de regresión considerado cambiaconsiderablemente la capacidad predictiva de los modelos objeto de estudio.

No se modi�carán los parámetros por defecto que asignan las funciones de R paracada caso. En el caso de randomForest, el número de árboles predeterminados son 500(ntree=500 ) y dado que se trata de un caso de regresión y no de clasi�cación, las variables

empleadas en la construcción de los árboles seránp

3, siendo p el número total de variables.

Asimismo, la cantidad de observaciones que se proporcionan sobre cada variable es de600. Se irá comprobando cómo varía la capacidad predictiva de cada modelo desde unavariable hasta tener que manejar resultados producidos con un sistema dependiente de500 variables. Asimismo, en este primer caso todas las variables están correlacionadas.

Los resultados arrojados se muestran en la siguiente grá�ca, donde en azul se representala tasa de acierto de Random Forest, en verde la de Conditional Forest y en rojo la de unajuste puramente lineal.

Figura 3.1: Tasa de acierto de los modelos en función del número de variables que manejan

El primer efecto que salta a la vista son las oscilaciones que experimenta el modelolineal generado en el momento en el que tiene que ajustar pocos cientos de variables. Sibien a priori parece un suceso digno de análisis exhaustivo, en realidad se trata de laconocida necesidad de un número mínimo de observaciones para ajustar un modelo linealdependiendo de cuántas variables independientes existan. Para evidenciar este efecto, seaporta un nuevo grá�co con un número mucho menor de variables (hasta 40), y solo 50observaciones por variable. Rápidamente se aprecia el mismo efecto:



Figura 3.2: Ejemplo de la limitación del modelo lineal

Este problema podría ser un buen caso de ejemplo para comprobar el efecto de lamaldición de la dimensionalidad, en el que la cantidad de datos de los que se dispone paraexplicar un fenómeno es sensiblemente inferior a los necesarios ya que dicho fenómenodepende de una cantidad de variables de orden muy superior, de modo que no es viablepretender exlicarlos con ellos.

Esta tendencia es bien conocida y denota cómo tanto Random Forest como los Con-ditional Forests son capaces de adaptarse mejor al sistema que un modelo de regresiónlineal que a priori debería ser capaz de predecir con muchísima mejor precisión el modeloanalizado, y de hecho lo hace, ya que su tasa de acierto es del 100% cuando dispone deltamaño de muestra requerido. Sin embargo, en el momento en el que la cantidad de varia-bles se hace excesivo, empeora rápidamente sus resultados, sensibilidad que no muestranninguno de los modelos de árboles, que por el contrario se muestran capaces de ajustar conuna precisión de casi el 100% cuando se los obliga a manejar gran cantidad de variablessiempre que el modelo sea determinista.

Al menos sin la introducción de ruido blanco, queda clara la robustez de los modelosde Bosques Aleatorios frente a gran cantidad de variables y observaciones, ya que en estecaso, teniendo en cuenta que se analizaban 500 variables con 600 observaciones cada una,el número de datos a manejar era de 3 · 105.

Modelo no Determinista

En este caso se generarán datos con un modelo igual, pero introduciendo una com-ponente aleatoria del orden de magnitud de las variables de entrada. De esta manera seconsigue la construcción de un modelo no determinista en el cual para unas variables deentrada concretas, el output sea diferente cada vez.

El problema del aumento del número de variables en el lineal sigue apreciándose demanera similar al caso anterior, de modo que a partir de cierto momento se resiente sucapacidad si el número de observaciones se mantiene constante.



Figura 3.3: Tasa de acierto al aumentar el número de variables de los distintos modelossi se introduce ruido

Existe una reducción considerable en la capacidad predictiva tanto de Random Forestcomo de Conditional Forest claramente debida a la inclusión de ruido. Sin embargo, ambosconsiguen estabilizarse de manera similar a la del caso anterior, llegando a tasas de aciertocercanas al 100%,si bien es cierto que de forma más lenta.

En términos generales, se puede a�rmar que los modelos de regresión generados conárboles son capaces de aproximar con gran acierto casos de regresión lineal en los cualeshay correlación entre las variables, siendo un aspecto muy signi�cativo la mejora de lacapacidad predictiva cuando se les exige el manejo de gran cantidad de regresores.

3.4.2. Cambio de variables no Correlacionadas

En la presente sección se llevarán a cabo exactamente los mismos experimentos, perosiendo las variables indpendientes (no hay correlación entre ellas), tanto con ruido (modelono determinista) como sin el mismo (modelo determinista).

Modelo Determinista

Bajo las mismas consideraciones que en el caso de variables correlacionadas, los resul-tados obtenidos son los siguientes:

En este caso, dado que el problema que se debe analizar es considerablemente mássencillo, todos los modelos poseen mayor capacidad predictiva y sus tasas de acierto sonpróximas al 100% en la inmensa mayoría de los casos, independientemente del número devariables.



Figura 3.4: Tasa de acierto al aumentar el número de variables, sin estar éstas correlacio-nadas, de los distintos modelos si no se introduce ruido

Modelo no Determinista

Tomando ahora un caso en el que la variables sean independientes pero con la inclu-sión de ruido en la respuesta, los resultados aportados por los distintos modelos son lossiguientes:

Figura 3.5: Tasa de acierto al aumentar el número de variables, sin estar éstas correlacio-nadas, con ruido.

La respuesta observada resulta muy similar a la anterior, apreciándose sin embargo unretardo a la hora de alcanzar el valor de régimen permanente.



3.4.3. Búsqueda de la Maldición de la Dimensionalidad para losmodelos de árboles

En los experimentos realizados en las secciones anteriores los resultados han sido engran parte los esperados, comprobándose la capacidad de Random Forest de trabajar condatasets de gran tamaño, incluyendo muchas variables.

Sin embargo, resulta interesante comprobar en qué momento estos algoritmos de granrobustez sucumben a la Curse of dimensionality, no siendo capaces de manejar tantasvariables en función de ”tan pocos” datos.

Se han realizado experimentos de gran coste computacional, y se observa que a partirde cierto punto el MAPE se comporta de la siguiente manera:

Figura 3.6: Aparición de la Curse of dimensionality en el caso de los modelos de árbolesanalizando como parámetro explicativo el MAPE

Para estos experimentos se ha procedido de la manera siguiente: Se ha �jado el númerototal de variables máximo con el que se va a generar el modelo, de tal manera que paraun número de observaciones por variable de igual tamaño, se va incrementando progresi-vamente la cantidad de variables para generar el modelo hasta observar cómo el error sedispara.

Para dar una idea del coste de procesamiento de datos del último experimento, algunosdatos de los parámetros implicados en los cálculos son los siguientes:

La matriz de observaciones (las variables por columnas y las observaciones por �las)alcanzó un tamaño de 3000×3000, con nueve millones de elementos.

El modelo que ajustó la última cantidad de datos con Conditional Inference Treestenía un peso de 2.9Gb.

La matriz de varianzas y covarianzas con la que se correlacionaron las variables teníaun peso de 19.2Mb (siendo solo una matriz de números).



El modelo lineal con el que se ajustó dicha cantidad de datos y variables ocupabamás de 100 Mb.

Se ha elaborado una tabla que describe el momento en el que los modelos de árbolesempiezan a fallar, representándose la cantidad de variables en el que lo hacen dada unacantidad de observaciones concreta.

Número de datos Número de variables hasta el fallo800 7101000 9201200 11201500 14103000 2200

Tabla 3.1: Para cada cantidad de datos, número de variables hasta que se produce el erroren el sistema

Si se representan grá�camente dichos puntos, se pueden observar ciertas característicasinteresantes:

Figura 3.7: Representación de los puntos en los que los modelos empiezan a fallar

Los puntos que aparecen en la �gura anterior hacen referencia al momento en el quelos modelos empiezan a arrojar resultados erróneos y se ven incapaces de predecir con laprecisión anterior a causa de la falta de observaciones. Como se puede apreciar, si bien alprincipio parece que la relación entre la necesidad de observaciones y variables es lineal,se comprueba que ello solo es una impresión óptica, y que en realidad dicha tendencia esexponencial, necesitándose cada vez más observaciones de las variables explicativas segúnaumenta su número.

La otra observación clara que se puede realizar es el hecho de que en todo momentolos puntos se encuentran por encima de la bisectriz, de modo que, como parece intuitivo,siempre debe haber más observaciones que variables explicativas. Resulta un caso análogoa tener más variables que ecuaciones en un sistema de ecuaciones.



3.4.4. Dependencia del número de árboles

Si bien existe relativo consenso en torno al hecho de que un aumento del número deárboles a la hora de ajustar modelos de árboles de regresión no supone una gran diferenciaen cuanto a los resultados a partir de un número mínimo de árboles, conviene comprobarla resistencia al over�tting de Random Forest, al menos en cuanto al número de árbolesseleccionados.

En esta simulación se ha repetido un experimento con variables correlacionadas y conruido, llegando a 100 variables con 300 observaciones por cada una. En ella, el número devariables se va incrementando progresivamente hasta llegar al centenar, generándose cadavez los modelos con 40000 árboles.

Los resultados obtenidos son los siguientes:

Figura 3.8: Evolución del MAPE en los modelos generados con 40000 árboles.

Dos aspectos se pueden resaltar de la �gura:

Efectivamente, la posibilidad de que se produzca over�tting en un modelo de Ran-dom Forest es extremadamente pequeña, como demuestra el hecho de que las pre-dicciones realizadas con este modelo no di�eren signi�cativamente en los resultadossi se comparan con los MAPEs de los experimentos anteriores.

Uno de los aspectos más aceptados en cuanto al funcionamiento de los RandomForests es el hecho de que, si bien el coste computacional de incrementar la canti-dad de árboles que conforman el Bosque Aleatorio, la precisión en las prediccionestambién aumenta. Sin embargo, no está claro hasta qué punto dicha a�rmación escierta. Desde luego, realizando el mismo experimento con 500 árboles en lugar decon 40000 la diferencia en los resultados aportados por el MAPE es inapreciable.



Figura 3.9: Evolución del MAPE en los modelos generados con 500 árboles.

Como se puede apreciar, los valores entre los que se mueve son muy similares. Enrealidad, la conclusión evidente es que la in�uencia del número de árboles se estabilizarápidamente con los pocos centenares, de modo que aumentar el número a partir de ciertomomento apenas supone mejora de precisión y sin embargo sí un mayor consumo derecursos.


3.5. EXPERIMENTOS CON MTRY

3.5. Experimentos con mtry

A la hora de construir cada árbol que se incluirá en el Random Forest, hay un pa-rámetro clave que in�uye en cómo acabará siendo la forma �nal de cada uno de esosárboles. Dicho parámetro es el conocido como mtry, y expresa la cantidad de variables delas totales que se usarán a la hora de decidir cómo realizar los splits nodales.

Básicamente, si se tiene un número total n de variables explicativas, a la hora derealizar las particiones de cada nodo se tomará un número muy inferior de variablespara realizarlas, de forma que se agiliza considerablemente el tiempo de ejecución de losalgoritmos, y favorece la aleatorización.

Sin embargo, pese a ser uno de los parámetros que más in�uyen en la evolución de losBosques aleatorios, no está realmente clara cuál es la tendencia que se sufre según varíamtry, razón por la cual se han realizado los siguientes experimentos.

En general, Breiman recomienda tomar los valoresn

3para realizar regresión, y

√n

para clasi�cación.

Sin embargo, al evaluar la evolución del MAPE según va cambiando mtry, para un casode 200 variables y 400 observaciones, y para un caso de 300 variables y 600 observaciones,los resultados obtenidos son los siguientes:

Figura 3.10: Evolución del MAPE variando el mtry de 20 en 20 hasta llegar a 200 variables.




En ambos casos se ha estudiado la evolución del MAPE con el incremento de mtry detal manera que el paso de aumento sea la décima parte del número total de variables, enun caso 300, y en el otro 200.

En teoría, dado que se está abordando un problema de regresión, los valores óptimosde mtry deberían rondar las 100 variables y las 70 en cada caso, de tal manera que elMAPE fuera mínimo en ambos casos. Sin embargo, analizando las grá�cas anteriores seobserva que no es posible distinguir una tendencia clara, además de que decir que elmínimo MAPE se situará en los valores predichos resulta como mínimo aventurado.

Asimismo, al manejar modelos lineales tan grandes, es complicado observar ningunatendencia por parte de un parámetro tan importante variado con un paso de esos órdenesde magnitud. Es por esta razón que los siguientes experimentos se han diseñado con 10variables y distintas cantidades de observaciones: 100, 200 y 300.

Finalmente, para contrastar la validez de los resultados, en cada uno de los experi-mentos anteriores se han realizado 10 replicaciones, y los resultados que se muestran sonlas medias de los individuales.

3.5.1. Variación de mtry con 100 observaciones

En este caso (y en los dos siguientes) en cada una de las 10 replicaciones se irá incre-mentado progresivamente, de uno en uno, el número de variables que se tomarán en elmtry, hasta llegar a diez, y se observará qué valor ronda el óptimo, es decir, un número

entero cercano a10

3. Con 100 observaciones los resultados son:




Esos mismos datos, recogiendo los MAPEs de Random Forest y Conditional Forest enuna tabla, son los siguientes:

Tabla abscisa MRF MCF1 1 0,00922 0,010622 2 0.00788 0.009383 3 0,00900 0,010554 4 0,01006 0,012555 5 0,00911 0,011306 6 0,00891 0,010887 7 0,00993 0,012578 8 0,01006 0,012289 9 0,01039 0,0130610 10 0,00910 0,01177

Tabla 3.2: Tabla de MAPEs con mtry de 1 en 1 y 100 observaciones

Se han marcado en negrita los valores para los cuales el MAPE es mínimo entretodos los valores estudiados. Está claro que existe una depresión cerca de los valores paralos cuales teóricamente se obtienen mejores resultados en el caso de regresión. A priori,observando la media de los valores de las 10 replicaciones, no se encuentra razón parapensar que dicha a�rmación no se cumpla.




En este apartado se llevará a cabo el mismo experimento, con 10 replicaciones también, pero variando el número de observaciones que se le proporciona a los modelos.

En la �gura se aprecia cómo varía el MAPE con el mismo paso y número de variables.

Figura 3.13: Evolución del MAPE variando el mtry de 1 en 1 hasta llegar a 10 variablescon 200 observaciones.

La tabla correspondiente a dichos datos es:

Tabla abscisa MRF MCF1 1 0,10063 0,117732 2 0,07656 0,091663 3 0,08302 0,096214 4 0,08893 0,104055 5 0.07653 0.091386 6 0,07782 0,091827 7 0,09080 0,107778 8 0,07633 0,094339 9 0,08037 0,0960710 10 0,08141 0,09692


En este experimento, si bien es cierto que el valor mínimo no sucede exactamente en

las inmediaciones de10

3, existe un valle en el MAPE en el entorno de dicho valor, con

lo que las predicciones llevadas a cabo con valores de mtry tomados en esa zona tendránmás posibilidades de arrojar resultados más precisos que en otras zonas.




Esta será la última iteración del proceso, aumentando el número de observaciones a300 pero manteniendo el resto de variables del problema, aumentándose mtry de la mismamanera que las veces anteriores.

Figura 3.14: Evolución del MAPE variando el mtry de 1 en 1 hasta llegar a 10 variablescon 300 observaciones.

Y la tabla de datos correspondientes es:

Tabla3 abscisa MRF MCF1 1 0,09970 0,115382 2 0,08182 0,095373 3 0,08748 0,103584 4 0,07011 0,081365 5 0,08458 0,097566 6 0,07467 0,089037 7 0,08342 0,099528 8 0,09686 0,114599 9 0.06708 0.0809510 10 0,07522 0,08929


Este caso resulta análogo al anterior, sucediendo que el mínimo MAPE no se alcanzaexactamente en el punto de trabajo recomendado, pero en dicho sitio se observa un valledel parámetro, de modo que resulta una zona cómoda de trabajo a la hora de minimizarel error.

Trabajar en otras zonas, si bien puede resultar recomendable en casos determinados,supone un riesgo, ya que tal y como se ha visto, en el caso de estarse trabajando conalgoritmos de regresión resulta bastante frecuente el tener una región en el entorno reco-mendado en la cual el valor de las tasas de error disminuye considerablemente, mientrasque dicha ”seguridad” desaparece trabajando en otras zonas.



En cualquier caso, para maximizar la tasa de acierto de los árboles, la única manerarelativamente segura de localizar los puntos óptimos es realizar un muestreo a lo largo detoda la región de trabajo. También existen funciones de R diseñadas para localizar losmejores valores para cada caso particular. Es este el caso de la función tuneRF().

La necesidad de este tipo de funciones se hace evidente en ejemplos como el siguiente,en el cual el valle del valor óptimo de mtry se encuentra desplazado a zonas superiores alas del 50% de regresores:

Figura 3.15: Ejemplo de caso en el cual el error se reduce en una zona distinta den

3para

realizar regresión.



3.6. Importancia de variables

El objetivo primordial de esta sección es evaluar la capacidad de los algoritmos deárboles de captar cómo de in�uyentes son las distintas variables explicativas en la variabledependiente(Y ). Este hecho resulta fundamental para cualquier algoritmo de MachineLearning, y en general para cualquier algoritmo que maneje grandes cantidades de datos,ya que, como se ha tenido ocasión de comprobar, son susceptibles de tener problemas dedimensionalidad.

Es por esto que resulta de vital importancia seleccionar qué variables son las másy las menos in�uyentes en la respuesta, pues de esa manera es fácil seleccionar cuálesson innegociables de eliminar para reducir la dimensionalidad del problema, y cuáles lasideales en caso de necesitarse simpli�car el problema. Este proceder se conoce a menudocomo Selección de atributos, Reducción de rango o Selección de variables.

Las razones principales por las cuales se realizan este tipo de simpli�caciones son lassiguientes:

Facilitar la interpretación de datos y resultados: Elegir un número reducido de va-riables, si bien puede empeorar los resultados de un modelo (aunque como se havisto, a veces también mejorarlos), facilita en gran medida la interpretabilidad delproblema, pudiéndose también apreciar tendencias o errores con mayor facilidad.Además de ello, a la hora de exponer las conclusiones a un público no técnico o noespecialista en la materia la tarea es considerablemente más simple.

Tiempos de computación: Resulta obvio que ajustar un mismo modelo o algoritmoa un caso más sencillo acorta la tarea, característica que resulta crítica en caso demanejarse gran cantidad de datos, en las cuales reducciones de tiempos de compu-tación incluso de pequeños porcentajes pueden suponer acortamientos del orden dehoras o días.

Menor tendencia de los modelos al sobreajuste, resultando en soluciones más senci-llas de generalizar. Esta característica, al igual que la primera, hace referencia a larelevancia que tiene encontrar el número óptimo de regresores, debiéndose elegir unnúmero ni demasiado grande ni demasiado pequeño.

En el caso de los experimentos que se van a realizar, por razones de interpretabilidadde los resultados se generarán modelos con diez regresores relevantes. De esta manera,se facilitará la tarea de interpretación de los grá�cos de importancia de variables, quecomo ya se ha mencionado, pueden estar basados en el Incremento porcentual de ErrorCuadrático Medio al realizar permutaciones de las variables en el momento de realizarlos splits, o en el incremento de pureza que se aprecia al incluir o no cierta variable comocriterio de partición de cada nodo.

Finalmente, el número de experimentos a realizar será 3, de igual manera que con losde mtry, incrementando la cantidad de datos aportados al modelo progresivamente. Entodos ellos, las variables que se generarán son independientes de distribución uniforme.La anchura de los intervalos en los que se pueden generar las variables son aleatorios entreciertos valores, y el lugar en el que están centrados también lo es.

Conviene señalar que, dado que la naturaleza de cómo se generan las variables es



diferente entre sí, es necesario realizar un escalado de las mismas. Para ello, se le resta acada valor de cada variable el mínimo que toma la misma, y se divide entre el máximomenos el mínimo valor que toma cada variable. De forma más grá�ca, el código con elque se realiza el escalado es:

1 for ( i in 1 : k )2 {3 X1 [ i ] = (X1s [ i ]−min(X1s ) ) / (max(X1s)−min(X1s ) )4 X2 [ i ] = (X2s [ i ]−min(X2s ) ) / (max(X2s)−min(X2s ) )5 X3 [ i ] = (X3s [ i ]−min(X3s ) ) / (max(X3s)−min(X3s ) )6 X4 [ i ] = (X4s [ i ]−min(X4s ) ) / (max(X4s)−min(X4s ) )7 X5 [ i ] = (X5s [ i ]−min(X5s ) ) / (max(X5s)−min(X5s ) )8 X6 [ i ] = (X6s [ i ]−min(X6s ) ) / (max(X6s)−min(X6s ) )9 X7 [ i ] = (X7s [ i ]−min(X7s ) ) / (max(X7s)−min(X7s ) )10 X8 [ i ] = (X8s [ i ]−min(X8s ) ) / (max(X8s)−min(X8s ) )11 X9 [ i ] = (X9s [ i ]−min(X9s ) ) / (max(X9s)−min(X9s ) )12 X10 [ i ] = (X10s [ i ]−min(X10s ) ) / (max(X10s)−min(X10s ) )13 }

Código 3.1: Código empleado en el escalado de las 10 variables

3.6.1. Experimento 1 de Importancia de Variables, 10 regresoresy 50 observaciones

En este experimento, se generan 10 variables con distribución uniforme en anchurasde intervalo aleatorias, asignándose asimismo coe�cientes aleatorios para generar así elmodelo lineal que se desea evaluar. Dicho modelo será determinista en este caso, paracomprobar cómo de bien es capaz Random Forest de captar las importancias.

En el presente caso, solo se proporcionarán 50 observaciones de cada variable a losmodelos.

Se ha obtenido la siguiente tabla de datos:

TablaI Medias Coe�cientes Valor1 305,9256 0,1072 32,78882 368,4850 3,8938 1434,80573 256,0247 0,1544 39,54424 234,3952 0,4861 113,93435 67,9251 0,8614 58,50836 165,6232 2,6158 433,24537 240,5571 3,2385 779,04258 274,8977 2,8244 776,40929 248,7452 4,7970 1193,235410 184,4354 1,1340 209,1535

Tabla 3.5: Tabla de importancia de variables con 10 regresores y 50 observaciones



En dicha tabla se pretende expresar una ponderación intuitiva del peso que cadaregresor tiene en la respuesta. La manera en la que se ha procedido es la siguiente: Secalcula la media de todos los valores que toma una variable, y realizándolo para todas ellasse obtiene la columna de Medias. La siguiente no es más que la columna de coe�cientesasociados a cada regresor, mientras que por último la columna �nal es el producto de lasdos anteriores, de forma que el valor aportado debe resultar una suerte de ponderaciónentre el peso que posee cada variable y su coe�ciente asociado.

Resulta de interés comparar dichos valores con los que aporta el modelo de RandomForest a través de la función varImpPlot():

Figura 3.16: Grá�cos de importancia de variables con 10 regresores y 50 observaciones

Como ya se explicó en una de las secciones del capítulo anterior, el primer grá�cohace referencia al incremento de Error Cuadrático Medio producido por la permutaciónde cada variable, y el segundo mide la importancia a través del incremento de pureza.

Como se puede comprobar, a grandes rasgos Random Forest es capaz de ponderarcorrectamente la importancia que cada variable tiene en la respuesta, de forma que a lasvariables a las que en la tabla le corresponden números mayores tienen asignadas mayoresimportancias.

Por supuesto, hay que tener en cuenta el hecho de el concepto �importancia� es relativo,y el hecho de que los números aportados por la tabla no asignen la importancia igual quelos dos parámetros de los grá�cos no quiere decir que estos últimos sean incorrectos.

En cualquier caso, es cierto que los dos grá�cos tampoco aportan exactamente losmismos resultados, de modo que en general, las conclusiones aportadas por los mismosdeben ser tomadas como orientativas, y nunca como axiomas inamovibles.




Este experimento incrementa el número de observaciones por variable a 150, de modoque, ante la mayor cantidad de información proporcionada, es esperable una mejora en laasignación de importancias respecto al caso anterior.

Las variables se generan exactamente de la misma manera, de modo que se debe teneren cuenta la aleatoridad con la que se generan las mismas.

La tabla análoga al experimento anterior es:

TablaII Medias Coe�cientes Valor1 223,4726 1,9984 446,57802 204,3173 2,7526 562,43633 283,4274 4,4897 1272,51324 484,7753 3,4253 1660,48475 391,4907 0,5105 199,87206 141,2766 2,6188 369,96997 342,9937 0,7646 262,25768 414,9023 4,8250 2001,89859 488,4242 0,0958 46,781610 152,2357 4,6635 709,9477


Mientras que los grá�cos arrojados por el programa son:




Como se puede apreciar, en este caso los resultados que se observan tanto en la tablacomo en el análisis de Random Forest son análogos, y se da la máxima importancia a lasmismas variables y concuerdan en el hecho de que las menos importantes son la númerocinco y la novena.

Sin embargo, se puede observar un valor anómalo en el análisis efectuado mediante latécnica del Error Cuadrático Medio, ya que a�rma que la variable número 10 es irrelevante,mientras que resulta evidente que tiene más peso que otras en el valor �nal de la variabledependiente.

Finalmente, se puede resaltar el hecho de que en este caso el análisis llevado a cabocon criterios de pureza de nodo, si bien no selecciona como más importante la variablecorrecta, en su conjunto no comete errores del calibre de la anterior.


En este último experimento se realizará el mismo análisis pero duplicando el númerode observaciones que se tiene de los regresores, llegando a un valor de 300.

En este caso, los resultados obtenidos son sensiblemente diferentes entre los que semuestran en la tabla y los que se observan en los grá�cos de importancia. Este sucesoresulta cuanto menos curioso teniendo en cuenta que se trata del experimento en el quemás información se proporciona a los modelos de Random Forest.

La tabla con las ponderaciones asignadas a cada variable es la siguiente:

TablaIII Medias Coe�cientes Valor1 171,5066 3,4372 589,50882 210,1046 2,8880 606,79043 548,4611 3,4147 1872,82054 321,8989 1,5323 493,23165 393,5975 2,5957 1021,67376 476,3894 4,2794 2038,65267 36,0118 4,7117 169,67678 111,0010 2,0873 231,69079 301,4717 4,8662 1467,014610 334,6343 3,7260 1246,8569


Los grá�cos de importancias para dicho experimento son:




Como se puede apreciar, hay una variación enorme entre la información que aportala tabla y la que parecen aportar los grá�cos de importancia. Si bien ambas medidasde importancia captan cuál es la variable más relevante, de las cuatro variables másimportantes solo consideran relevantes a dos.

Dejando de lado el hecho de que por de�nición la medición de la importancia escompleja, en este caso particular es probable que este tipo de errores provengan de queen la generación aleatoria de variables y coe�cientes las variables resultantes son muysimilares (los valores que se asigan en la ponderación no di�eren sensiblemente), de modoque discernir cuál es la más importante resulta mucho más complicado.


Capítulo 4

Experimentos con Sistema Lineal conInteracción

4.1. Introducción

En esta sección se realizará el análisis del otro modelo objeto de estudio del presenteTrabajo de Fin de Grado: el modelo lineal múltiple con interacción entre las variables.

El interés de este modelo radica en el hecho de que, aunque ya no sea el típico mo-delo lineal tradicional, aún así es uno de los ejemplos más utilizados en diversos análisisestadísticos, ya que generaliza el concepto de regresión lineal a un orden superior. Comoes lógico, la generalización máxima sería llevando a cabo interacción de todos los órdenesentre todas las variables, sin embargo, son raros los casos en los que las interacciones entrevariables de orden superior a tres son relevantes.

Este último hecho, junto a la di�cultad computacional de experimentos de órdenessuperiores, hacen que truncar en este punto la regresión lineal sea deseable, y en base aeso se diseñarán los distintos experimentos.

4.2. El modelo

En este capítulo se apostará por la búsqueda de brevedad en las explicaciones para evi-tar redundancias innecesarias con los capítulos anteriores, en los cuales ya se introdujeronvarios de los conceptos que en este se emplean.

Dicho esto, conviene describir a nivel general el modelo de Regresión Lineal Múltiplecon interacción. Para el caso de una respuesta dependiente de dos variables, tiene la formasiguiente en el caso de ser determinista:

y = β0 + β1x1 + β2x2 + α1x21 + α2x1x2 + α3x

22

Como es evidente, ya que hay que tener en cuenta las interacciones, la complejidad

63

4.2. EL MODELO

del modelo respecto al anterior es muchísimo mayor para el mismo número de variables,de modo que a priori debería resultar más complicado ajustar un modelo estadístico deregresión.

Introduciendo ruido, para cada observación se cumple la relación:

y = β0 + β1x1 + β2x2 + α1x21 + α2x1x2 + α3x

22 + ε

En general, los coe�cientes αi tienen un valor sensiblemente menor a los βi, que sonlos asociados a los regresores de primer orden.

Para realizar la generación de dichos modelos el procedimiento empleado es el siguiente:Dada una matriz con todas las variables y observaciones, primero se creará una matrizde ceros con tantas �las como observaciones por variable y tantas columnas como laque se denominará �dimensión� característica de las interacciones. Esta dimensión hacereferencia a la cantidad de nuevas variables que se crearían si cada interacción binariaentre las originales se considerara una nueva variable.

Dicha dimensión característica se puede calcular con la siguiente expresión, donde nes el número de variables:

dim =n∑j=1

j

Así, para tres variables, existen seis interacciones binarias posibles, que serían lassiguientes:

x21, x22, x

23, x1x2, x1x3, x2x3,

Resulta evidente que el crecimiento del número de dichos factores es muy rápido, demodo que a la hora de realizar las simulaciones es un parámetro a tener en cuenta parano incluir demasiadas variables, o para aumentar el paso a la hora de analizar, lo cualreduciría la precisión pero también los tiempos de simulación.

Una vez creada dicha matriz, se procede a generar una matriz auxiliar maux cuadradade dimensión n× n, y un vector de dimensión la característica.

Así, maux se irá rellenando por �las con todas las posibles interacciones que cadavariable puede experimentar, de modo que la primera �la posee todos los productos dela primera variable, la segunda todos los de la segunda etc. Posteriormente, se procedea incluir por �las todos los elementos de la matriz triangular superior en el otro vectorauxiliar, el cual �nalmente pasará a convertirse en la nueva �la de la matriz de variablesque se quería crear originalmente. Este procedimiento se llevará a cabo con todas lasobservaciones.

Un ejemplo de matriz y vectores auxiliares para el caso de tres variables son los si-guientes:



x21 x1x2 x1x3x2x1 x22 x2x3x3x1 x3x2 x23

(x21, x1x2, x1x3, x

22, x2x3, x

23)

Y este último vector es el que se incluiría en la �la correspondiente de la matriz deceros original.

El código (en R) que implementa este procedimiento es el siguiente:

1 l i b r a r y ( reshape2 )2 l i b r a r y ( t ab l e s )34 num_datos=25 num_var=267 covar = genPosit iveDefMat (num_var)8 mu = rep (0 ,num_var)910 for ( q in 1 : num_var)11 {mu[ q ] = run i f (1 , 0 ,100)}1213 Datos = mvrnorm(num_datos ,mu, covar$Sigma )14 dim = 01516 for ( i in 1 : num_var)17 {dim = dim +i }1819 varaux = matrix (0 , nrow=num_datos , nco l=dim)2021 maux = matrix (0 ,num_var , num_var)22 vaux = rep (0 , dim)2324 for ( f in 1 : num_datos )25 {26 maux = matrix (0 ,num_var , num_var)27 vaux = rep (0 , dim)2829 for ( i in 1 : num_var)30 { for ( j in 1 : num_var)31 {maux [ i , j ] = Datos [ f , i ]∗Datos [ f , j ] }32 }3334 for ( i in 1 : num_var)35 { for ( j in i : num_var)36 {vaux [ min ( which(0==vaux ) ) ] = maux [ i , j ] }37 }



38 varaux [ f , ] = vaux39 }4041 v a r i a b l e s = Datos4243 for ( i in 1 : dim)44 { v a r i a b l e s = cbind ( va r i ab l e s , varaux [ , i ] ) }

Código 4.1: Código empleado para generar las interacciones necesarias.

En los experimentos realizados con este modelo, se procurará replicar los realizadosen el capítulo anterior en la medida de lo posible, aunque a una escala menor en lo que anúmero de variables se re�ere, para que los experimentos sean viables.

En el momento en el que se introdujeran 50 variables, el problema computacional ya esequivalente a tener 1275 en el caso anterior. Esos órdenes de magnitud solo se alcanzaronen el experimento de búsqueda de la Maldición de la Dimensionalidad, de modo que estájusti�cada la reducción.

Es importante subrayar que en experimentos reales es improbable que se produzcaninteracciones de segundo orden entre todas las variables, de modo que considerar todasellas responde únicamente a la búsqueda de la máxima generalidad matemática. Otroprocedimiento podría haber sido la selección de un número concreto de variables al azary realizar sus productos de forma aleatoria.

Por último, los criterios de acierto a emplear son los mismos que los del capítulo an-terior, considerando un 1% de error relativo como máximo admisible, así como el criteriodel MAPE. Asimismo, los parámetros a cambiar en los experimentos son también los em-pleados en el capítulo anterior, Número de variables, Número de observaciones, Parámetromtry y ntree.

4.3. Experimentos Independientes

4.3.1. Cambio de variables Correlacionadas

Modelo determinista

En este primer caso se omitirá el ruido en la generación de la variable respuestay se procederá a estudiar la reacción de los diversos modelos cuando hay 20 variablesimplicadas y 600 observaciones por cada una de ellas. La elección de estos números obedecea criterios de coste en las simulaciones pero al mismo tiempo buscan conseguir que el ajustede modelo lineal se pueda realizar, ya que si tomando menor número de observaciones elrango de las mismas resulta insu�ciente, es decir, se necesita más información para ajustarel modelo (Rank de�ciency), quedando tasas de acierto como las siguientes:



Figura 4.1: Ejemplo de Rank de�ciency en un modelo lineal

Este caso es similar al problema de dimensionalidad que se mostró en el capítuloanterior, pero en estos experimentos es particularmente problemático debido al aumentoexponencial del número de variables.

Los resultados obtenidos de este experimento con modelo determinista son:

Figura 4.2: Modelo con interacción y variables correlacionadas sin ruido.

Dicha grá�ca permite observar las tasas de acierto de cada modelo. El primer aspectoque salta a la vista es el hecho de que, al igual que en los ejemplos del capítulo anterior,el modelo lineal ajustado posee una tasa de acierto del 100%, de modo que sigue siendoel que mejor realiza la regresión de los datos.

El hecho de que experimente una bajada por debajo de la tasa de acierto de RandomForest se debe a que está en el límite de su capacidad de ajuste con la informaciónsuministrada.



Finalmente, es destacable el hecho de que, ya que el lineal sabe qué tipo de modelotiene que ajustar, su resistencia a los problemas de dimensionalidad es muy grande, inclusoaunque en teoría la falta de información debería impedir conseguir buenos resultados, eneste caso es capaz de acertar debido a que está especí�camente diseñado para ajustardicho modelo.

Modelo no determinista

La introducción de ruido en la respuesta provoca unos resultados considerablementediferentes a los observados en el anterior apartado, reduciéndose con mucho la precisiónde los mismos.

Es importante señalar que, al igual que los coe�cientes de los regresores de segundoorden son de un orden de magnitud menor que los originales, el ruido asociado a losmismos también lo es. Las tasas de acierto del modelo con variables correlacionadas nodeterminista son las siguientes:

Figura 4.3: Modelo con interacción y variables correlacionadas con ruido.

La respuesta que ha dado el sistema con 20 variables (y sus interacciones) y 600 ob-servaciones incluyendo ruido es muy diferente. Se observa primeramente una gran bajadaen la tasa de acierto que proporcionan todos los modelos, si bien es cierto que los modelosde árboles son bastante estables y poseen una progresiva mejora según va aumentando elnúmero de variables.

Sin embargo, la característica más reseñable es que, incluso con un gran número deobservaciones, el modelo lineal posee un acierto muy pobre en el momento en el que le esintroducida una componente aleatoria.

Finalmente, el MAPE arrojado por los modelos de árboles varía de la siguiente manera:

Cuyos resultados son congruentes con las tasas de acierto consideradas.



Figura 4.4: MAPE del modelo con interacción y variables correlacionadas con ruido.

4.3.2. Cambio de variables no Correlacionadas

Modelo determinista

En este caso, como se ha indicado, no hay correlación entre las variables, de modo quela matriz de covarianzas es diagonal. En este caso, el predecir la respuesta es más sencillodebido a que las relaciones entre los regresores son más evidentes. Los resultados son lossiguientes para el modelo determinista:

Figura 4.5: Respuesta de los modelos ante un modelo lineal con interacción y sin correla-ción de variables ni ruido.

Resulta evidente que el modelo que tiene mas problemas de adaptación a la rela-ción entre las variables es el de Random Forest creado con Conditional Inference Trees.Sin embargo, queda patente la capacidad de todos los modelos de estimar este tipo derelaciones.


4.4. DEPENDENCIA RESPECTO DEL NÚMERO DE ÁRBOLES

Modelo no determinista

Se trata del último caso de análisis del comportamiento de los modelos en función delincremento de variables que conforman la respuesta. Las variables no tienen correlaciónentre sí pero existe inclusión de ruido en la respuesta.

La respuesta de los modelos es la siguiente:

Figura 4.6: Respuesta de los modelos ante un modelo lineal con interacción y sin correla-ción de variables pero con ruido.

Lo que más llama la atención es la similaridad con el caso en el que sí había correlación.A tenor de estos resultados, parece que la correlación de variables solo tiene una in�uenciasensible en el caso de modelos deterministas, en el momento en el que aparece ruido en elsistema no es posible apreciarla.

4.4. Dependencia respecto del número de árboles

Al igual que en el caso abordado en el capítulo anterior, es esperable que el número deárboles no resulte ser una variable decisiva en cuanto a lo que la calidad de las prediccionesse re�ere. Sin embargo, resulta interestante comprobar la velocidad a la que la tasa de errorconverge. Las variables empleadas a lo largo de estos experimentos estarán correlacionadas.

Primeramente, se hará una comprobación grosera, con un paso de 5, desde 5 árbolesa 400 y con 20 variables buscándose algún tipo de tendencia en la variación del MAPEde los modelos de árboles. Los resultados son los siguientes:



Figura 4.7: Dependencia del error MAPE con el número de árboles hasta 400 en un modelolineal con interacción.

Como se puede observar, no se aprecia una dependencia clara del número de árboles.Dado que el número era realmente grande (y aun así menor del prede�nido en las libreríasde R), se ha decidido probar con números menores de árboles, con lo cual sería esperablemás varianza en los primeros valores del MAPE, y una posterior estabilización.

En la siguiente prueba, el número máximo de árboles se ha reducido de 400 a 50, peromanteniendo el de variables en 20. Recuérdese que aunque el número de regresores sea20, las variables introducidas al modelo son muchas más, en este caso 230, debido a lasinteracciones.

Figura 4.8: Dependencia del error MAPE con el número de árboles hasta 50 en un modelolineal con interacción.


4.4. DEPENDENCIA RESPECTO DEL NÚMERO DE ÁRBOLES

Nuevamente, aunque se ha pasado a analizar un número mínimo de árboles y la pre-cisión de las observaciones es mucho mayor, ya que el paso se ha reducido a uno, deforma que sea apreciable la variación del MAPE con la inclusión de cada árbol nuevo, losresultados siguen oscilando de la misma manera.

Otra posible explicación de este fenómeno es la gran cantidad de variables e inter-acciones introducidas. Puede ser que al ser un número tan grande, además de que lasvariables están correlacionadas, o bien el sistema capta rápidamente la relación entre ellaso se declara completamente incapaz de hacerlo.

La única otra manera de apreciar dicha posibilidad es reduciendo el número de varia-bles. En este caso, se pasará a 3 regresores más sus interacciones. Los resultados obtenidosson:

Figura 4.9: Dependencia del error MAPE con el número de árboles hasta 50 en un modelolineal con interacción y 3 regresores.

Finalmente, ahora sí es posible apreciar un cambio de patrón en el MAPE a partirde cierto número, pudiéndose ver las oscilaciones del sistema hasta alcanzar un valor queaparenta ser un régimen permanente.

Sin embargo, a pesar de los últimos resultados, resulta evidente que la dependencia dela calidad de las predicciones con el número de árboles es, como mucho, leve, especialmentea partir de las pocas decenas.



4.5. Experimentos con mtry

En esta sección se realizarán experimentos idénticos a los realizados en el capítuloanterior variando el parámetro mtry, es decir, la cantidad de variables empleadas en larealización de los splits nodales. Dicho valor irá aumentando progresivamente de unoen uno hasta llegar al número máximo de variables contando las interacciones entre lasmismas.

Como ya se apreció en el anterior experimento, la dependencia con este parámetro essensible, de modo que no es despreciable en absoluto, y las tasas de error varían conside-rablemente entre tomar unos valores u otros.

Los tres experimentos realizados harán cambios en el número de observaciones porvariable, al igual que en el caso del capítulo anterior. El número de variables a evaluarserá 5 en todo caso, sin contar con las interacciones. Las variables se escalarán, mientrasque el número de replicaciones de cada experimento se mantendrá en 10, de modo que losresultados que se muestran son la media ponderada de dichas replicaciones.

Dado que este caso también es de regresión y no de clasi�cación, el valor teóricoóptimo para la mayoría de los casos debería rondar

p

3, siendo p el número de variables

que se introducen a los modelos de Bosques Aleatorios.


Aportando solo 100 observaciones por variable, la variación del MAPE según aumentamtry viene dada por:

Figura 4.10: Dependencia del error MAPE en el modelo con interacción variando mtrycon 100 observaciones



La tabla de datos medios con la que se ha construido el grá�co es:

TABLAI abscisa MRF MCF2 2 0,0378 0,03694 4 0.0136 0.01656 6 0,0209 0,02058 8 0,0221 0,021710 10 0,0237 0,023612 12 0,0205 0,021114 14 0,0427 0,040116 16 0,0257 0,025118 18 0,0423 0,042720 20 0,0192 0,0217

Tabla 4.1: Datos de la variación del MAPE con mtry con 100 observaciones.

Nuevamente, y de forma congruente con la teoría, existe en intervalo en el entornode la tercera parte del número de variables introducidas a los modelos en el cual el errordesciende y, en general, se obtienen buenos resultados predictivos con dichos valores.

Tal y como sucedía en algunos casos de los experimentos con el modelo Lineal puro,el valor mínimo del MAPE no se encuentra en la región de trabajo recomendada, perosin embargo sí que existe un valle de bajo error que garantiza más �abilidad a la hora detrabajar.


En este experimento se ha duplicado la información aportada al sistema, de modo queexisten 200 observaciones por cada variable independiente. La tabla con los datos es:

TABLAI abscisa MRF MCF2 2 0,0212 0,02164 4 0,0220 0,02236 6 0,0255 0,02578 8 0.0207 0.020610 10 0,0209 0,021312 12 0,0289 0,028514 14 0,0266 0,026416 16 0,0300 0,029418 18 0,0263 0,026620 20 0,0224 0,0223




Y su representación grá�ca es la siguiente:


Como se puede comprobar, los resultados medios obtenidos ponderando las 10 repli-caciones no son en este caso tan congruentes con la teoría como los anteriores.

Primeramente, hay una gran oscilación de resultados en el entorno de mtry =p

3de

modo que dicha zona de trabajo resulta no ser tan segura como en otras simulaciones, yaque, como es apreciable, el valle de error del MAPE aparece desplazado a valores menoresde los que se suponen óptimos.

Sí que es cierto que dicho valle no está muy alejado de la que se puede considerar comozona de trabajo, el problema de este caso es que existe un pico de error entre ambos.


En este último experimento, el número de variables ha aumentado a 300, con lo quees esperable que los modelos tengan informacion de sobra para ajustarse sin problemas ala respuesta.

De nuevo se han llevado a cabo 10 replicaciones del experimento de simulación, ylos valores medios obtenidos resultan interesantes, ya que muestran un comportamientodisimilar respecto de todas las simulaciones llevadas a cabo.

La tabla con los datos obtenidos se muestra en la página siguiente:



TABLAI abscisa MRF MCF2 2 0,0228 0,02294 4 0,0274 0,02746 6 0,0235 0,02398 8 0,0232 0,022910 10 0,0222 0,021912 12 0,0237 0,023314 14 0,0221 0,021916 16 0,0217 0,021318 18 0,0259 0,025620 20 0.0213 0.0209


Mientras que la representación grá�ca de dichos resultados resulta ser:


Este caso, de nuevo resulta ser más típico que el anterior, ya que se puede apreciarcómo, si bien el mínimo error no es alcanzado en el punto de trabajo especi�cado, sí escierto que en este caso el entorno general de trabajo coincide con una región de MAPEaceptable, si bien es cierto que no parece tan conveniente como era en el caso de 100observaciones.

En cualquier caso, está claro que de forma general (ni mucho menos siempre), a faltade un buen criterio de decisión como puede ser un muestreo de los porcentajes de errorasociados a cada valor de mtry, puede ser conveniente asignar un valor �jo de la terceraparte de las variables.

Además de esto, la otra razón de tomar dichos valores es que al tener en cuenta menosvariables para cada árbol, se agilizaría el proceso de construcción de los modelos.


Capítulo 5

Intervalos de Con�anza

5.1. Introducción

Una característica muy frecuente en las publicaciones que analizan actualmente lacapacidad predictiva de los modelos de Random Forest, tanto en los elaborados con CARTy con Conditional Inference Trees es el hecho de que, generalmente, o bien se centran en elanálisis del modelo matemático en sí de una manera que se podría de�nir como analítica, oproducen un resultado y buscan analizar la precisión del mismo a través de un parámetroauxiliar como puede ser el MAPE para inferir a través del mismo las capacidades de losmodelos.

Sin embargo, esta manera de atacar a los diferentes casos deja de lado un problemafundamental de especial interés en el análisis estadístico. A menudo el valor de una pre-dicción en sí, ya sea en un problema de regresión, predicción de series temporales etc. noes tan importante como la incertidumbre que a él se asocia. De dicha necesidad surgenlos intervalos de con�anza.

5.2. Descripción de los Intervalos

Un intervalo de con�anza es un parámetro estadístico constituido por un número o unadupla de números a partir del cual o entre los cuales existe una probabilidad determinadade encontrar el valor que se estima en un determinado problema.

A la probabilidad de fallar la estimación realizada a través de dicho intervalo se laconoce como nivel de signi�cación, y es generalmente representada por la letra griegaα. Típicamente, los valores que α suele tomar son el 1, 5 y 10 por ciento, si bien porsupuesto dicha precisión depende del problema determinado. Lógicamente, la probabilidadde acierto es 1 - α.

En general, la construcción de los intervalos requiere conocer la distribución de proba-bilidad del parámetro que se desea estimar. Por ejemplo, en el caso de que dicho parámetrosiga una normal, resulta sencillo crear el intervalo de la precisión deseada a través de lasiguiente expresión:

77

5.3. EXPERIMENTO 1: 20 VARIABLES

µ ∈ µ± zα/2σ√n

Donde µ sería el valor real del parámetro que se desea estimar, µ la estimación que sehace del mismo, n el tamaño de la muestra, σ la desviación típica de la misma, y zα/2 elvalor leído en las tablas de la normal estándar en función de la precisión que se exija alintervalo.

Otra manera de realizar dicho cálculo es a través de la Igualdad de Chebychev.

Dado que en el caso de los modelos de árboles no se posee tanta información sobrelas variables, ya que generalmente solo se dispone de un conjunto de datos de diferentesnaturalezas, este tipo de procedimientos resultan poco prácticos e ine�cientes.

Por estas razones, a la hora de evaluar la incertidumbre de las predicciones realizadascon los modelos generados se procederá de manera diferente.

Como en los modelos de Random Forest las predicciones se generan a través de lasmedias ponderadas de las predicciones de los árboles individuales, tiene sentido generarel intervalo empleando las predicciones individuales de cada árbol, de modo que si, porejemplo, se dispone de 1000 árboles, es posible generar dicho intervalo con α = 5 %cogiendo (una vez ordenadas las predicciones de menor a mayor) desde el número 25 al975.

Mediante este método se irán generando diversos intervalos de con�anza con diferentesniveles de signi�cación, tomando la cantidad de árboles correspondiente.

En los experimentos de este capítulo, se realizarán los intervalos de con�anza asociadosa un modelo lineal con correlación entre variables. En los tres experimentos, se probarándiferentes órdenes de magnitud de variables y observaciones para comprobar la diversidadde resultados.

5.3. Experimento 1: 20 variables

En este apartado se realizarán las predicciones sobre un modelo lineal con 20 variablesy se irán incrementando el numero de observaciones para comprobar la variación en lasanchuras de los intervalos. Las cantidades de las observaciones son el doble, cinco y diezveces el número de variables.

En la siguiente tabla se resume cómo varían las anchuras de los intervalos de con�anzasegún se van incrementando las observaciones, para los intervalos de nivel de signi�cación1, 5 y 10.



Observaciones 1% 5% 10%40 0,0113 0,0113 0,0087100 0,0152 0,0152 0,0125200 0,0122 0,0122 0,0088

Tabla 5.1: Variación de las anchuras de los intervalos de con�anza con 40, 100 y 200observaciones

Como se ve, las anchuras decrecen al aumentar el índice de signi�cación(como eslógico). Resulta interesante sin embargo subrayar el hecho de que aumentar el número deobservaciones no hace mejorar las anchuras máximas de los intervalos de forma inmediata.

La representación grá�ca de las predicciones con sus respectivos intervalos en el casode 200 observaciones es:

Figura 5.1: Predicción e intervalos de con�anza con 20 variables y 200 observaciones

5.4. Esperimento 2: 40 variables

En este apartado se llevará a cabo el mismo experimento pero con 40 variables, incre-mentando las observaciones de manera análoga al caso anterior. La tabla con los resultadoses:

Observaciones 1% 5% 10%80 0,0229 0,0229 0,0174200 0,0221 0,0216 0,0184400 0,0166 0,0163 0,0142




En este caso los resultados referentes a las anchuras de los intervalos son mucho mástípicos, ya que la tendencia es en todos los casos a reducirse con el incremento de lasigni�cación y las observaciones.

Para el caso de 200 observaciones, la representación grá�ca de los intervalos es:


5.5. Experimento 3: 60 variables

Este será el último caso objeto de estudio y la metodología seguida es la misma queen los casos anteriores.

La tabla de datos es la siguiente:

Observaciones 1% 5% 10%120 0,0302 0,0301 0,0258300 0,0298 0,0293 0,0216600 0,0369 0,0341 0,0256


En este caso, si bien sigue siendo cierto que la anchura disminuye de forma inversaal aumento del índice de signi�cación, en todos los casos aumenta con el número deobservaciones, lo cual supone un fenómeno curioso y digno de estudio.

Ha de ser tenido en cuenta el hecho de que en ciertas situaciones, como ya se ha tenidola ocasión de comprobar en apartados anteriores del presente trabajo, un aumento delas observaciones por variable no es concluyente a la hora de mejorar la precisión de losmodelos.



Finalmente se adjunta la grá�ca obtenida para el caso en el que se han tomado las 600observaciones por variable y sus intervalos de con�anza asociados:


Finalmente, es muy destacable el hecho de que la incertidumbre asociada a los inter-valos es como mucho un uno por ciento, de modo que se puede a�rmar que en general laspredicciones de dichos intervalos son considerablemente precisas.


Capítulo 6

Conclusión y Líneas Futuras

6.1. Conclusión

En este Trabajo de Fin de Grado se ha realizado un análisis exhaustivo de las capa-cidades de los modelos de Random Forest como herramienta para resolver problemas deregresión estadística en modelos típicos lineales.

Al margen del resto de conclusiones, cabe destacar el hecho de que, en términos genera-les los Bosques Aleatorios, tanto los realizados con CART como con Conditional InferenceTrees son una herramienta útil y de gran adaptabilidad ante prácticamente cualquier tipode cambio.

Al margen de este hecho, cabe destacar los siguientes aspectos sobre los modelos deRandom Forest :

Es apreciable un aumento de la precisión en la mayoría de los casos según aumentael número de variables que conforman el problema.

Existe sensibilidad a la correlación de las variables y al ruido, pero ambos son levesfrente a otros modelos.

Tienen gran robustez frente a la dimensionalidad de los problemas, siendo capacesde manejar poca información en proporción al número de variables.

La cantidad de árboles que conforman el Random Forest no es una variable muy sig-ni�cativa en su calidad, convergiendo en general hacia la solución con pocas decenasde árboles.

Presentan muy pocos problemas de sobreajuste (over�tting).

El parámetro mtry tiene una in�uencia decisiva en la tasa de error cometida, y engeneral es conveniente adaptarlo a cada problema especí�co.

Random Forest es una herramienta potente a la hora de captar la importancia delas variables que conforman un determinado proceso, pero de todos los resultadosque pueden aportar, este es el que más reservas debe generar ya que depende mucho

83

6.2. LÍNEAS FUTURAS

del método de cálculo y es fácil que aunque la generalidad esté correcta, haya algúnerror grave puntual enmascarado.

Los intervalos de con�anza generados a partir de las predicciones de los árbolesindividuales son relativamente estrechos, con una anchura generalmente inferior al1% del valor predicho, de modo que la incertidumbre asociada a dichos valores espequeña.

6.2. Líneas futuras

Este proyecto de investigación tiene gran cantidad de posibilidades de ampliación envistas a una mayor profundización de los experimentos expuesto, o extensión a otro tipode modelos de regresión. En ese aspecto, cabe destacar:

Análisis de nuevos modelos típicamente utilizados en Ciencia y Tecnología, comomodelos tipo Arrhenius por ejemplo.

Realización de los mismos experimentos aumentando el número de replicaciones.

Hallar una relación analítica aproximada que explique las necesidades de informaciónde Random Forest para no incurrir en problemas de dimensionalidad.

Análisis de la anchura de los intervalos de con�anza en función de los tamaños delos conjuntos de entrenamiento y prueba.


Capítulo 7

Plani�cación temporal y presupuesto

7.1. Estructura de Descomposición del Proyecto (EDP)

La Estructura de Descomposición del Proyecto, EDP, es una representación esquemá-tica de la jerarquía que han de tener las diferentes partes que conforman un proyecto,llegando a la unidad mínima, que está constituida por los entregables de dicho proyecto.

La EDP constituye una herramienta e�caz con la cual poder observar de un vistazo losniveles fundamentales en los que se divide un proyecto. Asimismo, transmite informaciónsobre el alcance del mismo (en este caso, el Trabajo de Fin de Grado), si bien es ciertoque no aporta información en cuanto a la cronología que lo rige.

Finalmente, dado que debe ser un elemento de fácil manejo e interpretación, no hade tener un tamaño demasiado grande para que su utilidad no quede coartada por sucomplejidad.

En las páginas siguientes viene adjuntada la EDP del presente trabajo.

7.2. Diagrama de Gantt

El conocido como diagrama de Gantt es un diagrama de barras que permite representarla cronología de las diversas tareas asociadas a un proyecto. Resulta ser una herramientagrá�ca de sencilla interpretación en la cual la plani�cación del mismo queda patente.

Sin embargo, los diagramas de Gantt tienen como contrapartida su incapacidad pa-ra mostrar las relaciones entre las distintas partes representadas, por ello a menudo seconjuntan con información complementaria como la proporcionada por la EDP.

En las siguientes páginas se muestra detalladamente el diagrama de Gantt del trabajo.

85

7.2. DIAGRAMA DE GANTT

EDP

Estudios Previos

Lectura de los "papers"

Lectura de ejemplos

Aprendizaje de aplicaciones

reales

Prácticas con R

Lectura del manual básico

Aplicación a ejemplos simples

Pruebas con CART

Pruebas con Random Forest

Experimentos con el modelo Lineal

Cantidad de variables

Dimensionalidad

Número de Árboles

Variación de mtry

Importancia de variables

Experimentos con modelo Lineal e

interacciones

Cantidad de variables

Número de árboles

Variación de mtry

Intervalos de Confianza

Figura 7.1: Estructura de Descomposición del Proyecto



IdNom

bre de

tarea

11 Tu

toría

inicial

22 Definición de

l Traba

jo3

3 Lectura de

los p

apers

44 Ap

rend

izaje de

R5

5 Prim

eras prueb

as de código

66 Expe

rimen

tos c

on m

odelo lin

eal

76.1 Núm

ero de

Variables

86.2 Dimen

sionalidad

96.3 Núm

ero de

árboles

106.4 mtry

116.5 Im

portancia de

variables

127 Tutoría

s intermed

ias

138 Expe

rimen

tos c

on interacción

148.1 Có

digo

para conseguir e

l mod

elo

158.2 Núm

ero de

variables 2

168.3 mtry2

178.4 Intervalos de confianza

189 Re

dacción de

l traba

jo19

9.1 Re

dacción de

los e

xperim

entos

209.2 Re

dacción de

l resto del trabajo

2110

Impresión

1826

0311

1927

0614

2230

0715

2301

0917

2502

1018

2604

1220

2805

ene '16

01 fe

b '16

22 fe

b '16

14 m

ar '16

04 abr '16

25 abr '16

16 m

ay '16

06 jun '16

27 jun '16

18 jul '16

08

Tarea

Divisió

n

Hito

Resumen

Resumen

del proyecto

Tareas externas

Hito externo

Tarea inactiv

a

Hito inactiv

o

Resumen

inactiv

o

Tarea manual

Sólo duración

Inform

e de

resumen

manual

Resumen

manual

Sólo el com

ienzo

Sólo fin

Fecha lím

ite

Progreso

Página

1

Proyecto: alvaro

Fecha: jue 21

/07/16

Figura 7.2: Diagrama de Gantt


7.2. DIAGRAMA DE GANTT

Id Nombre de tarea Duración Comienzo Fin

1 1 Tutoría inicial 1 día vie 29/01/16 vie 29/01/16

2 2 Definición del Trabajo 2 días mar 02/02/16 jue 04/02/16

3 3 Lectura de los papers 15 días jue 04/02/16 mar 23/02/16

4 4 Aprendizaje de R 3 días mar 23/02/16 vie 26/02/16

5 5 Primeras pruebas de código 6 días dom 28/02/16 dom 06/03/16

6 6 Experimentos con modelo lineal 40 días sáb 19/03/16 dom 08/05/16

7 6.1 Número de Variables 6 días sáb 19/03/16 sáb 26/03/16

8 6.2 Dimensionalidad 6 días sáb 26/03/16 dom 03/04/16

9 6.3 Número de árboles 5 días dom 03/04/16 sáb 09/04/16

10 6.4 mtry 12 días sáb 09/04/16 dom 24/04/16

11 6.5 Importancia de variables 11 días dom 24/04/16 dom 08/05/16

12 7 Tutorías intermedias 2 días dom 08/05/16 mar 10/05/16

13 8 Experimentos con interacción 40 días mié 11/05/16 mié 29/06/16

14 8.1 Código para conseguir el modelo 7 días mié 11/05/16 jue 19/05/16

15 8.2 Número de variables 2 10 días vie 20/05/16 mié 01/06/16

16 8.3 mtry2 10 días jue 02/06/16 mar 14/06/16

17 8.4 Intervalos de confianza 11 días mié 15/06/16 mar 28/06/16

18 9 Redacción del trabajo 20 días mar 28/06/16 vie 22/07/16

19 9.1 Redacción de los experimentos 14 días mar 28/06/16 vie 15/07/16

20 9.2 Redacción del resto del trabajo 6 días vie 15/07/16 vie 22/07/16

21 10 Impresión 4 días vie 22/07/16 jue 28/07/16

Página 1

Figura 7.3: Actividades del Diagrama de Gantt



7.3. Presupuesto del TFG

Como en cualquier tipo de proyecto de ingeniería, se hace necesario incluir un apartadoen el que se haga constar el coste del mismo.

En este caso, al tratarse de un trabajo de simulación en el cual no ha sido necesaria lacompra de ningún componente físico, además de que la totalidad del software empleadoes de libre distribución, de modo que no se incurre en ningún coste por su uso, el gruesodel coste del trabajo viene dado por los sueldos y horas trabajadas en la realización delmismo.

Para hallar dichos valores, es necesario estimar el sueldo. Tomando como referenciael sueldo medio de prácticas de un ingeniero sin haberse graduado, unos 7.5e/hora, yestimando una cantidad de horas de trabajo de 370, el coste supone 2775e. En cuanto alsueldo de los directores del Trabajo de Fin de Grado, con un sueldo de 25 e/hora, y unas30 horas de trabajo, el coste asciende a 1500e. Los datos del presupuesto se recogen enla siguiente tabla:

Concepto Unidades Coste Unitario TotalSalario Alumno 370 horas 7.5 e/h 2775 eSalario tutor 1 30 horas 25e/h 750 eSalario tutor 2 30 horas 25e/h 750 eLicencia O�ce 2010 1 59 e 59 e

Tabla 7.1: Presupuesto

Así estimado, el coste total del Trabajo de Fin de Grado supone alrededor de 4334 e.


7.3. PRESUPUESTO DEL TFG


Capítulo 8

Bibliografía

1. Ulrike Grömping."Variable Importance Assessment in Regression: Linear Regressionversus Random Forest"(2009).University of Applied Sciences, Berlin.

2. Leo Breiman.Random Forests"(2001).University of California Berkeley.

3. Trevor Hastie, Robert Tibshirani, Jerome Friedman."The Elements of StatisticalLearning, Data Mining, Inference and Prediction"(2008).Stanford, California.

4. Torsten Hothorn, Kurt Hornik, Achim Zeileis.Ünbiased Recursive Partitioning: AConditional Inference Framework"(2006).Journal of Computational and GraphicalStatistics.

5. Shih Y. "Families of Splitting Criteria for Classi�cation Trees"(1999).Statistics andComputing.

6. White AP, Liu WZ."Bias in Information-Based Measures in Decision Tree Induc-tion"(1994).Machine Learning,15,321-329.

7. De'Ath G., Fabricius KE.Çlassi�cation And Regression Trees: A Powerful Yet Sim-ple Technique For Ecologial Data Analysis."(1999).Tropical Environment Studiesand Geography, James Cook University. Australian Institute of Marine Science.

8. Genuer R., Poggi JM. Tuleau-Malot C."Variable Selection Using Random Forests"(2010).Bourdeaux University.

9. Yohannes Y., Webb P.Çlassi�cation and Regression Trees, CART. A User ManualFor Identifying Indicators of Vulnerability to Famine and Chronic Food Insecu-rity."(1999).International Food Policy Research Institute.

10. Sobol, IM."Global sensitivity indices for nonlinear mathematical models and theirMonte Carlo estimates"(2001).Institute for Mathematical Modeling of the RussianAcademy of Sciences.

91

Apéndices

93

Índice de �guras

1. Tasa de acierto en un modelo lineal sin interacción, con regresores correla-cionados y con ruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Dependencia del MAPE con el número de árboles. Modelo con interacciónde 3 variables correlacionadas con ruido. . . . . . . . . . . . . . . . . . . . 6

3. Intervalos de con�anza para predicciones con modelo lineal con 5 variablescon interacción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1. ANN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2. kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1. Ejemplo CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2. Ejemplo CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3. Ejemplo over�tting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4. Ejemplo kfold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.5. Ejemplo randval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.6. Ejemplo varimp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7. Ejemplo varimprf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.8. Ejemplo ggpl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.9. Ejemplo MAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.1. Acierto Numero Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2. Limitaciones lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3. NumVarconruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4. NoCorrelSinRuido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.5. NoCorrelConRuido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.6. CurseenRFCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.7. Variables hasta fallo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

95

ÍNDICE DE FIGURAS

3.8. MAPE con 40000 árboles por modelo . . . . . . . . . . . . . . . . . . . . . 48

3.9. MAPE con 500 árboles por modelo . . . . . . . . . . . . . . . . . . . . . . 49

3.10. MAPE con mtry: 200 variables . . . . . . . . . . . . . . . . . . . . . . . . 50

3.11. MAPE con mtry:300 variables . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.12. MAPE con mtry: 10 variables y 100 observaciones . . . . . . . . . . . . . . 52



3.15. MAPE con mtry desplazado . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.16. Importancia de variables con 50 observaciones . . . . . . . . . . . . . . . . 58

3.17. Importancia de variables con 150 observaciones . . . . . . . . . . . . . . . 59

3.18. Importancia de variables con 300 observaciones . . . . . . . . . . . . . . . 61

4.1. Rank de�ciency en un modelo lineal . . . . . . . . . . . . . . . . . . . . . . 67

4.2. Lineal con Interacción correlacionadas sin ruido . . . . . . . . . . . . . . . 67

4.3. Lineal con Interacción correlacionadas con ruido . . . . . . . . . . . . . . . 68

4.4. MAPE del Lineal con Interacción correlacionadas con ruido . . . . . . . . . 69

4.5. Modelo Lineal con Interacción sin correlacionar y sin ruido . . . . . . . . . 69

4.6. Modelo Lineal con Interacción sin correlacionar y con ruido . . . . . . . . . 70

4.7. Dependencia del modelo con interacción del número de árboles hasta 400 . 71

4.8. Dependencia del modelo con interacción del número de árboles hasta 50 . . 71

4.9. Dependencia del modelo con interacción del número de árboles hasta 50solo con 3 regresores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.10. Dependencia del modelo con interacción de mtry. 5 variables y 100 obser-vaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73



5.1. Predicción e intervalos de con�anza con 20 variables y 200 observaciones . 79



8.1. Estructura de Descomposición del Proyecto . . . . . . . . . . . . . . . . . . 88



8.2. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

8.3. Actividades del Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . 90


ÍNDICE DE FIGURAS


Índice de tablas

3.1. Variables hasta el fallo por Curse of Dimensionality . . . . . . . . . . . . . 47

3.2. Tabla de MAPEs con mtry de 1 en 1 y 100 observaciones . . . . . . . . . . 52



3.5. Tabla de importancia de variables con 50 observaciones . . . . . . . . . . . 57

3.6. Tabla de importancia de variables con 150 observaciones . . . . . . . . . . 59

3.7. Tabla de importancia de variables con 300 observaciones . . . . . . . . . . 60

4.1. Datos de la variación del MAPE con mtry en un modelo con interacción y100 observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74



5.1. Variación de las anchuras de los intervalos de con�anza con 40, 100 y 200observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79



8.1. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

99

ÍNDICE DE TABLAS


Lista de Códigos

3.1. Código empleado en el escalado de las 10 variables . . . . . . . . . . . . . . 574.1. Código empleado para generar las interacciones necesarias. . . . . . . . . . 65

101

LISTA DE CÓDIGOS


experimentos computacionales en un estudio de...

Documents