modelo predictivo para la gestión de activos y análisis de ... · • minería de datos:...

26
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información 1 Modelo Predictivo para la Gestión de Activos y Análisis de Inversiones para Entidades Financieras, mediante Minería de Datos Lilian Narcisa Salazar Vasquez Escandinavia 110, Las Condes, Santiago. Región Metropolitana [email protected] Resumen: El presente trabajo tiene como objetivo describir la implementación de un modelo predictivo mediante minería de datos, para abordar un problema central de las instituciones financieras en Chile: la gestión de activos y el análisis de inversiones. Actualmente existe una gran cantidad de información confiable y periódica generada por instituciones como el Banco Central de Chile (BCCh), la Tesorería General de la República (TGR) y el mercado financiero. Al aplicar técnicas de minería de datos el interés es hacer un análisis técnico de estas variables económicas y financieras. Modelar y predecir valores y/o movimientos de indicadores del mercado financiero entrega una herramienta señalizadora de riesgo y expectativas futuras. Una vez construidos los modelos se evaluará su capacidad predictiva para ver, si el rendimiento resulta óptimo y la configuración de los escenarios es útil para entender la mecánica de la economía chilena, sirviendo de punto de partida para la proyección de otras variables económico- financieras. El presente trabajo considera utilizar la metodología CRISP-DM para la gestión del proyecto y técnicas predictivas para la construcción del modelo. Palabras Clave: Gestión de Activos, Minería de Datos, CRISP-DM, Mercado de Valores, Predictivo. 1 Introducción La Gestión de Activos en el sector financiero es una actividad que consiste en la gestión responsable del capital para alcanzar los mayores beneficios [1].La elección de cartera es un problema crítico de los bancos en un entorno competitivo; responder rápidamente cómo se debe distribuir el capital en una operación o transacción, considerando que cada activo es único y ofrece sus propias perspectivas, conlleva un alto riesgo. El Trading (en español, negociación bursátil) consiste en el estudio de los mercados mediante el análisis técnico y el fundamental para invertir en diferentes instrumentos financieros, con el objetivo de obtener un beneficio [2]. Las reglas del Trading considera dos aspectos fundamentales para la selección que puede resumirse en un retorno esperado y un aspecto de riesgo; el primero cuantifica cuál sería el ingreso o precio probable de un activo durante un período de tiempo determinado; el segundo mide cuán inciertos pueden ser estos beneficios. Igual de importante es cómo se combinan los riesgos individuales a nivel de la cartera, el riesgo de cartera puede ser menor que la suma de los riesgos de los activos individuales que lo constituyen [3]. Actualmente, en Chile existe y se genera, periódicamente, una gran cantidad de información económica financiera publicada principalmente por el Banco Central de Chile (BCCh), la Tesorería General de la República (TGR), la Superintendencia de Banco e Instituciones Financieras (SBIF, actual CMF), el Instituto Nacional de Estadísticas (INE) y el mercado secundario, que corresponde a cifras de la actividad industrial, mercado laboral, estadísticas monetarias y financieras. Todos estos datos son confiables y, en general, públicos, suficientes para alimentar modelos intensivos en el uso de datos. El poder modelar para predecir valores y comportamientos de variables del mercado entrega una herramienta señalizadora de riesgo y expectativas futuras. Los estudios se orientan hacia la proyección del valor exacto, enfocándose en reducir los errores con respecto del valor real con costes en el pronóstico correcto de la dirección del movimiento [4]. En general, cuando se utilizan modelos para invertir al utilizar un escenario probable más que el valor exacto de la variable proyectada interesa si esta subirá o bajará, y si se espera que este movimiento sea importante. La mayor cantidad de operaciones, de montos considerables que transa el banco, pertenece al mercado chileno de renta fija, es de relevancia poder proyectar la tasa de interés entendiendo la dinámica de las variables económicas y financieras que la explican. Utilizando técnicas predictivas y descriptivas de clasificación se ejecutarán análisis estadísticos y de segmentación sobre los datos para tratar de explicar la relación causal

Upload: others

Post on 24-Aug-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

1

Modelo Predictivo para la Gestión de Activos y Análisis de Inversiones

para Entidades Financieras, mediante Minería de Datos

Lilian Narcisa Salazar Vasquez Escandinavia 110, Las Condes, Santiago. Región Metropolitana

[email protected]

Resumen: El presente trabajo tiene como objetivo describir la implementación de un modelo predictivo

mediante minería de datos, para abordar un problema central de las instituciones financieras en Chile: la

gestión de activos y el análisis de inversiones. Actualmente existe una gran cantidad de información

confiable y periódica generada por instituciones como el Banco Central de Chile (BCCh), la Tesorería

General de la República (TGR) y el mercado financiero. Al aplicar técnicas de minería de datos el interés es

hacer un análisis técnico de estas variables económicas y financieras. Modelar y predecir valores y/o

movimientos de indicadores del mercado financiero entrega una herramienta señalizadora de riesgo y

expectativas futuras. Una vez construidos los modelos se evaluará su capacidad predictiva para ver, si el

rendimiento resulta óptimo y la configuración de los escenarios es útil para entender la mecánica de la

economía chilena, sirviendo de punto de partida para la proyección de otras variables económico-

financieras.

El presente trabajo considera utilizar la metodología CRISP-DM para la gestión del proyecto y técnicas

predictivas para la construcción del modelo.

Palabras Clave: Gestión de Activos, Minería de Datos, CRISP-DM, Mercado de Valores, Predictivo.

1 Introducción

La Gestión de Activos en el sector financiero es una actividad que consiste en la gestión responsable del

capital para alcanzar los mayores beneficios [1].La elección de cartera es un problema crítico de los bancos en

un entorno competitivo; responder rápidamente cómo se debe distribuir el capital en una operación o

transacción, considerando que cada activo es único y ofrece sus propias perspectivas, conlleva un alto riesgo.

El Trading (en español, negociación bursátil) consiste en el estudio de los mercados mediante el análisis

técnico y el fundamental para invertir en diferentes instrumentos financieros, con el objetivo de obtener un

beneficio [2]. Las reglas del Trading considera dos aspectos fundamentales para la selección que puede

resumirse en un retorno esperado y un aspecto de riesgo; el primero cuantifica cuál sería el ingreso o precio

probable de un activo durante un período de tiempo determinado; el segundo mide cuán inciertos pueden ser

estos beneficios. Igual de importante es cómo se combinan los riesgos individuales a nivel de la cartera, el

riesgo de cartera puede ser menor que la suma de los riesgos de los activos individuales que lo constituyen [3].

Actualmente, en Chile existe y se genera, periódicamente, una gran cantidad de información económica

financiera publicada principalmente por el Banco Central de Chile (BCCh), la Tesorería General de la

República (TGR), la Superintendencia de Banco e Instituciones Financieras (SBIF, actual CMF), el Instituto

Nacional de Estadísticas (INE) y el mercado secundario, que corresponde a cifras de la actividad industrial,

mercado laboral, estadísticas monetarias y financieras. Todos estos datos son confiables y, en general,

públicos, suficientes para alimentar modelos intensivos en el uso de datos. El poder modelar para predecir

valores y comportamientos de variables del mercado entrega una herramienta señalizadora de riesgo y

expectativas futuras. Los estudios se orientan hacia la proyección del valor exacto, enfocándose en reducir los

errores con respecto del valor real con costes en el pronóstico correcto de la dirección del movimiento [4]. En

general, cuando se utilizan modelos para invertir al utilizar un escenario probable más que el valor exacto de

la variable proyectada interesa si esta subirá o bajará, y si se espera que este movimiento sea importante.

La mayor cantidad de operaciones, de montos considerables que transa el banco, pertenece al mercado chileno

de renta fija, es de relevancia poder proyectar la tasa de interés entendiendo la dinámica de las variables

económicas y financieras que la explican. Utilizando técnicas predictivas y descriptivas de clasificación se

ejecutarán análisis estadísticos y de segmentación sobre los datos para tratar de explicar la relación causal

Page 2: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

2

entre variables relevantes del mercado chileno y los tres posibles escenarios económicos (Crisis,

Debilitamiento, Fortalecimiento) que en una segunda etapa, permitan discriminar los datos para generar los

árboles de decisión sobre cada uno de los escenarios. Esta técnica se adapta al requerimiento pues se

caracteriza por jerarquizar las variables independientes en base al poder explicativo de la variable objetivo,

describe el camino que sigue la variable mostrando su interacción hasta llegar resultado al final.

El desarrollo de un modelo predictivo y su capacidad se fundamenta en:

• Técnica de minería de datos

• Preparación y transformación de las variables de entrada

• Cantidad de información

• Conjuntos de datos utilizados para el entrenamiento y comprobación

• Comprensión del resultado final

• Evaluación del rendimiento del modelo

Además de los puntos mencionados, este trabajo podría demostrar la relación existente entre las variables

económicas y financieras de Chile, los mercados internacionales y su cambiante interacción dependiendo del

contexto económico por el cual atraviesa el país. Resulta, entonces, primordial una herramienta predictiva que

exponga en detalle las variables que está utilizando, el peso en la estimación y si en sus diferentes niveles

cambia la correlación entre las variables.

Un modelo predictivo aprende con precisión los patrones pertenecientes al mercado en periodos de tiempo,

este aprendizaje automático es valioso en la evaluación de inversiones y toma de decisiones para la correcta

gestión de los activos.

2. Hipótesis y Objetivos

2.1 Hipótesis

Un Modelo Predictivo fundamentado en escenarios económicos y arboles de decisión C5.0 permitirán

estimar el movimiento y/o valor de un indicador financiero, como la tasa de interés fija a 5 años,

considerando las principales variables económicas y financieras del mercado chileno, con un rendimiento

igual o superior al 70%.

2.2. Objetivos Específicos

Los siguientes son los objetivos específicos considerados en el desarrollo del presente trabajo:

• Utilizando análisis de conglomerados y árboles de decisión como métodos de segmentación

demostrar la cambiante interacción entre las variables económicas y financieras de Chile, los

mercados internacionales y el contexto económico por el cual atraviesa el país.

• Mostrar con detalle qué variables financieras y económicas se utilizan para pronosticar la tasa fija a 5

años, y si en sus diferentes niveles cambian la relación entre las variables, cuales pasan a ser

relevantes en la estimación.

• Generar un modelo predictivo para la estimación de la tasa fija a 5 años en Chile, fundamentado en

la creación de escenarios económicos, y en la interacción de variables económicas y financieras en el

tiempo.

• Evaluar el rendimiento de los árboles de decisión C5.0 como una efectiva herramienta predictiva de

índices económicos o financieros, que entregará material confiable para el análisis de inversiones y

gestión de activos.

2.3 Metodología para validar la Hipótesis

La propuesta es construir un modelo predictivo utilizando análisis de conglomerados y árboles de decisión;

se trabajará sobre datos históricos donde se tiene un resultado conocido, es decir, se modelará sobre datos de

entrenamiento y se validará sobre datos de prueba.

Los algoritmos a usar generan reglas de decisión donde los datos son sucesivamente divididos en nodos

Page 3: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

3

intermedios hasta obtener segmentos de similar comportamiento respecto de la variable objetivo, las hojas

contienen la predicción [5].Los árboles resultantes podrán ser traducidos en un conjunto de reglas que se basa

en umbrales, los cuales entregan información sobre el punto en que una variable comienza a relacionarse de

manera diferente con otras variables.

Se seleccionan las principales variables económicas y financieras que afectan el movimiento y el valor de la

tasa de interés, incluyendo variables locales y externas ya definidas por el negocio. Se explica su importancia

dentro del modelo y se realiza el análisis descriptivo para determinar la correlación entre las variables

incluidas. Los resultados serán validados y utilizados por usuarios expertos del dominio, de manera de

determinar si son pertinentes al negocio.

3. Marco Teórico

3.1 Metodologías para Proyectos de Minería de Datos

Algunas de las principales metodologías para la gestión de proyectos de minería de datos son KDD, SEMMA,

CRISP-DM y Catalyst. SEMMA y CRISP-DM se consideran las más populares; no son un método científico

sino más bien una técnica entregada por la industria que se presenta en muchas de las publicaciones y se

utilizan bastante en la práctica [6].

El proceso CRISP-DM (Cross Industry Standard Process for Data Mining), depende del conocimiento del

negocio que el usuario posea, de manera de poder definir una hipótesis inicial. El proceso es iterativo y se

resume en una serie de pasos bien definidos [7] que se visualizan en la figura1 y descritos líneas abajo.

Figura 1: Proceso de Minería de Datos CRISP-DM

• Comprensión del negocio: se enfoca en entender los objetivos del proyecto y los requisitos desde una

perspectiva empresarial, y luego convertir este conocimiento en la definición de un problema de minería

de datos. Se identifican los objetivos y definen variables relevantes.

• Comprensión de los datos: se estudian los datos disponibles y se realizan actividades para familiarizarse

con ellos, para identificar problemas de calidad, descubrir las primeras ideas sobre los datos o detectar

subconjuntos interesantes para formular hipótesis para información oculta.

• Preparación de los datos: cubre todas las actividades para construir el conjunto de datos final a partir de

los datos brutos iniciales. En general, se aplican estadísticos que los describan, se determina su calidad, y

finalmente, se los transforma y limpia para usarlos como variables de entrada en los modelos de la etapa

siguiente.

• Modelado: se seleccionan y aplican distintos modelos sobre los datos, se calibran sus parámetros a

valores óptimos; generalmente es necesario volver a la etapa anterior para perfeccionar la data de entrada.

• Evaluación: se someten a evaluación el modelo (o modelos) estudiando los pasos que llevaron a sus

resultados, verificando si éstos cumplen los objetivos del negocio intentando identificar si hay factores de

importancia que no fueron considerados en el modelo. En esta etapa ya es posible definir si es posible

Page 4: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

4

utilizar la información generada por el modelo para tomar decisiones sobre la problemática abordada.

• Distribución: la creación del modelo generalmente no es el final del proyecto, incluso si el propósito del

modelo es aumentar el conocimiento de los datos, el conocimiento adquirido debe ser organizado y

presentado de forma que el cliente pueda utilizarlo.

Por otro lado, existe KDD (Knowledge Discovery in Databases) es un proceso iterativo e interactivo.

Iterativo, la salida de alguna de las fases puede retroceder a pasos anteriores. Es interactivo, generalmente un

experto en el dominio del problema debe ayudar a la preparación de los datos y validación del conocimiento

extraído. El proceso de KDD consta de las siguientes cinco fases [8]:

• Selección: crea un conjunto de datos objetivo y se focaliza en un subconjunto de variables o muestras de

datos en las cuales se realizará el descubrimiento.

• Pre procesamiento: limpieza de datos objetivo y pre procesamiento para obtener datos consistentes.

• Transformación: de los datos utilizando métodos de reducción o transformación.

• Minería de datos: búsqueda de patrones de interés en una determinada forma de representación,

dependiendo del objetivo de minería de datos (generalmente, predicción).

• Interpretación y Evaluación: consiste en la interpretación y evaluación de los datos para obtener el

conocimiento.

Metodología SEMMA (Sample, Explore, Modify, Model, Assess), se usa para ejecutar un proyecto de minería

de datos, desarrollado por el instituto SAS, el cual considera un ciclo con 5 etapas [6]:

• Muestreo: toma una muestra del conjunto de datos, la cual debe ser lo suficientemente grande como para

contener información relevante, y lo suficientemente pequeña para correr el proceso en forma rápida.

• Exploración: busca relaciones y tendencias desconocidas en estos.

• Modificación: se realiza limpieza de los valores anómalos, se completan datos faltantes; se crean y

modifican las variables que se trabajarán.

• Modelado: aplica diferentes técnicas de modelado sobre las variables de forma de obtener modelos que

den respuesta a los objetivos establecidos por el proceso de minería.

• Evaluación: en ésta última etapa, se evalúan los resultados del modelado, su utilidad y exactitud.

A modo de resumen, la tabla 1 muestra la correspondencia de las etapas entre CRISP-DM, KDD y SEMMA.

CRISP-DM KDD SEMMA

Compresión del Negocio Pre KDD -----------

Compresión de Datos Selección Muestreo

Pre procesamiento Exploración

Preparación de datos Transformación Modificación

Modelado Minería de Datos Modelado

Evaluación Interpretación - Evaluación Evaluación

Distribución Post KDD --------

Tabla 1: Correspondencias de las etapas entre KDD, SEMMA y CRISP-DM [6]

3.2 Minería de Datos

3.2.1 Técnicas Predictivas

Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento teórico previo. El

modelo propuesto para los datos debe contrastarse después del proceso de minería de datos, antes de aceptarlo

como válido. Formalmente, la aplicación de todo modelo deben pasar por las fases de [9]:

• Identificación objetiva: se aplican reglas que permitan identificar el mejor modelo posible que ajuste

los datos.

Page 5: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

5

• Diagnóstico: proceso de contraste de la validez del modelo estimado.

• Predicción: proceso de utilización del modelo identificado, estimado y validado para predecir valores

futuros de las variables dependientes.

En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después de la

minería de datos. Tanto los árboles de decisión, como las redes neuronales artificiales (RNA) y el análisis

discriminante son técnicas de clasificación que pueden extraer patrones de comportamiento o clase,

siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato.

Una categorización de las técnicas es la siguiente:

• Clasificación: se utiliza para predecir una o más variables discretas basándose en distintos atributos de los

datos, es decir, busca predecir si algo va a suceder dada una serie de otros factores. Las técnicas de

clasificación suelen pertenecer al grupo de técnicas predictivas, denominas ad hoc ya que clasifican

dentro de grupos previamente definidos [9].

• Regresión: es similar a la técnica de clasificación pero cambia el tipo de variable dependiente; aquí se

predice una variable de tipo continua. Los algoritmos de regresión son capaces de determinar qué

variables de entrada son relevantes en la predicción; estas variables descriptivas pueden ser continuas,

discretas o categóricas, y una posible combinación de estas va a simular el resultado de la variable

explicada.

• Pronósticos: encuentran secuencias típicas de sucesos de datos, es decir encuentran patrones sobre una

lista de objetos, importando su orden. Algunos ejemplos son las series financieras, económicas como:

tasas de desempleo, tasa de inflación, índice de precios.

3.2.2 Algoritmos para árboles de decisión

Un árbol de decisión es una división jerárquica y secuencial del problema en el que cada nodo describe las

posibles decisiones y por lo tanto los resultados de las distintas combinaciones de decisiones y eventos. Se

construye un árbol desde un conjunto fijo de elementos; el árbol generado se usa para clasificar futuros

elementos; cada elemento tiene varios atributos que pertenecen a una predicción. En cada división se

selecciona al predictor que mejor separa a la clase con respecto a la variable objetivo, los nodos hoja del árbol

contienen el nombre de la predicción, mientras que los nodos no-hoja son de decisión. Si la variable objetivo

es categórica se llaman árboles de clasificación, en cambio, si es continua se llaman árboles de regresión [5].

Son métodos muy flexibles pueden manejar una gran numero de variables y complicadas interacciones entre

ellas; los resultados son fácilmente interpretables por cualquier persona.

Los algoritmos más conocidos son: CART [Breiman et al. 1984], CHAID [Kass 1980] son más utilizados en

estudios de marketing, sin embargo, tiene importantes limitaciones ya que pueden no capturar todas las

interacciones entre las variables predictoras y la objetivo. Hay propuestas en la literatura que superan estas

limitaciones: DAVILA [Ávila 1996], DDORADO [Dorado 1998] y TAID [Castro 2005], cuyo uso no se ha

extendido por la falta de un software específico. Además, hay otros algoritmos como QUEST [Loh & Shih

1997] e ID3 [Quinlan 1993], utilizado dentro de la inteligencia artificial y que dio lugar más tarde a los

algoritmos C4.5 y su sucesor C5.0, todos estos mucho menos conocidos en el contexto del análisis estadístico

de datos [5].

Los diversos algoritmos se diferencian por razones como: naturaleza de los datos a clasificar, número de

ramas que pueden dividir, criterios utilizados para la división, administración de los valores faltantes y

métodos de poda (simplificación del árbol) [5]. Algunos de ellos son:

a) C4.5: maneja valores continuos y discretos; crea un umbral para después dividir el atributo entre

aquellos objetos que están sobre y bajo el umbral. Tiene la capacidad de manejar valores de atributos

faltantes; en el caso de un atributo faltante usa una ponderación de valores y probabilidades en lugar de

valores cercanos o comunes. El algoritmo usa la clasificación más probable calculada como la suma de

los pesos de las frecuencias de los atributos. Construye un gran árbol y lo concluye con una poda de las

Page 6: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

6

ramas para simplificarlo, a fin de generar resultados más fáciles de entender y hacerlo menos

dependiente de los datos de prueba. Se basa en la medida alternativa ratio de ganancia[10].

Para definirla, sea A un atributo continuo y𝑆 = { 𝑠1 , 𝑠2, … , 𝑠𝑛 } el conjunto de elementos a particionar, se

asume que el conjunto S esta ordenado de tal forma que 𝑠𝑖 ≤ 𝑠𝑖+1 , para todo i ∈ { 1,2, … , 𝑛 − 1}.

Los umbrales potenciales del conjunto se calculan en base a la fórmula 3.

𝑡𝑖 =𝑠𝑖+ 𝑠𝑖+1

2 , i = 1,2,…,n-1(3)

Seleccionando aquel con el que se obtenga el mayor ratio de ganancia, Fayyad e Irani [11] probaron

que solo es necesario considerar en los que se produzca un cambio en el valor de la variable clase. Limitaciones del algoritmo C4.5: presencia de ramas vacías, ramas poco significativas y sobre ajuste

(Over fitting).

b) C5.0: corresponde a una evolución del C4.5. Las mayores ventajas de esta versión tienen que ver con la

eficiencia en el tiempo de construcción de árbol, el uso de memoria y la obtención de árboles

considerablemente más pequeños con la misma capacidad predictiva. Adicionalmente, tiene la opción de

ponderar algunos atributos de manera de enfocar la construcción del árbol, y se puede utilizar un

aprendizaje penalizado en que es posible asignar un costo a los posibles resultados o matriz de resultados

(Cost Sensitive Algorithm) [10].

3.2.3 Evaluación del rendimiento

La evaluación del rendimiento de una técnica de minería de datos es fundamental para construir, implementar

y utilizar modelos de clasificación. Los tópicos principales comprenden [11]:

• Métodos para la evaluación del rendimiento: ¿Cómo obtener una estimación fiable del rendimiento?

• Métricas para la evaluación del rendimiento: ¿Cómo evaluar el rendimiento de un modelo?

• Métodos para la comparación de modelos: ¿Cómo comparar el rendimiento entre los modelos

competidores?

Métodos para la evaluación del rendimiento

Distintas métricas se han propuesto para la evaluación del rendimiento algunas de las cuales son:

• Validación cruzada: es una técnica para estimar el rendimiento de generalización de un modelo

predictivo, el conjunto de entrenamiento se va a dividir en k subconjuntos al momento de realizar el

entrenamiento, se toma cada k subconjunto como conjunto de prueba del modelo, mientras que el resto

de los datos se tomará como conjunto de entrenamiento. Este proceso se repetirá k veces, y en cada

iteración se seleccionará un conjunto de prueba diferente, mientras los datos restantes se emplearán,

como se mencionó, como conjunto de entrenamiento.

Una vez finalizadas las iteraciones, se calcula la precisión y el error para cada uno de los modelos

producidos, para obtener la precisión y el error final se calcula el promedio de los k modelos entrenados.

Con los valores calculados de precisión promedio para un modelo, se puede repetir entonces el

procedimiento para todos los demás modelos de clasificación que se estén evaluando, y se seleccionará

al final aquel que produzca el mejor valor de precisión y menor error promedio.

Finalmente, puede utilizarse dicho modelo sobre el conjunto de validación generado en la primera parte,

se asume que este modelo es el que mejor resultado ofreció durante la fase de entrenamiento [14].

• Matriz de confusión: también conocida como tabla de contingencia, clasifica cada instancia en una de

dos clases, una clase verdadera y una falsa. Esto da lugar a cuatro clasificaciones posibles para cada

instancia. La matriz de confusión yuxtapone las clasificaciones observadas para un fenómeno

(columnas) con las clasificaciones predichas de un modelo (filas).

Algunas métricas de desempeño derivadas de la matriz de confusión son sensibles a anomalías de datos

tales como sesgo de clase.

Page 7: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

7

Figura 2: Matriz de confusión

• Exactitud (accuracy): una serie de métricas de evaluación del rendimiento se pueden derivar de la

matriz de confusión. La métrica más común es accuracy definida por la fórmula:

𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑉𝑃+𝑉𝑁

𝑉𝑃+𝑉𝑁+𝐹𝑃+𝐹𝑁(6)

Otras métricas de rendimiento incluyen precision y recall definidas de la siguiente manera:

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑉𝑃

𝑉𝑃+𝐹𝑃(7)

𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑉𝑃

𝑉𝑃+𝐹𝑁 (8)

• Curvas ROC (Receiver Operating Curves): las curvas ROC son gráficos bidimensionales que

representan visualmente el rendimiento y la compensación de rendimiento de un modelo de

clasificación.

Se construyen trazando la tasa de verdaderos positivos contra la tasa de falsos positivos, como se

ejemplifica en la figura 3a. Se pueden identificar varias regiones de interés en un gráfico ROC, la

línea diagonal desde la esquina inferior izquierda hasta la esquina superior derecha denota el

rendimiento del clasificador aleatorio, es decir, un modelo de clasificación asignado en esta línea

produce tantas respuestas falsas positivas como respuestas verdaderas positivas.

a)

b)

c)

Figura 3: a) Regiones de un gráfico ROC y Clasificador casi perfecto b) Clasificador razonable

c) Clasificador deficiente.

VERDADERO FALSO

VERDADERO

Verdadero

Positivo

(VP)

Falso

Positivo

(FP)

FALSO

Falso

Negativo

(FN)

Verdadero

Negativo

(VN)

Observado

Proyectado

Page 8: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

8

• Sharpe ratio; conocido como el índice recompensa-variabilidad (reward-to-variability) es una

medida del exceso de rendimiento por unidad de riesgo de una inversión. La fórmula se define como:

𝑆 =𝐸[𝑅−𝑅𝑓

𝜎(9)

Donde, R es el rendimiento de la inversión en cuestión; 𝑅𝑓es el rendimiento de una inversión de

referencia, como por ejemplo la tasa de interés libre de riesgo; 𝐸[𝑅 − 𝑅𝑓] es el valor esperado del

exceso de rendimiento de inversión comparado con el retorno de la inversión de referencia.

𝜎 = √𝑉𝑎𝑟[𝑅 − 𝑅𝑓](10)

𝜎 es la desviación estándar (volatilidad) del exceso de rendimiento de la inversión. Nótese que,

debido a que𝑅𝑓es el rendimiento libre de riesgo, entonces su volatilidad es constante a lo largo del

periodo, por lo que se concluye que Sharpe ratio se utiliza para mostrar hasta qué punto el

rendimiento de una inversión compensa al inversor por asumir riesgo en su inversión. Cuando se

comparan dos inversiones, cada una con un determinado rendimiento esperado E [R] contra el

rendimiento del activo de referencia 𝑅𝑓, la inversión con ratio más alto proporciona mayor

rendimiento para un mismo nivel de riesgo. Los inversionistas suelen inclinarse por inversiones que

tengan una Sharpe ratio alto [15]. Su fórmula:

√𝑉𝑎𝑟[𝑅 − 𝑅𝑓] = √𝑉𝑎𝑟 [𝑅](11)

El Sharpe ratio se utiliza con frecuencia para medir el comportamiento de los activos de una cartera

o para comparar la eficacia de distintos gestores de fondos de inversión u otros activos [15].

3.2.4 Técnicas Descriptivas - Análisis de Conglomerados como método de segmentación

El análisis de conglomerados o clúster es un conjunto de métodos y técnicas estadísticas, que permiten

describir y reconocer diferentes agrupaciones que subyacen en un conjunto de datos, también se usan para

clasificar o dividir en grupos más o menos homogéneos un conjunto de individuos que están definidos por

diferentes variables. El objetivo principal es conseguir una o más particiones de un conjunto de individuos en

base a determinadas características que estarán definidas por las puntuaciones que cada uno de ellos tiene con

relación a diferentes variables. El análisis de conglomerados es el ejemplo paradigmático del enfoque de

segmentación post hoc, es el análisis y no el analista el que extrae los grupos de elementos y sus

características definitorias; número de segmentos, número de integrantes de cada segmento, etc.

El método para ejecutar un análisis de conglomerados comienza con la selección de los elementos de estudio;

si corresponde se incluye [19]:

• su codificación a partir de las variables o caracteres que los definen.

• su transformación adecuada para someterlos al análisis si es necesario (tipificación de variables,

desviaciones respecto de la media, etc.).

• se determina la matriz de disimilitudes definiendo las distancias, similitudes o disimilitudes de los

individuos.

• se ejecuta el algoritmo que formará las diferentes agrupaciones o conglomerados de individuos.

• se obtiene una representación gráfica de los conglomerados obtenidos, Dendograma.

• se interpretan los resultados obtenidos.

3.2.4.1 Algoritmos de análisis de conglomerados

Los diferentes métodos de análisis de conglomerados surgen de las distintas formas de agrupación

dependiendo del algoritmo [19].

• Aglomerativos - Divisivos

• Jerárquicos - No Jerárquicos

• Solapados - Exclusivos

Page 9: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

9

• Secuenciales - Simultáneos

• Monotéticos - Politéticos

• Directos - Iterativos

• Ponderados - No Ponderados

• Adaptativos- No Adaptativos

Algoritmo bietápico: tiene características únicas respecto a otros métodos de segmentación; determina

automáticamente el número óptimo grupos, crea el modelo con datos categóricos y continuos asumiendo que

las variables son independientes, construye un árbol de características de conglomerados que resume los

registros.

4 Estado del Arte

Es posible encontrar trabajos de minería de datos aplicados a finanzas, sin embargo, los temas abordados son

más limitados y se pueden resumir de la siguiente manera:

• Detección de fraudes: dentro de las técnicas de minería de datos que pueden ser de gran ayuda a la

detección de fraude, están:

a) Detección de anomalías (outlier): esta técnica es de valioso aporte para el desarrollo de sistemas en

la detección de fraude; en los últimos años se han diseñado varios métodos, entre los autores más

destacados se encuentran[16]:

• Zengyou He, quien desarrolló dos métodos: el primero es un algoritmo de tipo greedy que

pretende resolver problemas de optimización en la detección de outlier de datos categóricos [17].

El segundo método presentado por este autor, hace referencia al problema de detección de outlier

de clases y su aplicación en CRM (Customer RelationshipManagement), para lo cual introduce

dos tipos de clases de outlier: local class outlier y reference class outlier.

• Tianming Hu [20] aborda el tema de la detección de outlier, a partir de la identificación de

patrones obtenidos por de técnicas de clustering.

• C. Caroni y P. Prescott [21] hacen uso del método de O’Rohlf, que examina la distancias entre

puntos en un espacio vectorial para construir un MTS (Minimun Spanning Tree) usando la

medida de distancia más apropiada.

• Fernández Pierna J. A. [22] realiza un compendio de las principales técnicas utilizadas para la

detección de outliers.

b) Análisis de Cluster: son muy variadas las técnicas empleadas en el agrupamiento, se cita el estudio

realizado por Atkinson A. C. (2007), el cual se basa en un procedimiento robusto conocido como la

distancia de Mahalanobis, que permite identificar cluster en datos normales multivariados[23].

• Predicción del mercado de divisas: los trabajos encontrados están enfocados a estimaciones de corto

plazo. En el trabajo de Garg A. [24], el autor utiliza una mezcla de técnicas de minería de datos como los

bosques aleatorios y los árboles de regresión, junto a modelos econométricos GARCH, para modelar los

cambios en la volatilidad de los valores de las divisas. Los resultados muestran una capacidad de

predicción limitada pero superior a un proceso autorregresivo, especialmente para horizontes más largos.

En el trabajo de Peramunetilleke D., y Wong R. K. [25] los autores realizan la estimación utilizando

técnicas de text mining, capturando los encabezados de las noticias en tiempo real, evaluando su impacto y

prediciendo el movimiento intra-día de la paridad, a diferencia del resto de los estudios, aquí no sólo se

estudian los efectos sobre la paridad sino que también los posibles significados de este movimiento. Este

estudio reporta un rendimiento superior a un camino aleatorio e incluso mejor que RNA [26].

• Administración de Portafolios: la teoría moderna de portafolio intenta maximizar el retorno y minimizar

el riesgo de una cartera Markowitz, Harry M. [27]. Junto a los modelos de valoración de activos como el

modelo de valoración de activos financieros CAPM (Capital Asset Pricing Model) o la teoría de fijación

de precios de activosAPT (Arbitrage Pricing Theory) son la base para la optimización de un portafolio de

inversión. En estos años se han incorporado técnicas de minería de datos a este proceso de optimización,

como el trabajo de Iu, K. C. y Xu L. [28] donde aplican una optimización dinámica de portafolio, es decir

Page 10: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

10

que toma los últimos precios del mercado para calcular los pesos óptimos dentro del portafolio. La técnica

utilizada en este trabajo es llamada Temporal Factor Analysis (TFA) que consiste una forma alternativa de

implementar APT considerando factores escondidos que afectan al portafolio y por tanto a los pesos de los

activos, sobre la base de ya no optimizar la frontera eficiente en términos de la media y varianza si no

optimizando el Sharpe Ratio. Otro trabajo es el de Chapados [15] donde se muestra la transformación del

problema Markoviano de optimización de portafolios en un proceso de aprendizaje supervisado a través

del algoritmo de búsqueda K-path y RNA (Redes Neuronales Artificiales) optimizando también el Sharpe

Ratio.

• Predicción del mercado accionario: en general las técnicas de regresión utilizadas en este tipo de

problemas estaban limitadas a la captura de relaciones lineales entre las variables seleccionadas. En el

trabajo de Soni S. [29] se realiza una extensa revisión de las técnicas para la predicción de mercados

accionarios concluyendo que la técnica predominante son las RNA (Redes Neuronales Artificiales); estas

son capaces de encontrar la relación entre la variable dependiente y la independiente, incluso si estas son

altamente complejas gracias a la utilización de funciones de aproximación. Otra razón que esgrime el

autor es que las RNA tienen la capacidad de generalización; después del entrenamiento las neuronas

tienen la capacidad de identificar nuevos patrones incluso si estuvieron ausentes en los datos de

entrenamiento, lo que las hace una buena herramienta predictiva.

El trabajo de Enke D. y Thawornwong S. [30] predice el signo del movimiento del índice S&P 500 con

RNA, para esto utilizaron variables económicas y financieras como los dividendos por acción de cada mes

para el S&P, el índice de inflación, el índice de producción industrial y la cantidad de dinero en la

economía, por nombrar algunas de las 31 variables utilizadas en un periodo de tiempo que va desde enero

de 1976 hasta diciembre de 1999. De las variables iniciales sólo quedaron 15 seleccionadas como entradas

a los modelos de RNA. Una de las conclusiones importantes de este trabajo es que la mayoría de las

proyecciones financieras consisten en estimar de manera exacta el precio de un activo, los autores sugieren

que la unión de una estrategia de compra y venta guiada por una estimación de la dirección del cambio en

el precio puede ser más efectivo y rentable, menciona una serie de estudios que lo avalan como los de

Aggarwal and Demaskey [31], Maberly [32] y, Wu yZhang [33].

Trabajos similares sobre la proyección de la tasa de interés con herramientas de minería de datos

realizados son: Alemania Zimmermann [11], Reino Unido Jacovides [26] revelan que el requerimiento se

solventa aplicando técnicas de minería de datos y en general son exitosos, aunque no obtienen un

rendimiento excepcional. El mercado chileno se ha desarrollado enormemente en los últimos años, tiene

una buena regulación, presencia activa de grandes participantes e instituciones sólidas. Sin embargo, son

pocos los trabajos realizados sobre estimación de tasas con herramientas de minería de datos; Vela [38] y,

Muñoz y Moreno [39] realizaron trabajos basados en modelos econométricos.

• Red Neuronal Financiera: es un modelo cuyo criterio de entrenamiento es optimizar el sharpe ratio, su

arquitectura se puede ver como una generalización directa del modelo de probabilidades proporcionales y

como un perceptrón multicapa, con una capa de salida compuesta por un número de clasificadores con una

parametrización. Obtiene una clasificación de tres vías para cada activo en la cartera (largo / neutral /

corto), este modelo considera más adecuadamente un modelo de negociación en lugar de un modelo de

asignación, ya que no genera un vector de ponderaciones de cartera sino decisiones comerciales

inmediatas. Proyecto colaborativo de GitHub iniciado en 2018 y aun en desarrollo liderado por Analytics

Vidhya [34] se ha usado dos modelos de redes neuronales: el perceptrón multicapa (MLP) y el modelo a

corto plazo (LSTM) de Jakob Aungiers [35]. El Department of Decision Sciences, London Business School

[36] aportó una metodología con procedimientos rigurosos para la identificación del modelo, la selección

y las pruebas de adecuación del modelo neural que han comenzado a aparecer en la literatura. Demostró su

aplicabilidad en el problema no trivial de pronosticar cambios por la volatilidad implícita; cada paso del

proceso de construcción del modelo se valida mediante pruebas estadísticas para verificar la importancia

variable y la adecuación del modelo con los resultados que confirman la presencia de relaciones no

lineales en los cambios por la volatilidad implícita.

5 Desarrollo del Modelo Predictivo aplicando CRISP-DM

Este capítulo detalla la metodología y supuestos utilizados en este trabajo, incluyendo una descripción del

funcionamiento del banco, el mercado de renta fija libre de riesgo Chileno y sus instrumentos financieros.

Page 11: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

11

Continúa con el desarrollo del modelo utilizando las técnicas ya descritas en los capítulos anteriores, así como

la evaluación de rendimiento e implementación del modelo.

5.1 Comprensión del negocio

La Mesa de Dinero del banco necesita una herramienta que permita estimar el signo del movimiento y los

valores de índices, indicadores o tasas con el objetivo de generar operaciones Swap, Forward y Spot de

formas beneficiosa y rápida, es decir sin afectar la solvencia financiera de la empresa y a los demandantes de

dinero.Dichas operaciones o contratos se definen como [40]:

• Swap: instrumento financiero en la que dos contrapartes se intercambian flujos en fechas determinadas,

donde uno paga una tasa fija y conocida al comienzo del contrato, y otro paga una tasa variable conocida

al momento del flujo. Su función consiste principalmente en la trasformación de un pasivo o inversión de

renta fija a variable y viceversa.

• Forward: se emplea para definir un contrato a futuro, en el cual se determina un valor de compra venta de

un activo, una divisa o un valor establecido en el momento en el que se efectúa el contrato. Éste será

pagado en una fecha futura en la cual se hará entrega de la totalidad del activo.

• Spot: contrato de compra y venta de una divisa, de una materia prima, de una acción en particular o de

algún tipo de elemento financiero para su respectivo pago y entrega posterior en la fecha estipulada, la

cual generalmente es de dos días hábiles luego de haberse realizado la transacción.

La justificación del requerimiento es la desviación de los modelos estadísticos lineales utilizados para estimar

la tasa; la minería de datos se muestra como una alternativa para solucionar este problema. La importancia de

poder predecir las tasas de interés radica en su uso como herramienta señalizadora de riesgo y expectativas

futuras (gestión de activos). En general, al utilizar un modelo predictivo para invertir (análisis de inversiones)

más que el valor exacto de la variable proyectada, interesa si subirá o bajará y, si se espera que ese

movimiento sea importante. Otros requerimientos complementarios del usuario son: identificar las variables

más relevantes, visualizar la interacción entre las variables en sus diferentes contextos, y determinar las

variables que afectan a la estimación del valor y las que influyen la tendencia o movimiento.

5.2 Comprensión de los datos

En Chile los principales proveedores de datos económicos y financieros son el Banco Central de Chile BCCh,

la Tesorería General de la República (TGR), la Superintendencia de Banco e Instituciones Financieras (SBIF),

el Instituto Nacional de Estadísticas (INE) y el mercado secundario, entregan información de la actividad

industrial, mercado laboral, estadísticas monetarias y financieras que son publicadas con frecuencia diaria o

mensual.

5.2.1 Descripción de variables

Para pronosticar el valor o el movimiento de un indicador financiero se requiere del análisis de componentes

principales en el cual las variables son factores y dependen de lo estables que sean en el tiempo; estas pueden

tener una relación directa o indirecta con la proyección. Las variables definidas en este trabajo fueron

seleccionadas por su relación teórica con la variable objetivo y sirven como entrada al modelo.

Se describen las variables y se fundamenta su relevancia en la proyección de la tasa.

• Colocaciones BCU y BCP en el Mercado Primario: el Banco Central publica anualmente su programa

de emisión de deuda, sin embargo esta puede sufrir modificaciones producto de la coyuntura económica

del momento, estas sorpresas afecta el nivel de tasas reales y nominales [42].

• Colocaciones de bancos en papeles BCCH y TGR: la CMF publica mensualmente estadísticas de la

cantidad invertida por los bancos locales en instrumentos del BCCH y TGR, indica la demanda de papeles

de un actor importante del mercado chileno. La muestra una tendencia en la composición de la cartera de

los bancos respecto de los papeles libres de riesgo [42].

Page 12: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

12

• Tasa de Política Monetaria (TPM): es la tasa objetivo de la política monetaria y sirve de ancla para todo

el resto de las tasas de interés del mercado local. Para que esta tasa cumpla con su definición, el BCCh

influye sobre la tasa de mercado a la que los bancos se prestan a través de operaciones de mercado abierto.

La TPM es evaluada periódicamente y en sus ajustes son consideradas una serie de variables económicas

relacionadas al objetivo de controlar la inflación, las reuniones de política monetaria generan expectativas

en el mercado y movimientos de los agentes previo al posible cambio que afectara de manera inmediata la

tasa de corto plazo. El Banco Central constantemente entrega una descripción de la coyuntura económica

actual que justifica los posibles cambios de la TPM en sentido y magnitud, por lo que esta variable puede

tener una buena capacidad predictiva[41].

• Índice Selectivo de Precios de Acciones (IPSA): principal índice accionario chileno está compuesto por

las 40 acciones de mayor presencia bursátil ponderadas en base a su capitalización y el número de

acciones. Incluir un índice accionario en la estimación tiene dos justificaciones. La primera, el IPSA

refleja las expectativas económicas a futuro. La segunda, las acciones son un instrumento de inversión

sustituto con respecto a los bonos, es decir los agentes se mueven entre estos tipos de instrumentos para

optimizar sus portafolios y aprovechar oportunidades de mercado [41].

• Indicador Mensual de Actividad Económica (IMACEC): mide la actividad económica del país

capturando la mayoría de las actividades productivas que conforman al cálculo del PIB. Este indicador es

una estimación del PIB en el corto plazo, su evolución permite obtener una buena estimación del ritmo

económico del país y por lo tanto es una de las variables esperadas por los agentes económicos para tomar

decisiones [42].

• Índice de Percepción Económica del BCCh (IPEC): corresponde al índice que captura la percepción

económica a través de una encuesta a sus agentes más importantes [42].

• Unidad de Fomento (UF): es una unidad que se reajusta de acuerdo al Índice de Precios al Consumidor,

de manera simple calcula cuánto varía el costo de una canasta básica, con el fin de capturar el nivel de

precios en la economía.

• Emerging Market Bond Index Chile (EMBI Chile): refleja una estimación del costo de endeudamiento y

percepción de riesgo de un país por parte de los inversionistas. Índice calculado por el banco de inversión

JP Morgan. Chile es uno de 24 países que componen el índice global de países emergentes 2019 [43].

• Tasa del Tesoro de Estados Unidos a 10 Años (T10Y): el nivel de tasas de la principal economía del

mundo está relacionada directamente con la curva de rendimientos en Chile, principalmente porque no

existen mayores restricciones al flujo de capitales de entrada y salida, y porque existe libre flotación

cambiaria. Esta variable puede a ayudar a identificar cambios de tendencia de la variable proyectada [43].

• Precio del petróleo WTI (USD por barril): la cotización de este commodity es fundamental para

configurar una coyuntura económica con énfasis en la sensibilidad de Chile a los eventos externos,

determinando que es relevante para explicar la tasa de interés [43].

• VIX: índice oficialmente llamado Chicago Board Options Exchange Market Volatility Index. En el

momento en que hay alta volatilidad el VIX alcanza un número elevado y se relacionan con caídas del

S&P 500, indicando que en el mercado hay miedo y pesimismo, suele coincidir con mínimos en cuando se

producen fuertes movimientos en los mercados bursátiles y hay alegría y confianza [43].

• Swap Peso-Cámara UF y Peso (SPC-UF y SPC-CLP): su estructura consiste en una tasa swap fija

contra una tasa variable que varía según el promedio de la tasa interbancaria (TIB) sobre el mismo plazo y

nominal. La TIB es calculada por el Banco Central y corresponde al promedio de las tasas de mercado de

un día al cual los bancos se prestan entre sí [42].

• Paridad Peso Dólar (CLP/USD): Chile tiene política de libre flotación cambiaria, la paridad se mueve

libremente, pero el Banco Central se reserva la posibilidad de intervención en situaciones de excepción.

Page 13: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

13

Un tipo de cambio flexible permite que la autoridad pueda tener control sobre la cantidad de dinero y por

ende sobre la tasa de interés [42].

• Precio del cobre (USD por libra, BML): ingreso de la parte más importante de la producción industrial

del país y del gobierno, impacta directamente en la estimación del gasto fiscal. Lo anterior implica que un

precio del cobre alto debiera estar asociado con una economía favorable para Chile y viceversa [43].

Del análisis de los datos, es posible concluir que existen dos grupos de variables,

económicas y financieras. Las variables económicas son aquellas que permiten identificar

un escenario económico para Chile, con frecuencia mensual que están menos dominadas

por la volatilidad proveniente de eventos aislados. En la tabla 2 se puede observar el grupo

de cada variable.

Tabla 2: Clasificación de Variables Económicas y Financieras

5.3 Preparación de los datos

El banco guarda los datos en diferentes formatos (base de datos y archivos), distribuidos en diferentes

sistemas, áreas y usuarios. Este trabajo considera la preparación y conversión de las variables previamente

seleccionadas para su uso como entradas del modelo predictivo.

Un requisito adicional es desarrollar el proceso ETL con el objetivo de recolectar toda la información

histórica disponible y centralizar en un solo origen disponible para la herramienta de minería de datos.

5.3.1 Proceso ETL (Extract/Transform/Load)

A continuación se detalla las actividades realizadas para cada etapa.

• Extracción: utilizando servicios que proveen las instituciones que generan los datos (BCCH, TGR, INE,

Blomberg) se extrae la información histórica como archivos (texto, Excel) o conjunto de datos para ser

cargados en el destino. Los datos históricos de sistemas internos CRM, Suite RealAIS y Fisa, se extraen

con programas SQL ejecutados en la base de datos.

• Transformación: considera la preparación y conversión de los datos previamente seleccionados para su

uso como entrada del modelo predictivo. Algunas consideraciones:

a) La información recolectada incluye una historia 5 años con frecuencia diaria, entre el 01 de enero de

2014 y el 01 de enero de 2019. La mayoría de las variables económicas tiene una frecuencia mensual

por lo que se completó los valores nulos o el resto del mes con el último valor disponible, se le dio el

mismo tratamiento a todas las variables con valores diarios faltantes.

b) Días no hábiles: los datos se repiten para los fines de semana con el último dato hábil, excepto para

la UF que entrega un valor diario.

c) Rezago de las variables financieras: habitualmente estas variables presentan una frecuencia diaria

por lo que cada variable tiene un rezago (atraso) de 1día.

d) Rezago variables económicas: por su complejidad de cálculo y lo agregado de la estadística, lo

habitual es que estas variables si bien cuentan con una frecuencia mensual están disponibles con un

mes de desfase. Por esto cada variable tiene un rezago de 30 días.

e) Datos correctos y erróneos: se envían datos correctos a la siguiente fase de carga.

f) Datos erróneos: se ejecutan políticas de tratamiento de excepciones declaradas en los puntos a y b, en

TPM IPSA IMACEC IPEC UF EMBI

T10Y SWAP_2Y SWAP_5Y SWAP_10Y SWAP_UF_2Y SWAP_UF_5Y SWAP_UF_10Y USD COBRE PETROLEO VIX

Variables

Económicas

Variables

Financieras

Page 14: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

14

el caso de dato diferente de número real reemplazar con último valor de la fecha anterior válida.

• Carga: el proceso de carga definido es de acumulación simple a partir de la fecha acordada con los

usuarios del negocio (01/01/2014). La base de datos de Finanzas e Inversiones contiene una única tabla

donde se almacena la fecha y los valores de las 17 variables seleccionadas, a continuación las

consideraciones para esta definición.

a) Fácil de manipular por los usuarios.

b) En el futuro, si requieren más variables se crean campos adicionales.

c) Si el modelo requiere menos variables porque la fuente descontinúa la publicación de algún

indicador o deja de ser relevante como predictor se filtra en la herramienta de minería de datos.

Las restricciones del ambiente destino de los datos son:

a) Valores únicos: solo debe existir un valor por cada fecha y cada indicador

b) Campos obligatorios: no se permite valores nulos en ningún campo.

c) Rangos de valores: deben ser datos numéricos y de tipo continuo.

Figura 4: Proceso ETL de Gerencia de Finanzas, Análisis de Activos e Inversiones

5.3.2 Estadísticos de los datos

Se analizaron las variables desde un enfoque teórico, estadístico y descriptivo con el fin de entender los datos

y acotar el número de variables relacionadas que afectan el valor o movimiento de la tasa de interés. El Anexo

corresponde al análisis estadístico descriptivo de cada variable; los valores estadísticos permiten acotar los

rangos de análisis y detectar valores outlier que entregaría el modelo predictivo.

Utilizando la técnica de Correlaciones y Factorizaciones, se obtuvo la matriz de correlaciones sobre las

variables continuas, para ilustrar el sentido y la magnitud de las relaciones de los datos en uso, la cual se

presenta en la figura 5; se observa una alta relación entre las diferentes tasas de interés Swap a distintos plazos

y una elevada correlación entre el IPSA, la TPM y la UF.

Page 15: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

15

Figura 5: Matriz de Correlaciones entre las variables económico financieras 2014-2018

5.4 Modelado

El modelo a generar busca demostrar que la relación entre las variables financieras y económicas en Chile

cambia dependiendo del contexto económico. En la etapa anterior se efectuó el análisis estadístico y se

cuantificó la relación causal entre las variables; esta información permite conocer las principales variables del

mercado chileno para identificar los escenarios económicos.

Es relevante contar con una técnica predictiva que grafique la interacción de las variables al estimar la tasa de

interés fija (variable objetivo), o cualquier otro indicador financiero. Se seleccionaron los árboles de decisión

porque permiten cumplir con este requisito; este tipo de modelo está diseñado para responder preguntas como

si la variable subirá o bajará en cierto rango a cierto plazo, versus el resto de los modelos que intentan

predecir el valor exacto de la variable estimada.

Para la aplicación del modelo se dividieron los datos en dos conjuntos; de entrenamiento, se utiliza para

ensayar el modelo y obtener sus parámetros, y de comprobación para medir el poder predictivo del modelo

(ver Figura 6).

Figura 6: Configuración para dividirlos conjuntos de entrenamiento y prueba

En la primera etapa de creación del modelo se obtiene una nueva variable que denominada Escenario;

considerando tanto las variables económicas, que entregan información rezagada de cambios en contexto

económico, como las financieras que cuentan con mayor frecuencia. Teóricamente, estas se relacionan entre sí

afectando la dinámica del mercado de inversiones y las tasas.

La variable objetivo Escenario, se fundamenta en el análisis histórico de cómo se han relacionado las

distintas variables bajo distintos periodos de tiempo y la búsqueda de patrones que se repitan en el tiempo. Se

aplicó análisis de conglomerados como método de segmentación y árboles de decisión como método

predictivo.

Page 16: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

16

El resultado del periodo de tiempo analizado son tres clústers, que se denominan acorde al contexto

económico de un país; crisis C, debilitamiento D y recuperación R.

Figura 7: Resumen del modelo Clustering

Las variables utilizadas, el tamaño y los valores de cada clúster se muestran en la figura 8, es posible

identificar y relacionar cada conglomerado con un escenario económico. Por ejemplo, el cluster 3

(Recuperación) está caracterizado por buenos niveles de la bolsa (IPSA), un buen nivel del precio del cobre y

un bajo nivel del dólar, índice de bonos soberanos (EMBI), índice de volatilidad (VIX). Por el otro lado el

cluster 2 (Crisis) presenta nivel de volatilidad y EMBI alto,baja de la bolsa y precio de cobre.

Figura 8:Variables por importancia dentro del cluster

A partir del resultado de creación de Escenarios económicos, tomando la partición de entrenamiento se

observa que la frecuencia de ocurrencia en cada segmento es dispar, lo que puede llevar al modelo a

subestimar los resultados extremos, creando un problema en el algoritmo que aprende de los

datos;generalmente se guía de los valores con mayor frecuencia dejando menos desarrolladas las ramas de

resultados extremos.Si los datos están bien equilibrados, con cantidades aproximadamente iguales de

resultados, el modelo tendrá una mayor oportunidad de encontrar patrones que distinga los grupos. Para

corregir se equilibra multiplicando la muestra por un factor que equipara la cantidad de ocurrencias,

asegurando la correcta estimación del árbol, SPSS Modeler entrega una herramienta denominada nodo de

Balance, útil para crear una directiva de equilibrio.

Page 17: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

17

Antes Factores Después

Figura 9: Tablas de frecuencia a equilibrar

Con la variable objetivo ajustada, se define y construye el árbol de decisión considerando las características

del algoritmo C5.0: maneja gran cantidad de variables continuas seleccionadas, maneja posibles valores

faltantes y posee un buen criterio de optimización.

El árbol resultante toma en cuenta las variables más relevantes en la determinación del escenario, su

secuencia y condiciones y, como a partir de ciertos umbrales estas van cambiando sus relaciones y relevancia.

Los predictores en orden descendente de importancia son:

• IPSA 0,5

• IPEC 0,35

• COBRE 0,3

• SWAP_UF_5Y 0,2

• EMBI 0,1

• TPM 0,05

• VIX 0,03

En primer lugar, aparece el IPSAque refleja las expectativas económicas a futuro, dado que corresponde a un

índice representativo del mercado. Las variables financieras tienen un peso menor en la predicción del

escenario.

Los resultados entregados por el modelo consideran relaciones no lineales entre las variables, por lo que su

interpretación puede presentar objeciones, razón por la que se crea una versión “humana” de los escenarios

considerando: los mismos datos de las variables, la coincidencia en la ocurrencia con eventos conocidos como

una crisis económica, máximos de la bolsa (recuperación) y el IPEC que revela los cambios de tendencia y se

utiliza para delimitar el largo de los escenarios, presenta máximos después de cada periodo de crisis que

marca el término de un periodo de recuperación y el comienzo del periodo de debilitamiento, lo que hace

posible identificar escenarios también de forma manual. En la figura 10 se muestra el detalle de una crisis

económica del periodo analizado, la evolución del IPEC y tres de variables económicas importantes del

mercado chileno. Los periodos de tiempo reflejan casi contemporáneos los escenarios, tanto en el análisis de

conglomerados como los construidos manualmente.

Page 18: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

18

Figura 10: Construcción de escenarios manual

En la segunda etapa, los cluster creados se designan como escenario. La variable objetivo es la “tasa pesos a

5 años”, se utilizan las nuevas entradas“t-escenario” y el grupo de las variables independientes para conocer

cuáles las variables influyentes en la estimación de la tasa.

Se observa que las variables que explican mejor la variable objetivo “tasa pesos a 5 años” son aquellas del

grupo de las variables de mercado, destacando la “tasa swap promedio cámara” que está muy relacionada con

la tasa libre de riesgo.

La capacidad explicativa de los grupos de variables financieras y económicas, evidencia que si bien ambos

grupos sirven en la estimación de la “tasa pesos a 5 años” (SWAP_5Y), el grupo de variables económicas

entrega un contexto económico donde las variables de mercado interactúan de manera distinta. Para ilustrar

esto se construyó un árbol con la “tasa pesos a 5 años” como variable objetivo, pero esta vez dividiendo los

datos para crear un árbol por cada escenario.

Clúster 1 Clúster 2 Clúster 3 Figura 11: Importancia del predictor por T-escenario

En la figura 11 se observan los resultados y se puede concluir que dentro de cada escenario el grupo de

variables económicas explica bastante menos que las financieras, pero más importante la priorización de

variables financieras para estimar el valor de la tasa es distinta por cada escenario. Por ejemplo en el clúster2,

que corresponde al “escenario crisis” asume un rol mayor la tasa de política monetaria TPM; es en este

momento cuando se generan mayores expectativas de ajuste, tornándose relevante para la curva libre de

riesgo. Ahora existe un argumento para reafirmar que la relación entre las variables cambia dependiendo del

contexto económico, variables económicas que se afectan en el corto plazo por variables financieras y de

forma similar a la inversa, influyen la tendencia a largo plazo.

La figura 12 muestra la evolución de la variable Escenario en función de la “tasa pesos a cinco años”, los

periodos de tiempo se corresponden con los cluster Debilitamiento, Crisis y Recuperacion, tambien; los

valores de la tasa registran los minimos y maximos manteniendo la tendencia de cada escenario económico.

Page 19: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

19

Figura 12: Evolución de la tasa a cinco años (SWAP_5Y) en función del escenario

5.5Evaluacióndel Rendimiento

Esta sección corresponde a la validación de los resultados generados, donde se muestran las optimizaciones

realizadas al modelo de manera de obtener el mejor resultado posible.

Respecto del análisis descriptivo de conglomerados (bietápico), así como el de clasificación (árbol C5.0) se

observa que las principales variables corresponden al grupo de las variables económicas. Destacando la tasa

“Swap promedio cámara en UF a 5 años” junto a la cotización del cobre. No obstante, frente a cierto

escenario explicado por las variables económicas, es la tendencia de las variables financieras la que permite

discriminar si estamos en la parte descendente o ascendente del ciclo.

Figura 13: Árbol de decisión variable objetivo T-Escenario

En la figura 13 se muestra el árbol generado por SPSS Modeler; indica que la bondad del árbol cuando se

generaliza para una mayor población utilizando la validación cruzada, obtuvo un valor sobre el 90% para el

modelo inicial.

Otros aspectos notables del árbol, que explican eventos de crisis: las variables más importantes para predecir

una crisis corresponden al IPSA e IPEC identificando los valores umbrales que hacen bastante probable

desencadenar una crisis. Dada la ventaja del árbol de tener la capacidad de explicar su resultado, el siguiente

paso sería generar un árbol excluyendo estas dos variables de manera de buscar más patrones entre las

variables para detectar un escenario de crisis.

Al excluir las variables IPSA e IPEC del árbol cambia su estructura tomando relevancia el valor dólar (USD),

las tasas de mercado representadas por la tasa de política monetaria TPM y el “Swap promedio cámara en UF

a 5 años”. Es con esto, que el árbol predice una crisis con un peso depreciado y tasas interbancarias bajo el

3% anual. Se identifican los umbrales que generan los distintos escenarios, en términos de la importancia del

Page 20: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

20

predictor, la cantidad de variables y su grado predictivo es menor comparado con el 57% del escenario de

Recuperación (ver Figura 11), el USD y la tasa de política monetaria TPM explican aproximadamente el 40%

del árbol (ver Figura 14).

Figura 14: Árbol de decisión variable objetivo T-Escenario, excluye IPSA e IPEC de Escenario Crisis

5.5.1Validación Cruzada

Se escogió un 70% de los datos originales para entrenar el modelo, la cual se denomina Partición de

Entrenamiento y un 30% para probar el modelo, esta última denominada Partición de Prueba. SPSS Modeler

crea una nueva variable para identificar los datos de cada partición.

La profundidad del árbol con la variable objetivo “tasa en pesos a 5 años” es de 6 niveles utilizando las

particiones de entrenamiento y prueba. SPSS Modeler permite ajustar para que el algoritmo sea capaz de

generalizar al procesar la partición de prueba y devuelva un resultado fiable dada una mayor capacidad de

generalización.

Se calculó la precisión y el error del modelo generado. El valor final de precisión entregado por SPSS

Modeler es 99,84% que indica una buena capacidad de predicción de la tasa, y por lo tanto se podría usar el

modelo sobre el conjunto de prueba. El rendimiento alto se debe a que la variable escenario cambia de estado

pocas veces en comparación a la cantidad de información incluida en su modelamiento, adicional considerar

que se utilizaron los mismos datos para obtener la variable objetivo a través del clustering.

Partición 1 – Entrenamiento

Precisión 1,264 99.84%

Error 2 0.16%

Tabla 3: Precisión y el error del modelo partición de entrenamiento

Sin embargo la estabilidad de la variable escenario es exactamente la condición base para el desarrollo de la

segunda etapa, donde se creó un árbol sobre cada uno de los tres escenarios para las variables.

Se asegura que la distribución sea aproximadamente la misma en los todos los subconjuntos; la amplitud del

intervalo es un factor importante, la cantidad de saltos entre intervalos de la variable objetivo decrece al

aumentar la amplitud, lo que implica un aumento en el rendimiento del modelo medido como el número de

aciertos al intervalo. Con la base de las estadísticas aplicadas a los datos (ver Anexo), la desviación típica de

la tasa Swap_5Y para toda la muestra es de casi 35 pb (punto base, es la centésima parte de un punto

Page 21: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

21

porcentual 1 pb = 0.01%).

El cambio diario promedio de la variable es de alrededor de 2 pb ( ∑ (𝑖+1)−𝑖𝑛

𝑖=0

𝑛−1 ) (12).

Si bien el rendimiento con 2 pb base es bueno, un 88,37% sobre 289 cambios de ventana entregado por SPSS

Modeler, el número de intervalos es alto generándose árboles demasiado profundos con muchos posibles

valores. Para simplificarse transforma la variable objetivo en dos pasos, el primero; muestra la cantidad de

puntos base que cambio la tasa en un horizonte de 5 días. La fórmula:

𝐷𝑖𝑓_5𝑦 = 𝑟5𝑦 − 𝑟5𝑦𝑡−5 (13)

En el segundo paso, se convierte 𝐷𝑖𝑓_5𝑦 a una variable discreta utilizando sólo 6 posibles valores de la

siguiente forma:

Figura 15: 𝐷𝑖𝑓_5𝑦_𝐼𝑛𝑡

Con esto el árbol predecirá si la tasa en cinco días más subirá o bajará en tres posibles grados de magnitud.

Un valor de 𝐷𝑖𝑓_5𝑦_𝐼𝑛𝑡 entre las dos últimas cajas de ambos extremos permite realizar una apuesta concreta.

Los resultados presentados en la tabla 4 indican que el rendimiento del árbol es bueno. El modelo que incluye

todas las variables muestra un mejor desempeño, sobre el 70%, la razón de esto se debe a que dentro de un

escenario los cambios en la tendencia de algunas variables económicas pueden ayudar a explicar mejor los

movimientos de la tasa. Por ejemplo el IPSA presenta una correlación negativa respecto de la tasa, se

caracteriza porque los inversionistas se mueven entre activos riesgosos y libres de riesgo dependiendo del

nivel de volatilidad de los mercados, los movimientos extremos de la tasa se explican con toda la información

económica disponible.

Tabla 4: Precisión y el error de subconjuntos - partición de entrenamiento

5.5.2 Matriz de confusión

La matriz presenta la frecuencia de ocurrencia entre el movimiento real de la tasa, expresado en el eje vertical

versus los resultados estimados en el eje horizontal. La diagonal corresponde a la cantidad de veces que el

modelo estima correctamente el movimiento de la tasa para cada uno de los escenarios (Debilitamiento|

Crisis|Recuperación). Por ejemplo, como muestra la Figura 15, la celda (=>0pb, <0pb) con el valor 1|1|0

significa que el modelo predijo que el movimiento estaría entre 0 y -2 pb, siendo que realmente el movimiento

de la tasa estuvo entre 0 y +2 puntos base en 1, 1 y 0 oportunidades para los escenarios de Debilitamiento,

Crisis y Recuperación, respectivamente.

En general el modelo tiene un buen rendimiento, en la mayoría de las oportunidades el modelo falla en la

magnitud del movimiento pero no en su sentido por lo que en una apuesta su resultado sería favorable.

Page 22: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

22

Figura 16: Matriz de Confusión –Árbol por escenario

5.6 Implementación y Trabajo Futuro

Dados los resultados que se han logrado y la certeza que ofrecen los algoritmos utilizados es posible crear

varios modelos y exportar todos los resultados diariamente a un servidor de archivos. SPSS Modeler genera

archivos de formato html, texto e imagen, tanto para los resultados del modelo así como para la evaluación

del rendimiento. Los principales datos que entregan son: características, tamaños, profundidad, importancia

de predictores, variables de entrada y parámetros del modelo.

El objetivo primario, por el cual se optó por algoritmos de arboles de decisión, fue que los resultados sean

entendidos de forma gráfica y clara, de manera que los usuarios expertos del dominio puedan validar y

utilizar la información no solo de la variable objetivo, sino de la interacción entre las variables analizadas

generando un feedback para afinar o mantener el modelo.

Desarrollos futuros involucran profundizar la investigación descriptiva de las variables para configurar

escenarios y entender la evolución en la relación de las variables relevantes del mercado chileno en la

predicción de futuras crisis. Así como requerimientos sobre la liquidez de los bancos que teóricamente afectan

fuertemente la relación entre las variables en periodos de crisis.

6 Validación de la Hipótesis

Los resultados expuestos muestran evidencia positiva y estadísticamente significativa entorno al hecho que

los modelos de árboles C5.0, en conjunto con la configuración de escenarios explicados por variables

económicas que tienen una visión de mediano plazo, generan resultados sobre el 70% de confianza en la

predicción. Acorde con la teoría de modelos predictivo y el dominio del problema el resultado obtenido es

adecuado para fundamentar la hipótesis. Las variables financieras de corto plazo y frecuencia diaria mejoran

de forma positiva el resultado del porcentaje obtenido.

El rendimiento del modelo muestra porcentajes de aciertos de los árboles de hasta 73.25%; si se considera que

parte de los errores son de magnitud pero no de signo, el rendimiento es mayor. El algoritmo C5.0 demostró

ser consistente, en su uso práctico entrega buenos resultados en las distintas pruebas realizadas en el tiempo.

Los consistentes resultados al aplicar métricas diferentes a los diferentes escenarios indican que otras métricas

no utilizadas en este trabajo como ROC deberán entregar resultados similares.

7 Conclusiones

En la hipótesis de este trabajo se planteó construir un modelo predictivo que permitiría estimar el movimiento

y/o valor de un indicador financiero, como la tasa de interés fija a cinco años, de esta forma se podrá realizar

una gestión adecuada sobre los activos del banco y el manejo de sus operaciones de inversión. A partir de una

gran cantidad de datos existentes sobre índices económicos y financieros de Chile y mercados internacionales,

en este trabajo se aplicaron técnicas de minería de datos para describir su tendencia e interacción. En el

ámbito financiero es conocido el uso de la tasa de interés como una variable instrumental de la política

Page 23: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

23

monetaria, haciendo evidente su relación con el ciclo económico. Adicionalmente, la dinámica de las tasas de

interés se relaciona directamente con variables financieras como las paridades o el precio de las materias

primas.

Se demostró que los árboles de decisión, como técnica de minería de datos predictiva, se adaptaron a los

objetivos por su poder explicativo para estimar la variable objetivo. El modelo generó las relaciones no

lineales complejas para las 18 variables y graficó el camino que sigue la variable objetivo. La fácil

comprensión de un árbol permitió que los usuarios del negocio reconocieran patrones que van en línea con la

teoría económica y financiera, así como particularidades específicas del mercado chileno.

La tasa de interés tiene un comportamiento diferente dependiendo del contexto económico del país. Dado

esto, se definieron los escenarios permitiendo describirlos, demarcarlos y usarlos con la aplicación de árboles

de decisión, calibrados especialmente para cada uno de estos escenarios buscando mejorar la estimación de la

tasa a cinco años.

Una limitación del modelo de escenarios, corresponde a que el cambio de las relaciones entre variables no

podría generarse únicamente por la coyuntura económica, sino también por cambios estructurales o

regulatorios del mercado chileno. De ser así, será necesario un nuevo análisis descriptivo de las variables

incluidas en el modelo. Por otro lado, el modelado de la variable escenario considera principalmente

variables económicas que no debieran sufrir grandes alteraciones frente a cambios en los agentes de mercado

o modificaciones a la regulación. Durante el periodo analizado para este trabajo no existen cambios de este

tipo.

Un factor determinante del rendimiento es el tamaño del conjunto de entrenamiento versus el tamaño del

conjunto de comprobación. Es importante entrenar el árbol de manera que aprenda sobre secciones de los

datos que incluyan eventos extremos de la variable objetivo, pero si el conjunto de comprobación es muy

pequeño el rendimiento estará sobreestimado; esta debilidad depende específicamente de los datos que se esté

modelando.

Los arboles presentan un buen rendimiento. Destacar que si bien presentan errores en la estimación de la tasa,

en general no presenta errores respecto del signo del movimiento, lo que implica un rendimiento significativo

en las pruebas de rentabilidad de cartera.

Nuevos modelos se pueden construir a partir de modelos ya probados e intercambiar entre las variables

independientes y objetivo, todas son índices financieros y económicos que determinan el acierto de la gestión

de activos e inversiones, como ya se demostró.

En conclusión, se puede decir que este trabajo fue exitoso y contribuye al negocio en términos de la

utilización de árboles para describir la dinámica de las distintas variables frente a los distintos escenarios

económicos. Nuevos modelos se pueden construir a partir de modelos ya probados e intercambiar entre las

variables independientes y objetivo, todas las variables son índices financieros y económicos que determinan

el acierto de la gestión de activos e inversiones, como ya quedo demostrado en este trabajo.

Los desarrollos futuros comprenden profundizar la investigación de las variables relevantes del mercado

chileno que configuran los escenarios y entender su evolución por ejemplo en la predicción de futuras crisis.

Otros estudios, podrían extenderse a otros países emergentes para testear el uso de árboles en conjunto con la

estimación de escenarios y compararlos con otras herramientas predictivas.

Elaborando esta tesina se destaca el aprendizaje obtenido en el programa MTI, sobre la metodología CRISP-

DM, aporte fundamental para la gestión y conclusión del proyecto en el banco, así también desafiar a los

futuros profesionales a implementar nuevos modelos basados en minería de datos predictiva con el fin de

obtener conocimiento de las interacciones en el mercado financiero.

8 Referencias [1]Mascareñas J., “Activos Financieros de Renta Fija”, Universidad Complutense de Madrid, febrero 2007

Page 24: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

24

[2] Wikipedia, “Trading”, junio 2019.

https://es.wikipedia.org/wiki/Trading

[3] Vlcek M.,“Portfolio Choice with Loss Aversion, Asymmetric Risk-Taking Behavior and Segregation of Riskless

Opportunities”, Swiss Finance Institute Research Paper No. 27, noviembre 2006.

[4] Hutchinson, James M., Andrew W., Lo y Tomaso Poggio ,“A Non-Parametric Approach to Pricing and Hedging

Derivatives Securities Via Learning Networks.” , The Journal of Finance, Julio 2003.

[5] Moreno A., Vicente P., “Aprendizaje basado en árboles de decisión: un estudio crítico desde Weka, RapidMiner y

SPSS Modeler”, XXVI Simposio Internacional de Estadística, agosto 2016

http://simposioestadistica.unal.edu.co/fileadmin/content/eventos/simposioestadistica/documentos/memorias/Memorias_20

16/Comunicaciones/Mineria_de_Datos/Aprendizaje_Arboles_WekaRapidMinerSPSS_Moreno_Salazar_Vicente_Galindo.

pdf

[6] Azevedo A., Filipe S.,“KDD, SEMMA and CRISP-DM: A Parallel Overview”, 2008

http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf

[7] FayyadU., Piatetsky-ShapiroG. y SmythP., “The KDD process for extracting useful knowledge from volumes of data”,

Communications of the ACM, vol. 391996.

[8] López C., “Minería de datos: técnicas y herramientas”, Editorial Paraninfo 8-9, enero 2007

[9] Molina L.,y García J.,“Técnicas de análisis de datos”, Universidad Carlos III – Madrid, 2014

[10] UNNE, “Aprendizaje automático mediante árboles de decisión”, enero 2013

http://www.aic.uniovi.es/ssii/SSII-T9-ArbolesDeDecision.pdf,

[11] Fayyad M., and Irani K, “On the handling of continuous-valued attributes in decision tree generation”,Machine

Learning 8 87-102, 1992.

[12] Moreno J., ”Redes Neuronales Artificiales aplicadas al Análisis de Datos”, 2002

https://pdfs.semanticscholar.org/37c3/cc5844480a16ae11ebd004ec7186c675b65a.pdf

[13] Zimmermann H.,“Yield Curve Forecasting by Error Correction Neural Networks and Partial Learning”, European

Symposium on Artificial Neural Networks, 2002

[14] Winter School on "Data Mining Techniques and Tools for Knowledge Discovery in Agricultural Datasets,

”Evaluation Measures for Data Mining Tasks”, diciembre 2011

http://iasri.res.in/ebook/win_school_aa/notes/Evaluation_Measures.pdf, "Data Mining Techniques and Tools for

Knowledge Discovery in Agricultural Datasets”

[15] Chapados, N., "Sequential Machine Learning Approaches for Portfolio Management.", Département d'informatique

et de recherche opérationnelle Faculté des arts et des sciences. Doctoral thesis, noviembre 2009.

[16] Santamaria W., “Técnicas de Minería de Datos Aplicadas en la Detección de Fraude:Estado del Arte”, enero 2006

https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_F

raudeEstado_del_Arte

[17] Zengyou H., Xiaofei X. and Shengchun D.,“A Fast Greedy Algorithm for Outlier Mining”, Computer Science, 2005.

[18] Zengyou H., Xiaofei X., Joshua Z. and Shengchun D.,“Mining class outliers: concepts, algorithms and applications

in CRM”,Expert Systems with Applications, Vol 27, pp 681-697, noviembre 2004.

[19] Cliente Aptiva, “Minería de datos Técnicas Descriptivas y Predictivas de Clasificación”, enero 2016

http://exa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones_Proyector/Mineria_de_Datos_

Tecnicas_Descriptivas_ y_Predictivas_de_Clasificacion.pdf

[20] Tianming H. y Sam Y. S.,“Detecting pattern-based outliers. Pattern Recognition Letters”, Vol 24 pp3059-3068,

diciembre 2003.

[21] Caroni C. y Prescott P.,“On Rohlf’s Method for the Detection of Outliers in Multivariate Data”,Journal of

Multivariate Analysis, Vol 52, pp 295-307, febrero 1995.

[22] Fernandez J. A., Wahl F., Noord O. y Massart D.,“Methods for outlier detection in prediction”,Chemometrics and

Intelligent Laboratory Systems, Vol 63, pp 27-39, agosto 2002.

[23] Atkinson A.y Riani M.,“Exploratory tools for clustering multivariate data”, Computational Statistics and Data

Analysis , Vol. 52, pp272-285, septiembre 2007.

[24] Garg A.,“Forecasting exchange rates using machine learning models with time-varying volatility”, Master Thesis in

Statistics and Data Mining from Linköpings universitet/Statistik, 2012.

[25] Peramunetilleke, D., y Wong, R. K.,“Currency exchange rate forecasting from news headlines”, Australian

Computer Science Communications, 24(2), 131-139, 2002

[26] Pegah Falinouss, “Stock trend prediction using news articles a text mining approach”, Master thesis Luleå University

of Technology, ISSN: 1653-0187 1-165, 2007.

[27] Sharma A., y Panigrahi, P. K.,“A Review of Financial Accounting Fraud Detection based on Data Mining

Techniques”, International Journal of Computer Applications, 2012

[28] Iu K. yXu L.,“Optimizing financial portfolios from the perspective of mining temporal structures of stock returns In

Machine Learning and Data Mining in Pattern Recognition”, Springer Berlin Heidelberg 266-275, Conference paper,

2003.

[29] Soni S.,“Applications of ANNs in stock market prediction: a survey”, International Journal of Computer Science &

Engineering Technology 71-83, 2011.

[30] Enke D.y Thawornwong, S.,“The use of data mining and neural networks for forecasting stock market returns”,

Page 25: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

25

Expert Systems with applications, 927-940, 2005.

[31] Aggarwal R. y Demaskey A.,“Using derivatives in major currencies for cross-hedging currency risks in Asian

emerging markets”, Journal of Future Markets 781–796, 1997.

[32] Maberly E. D.,“The informational content of the interday price change with respect to stock index futures”, Journal

of Futures Markets385–395, 1986.

[33] Wu Y. y Zhang H.,“Forward premiums as unbiased predictors of future currency depreciation: a non-parametric

analysis”. Journal of International Money and Finance 609–623, 1997.

[34] Vivek Palaniappan, “Introducing neural networks to predict stock prices”, 2018

https://github.com/VivekPa/IntroNeuralNetworks, Analytics Vidhya

[35]Jakob A., “Time Series Prediction Using LSTM Deep Neural Networks”, septiembre 2018

[36]Crescenzio G, “Artificial Neural Networks in Financial Modelling”, 2005.

[37] Dase R. K.y Pawar D. D.,“Application of Artificial Neural Network for stock market predictions: A review of

literature”, International Journal of Machine Intelligence14-17, 2010.

[38] Vela D., “Forecasting Latin-American yield curves: An artificial neural network approach”, Borradores de

Economía, Banco de la República Colombia, Num. 761, 2013.

[39] Muñoz, M., “Aplicación de Herramientas de Data Mining en la Predicción de la Tasa de Interés en Chile”,

Universidad de Chile Escuela de Postgrado de Economía y Negocios, 2014.

[40] Economipedia, “Swap”, 2019

https://economipedia.com/definiciones

[41] Varela F., “Mercados de Derivados: Swap de Tasas Promedio Cámara y Seguro Inflación”, Documentos de estudio

del Banco Central de Chile N 56, 2007

[42] Batarce M., “Efectos de la Emisión de Bonos del Banco Central Sobre las Tasas de Interés”, Banco Central de Chile

Documentos de Trabajo, 2009

Page 26: Modelo Predictivo para la Gestión de Activos y Análisis de ... · • Minería de datos: búsqueda de patrones de interés en una determinada forma de representación, dependiendo

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información

26

Anexo

Tabla 5: Estadísticas descriptiva de los datos

Medida Mínimo Máximo Rango Media Desviación

estándar(sd)

Error Típico

de la Media

Coeficiente de

Variación (cv)

Asimetría kurtosis Varianza Validos Únicos

COBRE Continua 1.940 3.430 1.490 2.713 0.381 0.009 0.140 -0.284 -1.060 0.145 1825 0

EMBI Continua 1.050 3.060 2.010 1.584 0.384 0.009 0.242 1.367 1.528 0.148 1825 0

IMACEC Continua 93.560 124.840 31.280 106.163 6.140 0.144 0.058 0.768 0.601 37.700 1825 0

IPEC Continua 31.500 54.600 23.100 42.444 6.554 0.153 0.154 0.238 -1.175 42.957 1825 0

IPSA Continua 33.910 58.800 24.890 44.063 6.876 0.161 0.156 0.629 -1.139 47.273 1825 0

PETROLEO Continua 26.210 107.260 81.050 60.161 19.585 0.458 0.326 1.016 0.028 383.587 1825 0

SWAP_2Y Continua 2.500 4.370 1.870 3.386 0.429 0.010 0.127 -0.007 -0.942 0.184 1825 0

SWAP_5Y Continua 3.350 4.940 1.590 3.970 0.342 0.008 0.086 0.323 -0.535 0.117 1825 0

SWAP_10Y Continua 3.930 5.600 1.670 4.528 0.332 0.008 0.073 0.961 0.763 0.110 1825 0

SWAP_UF_2Y Continua -0.080 1.500 1.580 0.580 0.303 0.007 0.523 0.389 -0.232 0.092 1825 0

SWAP_UF_5Y Continua 0.420 1.990 1.570 1.089 0.271 0.006 0.248 0.404 0.239 0.073 1825 0

SWAP_UF_10Y Continua 1.000 2.470 1.470 1.528 0.256 0.006 0.167 0.940 1.183 0.065 1825 0

T10Y Continua 1.360 3.240 1.880 2.347 0.410 0.010 0.175 -0.057 -0.580 0.168 1825 0

TPM Continua 2.500 4.500 2.000 3.118 0.531 0.012 0.170 0.552 -0.364 0.281 1825 0

UF Continua 23315.570 27565.790 4250.220 25750.074 1172.559 27.448 0.046 -0.418 -1.013 1374894 1825 0

USD Continua 524.610 730.310 205.700 638.257 44.828 1.049 0.070 -0.457 -0.553 2009.515 1825 0