herramientas para gestion de datos
TRANSCRIPT
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
(en colocaciones y captaciones)
Samir Homsi AragónSamir Homsi Aragón
Herramientas para el manejo de grandes
volúmenes de cálculos y datos
financieros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
CONTENIDOCONTENIDOCONTENIDOCONTENIDO
Herramientas para el manejo de grandes
volúmenes de cálculos y datos
financieros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Índice de avanceÍndice de avance
CONTENIDOCONTENIDO
Parte I. Estadística multivariada1.1. Modelo Logit1.2. Modelo Probit
Parte II. Bases multidimensionales2.1. Preparación de datos2.2. Cubos OLAP2.3. Minería de datos
Parte III. Simulación3.1. Modelo Montecarlo
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Tipos de problemasTipos de problemas
MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA
1. Descripción de datos y resumenLa descripción y el resumen de datos apuntan a la descripción concisa de las características de los datos, típicamente en forma elemental y agregada. Esto da al usuario una descripción de la estructura de los datos. Por ejemplo, un minorista podría estar interesado en el volumen de ventas de todas las salidas separado por categorías. Los cambios y diferencias de un período anterior podrían ser resumidos y destacados. Esta clase de problema estaría en lo mas bajo de la escala de problemas.2. SegmentaciónLa segmentación apunta a la separación de los datos en subgrupos o clase significativos e interesantes. Todos los miembros de un subgrupo comparten características comunes. Por ejemplo, en el análisis de cesta de compras, uno podría definir los segmentos de cestas según los artículos que ellos contienen.3. Descripciones de conceptoApunta a una descripción comprensible de conceptos o clases. Por ejemplo, una empresa puede estar interesada en el estudio sobre sus clientes más leales y desleales. De una descripción de concepto de estos conceptos la compañía infiere que podría estar hecho para encontrar clientes leales o transformar clientes desleales a clientes leales.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Tipos de problemasTipos de problemas
4. ClasificaciónLa clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o rasgo que pertenece a diferentes clases. Por ejemplo, intentando guardar créditos para evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un problema de clasificación para crear dos clases, clientes buenos y clientes malos. 5. PredicciónOtro tipo de problema importante que ocurre en una amplia gama de usos es la predicción. La predicción es muy similar a la clasificación.La única diferencia es que en la predicción el atributo objetivo (la clase) no es un atributo cualitativo discreto, pero es uno continuo.6. Análisis de dependenciaEl análisis de dependencia consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre artículos de datos o acontecimientos. Las dependencias pueden ser usadas para predecir el valor de unos datos de artículo dada la información sobre otros artículos de datos. Aunque las dependencias pueden ser usadas para el modelado predictivo, aquellos son mas usados por su comprensión.
MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IPARTE I
Estadística MultivariadaEstadística Multivariada
PARTE IPARTE I
Estadística MultivariadaEstadística Multivariada
Herramientas para el manejo de grandes
volúmenes de cálculos y datos
financieros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Qué es la estadística?Qué es la estadística?
PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS
La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Críticas a la estadística?Críticas a la estadística?
PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS
Hay una percepción general de que el conocimiento estadístico es intencionado y frecuentemente mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli, es: «Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas». El popular libro How to lie with statistics (Cómo mentir con las estadísticas en la edición española) de Darrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo, mediante la eliminación selectiva de valores atípicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador (Darrel Huff). Lawrence Lowell (decano de la Universidad de Harvard) escribió en 1909 que las estadísticas, «como algunos pasteles, son buenas si se sabe quién los hizo y se está seguro de los ingredientes».
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1Tabla de frecuencia unidimensional
CUALITATIVA 2Tabla de frecuencia unidimensional
NTabla de frecuencia unidimensional
1 Box Plot
EXPLORATORIO CUANTITATIVA 2 Scatter Plot
NDiagramas de individuos ACP
1
MIXTA 2Box Plot cuantitativo nominalScatter Plot cuantitativo ordinal
N ACP, AFC
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1Gráficos, tablas de frecuencia
CUALITATIVA 2Gráficos, tablas de frecuencia
N AFC
1Gráficos, parametros de posición, dispersión y forma
DESCRIPTIVO CUANTITATIVA 2Gráficos, covarianza, correlación, regresión
N ACP, Cluster
1
MIXTA 2
N
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1Promedios, varianzas, proporciones
ESTIMACION 2 Correlación, regresión
NMANOVA, regresión múltiple, correlación canónica
1Test de conformidad, test de significación
INFERENCIAL TEST DE HIPOTESIS 2Test de comparación, test de significación
NMANOVA, discriminante canónico
1Run test, Wilcoxon, Mann-Whitney, Kruskall
NO PARAMETRICOS 2 Spearman, Kendall
N Kernell, redes neuronales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: VariablesConceptos básicos: Variables
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Cuantitativas Reales
Variables Nominal
Cualitativas Categóricas
Ordinal
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Cuando queremos examinar un sistema complejo de actividades financieras o comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
El AM se puede definir como:
Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Técnicas de independencia
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Técnicas de dependencia
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Una variable binaria es aquella que sólo puede adquirir dos posibles valores (Sí-No, 0-1, Verdadero-Falso, etc.). Las variables binarias constituyen un subconjunto muy importante de las llamadas variables categóricas o cualitativas, las cuales están muy presentes en la economía y las ciencias sociales.
Cuando se pretende explicar, mediante un modelo de regresión, el comportamiento de una variable (llamada variable endógena o dependiente) en función de los valores que tomen otras (llamadas variables exógenas o explicativas), suele utilizarse un modelo de regresión lineal múltiple. El modelo lineal presenta ciertos problemas cuando la variable dependiente es binaria, lo cual lleva a usar modelos de regresión no lineales, específicamente pensados para realizar regresión con variables categóricas. Los modelos que analizaremos aquí serán el Logit y el Probit.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Las variables independientes Xj pueden tener distintos valores, sin embargo, la variable dependiente Y sólo puede adquirir el valor 0 o 1. La curva de regresión lineal no puede ajustarse a la función requerida, siendo que la logística (LOGIT) y la función de distribución de una normal (PROBIT) presentan una mayor proximidad.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Fuente: Wikipedia
LOGIT- DefiniciónLOGIT- DefiniciónEn matemáticas, especialmente aquellas aplicadas en estadística, el logit de un número p entre 0 y 1 es:
(La base de la función logaritmo usada aquí es de poca importancia en el presente artículo, puesto que es mayor que 1, aunque el logaritmo natural con base e es usado a menudo.) La función logit es la inversa del "sigmoide", o función "logística".
Si p es una probabilidad entonces p/(1 − p) es el correspondiente odds, y el logit de la probabilidad es el logaritmo de los odds; similarmente la diferencia entre los logits de dos probabilidades es el logaritmo del odds ratio (OR), obteniéndose así un mecanismo aditivo para combinar odds-ratios:
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
Fuente: Wikipedia
PROBIT - DefiniciónPROBIT - Definición
En probabilidad y estadística se llama función probit a la inversa de la función de distribución o función cuantil asociada con la distribución normal estándar. La función tiene aplicaciones en gráficos estadísticos exploratorios y modelos probit.
Para la distribución normal estándar (a menudo denotada por N(0,1)) la función de distribución se denota comúnmente por Φ. Φ es una función sigmoide continua y creciente, cuyos dominio y recorrido son la recta real y el intervalo (0, 1), respectivamente.
Por ejemplo, considérese el hecho de que la distribución N(0, 1) tiene un 95% de probabilidad entre -1,96 y 1,96 y es simétrica en un entorno de cero. De ahí se deduce que Φ(-1,96) = 0,025 = 1 - Φ(1,96).
La función probit proporciona el cálculo inverso, generando un valor de una variable aleatoria N(0, 1) asociado a una probabilidad acumulada bajo su curva. Formalmente, la función probit es la inversa de Φ(z), denotada Φ-1(p).
Siguiendo con el ejemplo, probit(0,025) = -1,96 = -probit(0,975).
En general, Φ(probit(p)) = p y probit(Φ(z)) = z
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
EJEMPLOS DE APLICACIÓNEJEMPLOS DE APLICACIÓN
- Un banco que concede créditos a sus clientes quiere conocer la probabilidad de impago para un futuro cliente - Una empresa que va a iniciar su negocio en el sector textil quiere conocer la probabilidad de éxito que tendrá su puesta en funcionamiento. - Un profesor quiere conocer la probabilidad de aprobar su asignatura que tendrá un alumno. - Un político o inversor está interesado en conocer el riesgo que existe de producirse una crisis cambiaria en una determinada economía.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.- Existen varios disponibles. El que se usará será XLSTAT,
como complemento de Excel.- Como base de estudio de la aplicación de los modelos LOGIT
y PROBIT se usará la base de datos de estados financieros de todas las entidades financieras de Bolivia con una muestra de 10 años.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IIPARTE II
Bases MultidimensionalesBases Multidimensionales
PARTE IIPARTE II
Bases MultidimensionalesBases Multidimensionales
Herramientas para el manejo de grandes
volúmenes de cálculos y datos
financieros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Preparación de DatosPreparación de Datos
La transformación de grandes cantidades de datos en información útil y conocimiento es una inminente necesidad para la industria y la sociedad en general. Buscando cubrir esta necesidad surge el proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD), el cual está compuesto por varias etapas. Un conjunto de estas etapas es conocido como preparación de datos y en la actualidad representa la mayor parte del esfuerzo destinado en las organizaciones al proceso de KDD. Sin embargo, llevar a cabo esa preparación de datos no es una labor fácil.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Medidas y VariablesMedidas y Variables
Cuantitativas Reales
Variables Nominal
Cualitativas Categóricas
Ordinal
Hay cuatro tipos de mediciones o escalas de medición en estadística:•Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. •Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado.•Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. •Las medidas nominales no tienen ningún rango interpretable entre sus valores.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Proceso de Generación de Conocimiento - KDDProceso de Generación de Conocimiento - KDD
Recolección de datos
Preparación de datos
Análisis de datos
Uso del conocimiento
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Proceso de Preparación de DatosProceso de Preparación de Datos
Limpieza
Valores faltantesOutliersErrores
Transformación
Selección
Reducción
Gerencialización
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
TransformaciTransformación vs Gerencializaciónón vs Gerencialización
El proceso de transformación hace referencia al trabajo relacionado con el vuelque de datos de un formato a otro. Ej.: Los datos con los que se requiere trabajar están en formato pdf y quiere volcárselos a formato Excel.
El proceso de gerencialización es el trabajo previo de acomodar los datos en una forma que resulten más fácilmente analizables. Ej.: Los datos del ejemplo anterior que ya están en Excel, posiblemente sean un conjunto de números que sea preferible visualizarlos como rangos o intervalos.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
TIPOS DE CAMPOS DE INFORMACIÓN•Numéricos•Rangos•Rangueables•Extractables•Información•Calculable
Hechos y dimensiones
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
titulos de columnas
títul
os d
e fil
as
x x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x x
X
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
x x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x x
títul
os d
e fil
astitulos de columnas
Dimensiones
Hechos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.- Se usará Excel- Se entregará al alumno una base de datos que requiere ser
gerencializada y la demostración de su utilidad será aplicando tablas dinámicas.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP - Conceptos básicosCubos OLAP - Conceptos básicos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Base de datos Multidimensional. Base de datos de estructura basada en dimensiones orientada a consultas complejas y alto rendimiento. (Oracle)
Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho. (Wikipedia)
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAPCubos OLAP
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Representa o convierte datos planos que se encuentran en filas y columnas, en una matriz de N dimensiones.
Los atributos existen a lo largo de varios ejes o dimensiones y la intersección de ellas representa el valor que tomará el indicador.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAPCubos OLAP
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Ventas de televisores en 2008 en la región La Paz
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de agregaciónCubos OLAP: Función de agregación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de RotaciónCubos OLAP: Función de Rotación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de cortado/paginaciónCubos OLAP: Función de cortado/paginación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de rebanadoCubos OLAP: Función de rebanado
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: PreparaciCubos OLAP: Preparación de los datosón de los datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Descripción de un proceso ETL (Extract, Transform, Load)• Características de los campos usados como dimensiones• Características de los campos usados como hechos• Concepto de las funciones de agregación• Demostración en Excel
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.- Existen varios disponibles. El que se usará será Excel,
mediante su función de tablas y gráficos dinámicos.- Como base de estudio de la aplicación de cubos OLAP el
estudiante creará un cubo con los archivos en Excel proporcionados de estados financieros de entidades financieras en lo que son sus cuentas contingentes.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Minería de datosConceptos básicos: Minería de datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Minería de datosConceptos básicos: Minería de datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en NegociosMinería de datos: Aplicación en Negocios
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en hábitos de compraMinería de datos: Aplicación en hábitos de compra
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en patrones de fugaMinería de datos: Aplicación en patrones de fuga
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en fraudesMinería de datos: Aplicación en fraudes
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en RR.HH.Minería de datos: Aplicación en RR.HH.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en uso de internetMinería de datos: Aplicación en uso de internet
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo, cuando son clientes potenciales— en una página de Internet. O la utilización de la información —obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en genéticaMinería de datos: Aplicación en genética
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial".
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Minería de datos: Demostración de usoDemostración de uso
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Existe infinidad de soluciones informáticas que apoyan en un proceso de minería de datos.
• El software elegido es el complemento de SQL Server - Datamining que ofrece Microsoft con interfaz para Excel.
• Explicación del requerimiento de datos preparados con orientación a bases multidimensionales.
• Ejemplos varios de uso para clasificación, cluster, pronóstico y otros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.- Se usará Excel, mediante el complemento que ofrece Microsoft
de datamining.- Como base de estudio de la aplicación de minería de datos, el
estudiante deberá usar al menos 3 técnicas que le ofrece la herramienta, basados en los datos de estados financieros de entidades del sistema financiero.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IIIPARTE III
SimulaciónSimulación
PARTE IIIPARTE III
SimulaciónSimulación
Herramientas para el manejo de grandes
volúmenes de cálculos y datos
financieros
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicosConceptos básicos
PARTE III. SimulaciónPARTE III. Simulación
Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos.
La simulación es el proceso de diseñar un modelo de un sistema real y llevar a término experiencias con él, con la finalidad de comprender el comportamiento del sistema o evaluar nuevas estrategias -dentro de los límites impuestos por un cierto criterio o un conjunto de ellos - para el funcionamiento del sistema.
Fuente: Wikipedia
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicosConceptos básicos: Modelo Montecarlo: Modelo Montecarlo
PARTE III. SimulaciónPARTE III. Simulación
• El método de Monte Carlo fue bautizado así por su analogía con los juegos de ruleta de los casinos, siendo el más célebre el de Monte Carlo, inaugurado en 1861. Resuelve una gran variedad de problemas haciendo experimentos con muestreos estadísticos en una computadora.
• Se analizan distribuciones de variables aleatorias usando simulación de números aleatorios.
• Comenzó a usarse como herramienta de investigación en los años 40 en el Proyecto Manhattan relacionado con la primera bomba atómica.
• El método de Monte Carlo convierte nuestro ordenador en un potente laboratorio de simulación.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo vs. Modelos analíticosModelo Montecarlo vs. Modelos analíticos
PARTE III. SimulaciónPARTE III. Simulación
La construcción de un modelo analítico tiene con frecuencia serios inconvenientes:1)La dificultad de encontrar el modelo de ecuaciones que representen al sistema real y2)La dificultad para resolver el modelo.
Por otro lado, con frecuencia se requiere que los individuos que participan en el equipo deben tener una gran capacitación y destreza. De modo que estos equipos de trabajo suelen ser costosos. En contraparte, para obtener modelos de simulación, los equipos de trabajo pueden estar conformados por personas con menor calificación, de modo que la coordinación de estos equipos es en general más simple y casi siempre más económico. Con esto no se pretende decir que los modelos analíticos sean inútiles, ya que existen cierto tipo de problemas, para los cuales se conoce la forma de obtención del modelo así como la manera de construir un algoritmo eficiente para resolverlo.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: ImportanciaModelo Montecarlo: Importancia
PARTE III. SimulaciónPARTE III. Simulación
• Existen problemas numéricos de muy difícil solución por métodos exclusivamente analíticos.
• El desarrollo de los ordenadores posibilita la simulación de experimentos a través de números aleatorios o de números determinísticos pseudoaleatorios.
• Las aplicaciones posibles trascienden las propias Matemáticas: Magnitud de las emisiones de rayos cósmicos; tamaño crítico de los reactores nucleares; difusión y movimiento browniano; paso de líquidos a través de sólidos; propiedades de retículos poliméricos; características de los recipientes necesarios para el transporte de neutrones; aplicaciones de la teoría de colas a problemas comerciales como almacenamiento, sustitución y mantenimiento de equipos, gestión de seguros, etc.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: Casi todo es probableModelo Montecarlo: Casi todo es probable
PARTE III. SimulaciónPARTE III. Simulación
• Si hoy es lunes, mañana es martes; si pago, puedo comprar; si voy a la parada, pasará el micro, etc... Probabilidad 1. ¿La vida es determinista?
• ¿Y si cambia el tipo de calendario?... ¿Y si se produce un desabastecimiento?... ¿Y si cambia el tipo de calendario?... ¿Y si se produce un desabastecimiento?...¿Y si hay huelga de conductores? Casi nunca sucede…¿La vida es casi segura? Probabilidad cercana a 1.
• ¿Tu hijo nacerá en martes?...¿Cuánto tardarás en la cola del hipermercado?... ¿A qué hora pasará el próximo micro hacia tu trabajo?...Estamos rodeados de fenómenos azarosos… La vida en general es aleatoria. Probabilidad variable.
• ¿cuál es la probabilidad de que tus acciones suban mañana en Bolsa más del 5%?
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: AplicaciónModelo Montecarlo: Aplicación
PARTE III. SimulaciónPARTE III. Simulación
• Existe infinidad de soluciones informáticas que apoyan resolviendo modelos Montecarlo.
• El software elegido Crystal Ball que interactúa con Excel.• Explicación de la construcción de un modelo de simulación.• Ejemplos varios de uso del modelo Montecarlo.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.- Se usará Crystal Ball..- Como base de estudio de la aplicación del modelo Montecarlo
el alumno construirá su propio modelo de simulación, establecerá las variables aleatorias, definiendo la variable dependiente de control y ejecutará Montecarlo, analizando el resultado obtenido.
Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Herramientas para el manejo de grandes volúmenes de
cálculos y datos financieros
Herramientas para el manejo de grandes volúmenes de
cálculos y datos financieros
Material preparado por:Material preparado por:
Samir Homsi AragónSamir Homsi Aragón
Material preparado por:Material preparado por:
Samir Homsi AragónSamir Homsi Aragón