![Page 1: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/1.jpg)
Dra. Angélica Urrutia SepúlvedaUniversidad Católica del Maule, Chile
Universidad Simón Bolivar Venezuela, 2008
DataWarehouse y DataMining
Difusos
![Page 2: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/2.jpg)
Temario: Diseño Conceptual
Diseño Clásico de un DW. Propuesta de un Fuzzy-DW. Minería de Datos. Análisis Manager como
Herramienta de DW y Minería de Datos.
Trabajos Futuros
![Page 3: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/3.jpg)
Diseño Clásico de un DW.
Temas: Motivaciones: La información y las organizaciones Características y operadores de los Sistemas de DW Desarrollo de Sistemas DW.
![Page 4: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/4.jpg)
Motivaciones
Problemática planteada: Acceso a Información para la toma de
decisiones.
![Page 5: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/5.jpg)
La información y las organizaciones Las organizaciones tienen necesidad de:
Conocimiento: Materia prima para toma de decisiones. Es lo que se desea construir.
Información: Materia prima para conocer los fenómenos reales. Un item de datos es información según el
contexto de toma de decisiones. Datos:
Materia prima de la información. Generados por procesos que no necesariamente
los explotan.
![Page 6: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/6.jpg)
La información y las organizaciones
Los datos existen, pero ... No siempre se acceden fácilmente. No siempre se explotan.
Un reporte de los Laboratorios Bell indica que la cantidad de datos se duplica cada 5 años, y que solo se usa un 5% de ella.
La información suele ser difícil de obtener: Deben obtenerse los datos:
A partir de los cuales se construye la información. Que definen el contexto del mismo.
En un cierto contexto, un ítem puede ser información: Dependiendo del tipo de decisiones a tomar. Dependiendo de la persona encargada. Dependiendo de la calidad de su valor.
![Page 7: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/7.jpg)
La información y las organizaciones
Y los sistemas de información tradicionales ... Orientados a sistemas operacionales. Asociados a procesos productivos. Procesan grandes cantidades de
transacciones. Pueden resolver estas necesidades
?
![Page 8: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/8.jpg)
Sistemas de Producción y de Decisión Sistemas orientado a la Producción:
Prioridad: tiempo de respuesta a transacciones read-write.
Se manejan datos actuales muy detallados. Estables y de larga vida util.
Sistema orientado a la Decisión: Prioridad:
expresividad y eficiencia en consultas complejas. Datos actuales+históricos resumidos. En constante evolución.
![Page 9: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/9.jpg)
Sistemas de Producción y de Decisión
Conclusión. Se trata de sistemas con objetivos
diferentes. Se construyen para ser eficientes en
sus objetivos. No es posible usar uno para las
tareas del otro.
![Page 10: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/10.jpg)
Sistemas de Data Warehousing
![Page 11: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/11.jpg)
Arquitectura Base
![Page 12: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/12.jpg)
Sistemas de Data Warehousing Algunos conceptos:
Diccionario de Datos o Metadata: Asocia objetos del negocio a datos en BDs.
Análisis multidimensional y herramientas OLAP:
Modelamiento del problema en dimensiones. Data Mining:
Búsqueda de correlaciones entre datos. Calidad de Datos
Se agregan criterios de Relevancia y Pertinencia de Datos.
![Page 13: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/13.jpg)
SDW: Visión General Definiciones:
Data Warehouse [Inmon 94]: Es un conjunto de datos orientados a
temas, integrados, no volátiles e históricos, organizados para soportar un proceso de toma de decisiones.
Sistema de Data Warehousing: Es un sistema informático capaz de
ofrecer información para toma de decisiones, y cuya pieza principal es un Data Warehouse.
![Page 14: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/14.jpg)
Sistemas de Data Warehousing Definiciones (cont.):
Datos Orientados a Temas: En los DW, los datos se organizan en torno a los
Temas principales de la organización Datos integrados:
Heterogeneidad de datos: Diferentes áreas de la organización. Diferentes tipos (tradicionales, geográfico,
documentos). Aspectos a resolver en la integración:
Unificación de conceptos. Construcción del dato integrado a partir de los
fuentes.
![Page 15: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/15.jpg)
Sistemas de Data Warehousing Definiciones (cont.):
Datos históricos: Se deben manejar los datos con su referencia
temporal. Datos no volátiles:
Los datos deben ser lo suficientemente estables como para permitir análisis “largos” sin que cambien durante el mismo.
Esto se obtiene como consecuencia de: La historización. La planificación de la carga.
![Page 16: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/16.jpg)
Sistemas de Data Warehousing
Los Data Marts. Son aplicaciones de análisis de datos en
áreas precisas de negocios. Por ejemplo:
Ventas, Marketing, Recursos Humanos. Toman sus datos del Data Warehouse. Priorizan la funciones de análisis de datos:
Interfaces a usuario. Indicadores específicos al área de negocio.
Normalmente basados en OLAP.
![Page 17: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/17.jpg)
Estructura del Data Warehouse
Tipos de Operaciones/Transformaciones (1): Extracción de datos.
Consiste en extraer los datos de la BD fuente y cargarlo en el ODS o DW.
Filtrado. Consiste en filtrar datos no admisibles en el DW.
Modificación de formato o valores. Consiste en adaptar formatos o valores para que
cumpla pautas definidas en el DW. Integración.
Consiste en integrar datos provenientes de dos fuentes.
![Page 18: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/18.jpg)
Estructura del Data Warehouse
Tipos de Operaciones/Transformaciones (2): Cálculos y Consolidaciones (Agregaciones).
Consiste en calcular indicadores a partir de datos base. Pueden implicar consolidaciones.
Generación de datos históricos (historización). Consiste en agregar marcas de tiempo a datos.
Generación de versiones. Consiste en agregar atributos diferenciadores de
diferentes versiones de un objeto base. La historización permite hacer esto marcando la
versión con un valor temporal.
![Page 19: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/19.jpg)
Soportar múltiples tipos de usuarios
Diferentes niveles jerárquicos: Directivos. Gerentes de área. Mandos técnicos.
Diferentes funciones: Planificación. Control. Análisis.
![Page 20: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/20.jpg)
Herramientas OLAP Introducción:
Implementan Modelos Multidimensionales. Los Modelos MD representan los datos como
dimensiones en un hipercubo. Tecnología en pleno desarrollo y expansión. Diferentes alternativas tecnológicas:
ROLAP vs. MOLAP vs. HOLAP: ROLAPs: actuan directamente sobre BD Rel. MOLAPs: trabajan sobre almacenamiento especializado. HOLAP: intentan aplicar ambas estrategias.
![Page 21: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/21.jpg)
OLAP - Modelos Multidimensionales
Motivaciones: Representar los datos en forma más cercana a la
intuición del usuario. Resolver problemas planteados en sistemas
relacionales. Principios generales:
La información se representa como: cuadros de doble o triple entrada. cubos de "n" dimensiones.
Una BD-MD incluye varias dimensiones.
![Page 22: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/22.jpg)
OLAP - Modelos Multidimensionales
Ejemplo: Análisis de ventas de autos
![Page 23: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/23.jpg)
Diseño Conceptual DW
¿ Cuáles son las herramientas que necesita el diseñador para poder razonar sobre los datos y presentárselos al usuario ?
![Page 24: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/24.jpg)
Modelos de Datos
Los niveles en diseño de BDs:
![Page 25: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/25.jpg)
Enfoques de Diseño Conceptual
Análisis desde requerimientos: Los requerimientos son el universo de información. Las bases fuente se relacionarán luego. Aplicable cuando se tienen Bases Fuentes complejas.
(Se analizan con los requerimientos en mente). Trabajos: [Car00], [Sap99], [Hus00], [Fra99].
Análisis desde datos: Datos fuentes son el universo de información. El DW se obtiene transformando las fuentes. Aplicable cuando los requerimientos están poco
claros. Trabajos: [Gol98a], [Cab98].
![Page 26: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/26.jpg)
Etapas de Diseño Conceptual Las principales etapas son:
Definir un esqueleto de esquema: Primer grupo de dimensiones medidas.
Establecer correspondencia entre requerimientos y datos fuentes.
Completar jerarquías en las dimensiones.
Especificar segundo grupo de medidas (calculadas). Iterar
![Page 27: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/27.jpg)
MMD en la arquitectura
![Page 28: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/28.jpg)
Motivación
![Page 29: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/29.jpg)
Motivación
![Page 30: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/30.jpg)
Modelos Multidimensionales Qué tienen en común estas dos
últimas representaciones? El usuario final (gerente) las entiende
y maneja habitualmente. Objetivos de los MMD:
Representar los datos en forma cercana a la intuición del usuario.
Resolver problemas planteados en sistemas relacionales.
![Page 31: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/31.jpg)
Características Se representan los datos como una
matriz. En los ejes están los criterios de análisis. En los cruces están los valores a analizar. A esta estructura se le llama Cubo o Hipercubo.
![Page 32: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/32.jpg)
Características
Agregando una 3a. dimensión:
![Page 33: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/33.jpg)
Características
Agregando una 4a. dimensión:
![Page 34: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/34.jpg)
Estructuras básicas Los Cubos o Hipercubos constan
de: Dimensiones:
Criterios de análisis de los datos. Macro-objetos del problema. Variables independientes. Ejes en el hipercubo.
Medidas Valores o indicadores a analizar. Datos asociados a relaciones entre los objetos del problema. Variables dependientes. Variables en la intersección de las dimensiones.
![Page 35: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/35.jpg)
Estructuras básicas
En el ejemplo anterior: Dimensiones:
Modelo Color Vendedor Fecha
Medida: Cantidad Vendida
![Page 36: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/36.jpg)
Caso de Estudio
![Page 37: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/37.jpg)
Dimensiones Jerarquías:
Los valores se organizan en jerarquías (categorías).
Por ejemplo: Dimensión: Vendedores
![Page 38: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/38.jpg)
Medidas
Propiedades: Se ubican en la intersección de
algunos valores de las dimensiones. Dado un valor para cada dimensión se puede determinar un valor para la medida.
![Page 39: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/39.jpg)
Medidas
![Page 40: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/40.jpg)
Cubos La realidad se modela como un conjunto de
cubos. Cada cubo, esta formado por:
Un conjunto de Dimensiones organizadas en jerarquías.
Un conjunto de Medidas asociadas a cada Coordenada.
Es posible moverse en las jerarquías de las dimensiones y observar de esa forma, diferentes visiones de las medidas.
![Page 41: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/41.jpg)
Operaciones Principales operaciones en modelos MD:
Slice. Dice. Rotación. Drill-down. Drill-up. Roll-up. Drill-across. Drill-through.
![Page 42: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/42.jpg)
Operaciones: Slice
![Page 43: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/43.jpg)
Operaciones: Dice
Filtrado (DICE) Se fijan valores para algunas
dimensiones.
![Page 44: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/44.jpg)
Operaciones: Rotación
Rotación. Selecciona el orden de visualización de
las dimensiones.
![Page 45: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/45.jpg)
Operaciones: Drill-up, drill-down
Movimientos en la Jerarquía de una Dimensión (Drill-up,Drill-down)
![Page 46: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/46.jpg)
Operaciones: Drill-up, drill-down
Drill-Up o Drill-Down pueden verse como ajuste en las escalas de los ejes.
Son agrupamientos y des-agrupamientos.
![Page 47: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/47.jpg)
Operaciones: Roll-up Consolidación (Roll-Up).
Calcula las medidas en función de agrupamientos. Realiza el re-cálculo de la medida de acuerdo a
los ajustes de escala.
![Page 48: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/48.jpg)
Limites de los MMD Los MMD no realizan adecuadamente
ciertas operaciones: Salvo en algunos trabajos de investigación,
no se habla de representación y consulta de datos descriptivos o secundarios.
Tampoco se permiten diferentes RollUp´s por medida.
Entonces: Se deben resolver con otras técnicas, o Se deben considerar en el diseño.
![Page 49: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/49.jpg)
Características de los MMD
Resumen: Permiten describir una realidad en
términos de matrices multidimensionales (Cubos).
Desde el punto de Vista del DW, se utilizan para describir Datamarts o el DW Completo.
Las Dimensiones pueden tener una o más jerarquías.
![Page 50: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/50.jpg)
Modelo CMDM:
Estructuras básicas. Niveles. Dimensiones.
Con Jerarquias, formadas por Niveles. Incluye Medidas (Dimensionalidad
Genérica). Relaciones dimensionales. Cubos.
Cruzamientos específicos.
Estrategia basada en Medina y
Dimensiones
![Page 51: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/51.jpg)
Modelo CMDM
Dimensiones: Una dimensión esta formada por:
![Page 52: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/52.jpg)
Modelo CMDM
Niveles: Un nivel representa un conjunto de
datos.
![Page 53: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/53.jpg)
Modelo CMDM
Jerarquías: Los niveles se organizan en
jerarquías. Cada jerarquía está compuesta por
uno o varios niveles. En cada jerarquía:
Se tiene una relación <1-n> entre objetos de nivel superior e inferior.
![Page 54: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/54.jpg)
Modelo CMDM
Jerarquías: Ejemplo
![Page 55: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/55.jpg)
Modelo CMDM Relaciones Dimensionales:
Representan cruzamientos entre Dimensiones.
Las Medidas participan como Dimensiones.
Vista como una relación: Se tiene un elemento en el conjunto
relación si y solo si hay un cruzamiento. Esto obliga a que las Dimensiones
participantes realmente sean cruzables.
![Page 56: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/56.jpg)
Modelo CMDM
Relaciones Dimensionales. Ejemplo
![Page 57: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/57.jpg)
Modelo CMDM Esquema Conceptual MD:
Está formado por un conjunto de Relaciones Dimensionales.
Las Relaciones Dimensionales pueden compartir Dimensiones.
Permite el Drill-Across. Cubos:
Dada una Relación Dimensional, un cubo representa un cruzamiento concreto entre niveles determinados de las Jerarquías de la RD.
![Page 58: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/58.jpg)
Modelo CMDM
Cubos: Ejemplo.
![Page 59: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/59.jpg)
Modelo CMDM Conclusiones sobre CMDM.
Apunta a dar un modelo de especificación de esquemas conceptuales Multidimensionales.
Cumpliendo un rol equivalente al del Modelo ER. Los esquemas conceptuales MD luego serán
traducidos a esquemas lógicos MD. Todavía en desarrollo, se trabaja sobre:
Mejoras de la herramienta CASE. Un lenguaje de Restricciones de Integridad. Una base formal para el modelo.
![Page 60: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/60.jpg)
Modelos de Metadata: CWM
Estructura: Packages que cubren todas las áreas.
![Page 61: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/61.jpg)
DF / Estrategia Basada en Datos
![Page 62: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/62.jpg)
Pautas de diseño Preguntas básicas en diseño:
¿Qué es una Dimensión y qué es una Medida?
¿Tiene sentido construir cualquier cruzamiento de niveles?
¿Cuándo definir una Dimensión con varias jerarquías o varias Dimensiones?
¿Con qué criterios definir una o varias Relaciones Dimensionales?
Dada una relación dimensional, ¿cualquier operación de roll-up es correcta?
¿Cómo clasificar las medidas calculadas?
![Page 63: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/63.jpg)
Def. de Dimensiones y Medidas
¿Qué items pueden ser medidas y cuáles dimensiones? No hay ningún criterio ni método efectivo
para tomar la decisión. Pueden haber “indicios” basados en:
Objetos del problema y/o criterios de análisis Vs. Indicadores y/o medidas.
Interés de totalizar segun Drill-Ups. Identificadores Vs. No Identificadores. Estudio de distribución de valores. Estudio de independencia de variables.
![Page 64: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/64.jpg)
Jerarquías en dimensiones Criterios para construir jerarquías:
Definir caminos de navegación (drill-down/up).
Definir agrupamientos naturales de los datos (reportes).
Asociar diferentes niveles de cálculo de indicadores.
Atención ! Cuidado con el comportamiento de las
medidas cuando se hace roll-up.
![Page 65: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/65.jpg)
Jerarquías en dimensiones Ejemplos:
Los supervisores de ventas estudian las ventas según la ubicación geográfica de los clientes.
Los analistas de marketing estudian los clientes según segmentos de mercado.
Se hacen reportes de distribución geográfica de los segmentos de mercado.
La sección depósito maneja fechas calendario, en cambio contaduría maneja años fiscales.
![Page 66: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/66.jpg)
Relaciones dimensionales
Ejemplos de distintas Medidas:
![Page 67: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/67.jpg)
Tipos de fórmulas Fórmulas descriptivas:
Datos fuentes o agregación de datos fuentes.
Ej: Cantidad de unidades en stock. Costo del item Ultimo precio de venta Cantidad de unidades salientes Margen de ganancia Promedio diario de unidades en stock.
![Page 68: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/68.jpg)
Conclusiones Técnica de diseño
Guiada por los requerimientos de información. Aparecen tareas de mapping.
Introducción de un modelo conceptual. Se busca una notación abstracta y efectiva. Representación de conceptos
multidimensionales Pautas de buen diseño.
Construcción de dimensiones y jerarquías. Construcción de relaciones dimensionales. Aditividad en medidas.
![Page 69: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/69.jpg)
Diseño de un DW Relacional
Características del DW Acceso y mantenimiento de datos
Consultas complejas Se considera solo-lectura. El mantenimiento no se hace vía
sistema OLTP, sino en forma "batch". Usuario final accede directamente al DW con herramientas
de consulta (OLAP)
Modelo Relacional poco adecuado para consultas dimensionales.
![Page 70: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/70.jpg)
Diseño de un DW Relacional
Modelo Dimensional de [Kim96]
Tablas de hechos (fact tables) donde se guardan las medidas numéricas del negocio Intersección de todas las dimensiones granularidad clave compuesta (la combinación de las fk)
Tablas de dimensión (dimension tables) donde se guardan las descripciones textuales de las
dimensiones del negocio
Jerarquías: desnormalizadas o normalizadas
![Page 71: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/71.jpg)
Tipos de esquemas en el MD-Rel
Star: Es la estructura básica del MD 1 tabla grande central y un conjunto de tablas mas
chicas organizadas alrededor de la tabla de hechos.
![Page 72: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/72.jpg)
Otras opciones MD-Rel …
Star-Cluster schema [MK00]
![Page 73: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/73.jpg)
Propuesta de un Fuzzy-DW.
Temas: Conjuntos Difusos Operador Cube Extensión de la FIRST_FSQL Ejemplo Fuzzy-DW
![Page 74: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/74.jpg)
Introducción: Fuzzy Set
A fuzzy set A can be represented as a set of pairs of values: each element u with its degree of belonging μA
A = {A (u) / u : u U, A (u) [0,1]}
The closer μA(u) is to the value 1, the greater the memberships of the object u U to the set A. The values of memberships vary between 0 (does not belong at all) and 1 (total belong )
![Page 75: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/75.jpg)
Introducción: Grado de Pertenencia
A (u) = 0, indica que u no pertenece
en absoluto al conjunto difuso A.
A (u) = 0, indica que u no pertenece
en absoluto al conjunto difuso A.
A (u) = 1, indica que u pertenece
totalmente al conjunto difuso A.
A (u) = 1, indica que u pertenece
totalmente al conjunto difuso A.
A (u) se denomina grado de pertenencia
del elemento u al conjunto difuso A.A (u) se denomina grado de pertenencia
del elemento u al conjunto difuso A.
![Page 76: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/76.jpg)
Introduccion: Fuzzy Quantifiers
Linguistic Labels “young”, “tall” ...
Q(x)young
14 17 20 x 25 30
0.5
1
0age
degree
Fuzzy or linguistic quantifiers Absolute “large”, “many”..
Relative “the majority”, “almost all”...
![Page 77: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/77.jpg)
Se tiene definidos 14 comparadores difusos divididos en dos familias (de Posibilidad y de Necesidad).
Permiten comparar dos atributos o un atributo con una constante.Para atributos difusos Tipo 3 sólo puede usarse FEQ.Para usar el comparador de “distinto” poner delante de la comparación la negación NOT.Posibilidad Necesidad Significado
FEQ NFEQ Posiblemente/Necesariamente Igual queFGT (FGEQ) NFGT (NFGEQ) Pos./Nec. Mayor (o igual) queFLT (FLEQ) NFLT (NFLEQ) Pos./Nec. Menor (o igual) queMGT (MLT) NMGT (NMLT) Pos./Nec. Mucho Mayor (Menor) que
Comparadores Difusos
![Page 78: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/78.jpg)
Operador Cube
![Page 79: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/79.jpg)
Tablas del cubo Ventas.
![Page 80: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/80.jpg)
Extensión de la FIRST-FSQL: M-FIRST
OBJ# COMCOL# LENF_TYPE
OBJ# COL# MUCHMARGEN
OBJ#1 COL#1 COL#2OBJ#2
OBJ# FUZZY_TAPECOL# FUZZY_NAMEFUZZY_ID
OBJ# BETACOL# ALFAFUZZY_ID GAMMA DELTA
OBJ# DEGREECOL# FUZZY_ID2FUZZY_ID1
OBJ# COL# QUALIFIERFUZZY_ID
FUZZY_COL_LIST (FCL)
FUZZY_APPROX_MUCH(FAM)
FUZZY_COMPATIBLE_COL (FCC)
FUZZY_OBJECT_LIST (FOL)
FUZZY_LABEL_DEF (FLD)
FUZZY_NEARNESS_DEF (FND)
FUZZY_QUALIFIERS_DEF (FQD)
![Page 81: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/81.jpg)
MFDW: Conjunto de 11 Pasos del Método Fuzzy DataWarehuose.
FASE 1: Especificación de requerimientos de datos de gestión.
FASE 2: Implementación de cubos cuantitativos.
FASE 3: Implementación de cubos cuantitativos-cualitativos.
![Page 82: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/82.jpg)
Propuesta de Arquitectura F-MMD
Base de Datos CUBO
Sistema Gestor de Bases de Datos Relacionales OLAP
Sitio Web de Consultas FuzzyMedida
Cliente HTML Fuzzy
Extensión Catalogo del Sistema (M-FIRST)
Figura 11: Arquitectura del sitio para consultas difusas.
Elementos Cuantitativos
Elementos Cuantitativo-Cualitativo
![Page 83: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/83.jpg)
Ejemplo de Medida Difusa
Función trapezoidal para la medida Monto de factura.
1
1000 2000 3000 4000 5000 6000 7000
Mala Regular Buena
0
![Page 84: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/84.jpg)
Etiquetas Lingüísticas para Medidas del Cubo
Medida Monto, según la especificación de requerimiento le corresponderán tres etiquetas lingüísticas Mala, Regular y Buena
Se debe completar las siguientes tablas FIRST: FUZZY_COL_LIST (FCL), FUZZY_LABEL_DEF (FLD) y FUZZY_OBJECT_LIST (FOL).
De haber más medidas con tratamiento FuzzyMedida
![Page 85: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/85.jpg)
Ejemplo de las Tablas M-FIRST
Tabla 1: Tabla FCL para la medida Monto facturado.
OBJ#COL# F_TYPE LEN COM
Facturas Monto Factura
2 2 Medida Monto
Tabla 2: Tabla FOL que define las etiquetas lingüísticas de Monto factura.
OBJ#COL# FUZZY
_IDFUZZY_NAME
FUZZY_TYPE
FactuFactuFactu
Monto F.Monto F. Monto F.
012
MalaRegularBuena
000
Tabla 3: Tabla FLD para los datos de cada etiqueta de Monto factura.
OBJ#COL# FUZZY
_IDALFA BETA GAMMA DELTA
FacturaFacturaFactura
Monto Monto Monto
012
010003000
020004000
100030006000
200040007000
![Page 86: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/86.jpg)
Tabla Extensión M-FSQLFUZZY_LABEL_MULTIDIMENSIONAL (FLM): La tabla FLD, no fue diseñada
para cubos difusos donde la medida intersecta a una o varias dimensiones. Para llevar a cabo dicho tratamiento, se crea una nueva tabla que se adosa FLM a la FIRST, creando la M-FIRST, su estructura es la siguiente:
OBJ#: Almacena el número de objeto de la tabla que tiene un atributo difuso.
COL#: Almacena el número de columna dentro de la tabla que admitirá un tratamiento difuso. En este caso corresponde a la medida
FUZZY_ID: Identificador del objeto difuso asociado a la tabla FOL D1 : Primera dimensión del cubo N1 : N° de nivel de la primera dimensión D2 : Segunda dimensión del cubo N2 : N° de nivel de la segunda dimensión …. Dn : Dimensión n del cubo Nn : N° de nivel de la dimensión n ALFA, BETA, GAMMA Y DELTA: Definen una distribución de posibilidad
trapezoidal, para la medida y dimensiones especificadas.
![Page 87: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/87.jpg)
Tabla de Valores de FuzzyMedida en Fuzzy_Label_Multidimensional para Medida Monto.
OBJ# COL# FUZZY_ID D1 N1 D2 N2 D3 N3 alfa Beta Gamma delta
FacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFacturaFactura
Monto MontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMontoMonto
MalaBuenaRegularMalaBuenaRegularMalaBuenaRegularMalaBuenaRegularMalaBuenaRegularMalaBuenaRegularMalaBuenaRegular
000000000000allallallallallallallallall
111111111111111111111
000000allallallallallall000000allallall
111111111111111111111
000allallall000allallall000allallall000
111111111111111111111
030007000070001200001000015000050001200005000130000700012000070000120000
050001000001100015000013000200000100001500001200015000010000150000110000140000
300070001000007000120001000000100001500010000050001200010000050001300010000070001200020000070000120000200000
500010000100001110001500010000011300020000100001100001500010000112000150001000011000015000200001110000140000200001
![Page 88: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/88.jpg)
Cubo Ventas Cuantitativo y Cubo Ventas Cuantitativo/Cualitativo.
![Page 89: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/89.jpg)
Contribuciones MFDW Se muestran 11 de pasos que da un Método Fuzzy para implementar
DW, llamado MFDW, y aplicado a un caso práctico de implementación. Los principales aportes de MFDW son:
FuzzyMedida que es una extensión del cubo tradicional que retorna información cualitativa, para medidas asociado a etiquetas lingüísticas.
FML extiende la FIRST propuesta por (Galindo, 1999) generando la M-FIRST que incorpora una nueva tabla Fuzzy_Label_Multidimensional, que se acopla al modelo ya propuesto y permite el tratamiento de cubos multidimencionales.
FLabel y FGrado funciones que permiten asociar grados con las etiquetas lingüísticas y viceversa implementadas en el gestor de bases de datos.
Herramienta Fron End para Web que permite consultar una FuzzyMedida en un Fuzzy DW .
para cualquier BDMS con OLAP utilizando la instrucción CUBE. La herramienta presentada permite trabajar con operaciones Slice,
Dice, Drill-up, Drill-down entre otras para cubo.
![Page 90: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/90.jpg)
MFQDW: Metodología Fuzzy Query para Data Warehouse Se parte de un cubo estrella o copo de
nieves preciso. Se incorporan 3 tablas. Se incorporan 3 funciones Se aplican los principios de derivación
del SQLf.
![Page 91: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/91.jpg)
MFQDW
FUZZYOLAP
5.1 Caso de Estudio
5.2 Definición de Indicadores de gestión
5.4 Base de datos Fuente
5.3 Modelo CMDM de Indicadores
5.5 Mapeo
Fragmentado de los indicadores
5.10 Análisis de Resultados
Datos precisos
Datos Imprecisos
5.7 Implementación
Cubo Olap
5.9 Implementación De Indicadores
Extendidos
Pasos para Olap Difuso
5.6 Selección de indicador de
gestión a implementar
5.8 Análisis de
Indicadores difusos (Etiquetas y otros)
![Page 92: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/92.jpg)
Mapeo desde el modelo CMDM con base de datos fuente.
Participación ventas/ metas
año
tienda
sector
Venta=Venta dimensión Meta=Metas dimensión PCMetas = Ventas/Metas
mes
Dimensión: Fecha Ubicación
tickets
PK posPK localidPK ticketnumberPK opendate
total
localz
PK localId
address phone SectorId
localgroups
PK SectorIdPK localId
name updated eliminated
Metas Ubicación - Externa BDF
PK fechaPK localPK sector
Mto_Meta Mto_Vta Real Porcentaje Cumplimiento
ticketitems
PK,FK1 localidPK,FK1 ticketnumberPK,FK1 opendatePK id
subclass quantity amount itemlocalid item
itemcategories
PK rootPK categoryPK itemtypePK item
eliminated updated
categories
PK idPK root
name description
Metas Categorias - Externa BDF
PK fechaPK categoria_articulo
Mto_Meta Mto_Vta Real Porcentaje Cumplimiento
Medidas
categoría
Productos
producto
Proveedor
Dimensión: Proveedores
![Page 93: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/93.jpg)
Tabla Multidimencional Difusa:
Esta tabla, es llenada a partir de la implementación y ejecución de un procedimiento almacenado.
Sus datos se obtienen a partir de la tabla central de la estrella que tienen las medidas en el DW.
Se utiliza el operador CUBE, entrega registros con indicadores de totalización para cada dimensión definida.
La clave primaria esta formada por la unión de todas las claves de las dimensiones, por otro lado, las medidas tendrán el valor numérico totalizado, según criterios de selección de dimensiones.
Formato de la tupla: {Dimensión1, Dimensión2, …, DimensiónN, Medida1, Medida2, …, MedidaN}
![Page 94: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/94.jpg)
Tabla Matriz de Clasificación
Esta tabla corresponde a la clasificación de todas las combinaciones de dimensiones posibles, generados a partir de definición realizada en tabla Multidimensional Difusa.
Cada una de estas combinaciones y nivel de profundidad de totales especificada, será clasificada y será mediante una llave, obtenida de e interpretar la etiqueta lingüística asociada a cada medida difusa.
La clave primaria de esta tabla es el atributo código de clasificación y los valores posibles para cada dimensión son:YES: Lo cual representa un elemento que pertenece al dominio definidos para esta dimensión difusaALL: lo cual representa un indicador de totalización asociada a la medida difusa.
Formato de la tupla: {Código Clasificación, Dimensión1, Dimensión2, …, DimensiónN}
![Page 95: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/95.jpg)
Tabla Etiquetas Lingüísticas
Tabla que contiene todas las etiquetas lingüísticas asociadas a un código de clasificación, definidas en la tabla Matriz de clasificación.
La clave es el código de clasificación que permite que el monto de la medida sea rescatada de la tabla Multidimensional Difusa, y obtener las etiqueta lingüística para cada una de ellas.
La notación utilizada para representar las etiquetas lingüísticas será la función trapezoidal.
Formato de la tupla: {Código Clasificación, Nombre etiqueta, Valor1 (0), Valor2 (1), Valor3 (1), Valor4 (0)}
![Page 96: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/96.jpg)
La Función Clasificación Se ejecuta con la base de datos, la cual
recorre la tabla Multidimencional Difusa y va comparando los patrones conformados por dimensiones y medidas, contra la tabla de patrones de totalizadores de dimensione previamente definida en tabla Matriz de Clasificación.
Una vez que encuentra el registro en Matriz de Clasificación, rescata su clasificación para posteriormente llamar a otra función para rescatar su etiqueta lingüística.
![Page 97: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/97.jpg)
La Función Etiquetas Lingüísticas
Actúa sobre la base de datos que rescata la etiqueta lingüística. A partir del código de Clasificación, rescatado con Función Clasificación, y la medida rescatada de tabla Multidimencional Difusa.
![Page 98: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/98.jpg)
La Función Consulta Multidimensional Difusa Es una función que nos permitirá,
en base a la estructura y funciones clasificación y etiqueta, realizar una consulta anidada en la cual estén presente todo los componentes (dimensiones, medidas, código de clasificación y etiqueta lingüística) y cuyo resultado mantenga la consistencia deseada.
![Page 99: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/99.jpg)
Extensión del Diseño Estrella a Diseño Difuso
Diseño Estrella
Preciso
Tablas de Extensión
Difusa
![Page 100: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/100.jpg)
Bibliografía Base Urrutia A. Egaña D, (2007) “Una Propuesta
para Dataware House Difuso”. Revista Gerencia colombiana, diciembre de 2008.
Kumar Pavan, Krishna Radha, Kumar Supriya, “Fuzzy OLAP Cube for Qualitative” Institute for Development and Research in Banking Technology, IDRBT-2005
Ling Fen, Tharam Dillon, “Using Fuzzy Linguistic Representations to Provide Explanatory Semantcis for Data Warehoses”, IEEE, Vol. 15 N°1, Enero-Febrero 2003.
![Page 101: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/101.jpg)
Minería de Datos.
Temas: Data Mining en DW. Estrategias de algoritmos Procesos y modelos
![Page 102: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/102.jpg)
Data Mining Objetivos:
Explorar BDs buscando relaciones desconocidas entre los datos.
Por ejemplo: Relaciones entre enfermedades y decesos.
Algunas candidatas a nuevas causas de decesos. Otras podrían ser datos erróneos.
Qué incluye ? Un conjunto muy amplio y heterogéneo de
técnicas y herramientas.
![Page 103: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/103.jpg)
Data Mining en contexto DW Diferencias con OLAP.
Data Mining usa mecanismos de: Descubrimiento de información, Pattern-matching, Deducción de reglas, ... y otros
para determinar relaciones claves entre los datos. Los algoritmos de Data Mining pueden estudiar
varias dimensiones de datos simultáneamente y descubrir los que tienen comportamiento especial.
La iniciativa es del algoritmo y no del usuario.
![Page 104: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/104.jpg)
Aplicación : Criterios Generales
Etapas en uso de DM: Identificación del problema. Definición de la Estrategia de resolución. Aplicación de DM para generar un Modelo. Manipulación del Modelo obtenido. Medición de resultados obtenidos.
DM provee feedback a otros procesos: Construcción del DW.
Estructuración de los datos. Definición de indicadores.
Estructuración/Análisis de datos OLAP post-DM. En base a resultados obtenidos.
![Page 105: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/105.jpg)
Estrategias para Data Mining Introducción.
Las estrategias para Data Mining corresponden al tipo de estudio que se desea realizar.
Las estrategias no son algoritmos en si mismas, sino formas de encarar el problema planteado.
Cada estrategia generará un Modelo, a través de la ejecución de un algoritmo.
Algunas estrategias. Clasificación, Clustering, Asociación, Optimización, Predicción.
![Page 106: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/106.jpg)
Estrategias : Clasificación Objetivo:
Clasificar registros según una variable objetivo, teniendo en cuenta valores de otros atributos.
Ejemplo: Se tiene una BD histórica con datos variados de
clientes y un atributo de calificación de calidad (variable objetivo).
Dado un nuevo registro, del cual se desconoce su valor de variable objetivo, se quiere clasificar según los valores de los atributos.
Observaciones: Es de tipo aprendizaje dirigido, ya que se define la
variable objetivo
![Page 107: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/107.jpg)
Estrategias: Clustering Objetivo.
Generar grupos con registros según su “similaridad” en valores de atributos variados.
Ejemplo: Dada la BD del caso de Clasificación, generar
grupos de clientes que tienen comportamiento similar sobre el conjunto de atributos.
Observaciones. Se trata de aprendizaje no-dirigido. Se modela como un espacio n-dimensional de
puntos, con una dimensión or atributo y un punto por registro.
![Page 108: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/108.jpg)
Estrategias: Visualización Objetivo.
Representar situaciones de problema en forma visual, de forma de facilitar su análisis.
Ejemplo: Mostrar las distribuciones de ventas de
productos en ciudades, teniendo en cuenta las características demográficas.
Observaciones. Se basa en técnicas de Interfase Hombre-
Máquina y de comunicación de información en forma gráfica.
![Page 109: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/109.jpg)
Estrategias: Asociación Objetivo.
Generar reglas de tipo IF A1,…An THEN B, donde A1 …,An son fenónemos en el problema.
Ejemplo: Se tiene una BD con tickets de supermercado. Y
se quiere generar reglas que relacionen los productos comprados, hora de compra, dia, mes, y perfil de cliente.
IF TipoCliente=1 AND CompraProd=p1 THEN CompraProd=P2;
Observaciones. También se lo llama Market Basket Análisis.
![Page 110: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/110.jpg)
Estrategias: Optimización Objetivo.
Seleccionar una combinación de productos (o resultados) que mejor alcanza los objetivos de negocios.
Ejemplo: Lograr una combinación de cantidades
producidas en diferentes productos que tienen sus costos y precios de venta.
Observaciones. Son casos de optimización lineal y no-lineal.
![Page 111: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/111.jpg)
Estrategias: Estimación
Objetivo. Realizar clasificaciones pero con una
variable objetivo continua y no discreta.
Ejemplo: Para el caso de los clientes, tomar
como variable la ganancia esperada que generan.
![Page 112: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/112.jpg)
El Proceso de Data Mining. Introducción.
Aplicar Data Mining corresponde más a un proceso que a una operación individual.
Pasos: Preparación de datos. Definición de estudio. Construcción de Modelo. Entender y aplicar el Modelo.
![Page 113: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/113.jpg)
Proceso: Preparación de datos.
Definición. Consiste en la generación de una base de
datos sobre la cual se pueda aplicar el estudio deseado.
Aspectos a resolver: Limpieza de datos. Valores nulos. Derivación de datos. Integración (merge) de datos.
![Page 114: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/114.jpg)
Proceso: Definición de estudio
Definición. Consiste en definir los resultados a obtener, el
tipo de estrategia y el alcance del estudio. Aspectos a resolver:
Definir los límites. De qué se parte y qué se quiere obtener.
Elegir el tipo de estudio, incluyendo la estrategia.
Especificar los elementos a analizar. Datos relevantes, valores resultados.
Definición de la muestra. ¿ Como tomar una muestra representativa ?
![Page 115: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/115.jpg)
Proceso: Construcción de Modelo
Definición. Consiste en construir un modelo abstracto que
representa el problema y que manipulándolo se tratan de resolver los requerimientos.
Aspectos a resolver: Precisión (accuracy). Comprensibilidad (understandability).
Qué entradas afectan la salida. Por qué tiene éxito o falla.
Performance. Qué tan rápido genera el modelo. Qué tan rápido se obtienen las conclusiones deseadas.
![Page 116: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/116.jpg)
Proceso: Entender y aplicar el Modelo
Definición. Consiste en asociar el modelo resultante
al problema real de forma de comprenderlo.
Implica: Validar los resultados del modelo. Extraer elementos relevantes y descartar
las distorsiones. Concluir qué fenómeno ocurre u ocurrir
![Page 117: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/117.jpg)
Modelos y sus características Modelos de Data Mining:
Un Modelo es una representación de un problema que, instanciado con valores, genera resultados.
Por ejemplo: se tienen modelos predictivos, de clasificación, series de tiempo, clustering, etc.
Los modelos poseen ciertos atributos: Underfitting y Overfitting. Dirigido o no dirigido. Explicabilidad de resultado. Facilidad de aplicación.
![Page 118: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/118.jpg)
Modelos y sus características Underfitting y Overfitting:
Overfitting: más info que la deseable. Todos los elementos se comportan como el set de
entrenamiento (memorización del training set). Se tiene información redundante dentro de los
campos considerados, obteniendo un modelo trivial. Underfitting: menos info que la deseable.
No se llegan a obtener patrones de interés sobre los datos (e.g. con bajo impacto predictivo).
Puede ser consecuencia de la des-actualización de modelos en el tiempo.
![Page 119: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/119.jpg)
Modelos y sus características Dirigidos vs. No dirigidos.
Dirigidos: la forma de la salida del modelo se especifica previo a su construcción.
El modelo se entrena sobre casos donde la salida está determinada (e.g. red neuronal con salida a estimar conocida).
No dirigidos: el propio modelo determina cuál será su salida.
Por ejemplo: estrategia de clustering donde el modelo son los clusters identificados.
![Page 120: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/120.jpg)
Modelos y sus características Explicabilidad.
Resulta clarificante de interés conocer las razones que determinan los resultados.
Diferentes técnicas aportan distintos niveles de explicabilidad sobre sus resultados.
Facilidad de aplicación. Está asociado a la facilidad de uso, de
comprensión de los resultados, de claridad de los resultados, de practicidad y conexión a bases de datos.
![Page 121: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/121.jpg)
Algoritmos de Data Mining. Introducción.
El Modelo resultante del proceso de Data Mining es generado por algoritmos a través de productos de software.
Tipos de algoritmos. Árboles de Decisión. Algoritmos Genéticos. Redes Neuronales. Estadísticos. Algoritmos avanzados de asociación. Algoritmos para Optimización.
![Page 122: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/122.jpg)
Técnicas para Data Mining La elección de una combinación
particular de técnicas dependerá Problema a resolver / análisis DM.
naturaleza de los datos disponibles. Características conocidas sobre los tipos de Modelos generados por las técnicas:
Underfitting & Overfitting Dirigidos vs No dirigidos Explicabilidad Facilidad de aplicación
![Page 123: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/123.jpg)
Data Mining Sintesis.
Area con fuertes componentes matemáticas. Nuevos productos:
Accesibles en precio. Explotables por usuarios no expertos.
Se prevee un gran impacto: en el diseño de Sistemas DW. en la explotación de Sistemas DW.
Todavía trabajo por hacer en la integración a los Sistemas DW.
![Page 124: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/124.jpg)
Herramienta de DW y Minería de Datos.
Temas: Service manager DW, Data Mining
![Page 125: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/125.jpg)
Analysis Manager: Es un complemento que se ejecuta en Microsoft® Management
Console (MMC)
![Page 126: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/126.jpg)
Cubo en Estrella y Copo de Nieve
![Page 127: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/127.jpg)
Datos del Cubo Mediante el Examinador de Cubos
![Page 128: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/128.jpg)
procesamiento del modelo de minería de datos
![Page 129: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/129.jpg)
Arbol de Decisión Custome
![Page 130: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/130.jpg)
Examinar el Cubo Virtual de Minería de Datos
![Page 131: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/131.jpg)
Modelo de Minería de Datos OLAP Mediante Cluster Server de Microsoft
![Page 132: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/132.jpg)
Trabajos Futuros
![Page 133: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/133.jpg)
Estructura del Data Warehouse
![Page 134: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/134.jpg)
Gestión de la Metainformación
![Page 135: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/135.jpg)
La Metainformación Items de metainformación:
Semántica (de datos en el DW). Qué significa ese dato ? Con qué temática se relaciona el ítem ?
Origen. Cúal es su origen ? (BD, cálculo, ...)
Reglas de cálculo. Cómo se calcula el ítem de datos ?
Reglas de agregación. Cuál es el conjunto de datos fuente ?
![Page 136: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/136.jpg)
La Metainformación Items de metainformación (cont.):
Almacenamiento, formato. Cómo se almacena y con qué formato ?
Uso. Qué programas lo usan ?
Datos fuentes. De qué tablas se extrae el ítem ?
Carga. Con qué frecuencia se cargan los datos del DW ? Cómo se realiza las historización.
![Page 137: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/137.jpg)
La Metainformación Gestión de la metainformación.
Es un problema en si mismo, además de la administración del DW.
Concierne funciones de: Modelado de datos. Almacenamiento. Acceso.
Por lo que: Resulta interesante contar con herramientas
especializadas en Gestión de Metainformación. El Data Warehouse Respository.
![Page 138: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/138.jpg)
Data Warehouse Repository Qué es:
Es un sistema que almacena y soporta operaciones sobre la Metadata.
Puede ser usado en diferentes contextos: Sistema de Data Warehousing. Para organizar la Metabase Corporativa de una
org. Como base para herramientas CASE.
Vocación (función principal): Federar la metainformación disponible
sobre los diferentes tipos de datos.
![Page 139: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/139.jpg)
Diseño Conceptual
Conclusiones
Temas: Proceso de diseño. Enfoques de diseño conceptual. Bibliografía.
![Page 140: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/140.jpg)
Diseño Conceptual Las principales etapas son:
Definir un esqueleto de esquema: Primer grupo de dimensiones medidas.
Establecer correspondencia entre requerimientos y datos fuentes.
Completar jerarquías en las dimensiones.
Especificar segundo grupo de medidas (calculadas).
Implementar en una plataforma los cubos en un diseño relacional de estrella o copo de nieve
iterar
![Page 141: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/141.jpg)
Bibliografía [Bal98] Ballard, C. Herreman, D. Schau, D. Bell, R. Kim, E.
Valncic, A.: “Data Modeling Techniques for Data Warehousing”. SG24-2238-00. IBM Red Book. 1998.
[Cab98] Cabibbo, L. Torlone, R.:"A Logical Approach to Multidimensional Databases", EDBT, 1998.
[Car00] Carpani, F.: “CMDM: A conceptual multidimensional model for Data Warehouse”. Master Thesis. Advisor: Ruggia. InCo - Pedeciba, UdelaR, Uruguay, 2000.
[Fra99] Franconi, E. Sattler, U.:"A Data Warehouse Conceptual Data Model for Multidimensional Aggregation", DMDW’99, Germany, 1999.
[Gol98a] Golfarelli, M. Maio, D. Rizzi, S.:"Conceptual Design of Data Warehouses from E/R Schemes.", HICSS’98, IEEE, Hawaii,1998.
Libro: Galindo J., Urrrutia A. y Piattini M. (2006): “Fuzzy Databases:Modeling, Desing and Implementation”, Idea Group Publishing Hershey, USA.
![Page 142: Dra. Angélica Urrutia Sepúlveda Universidad Católica del Maule, Chile Universidad Simón Bolivar Venezuela, 2008 DataWarehouse y DataMining Difusos](https://reader035.vdocuments.site/reader035/viewer/2022070418/5665b4701a28abb57c91747e/html5/thumbnails/142.jpg)
Caminante no hay Caminose Hace Camino al Andar
Gracias