mbd403 gbrenes dw04 model ado del data warehouse 100617133400 phpapp01
TRANSCRIPT
Modelado de la Data Warehouse
1
Objetivos
Discutir las estructuras de datos del ambiente data warehouse Discutir las fases del diseo de la BD Data warehouseDefinir el modelo de negocios Definir el modelo dimensional Definir el modelo fsico
2
Modelado Dimensional
3
Problemas de Modelado
Diferentes tipos de Datos Muchas formas de usar los datos warehouse Muchas formas de estructurar los datos Mltiples tcnicas de modelado Planificacin de replicacin Grandes cantidades de datos
4
Estructuras de Datos
Tercera Forma Normal (3NF) Esquema Estrella Esquema de copo de nieve
5
Esquema EstrellaProduct Table Store Table
Product_id Product_disc,...
Store_id District_id,...
Sales Fact TableTabla de hechos centrales
Product_id Store_id Dimensiones Item_id desnormalizadas Day_id Sales_amount Sales_units, ...
Time Table
Day_id Month_id Year_id,...
Item Table
Item_id Item_desc,...6
Modelo de Copo de NieveProduct Table Store Table
Product_id Product_desc
Store_id Store_desc District_id
District Table
District_id District_desc
Sales Fact Table
Item_id Store_id Product_id Week_id Sales_amount Sales_unitsTime Table Item Table Dept Table Mgr Table
Week_id Period_id Year_id
Item_id Item_desc Dept_id
Dept_id Dept_desc Mgr_id
Dept_id Mgr_id Mgr_name7
Modelo de Copo de Nieve (Cont)
De uso directo por algunas herramientas Ms flexible al cambio Provee una carga ms rpida de datos Puede volverse grande e inmanejable Degrada el rendimiento de la consulta Metadatos ms complejosCountry State County City
8
Fases de Diseo
Fase 1 Definir el modelo de negocios Fase 2 Definir el modelo dimensional Fase 3 Definir el modelo fsico
9
Fase 1: Modelo de Negocio
Realizar anlisis estratgico Crear el modelo de negocio Documentar los metadatos
10
Anlisis Estratgico
Identificar los procesos cruciales del negocio Entender los procesos del negocio Prioriza y seleccionar los procesos de negocio a implementarAlta Beneficios del Negocio Baja Baja Viabilidad Alta11
Crear el Modelo de Negocios
Definir los requerimientos del negocio:Identificar las medidas del negocio Identificar las dimensiones Identificar del grano Identificar las definiciones del negocio y reglas
Verificar las fuentes de los datos
12
Diseo de los procesos
Entrada primaria:
Requirimientos del Negocio
Entrada secundaria:
Metadatos Existentes Produccin del Modelo ERD
Investigacin13
Identificar Medidas y DimensionesEl
Medidas
atributo vara continuamente: Balance Unidades Vendidas Costo Ventas
El
atributo se percibe como una constante o discreto: Dimensiones Producto Ubicacin Tiempo Tamao
14
Matriz de Procesos de NegociosDimensiones de Negocio Cliente Fecha Producto Canal PromocinEjemplo de la matriz de procesos de negocio15
Proceso de Negocio Ventas Devoluciones Inventario
Determinar Granularidad
Anual? Por Cuatrimestre? Mensual? Semanal? Diario?
16
Identificar la Reglas de Negocio
Ubicacin Proximidad Geogrfica 0 - 1 millas 1 - 5 millas > 5 millas Tiempo Mensual > Cuatrimestre > Anual Tipo
Producto Monitor Estado Nuevo Reconstr Personali
PC 15 pulg Servidor 17 pulg 19 pulg Ninguna
Almacn Almacn > Distrito > Regin
17
Documentacin de Metadatos
Documentacin del diseo de los procesos Documentacin del proceso de desarrollo Dar un registro de los cambios Mejoras en el tiempo de grabacin
18
Enfoques de Documentacin de Metadatos
AutomatizadoHerramientas de modelado de Datos Herramientas ETL Herramientas de usuario final
Manual
19
Fase 2: Modelo Dimensional
Identificar las tablas de hecho:Traducir las medidas de negocio en tablas de hecho Analizar la informacin fuente del sistema para medidas adicionales
Identificar las tablas de dimensin Enlazar las tablas de hecho a las tablas de dimensin Modelar la dimensin temporal20
Caractersticas
Contiene mtricas numricas del negocio Puede contener grandes volmenes de datos Puede crecer rpidamente Puede contener datos base, derivados y resumidos Son tpicamente aditivos Unidos a las tablas de dimensin a travs de llaves forneas que hacen referencia a llaves primarias de las tablas de dimensin21
Caractersticas de Tablas de dimensin
Contiene informacin textual que representa los atributos del negocio Contiene datos relativamente estticos Unidos a la tabla de hechos a travs de refrencia de llave fornea
22
Caractersticas del Modelo Dimensional de Estrella
Fcil de entender para los usuarios Llaves primarias representan una dimensin Ninguna columna de llaves son valores Hechos usualmente son altamente normalizados Las dimensiones estn completamente desnormalizadas Brinda respuesta rpida a las consultas Se mejora el rendimiento reduciendo los joins en las tablas Muchas herramientas dan soporte23
Tiempo en Data warehouse
Definicin de estndares para el tiempo es crtico La agregacin basada en el tiempo es compleja
24
Tiempo de Dimensin
Una representacin consistente del tiempo se requiere para la extensin
Hechos de Ventas
Tiempo de Dimensin
Dnde debera almacenarse el tiempo de dimensin?25
Herramientas de Modelado de Datos
Las herramientas que tienen GUI permiten definicin, modelado y reportes Evitar una mezcla de tcnicas de modelado, causadas por:Presiones de desarrollo Desarrolladores con falta de conocimiento Sin estrategia
Determinar una estrategia Escribir y publicar formalmente Ponerlo disponible electrnicamente26
Fase 3: Modelo Fsico
Traducir el diseo dimensional en un modelo fsico para implementacin Definir la estrategia de almacenamiento para tablas e ndices Realizar el dimensionamiento de la BD Definir la estrategia inicial de indexado Definir la estrategia de particionamiento Actualizar el documento de metadatos con informacin fsica27
Tareas de Diseo
Definir los estndares de nombrado y Base de Datos Realizar el dimensionamiento de la BD Desarrollar un estrategia inicial de indexado Desarrollar un estrategia de particionamiento de datos Definir los parmetros de almacenamiento Usar el procesamiento en paralelo Definir datos de resumen Determinar la arquitectura del hardware28
Convenciones de Nombres de BD
Desarrollar una lista razonable de abreviaturas Listar los nombres de todos los objetos y trabajar con la comunidad de usuarios para definirlos Resolver las disputas de nombres Documentar los estndares de nombres en el documento de metadatos Plan para la denominacin de normas para ser un documento activo
29
Requerimientos de ArquitecturaEscalabilidad Manejabilidad Disponibilidad Extensibilidad
Flexibilidad
Integracin
Usuario Presupuesto
Negocio Tecnologa
30
Estrategia para Definir Arquitectura
Obtener planes de arquitectura existentes Obtener planes de capacidad existentes Documentar las interfases existentes Preparar el plan de capacitacin Preparar la arquitectura tcnica Documentar los requerimientos del SO Desarrollar planes de recuperacin Desarrollar planes de control y seguridad Crear la arquitectura Crear asesoramiento para riegos tcnicos31
Requerimientos de Hardware
SMP Cluster MPP NUMA Hbridos (empleo de SMP y MPP)
32
La Eleccin Correcta
Los requerimientos difieren segn el SO rea Financiera:Disponible para vendedores Desarrollado por usted mismo Uso de consultas realistas
La escalabilidad es importante
33
Consideraciones de Almacenaje y Rendimiento
Dimensionamiento de la BD Particionamiento de la BDHorizontal Vertical
Indexadorboles B Bitmap Bitmap-join
Optimizacin de consultas estrellaTransformacin estrella34
Dimensionar la BD
El tamao influye en la capacidad de planeamiento y la administracin del ambiente de sistemas El dimensionamiento no es una ciencia exacta La tcnicas varan
35
Muestreo de Prueba de Carga
Asegura que los reflejos de la muestra:Pruebe cargas para diferentes periodos Operaciones de da a da Datos de temporada y los peores escenarios ndices y Resmenes
36
Particionamiento
Romper los datos en unidades fsicas separadas que se pueden manejar independientemente Provee la facilidad de:Reestructurar Reorganizar Remover Recuperar Monitorear Adminstrar Archivar Indexar37
Particionamiento Horizontal
Los datos de tabla e ndices estn divididos por:Tiempo Regin de Ventas o persona Geografa Organizacin Lnea de negocios
Las columnas candidatas aparecen en la clusula WHERE El anlisis determina requerimientos38
Particionamiento Vertical
Lo puede usar cuando:Para acelerar la consulta y acciones de actualizacin Los usuarios requieren acceso a columnas especficas Algunos datos se cambian con poca frecuencia Texto de dimensin descriptiva es mejor que se aleje de la misma dimensin
39
Mtodos de Particionamiento
Particionamiento de rango Particionamiento de lista Particionamiento hash Particionamiento Compuesto:Particionamiento compuesto de rango hash Particionamiento compuesto de rango de lista
Particionamiento de ndice40
Indexado
Se usa por las siguientes razones:Enorme ahorro de costos, gran mejora de rendimiento y escalabilidad Se puede sustituir un cuadro completo de exploracin de una rpida lectura del ndice, seguida de una lectura nica de los bloques de disco que contienen los registros necesarios
41
ndice rbol B
Tipo ms comn de ndice Usado por columnas de alta cardinalidad Diseado para pocas filas devueltas
42
ndices Bitmap
Da beneficios de desempeo y ahorros de almacenamiento Almacena valores como 1s y 0s Use en lugar de los ndices rboles B cuando:Las tablas son muy grandes Las columnas tienen relativamente baja cardinalidad
43
ndices Bitmap-Join
Para la unin de dos o ms tablas:Son nuevas en Oracle 9i Proveen mejor desempeo y ahorro de almacenamiento
44
Optimizacin de la consulta Estrella
Ajustar las consultas estrellaDebe construirse un ndice bitmap sobre cada llave fornea en la tabla de hechos STAR_TRANFORMATION_ENABLE debe estar en TRUE El optimizador basado en el costo debe usarse
Usar la transformacin estrella
45
Transformacin Estrella
Funcionan bien para esquemas con tablas de hechos de nmeros pequeos de dimensiones y densidad Dos fases:La primera devuelve exactamente las filas necesarias de la tabla de hechos La segunda fase, une este conjunto de resultados a las tablas de dimensin
46
Paralelismo
Tabla Ventas
P1
P2
P3
Tabla Clientes
P1
P2
P3
Servidores en Ejecucin Paralela
47
Uso de Datos Resumidos
Da los siguientes beneficios:Brinda acceso rpido a datos preanalizados Reduce el uso de E/S, CPU y memoria
48
Reescritura de Consultas Oracle 9iReescritura Generar Plan
Generar Plan
Eleccin (Basada en el costo) Ejecutar
49
Resumen
Existen diferentes estructuras de datos de Data warehouse Existen tres modelos para esto:Modelo de Negocios Modelo Dimensional Modelo Fsico
50
51