mbd403 gbrenes dw04 model ado del data warehouse 100617133400 phpapp01

Upload: marilu-rosso

Post on 15-Jul-2015

143 views

Category:

Documents


0 download

TRANSCRIPT

Modelado de la Data Warehouse

1

Objetivos

Discutir las estructuras de datos del ambiente data warehouse Discutir las fases del diseo de la BD Data warehouseDefinir el modelo de negocios Definir el modelo dimensional Definir el modelo fsico

2

Modelado Dimensional

3

Problemas de Modelado

Diferentes tipos de Datos Muchas formas de usar los datos warehouse Muchas formas de estructurar los datos Mltiples tcnicas de modelado Planificacin de replicacin Grandes cantidades de datos

4

Estructuras de Datos

Tercera Forma Normal (3NF) Esquema Estrella Esquema de copo de nieve

5

Esquema EstrellaProduct Table Store Table

Product_id Product_disc,...

Store_id District_id,...

Sales Fact TableTabla de hechos centrales

Product_id Store_id Dimensiones Item_id desnormalizadas Day_id Sales_amount Sales_units, ...

Time Table

Day_id Month_id Year_id,...

Item Table

Item_id Item_desc,...6

Modelo de Copo de NieveProduct Table Store Table

Product_id Product_desc

Store_id Store_desc District_id

District Table

District_id District_desc

Sales Fact Table

Item_id Store_id Product_id Week_id Sales_amount Sales_unitsTime Table Item Table Dept Table Mgr Table

Week_id Period_id Year_id

Item_id Item_desc Dept_id

Dept_id Dept_desc Mgr_id

Dept_id Mgr_id Mgr_name7

Modelo de Copo de Nieve (Cont)

De uso directo por algunas herramientas Ms flexible al cambio Provee una carga ms rpida de datos Puede volverse grande e inmanejable Degrada el rendimiento de la consulta Metadatos ms complejosCountry State County City

8

Fases de Diseo

Fase 1 Definir el modelo de negocios Fase 2 Definir el modelo dimensional Fase 3 Definir el modelo fsico

9

Fase 1: Modelo de Negocio

Realizar anlisis estratgico Crear el modelo de negocio Documentar los metadatos

10

Anlisis Estratgico

Identificar los procesos cruciales del negocio Entender los procesos del negocio Prioriza y seleccionar los procesos de negocio a implementarAlta Beneficios del Negocio Baja Baja Viabilidad Alta11

Crear el Modelo de Negocios

Definir los requerimientos del negocio:Identificar las medidas del negocio Identificar las dimensiones Identificar del grano Identificar las definiciones del negocio y reglas

Verificar las fuentes de los datos

12

Diseo de los procesos

Entrada primaria:

Requirimientos del Negocio

Entrada secundaria:

Metadatos Existentes Produccin del Modelo ERD

Investigacin13

Identificar Medidas y DimensionesEl

Medidas

atributo vara continuamente: Balance Unidades Vendidas Costo Ventas

El

atributo se percibe como una constante o discreto: Dimensiones Producto Ubicacin Tiempo Tamao

14

Matriz de Procesos de NegociosDimensiones de Negocio Cliente Fecha Producto Canal PromocinEjemplo de la matriz de procesos de negocio15

Proceso de Negocio Ventas Devoluciones Inventario

Determinar Granularidad

Anual? Por Cuatrimestre? Mensual? Semanal? Diario?

16

Identificar la Reglas de Negocio

Ubicacin Proximidad Geogrfica 0 - 1 millas 1 - 5 millas > 5 millas Tiempo Mensual > Cuatrimestre > Anual Tipo

Producto Monitor Estado Nuevo Reconstr Personali

PC 15 pulg Servidor 17 pulg 19 pulg Ninguna

Almacn Almacn > Distrito > Regin

17

Documentacin de Metadatos

Documentacin del diseo de los procesos Documentacin del proceso de desarrollo Dar un registro de los cambios Mejoras en el tiempo de grabacin

18

Enfoques de Documentacin de Metadatos

AutomatizadoHerramientas de modelado de Datos Herramientas ETL Herramientas de usuario final

Manual

19

Fase 2: Modelo Dimensional

Identificar las tablas de hecho:Traducir las medidas de negocio en tablas de hecho Analizar la informacin fuente del sistema para medidas adicionales

Identificar las tablas de dimensin Enlazar las tablas de hecho a las tablas de dimensin Modelar la dimensin temporal20

Caractersticas

Contiene mtricas numricas del negocio Puede contener grandes volmenes de datos Puede crecer rpidamente Puede contener datos base, derivados y resumidos Son tpicamente aditivos Unidos a las tablas de dimensin a travs de llaves forneas que hacen referencia a llaves primarias de las tablas de dimensin21

Caractersticas de Tablas de dimensin

Contiene informacin textual que representa los atributos del negocio Contiene datos relativamente estticos Unidos a la tabla de hechos a travs de refrencia de llave fornea

22

Caractersticas del Modelo Dimensional de Estrella

Fcil de entender para los usuarios Llaves primarias representan una dimensin Ninguna columna de llaves son valores Hechos usualmente son altamente normalizados Las dimensiones estn completamente desnormalizadas Brinda respuesta rpida a las consultas Se mejora el rendimiento reduciendo los joins en las tablas Muchas herramientas dan soporte23

Tiempo en Data warehouse

Definicin de estndares para el tiempo es crtico La agregacin basada en el tiempo es compleja

24

Tiempo de Dimensin

Una representacin consistente del tiempo se requiere para la extensin

Hechos de Ventas

Tiempo de Dimensin

Dnde debera almacenarse el tiempo de dimensin?25

Herramientas de Modelado de Datos

Las herramientas que tienen GUI permiten definicin, modelado y reportes Evitar una mezcla de tcnicas de modelado, causadas por:Presiones de desarrollo Desarrolladores con falta de conocimiento Sin estrategia

Determinar una estrategia Escribir y publicar formalmente Ponerlo disponible electrnicamente26

Fase 3: Modelo Fsico

Traducir el diseo dimensional en un modelo fsico para implementacin Definir la estrategia de almacenamiento para tablas e ndices Realizar el dimensionamiento de la BD Definir la estrategia inicial de indexado Definir la estrategia de particionamiento Actualizar el documento de metadatos con informacin fsica27

Tareas de Diseo

Definir los estndares de nombrado y Base de Datos Realizar el dimensionamiento de la BD Desarrollar un estrategia inicial de indexado Desarrollar un estrategia de particionamiento de datos Definir los parmetros de almacenamiento Usar el procesamiento en paralelo Definir datos de resumen Determinar la arquitectura del hardware28

Convenciones de Nombres de BD

Desarrollar una lista razonable de abreviaturas Listar los nombres de todos los objetos y trabajar con la comunidad de usuarios para definirlos Resolver las disputas de nombres Documentar los estndares de nombres en el documento de metadatos Plan para la denominacin de normas para ser un documento activo

29

Requerimientos de ArquitecturaEscalabilidad Manejabilidad Disponibilidad Extensibilidad

Flexibilidad

Integracin

Usuario Presupuesto

Negocio Tecnologa

30

Estrategia para Definir Arquitectura

Obtener planes de arquitectura existentes Obtener planes de capacidad existentes Documentar las interfases existentes Preparar el plan de capacitacin Preparar la arquitectura tcnica Documentar los requerimientos del SO Desarrollar planes de recuperacin Desarrollar planes de control y seguridad Crear la arquitectura Crear asesoramiento para riegos tcnicos31

Requerimientos de Hardware

SMP Cluster MPP NUMA Hbridos (empleo de SMP y MPP)

32

La Eleccin Correcta

Los requerimientos difieren segn el SO rea Financiera:Disponible para vendedores Desarrollado por usted mismo Uso de consultas realistas

La escalabilidad es importante

33

Consideraciones de Almacenaje y Rendimiento

Dimensionamiento de la BD Particionamiento de la BDHorizontal Vertical

Indexadorboles B Bitmap Bitmap-join

Optimizacin de consultas estrellaTransformacin estrella34

Dimensionar la BD

El tamao influye en la capacidad de planeamiento y la administracin del ambiente de sistemas El dimensionamiento no es una ciencia exacta La tcnicas varan

35

Muestreo de Prueba de Carga

Asegura que los reflejos de la muestra:Pruebe cargas para diferentes periodos Operaciones de da a da Datos de temporada y los peores escenarios ndices y Resmenes

36

Particionamiento

Romper los datos en unidades fsicas separadas que se pueden manejar independientemente Provee la facilidad de:Reestructurar Reorganizar Remover Recuperar Monitorear Adminstrar Archivar Indexar37

Particionamiento Horizontal

Los datos de tabla e ndices estn divididos por:Tiempo Regin de Ventas o persona Geografa Organizacin Lnea de negocios

Las columnas candidatas aparecen en la clusula WHERE El anlisis determina requerimientos38

Particionamiento Vertical

Lo puede usar cuando:Para acelerar la consulta y acciones de actualizacin Los usuarios requieren acceso a columnas especficas Algunos datos se cambian con poca frecuencia Texto de dimensin descriptiva es mejor que se aleje de la misma dimensin

39

Mtodos de Particionamiento

Particionamiento de rango Particionamiento de lista Particionamiento hash Particionamiento Compuesto:Particionamiento compuesto de rango hash Particionamiento compuesto de rango de lista

Particionamiento de ndice40

Indexado

Se usa por las siguientes razones:Enorme ahorro de costos, gran mejora de rendimiento y escalabilidad Se puede sustituir un cuadro completo de exploracin de una rpida lectura del ndice, seguida de una lectura nica de los bloques de disco que contienen los registros necesarios

41

ndice rbol B

Tipo ms comn de ndice Usado por columnas de alta cardinalidad Diseado para pocas filas devueltas

42

ndices Bitmap

Da beneficios de desempeo y ahorros de almacenamiento Almacena valores como 1s y 0s Use en lugar de los ndices rboles B cuando:Las tablas son muy grandes Las columnas tienen relativamente baja cardinalidad

43

ndices Bitmap-Join

Para la unin de dos o ms tablas:Son nuevas en Oracle 9i Proveen mejor desempeo y ahorro de almacenamiento

44

Optimizacin de la consulta Estrella

Ajustar las consultas estrellaDebe construirse un ndice bitmap sobre cada llave fornea en la tabla de hechos STAR_TRANFORMATION_ENABLE debe estar en TRUE El optimizador basado en el costo debe usarse

Usar la transformacin estrella

45

Transformacin Estrella

Funcionan bien para esquemas con tablas de hechos de nmeros pequeos de dimensiones y densidad Dos fases:La primera devuelve exactamente las filas necesarias de la tabla de hechos La segunda fase, une este conjunto de resultados a las tablas de dimensin

46

Paralelismo

Tabla Ventas

P1

P2

P3

Tabla Clientes

P1

P2

P3

Servidores en Ejecucin Paralela

47

Uso de Datos Resumidos

Da los siguientes beneficios:Brinda acceso rpido a datos preanalizados Reduce el uso de E/S, CPU y memoria

48

Reescritura de Consultas Oracle 9iReescritura Generar Plan

Generar Plan

Eleccin (Basada en el costo) Ejecutar

49

Resumen

Existen diferentes estructuras de datos de Data warehouse Existen tres modelos para esto:Modelo de Negocios Modelo Dimensional Modelo Fsico

50

51