introducción al datawarehousing

38
Introducción al Introducción al Datawarehousing Datawarehousing 1

Upload: big-data-colombia

Post on 15-Aug-2015

55 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Introducción al Introducción al DatawarehousingDatawarehousing

1

¿Qué es un data warehouse?

2

Datos (*)Datos (*)Son colecciones de

símbolos que se tienen en una computadora.

Cualquier interpretación de los datos para fines humanos se llama información.

(*) Bertrand Meyer – Touch of Class

3

DatawarehouseDatawarehouse“Es un conjunto de datos

integrados y orientados a un objetivo específico, que varían con el tiempo (datos históricos) y que no son transitorios. Soportan el proceso de toma de decisiones de la administración y está orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes…”

(Imhoff, 2003)

4

BI es un conjunto de procesos Tecnológicos que transforman los datos en conocimiento

Conocimiento

Información

Datos

Datos + contexto

Información + Know How

5Davenport, T. H., & Prusak, L. (2000)

Solución completa de BISolución completa de BI

ETLETL

CalidCalidad de ad de

datosdatos

Tomador de decisión

Usuarios Usuarios InternosInternos

Usuarios Usuarios ExternosExternos

AplicacionesAplicaciones

Arquitectura de datos

(Integración)

Data MartData Mart

Deptal.Deptal.

RapidRapid

MartsMarts

Acceso

Web

FinanzasFinanzas

I +DI +D

MercadeoMercadeo

VentasVentas

ServiciosServicios

PlaneaciòPlaneaciònn

OtrosOtros

OperacionesOperaciones

Consultas Consultas Ad hocAd hoc

IndicadoreIndicadoress

Análisis Análisis (OLAP)(OLAP)

Analíticas Analíticas por procesopor proceso

Minería de Minería de DatosDatos

Aplicación

analítica

PlanningPlanning

PredictivaPredictivass

Consultas Consultas predefinidas predefinidas

InternasInternas

ERPERPCRMCRMOLSOLSSCMSCM

NegocioNegocioOtrosOtros

Fuentes de

datos

ExternasExternas

SociosSociosMercadosMercados

CompetenciaCompetenciaEconomíaEconomíaIndustriaIndustria

OtrosOtros

ERPERPCRMCRMOLSOLSSCMSCM

NegocioNegocioOtrosOtros

Área Área TempoTempo

ralral

Data Data WarehouWarehou

sese

MetadatosMetadatos

6

Modelos Entidad-Relación vs Modelos Entidad-Relación vs Modelos DimensionalesModelos Dimensionales

Los modelos relacionales se normalizan buscando eficiencia en términos de la operación y el almacenamiento.

Pueden incluir muchas tablas.

Eficiencia en actualización

Los modelos analíticos se orientan a COMPRENDER el negocio.

Eficiencia en consultas

7

Modelo Entidad – Relación Modelo Entidad – Relación Materia Cód.

Estudiante

Nombre Estudiante

Ge nero

Dirección Estudiante

Teléfono

Nota Final

Derecho Laboral

256490 Diana Torres

F Calle 12 # 7-20 7601395

4.0

Derecho Administrativo

256490 Diana Torres

F Calle 12 # 7-20 7601395

4.3

Derecho Laboral

256491 Camilo Fernandez

M Diag 19 # 163-14

2127984

3.7

Derecho Penal

256491 Camilo Fernandez

M Diag 19 # 163-14

2127984

3.9

8

Modelo Entidad – Relación Modelo Entidad – Relación (Normalización)(Normalización)

Cód. Estudiante

Nombre Estudiante

Genero Dirección Estudiante

Teléfono

256490 Diana Torres F Calle 12 # 7-20 7601395

256491 Camilo Fernández

M Diag 19 # 163-14 2127984

Cód.Materia

NombreMateria

11001 Derecho Laboral

11002 Derecho Administrativo

11003 Derecho Penal

Cód. Materia

Cód. Estudiante

Nota Final

11001 256490 4.0

11002 256490 4.3

11001 256491 3.7

11003 256491 3.9

Estudiantes

Materias

Notas

9

Modelo Entidad – Relación Modelo Entidad – Relación (Ejemplo)(Ejemplo)

Tomado de [8]10

Modelo Dimensional Modelo Dimensional (Ejemplo)(Ejemplo)

Tomado de [8]11

Terminología Terminología DimensionalDimensionalTabla de Hechos:

◦ Es la tabla principal en un datawarehouse.

◦ Almacena las medidas numéricas de rendimiento de los procesos operacionales en relación con diferentes perspectivas de análisis.

12

Terminología Terminología DimensionalDimensionalTabla de

Dimensiones:◦ Contienen los

descriptores textuales (atributos) del negocio.

◦ Permiten dar respuestas de tipo ¿Por qué?

13

Terminología Terminología DimensionalDimensionalModelo Dimensional:

◦ Estructura que permite relacionar las tablas de hechos y las tablas de dimensiones.

14

DatawarehouseDatawarehouseEnfoque

◦ Operaciones del negocio

◦ Gerencia del negocio◦ Inteligencia del

negocio

15

DatamartDatamartSe refiere a una área

sujeto del proceso de negocio

Bodegas de datos específicas de un departamento o dependencia de la empresa

Utilizados para almacenar particularidades de un sector o para optimizar las consultas

16

Enfoques del Enfoques del DatawarehouseDatawarehouse

Kimball (Bottom-Up) Inmon (Top-Down)

17

Enfoques del Enfoques del DatawarehouseDatawarehouse

Data MartData MartVentasVentas

Data MartData MartFinancieroFinanciero

Data MartData MartServicio alServicio al

ClienteCliente

DataDataWarehouseWarehouseFuente 2Fuente 2Fuente 2Fuente 2

Fuente 1Fuente 1Fuente 1Fuente 1

Fuente 3Fuente 3Fuente 3Fuente 3

Top Down (Inmon)

18

Ventajas Desventajas

• Visión general del negocio• No replica trabajo• Unificación de modelos

• Tiempo de implementación• Difícil distribución de

trabajo y esfuerzo

Enfoques del Enfoques del DatawarehouseDatawarehouse

DataData WarehouseWarehouse

Data MartData MartVentas

Data MartData MartFinancieroData MartData MartServicio al

Cliente

Fuente 2Fuente 2Fuente 2Fuente 2

Fuente 1Fuente 1Fuente 1Fuente 1

Fuente 3Fuente 3Fuente 3Fuente 3

Bottom-Up (Kimball)

19

Ventajas Desventajas

• Rápida implementación• Fácil distribución de trabajo y

esfuerzo• Implementación por fases y

áreas

• Posible replicación de trabajo

Metas del Metas del DatawarehouseDatawarehouseEl datawarehouse

provee acceso a los datos corporativos

Debe servir como la base para una toma de decisiones mas informada (con base en hechos).

Debe ser adaptativo y resiliente al cambio

20

Metas del Metas del DatawarehouseDatawarehouse

Los datos en un datawarehouse son consistentes

La comunidad del negocio debe aceptar al datawarehouse como la única verdad, si se piensa ser exitoso.

21

Metas del Metas del DatawarehouseDatawarehouseLos datos en un

datawarehouse pueden ser separados y combinados por cada posible medida del negocio (slice and dice)

Debe hacer que la información sea fácilmente accesible.

22

Metas del Metas del DatawarehouseDatawarehouseLa calidad de los

datos en el datawarehouse es un conductor de la reingeniería del negocio

Debe asegurar la protección de la información.

23

Metas del Metas del DatawarehouseDatawarehouseEl datawarehouse no

es solo datos, es un conjunto de herramientas para consultar, analizar y presentar información.

24

Componentes de un Componentes de un datawarehousedatawarehouse

Servicios:Limpieza,

Combinación,Estandarización,

Dimensiones comunes

Datos:

Archivos planosTablas

relacionales

Procesamiento:

OrdenamientoProcesamiento

secuencial

Data Mart #1

DimensionalNivel de detalle

Agregados

Basado en un soloproceso de negocio

Data Mart #2

Consultas“Ad Hoc”

Reporteadores

AplicacionesAnalíticas

Modelos:• Predicción

• Minería Datos

Extracción

Extracción

Extracción

SistemasOperacionalesFuente

Area de preparaciónde Datos (Staging)

Area de presentaciónde Datos

Cargue

Cargue

Acceso

Acceso

Herramientas deAcceso a los Datos

DW Bus:Dimensionescomunes y

Facts

25

Sistemas Operacionales Sistemas Operacionales FuenteFuenteSistemas que

capturan y almacenan las operaciones del negocio.

Sus prioridades son rendimiento y disponibilidad.

Son sistemas heterogéneos.

26

Área de preparación de Área de preparación de datos (Staging)datos (Staging)Es a la vez un área

de almacenamiento y un conjunto de procedimientos (ETL)

Esta fuera de los limites de los usuarios de negocio y no provee servicios de consulta ni de presentación.

27

Área de presentación de Área de presentación de datos datos Lugar donde los

datos son organizados, almacenados y disponibles para consulta directa por parte de los usuarios y otras aplicaciones.

Constituido por una serie de Data Marts que en conjunto constituyen la bodega de datos.

Usa modelos dimensionales.

28

Herramientas de Acceso a Herramientas de Acceso a Datos (Visualización)Datos (Visualización)El término

visualización, se refiere al conjunto de herramientas que se proveen a los usuarios para facilitar el proceso de análisis de información para la toma de decisiones.

29

Objetivo: el análisisObjetivo: el análisis

30

Modelo de EstrellaModelo de EstrellaEs muy utilizado.Orientado a la

comprensión del negocio

Reduce la complejidad de entendimiento y uso

Eficiente para consultas.

31

Modelo de SnowflakeModelo de SnowflakeLas dimensiones han sido

normalizadas.Las dimensiones en las

cuales se conforman jerarquías se pueden descomponer en una estructura de copo de nieve en la cual cada relación muchos a uno se manejan en tablas separadas.

La razón que se expone para su uso es el ahorro de espacio de almacenamiento.

32

Modelo de SnowflakeModelo de Snowflake

Este modelo es una variante del modelo estrella.

Puede parecer más complejo para el usuario.

Recomendación: Tenga en cuenta el impacto de tener el modelo de “copo de nieve” en dimensiones grandes. Puede ser que comprometa rendimiento y navegabilidad.

33

Errores comunes para Errores comunes para prevenirprevenirError 10:

Permanecer “enamorado” de la tecnología y los datos mas que de los requerimientos y metas del negocio

Error 9: No hacer equipo con un gerente visionario, influyente, accesible y razonable que sea el patrocinador del datawarehouse (Sponsor)

34

Errores comunes para Errores comunes para prevenirprevenirError 8: Emprender

un proyecto “galáctico” y “milenario” antes que perseguir un proyecto mas manejable que vaya creciendo por iteraciones.

Error 7: Asignar energía para construir un modelo de datos normalizado, buscando ahorrar recursos físicos en vez de preferir la facilidad de uso para el usario final.

35

Errores comunes para Errores comunes para prevenirprevenirError 6: Poner más

atención en el rendimiento operacional y facilidad de desarrollo del “back-room” que en el rendimiento y facilidad de uso del “front-room”

Error 5: Los diseñadores de base de datos que prefieren la complejidad, posteriormente gastarán mucho tiempo dando soporte a los usuarios.

36

Errores comunes para Errores comunes para prevenirprevenirError 4: Crear

modelos dimensionales en forma aislada sin considerar una arquitectura de datos que conectada, utilizando dimensiones compartidas.

(No aplicar arquitectura de bus)

Error 3: Cargar únicamente datos sumarizados en el área de presentación

(Profundidad de análisis)

37

Errores comunes para Errores comunes para prevenirprevenirError 2: Presumir

que el negocio, sus requerimientos, analíticas, datos subyacentes y la tecnología que lo soportan, son estáticos

Error 1: No reconocer que el éxito del data warehouse está asociado directamente a la aceptación de los usuarios.

38