data warehouse. data warehouse 20 de octubre 2006

28
Data Warehouse Data Warehouse

Upload: heriberto-arevalo

Post on 22-Jan-2016

236 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Data WarehouseData Warehouse

Page 2: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

DATA WAREHOUSE

20 de Octubre 2006

Page 3: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

INTRODUCCIONHoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones requerimos hechos y cifras, sabemos que la competencia crece en todo momento por lo que las decisiones deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente?...

las empresas no dependen tan solo de factores como ubicación, productos, etc. Sino también del conocimiento. Tal conocimiento basado en información comprensible, detallada y relevante, es crucial para lograr tomar decisiones estratégicas logrando así sostener ventajas competitivas en las organizaciones.

Page 4: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Desde que se inició la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de información. El data warehouse, es actualmente, el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada

por diversas aplicaciones operacionales.

Page 5: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

QUE ES UN DATA WAREHOUSE?

DEFINICION:

Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas.

Datawarehouse

Page 6: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon [MicroSt96] (considerado el padre de las Bases de Datos) en 1992:

“Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.

En 1993, Susan Osterfeldt publica una definición que sin duda acierta en la clave del DW:

“Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”.

Page 7: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

CARACTERISTICAS

Entre las principales se tiene:

Orientado al tema Integrado De tiempo variante No volátil

Page 8: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

ORIENTADO A TEMASUna primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. En la Figura N° 1 se muestra el contraste entre los dos tipos de orientaciones. El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación.

Page 9: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 10: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

INTEGRACIONEl aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada.La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. El contraste de la integración encontrada en el data warehouse con la carencia de integración del ambiente de aplicaciones, se muestran en la Figura N° 2, con diferencias bien marcadas. A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados se muestran de muchas maneras.

Page 11: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 12: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

DE TIEMPO VARIANTEToda la información del data warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted accesa a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso.

Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo variante".

Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. (Ver Figura N° 3).

Page 13: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 14: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

NO VOLATILLa información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable.

En la Figura N° 4 se muestra que la actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte

normal de procesamiento.

Page 15: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 16: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Objetivos de Data WareHouse1. Información de la organización accesible: los contenidos del

Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Cuando hablamos de entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rápido desempeño significa, cero tiempo de espera.

2. Información de la organización consistente: la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad, toda la información es contabilizada y completada.

Page 17: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Objetivos de Data WareHouse3. Información adaptable y elástica: el Data WareHouse esta diseñado

para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.

4. Es un seguro baluarte que protege los valores de la información: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse.

5. Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de un sistema de soporte a las decisiones.

Page 18: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

ESTRUCTURA DE UN DATA WARE HOUSE

Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5.En la figura, se muestran los diferentes componentes del data warehouse y son:

Detalle de datos actuales Detalle de datos antiguos Datos ligeramente resumidos Datos completamente resumidos

Meta data

Page 19: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 20: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

FLUJO DE DATOSLos datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla). Al ingresar al data warehouse, la información va al nivel de detalle actual, tal como se muestra. Se queda allí y se usa hasta que ocurra uno de los tres eventos siguientes:

· Sea eliminado · Sea resumido · Sea archivado

Con el proceso de desactualización en un data warehouse se mueve el detalle de la data actual a data antigua, basado en el tiempo de los datos. El proceso de esquematización usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos.Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayoría de datos encontrados en un data warehouse, el flujo de la información es como se ha explicado.

Page 21: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006
Page 22: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

USO DEL DATA WAREHOUSE

Page 23: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Elementos básicos de un Data WareHouse1. Sistema fuente: sistemas operacionales de registros cuya

función es capturar las transacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System.

2. Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse.

3. Servidor de presentación: la maquina física objetivo en donde los datos del Data WareHouse son organizados y almacenados para querys directos por los usuarios finales, reportes y otras aplicaciones.

4. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad – relación.

5. Procesos de negocios: coherente grupo de actividades de negocio que dan sentido a los usuarios del negocio del Data WareHouse.

6. Data Mart: un subgrupo lógico del Data WareHouse completo.

Page 24: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Elementos básicos de un Data WareHouse6. Data WareHouse: es la unión de todos los data marts que la constituyen.7. Almacenamiento operacional de datos: es el punto de integración de los

sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.

8. OLAP: actividad general de búsquedas para presentación de texto y números del Data WareHouse, es un estilo dimensional especifico de búsquedas y presentación de información.

9. ROLAP: grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.

10.MOLAP: grupo de interfases de usuarios, aplicaciones y propietarios de tecnología de bases de datos que tienen un fuerte estilo dimensional.

11.Aplicaciones para usuarios finales: colección de herramientas que hacen los querys, analizan y presentan la información objetivo para el soporte de las necesidades del negocio.

12.Herramientas de acceso a datos por usuarios finales: cliente de Data WareHouse.

13.Ad Hoc Query Tool: tipo especifico de herramienta de acceso a datos por usuarios finales que invita al usuario a formar sus propios querys manipulando directamente las tablas relacionales y sus uniones.

14.Modelado de aplicaciones: sofisticado tipo de cliente de Data WareHouse con capacidades analíticas que transforma o digiere las salidas del Data WareHouse.

15.Meta Data: información en el ambiente del Data WareHouse que no son los datos actuales.

Page 25: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

¿Cómo se puede conformar la bodega de datos?

Existen tres aspectos importantísimos que intervienen en el establecimiento y el uso de una bodega de datos: el diseño, el mantenimiento, y el uso de la misma.

DiseñoDiseño requiere soportarse en un análisis profundo del negocio o de las áreas funcionales responsables de la utilización de la bodega, las fuentes de datos que alimentarán la bodega, y unas personas capacitadas en la correcta estructuración de la bodega.

De las decisiones aquí tomadas, depende la velocidad de búsqueda y la calidad obtenida en las respuestas. Una decisión mal tomada en este aspecto puede significar demoras de días en vez de horas o minutos, o incluso, que la bodega no esté en capacidad de responder las preguntas claves para la organización.

MantenimientoMantenimiento Según los expertos, uno de los principales problemas que se vive con los proyectos de bodegas de datos es la obsolescencia de su información. Se actualiza la información para el proyecto piloto, pero no se establecen mecanismos de actualización permanente que siempre garanticen la oportunidad de la misma.

Decisiones que se hagan sobre el usouso que se hará de la bodega de datos, resaltándose en este aspecto la capacidad y entrenamiento que deben tener los distintos usuarios para buscar relaciones y analizar la información. Si bien es cierto que la bodega de datos agiliza esta tarea, es deber de los usuarios saber cómo preguntar, interpretar y poner en práctica los resultados que obtienen, pero además, se debe definir en forma muy clara, el ámbito empresarial en el que operará la bodega, las dependencias administrativas de la organización que van a tener acceso y las consultas que ésta debe responder inicialmente.

Page 26: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

REQUERIMIENTOS PARA IMPLEMENTAR DATA WAREHOUSE

HARDWARE:HARDWARE: Se requiere de un servidor para el almacenamiento y

manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construcción de la bodega presenta redimensionamiento a medida que se avanza en la implementación.

Dependiendo del diseño del sistema, puede ser necesario contar con un segundo servidor para las herramientas de consulta de datos. Este equipo debe tener el sistema operativo recomendado por el proveedor de la herramienta a utilizar, siendo el más usado Windows.

Las estaciones de trabajo de cada usuario deberán cumplir con las características recomendadas por el proveedor de la herramienta de consulta seleccionada.

Page 27: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

REQUERIMIENTOS PARA IMPLEMENTAR DATA WAREHOUSE

SOFTWARESOFTWARELas herramientas se clasifican en cuatro categorías básicas:

Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse.Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de los sistemas transaccionales en el Data Warehouse.  La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales.Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas.  Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc.Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras.  Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos.

Page 28: Data Warehouse. DATA WAREHOUSE 20 de Octubre 2006

Data MiningEs una tecnología de soporte para usuario final, cuyo Es una tecnología de soporte para usuario final, cuyo

objetivo es extraer conocimiento útil y utilizable a partir de la objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.información contenida en las bases de datos de las empresas.

Los objetivos de un sistema Data mining nos permiten Los objetivos de un sistema Data mining nos permiten analizar factores de influencia en determinados procesos, analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems similares, además de obtener segmentar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos secuencias de eventos que provocan comportamientos específicos.específicos.

Se desarrollan bajo lenguajes de ultima generación Se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos basados en la inteligencia artificial y utilizando métodos matemáticos, tales como:matemáticos, tales como:

Redes neuronalesRedes neuronales Introducción de reglasIntroducción de reglas Arboles de decisiónArboles de decisión Conjunto de reglas por claseConjunto de reglas por clase

Soporta tambien sofisticadas operaciones de análisis Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de detección de tales como los sistemas Scoring y aplicaciones de detección de fraude.fraude.