informe dw

41
UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ESCUELA DE COMPUTACIÓN [Data Warehouse] [Administración de Base de Datos] Gledys Sulbarán C.I. 17.313.160 Vanessa Cobis C.I. 16.223.011

Upload: francisco-escobar

Post on 01-Oct-2015

245 views

Category:

Documents


0 download

DESCRIPTION

Informe que describe las data warehouse(Almacén de datos)

TRANSCRIPT

Universidad Central de Venezuela.

Facultad de Ciencias.

Escuela de Computacin.

Universidad Central de VenezuelaFACULTAD DE CIENCIAS

ESCUELA DE COMPUTACIN

[Data Warehouse]

[Administracin de Base de Datos]

Gledys Sulbarn C.I. 17.313.160

Vanessa Cobis C.I. 16.223.011

Caracas, Abril de 2009

Tabla de Contenidos31.Introduccin

2.Conceptos Bsicos42.1 Qu es Data Warehouse o Almacn de Datos?42.2 Conceptos relacionados a Datawarehouse53.Caractersticas de un Data Warehouse83.1 Orientado a temas:93.2 Variante en el tiempo:103.3 No voltil113.4 Integrado124.Arquitectura de un DW144.1 Componentes145.Formas de modelar un Almacn de Datos166.Qu pueden ofrecer los Almacenes de Datos?177.Los objetivos fundamentales de un Data Warehouse178.Beneficios e Inconvenientes asociados a un DW198.1 Beneficios198.2 Inconvenientes209.Las razones para que una organizacin implemente un DW2110.Base de datos Vs Datawarehouse2211.CASO DE ESTUDIO2312.Conclusiones2813.Bibliografa31

1. IntroduccinDesde que se inici la era de la computadora, las organizaciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de informacin. Algunas proporcionan acceso directo a la informacin contenida dentro de las aplicaciones operacionales. Otras, han extrado los datos desde sus bases de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los usuarios en sus necesidades de informacin.

Ambos mtodos han evolucionado a travs del tiempo y ahora las organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en la mayora de las veces, se toman decisiones importantes.

El Data Warehouse, es actualmente, el centro de atencin de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la informacin que est siendo administrada por diversas aplicaciones operacionales.

Un Data Warehouse es una coleccin de datos en la cual se encuentra integrada la informacin de la Institucin y que se usa como soporte para el proceso de toma de decisiones gerenciales. Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer ms prctica y fcil la explotacin de datos para una mayor eficacia del negocio, que no se logra cuando se usan slo los datos que provienen de las aplicaciones operacionales (que ayudan en la operacin de la empresa en sus operaciones cotidianas), en los que la informacin se obtiene realizando procesos independientes y muchas veces complejos.

La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data warehouse.2. Conceptos Bsicos2.1 Qu es Data Warehouse o Almacn de Datos?Conjunto de datos integrados orientados a materia que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administracin. Bill InmonColeccin de informacin corporativa derivada directamente de los sistemas operacionales y de algunos orgenes de datos externos, con el propsito especfico de soportar la toma de decisiones de la organizacin. Es un repositorio de informacin, que es utilizado ampliamente para diferentes propsitos dentro de una organizacin que tpicamente debe enfrentarse a la toma de decisiones y el anlisis de tendencias Abbey&CoreyConsiste en el manejo de las herramientas que permiten a los altos directivos acceder a la informacin que ellos necesitan para tomar decisiones dentro de su institucin. Estos sistemas transforman los datos en informacin de fcil y accesible formato, y la distribuyen donde es necesaria para la toma de decisiones Hartman Un Data Warehouse es un sistema orientado a temas de negocio, diseado especialmente para el soporte en la toma de decisiones del mismo. El ambiente del Data Warehouse organiza y provee informacin de forma tal que el usuario final la entienda con facilidad CollinsUna coleccin de datos orientados a los asuntos del negocio, ntegros, variables en el tiempo y no voltiles para el soporte del proceso de toma de decisiones de los altos directivos CollinsSe puede caracterizar un data warehouse haciendo un contraste de cmo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de produccin.

2.2 Conceptos relacionados a Datawarehouse Data Marts: Es un subconjunto del Data Warehouse, usado normalmente para el anlisis parcial de los datos. Ej: El Data Mart de los datos del departamento ventas y el Data Mart de Inventarios. El objetivo de subdividir est dado por la complejidad computacional del anlisis global de todas las dimensiones del Data Warehouse y por la necesidad de rapidez.

Data Mining: Es el descubrimiento de conocimiento oculto en las bases de datos. Relaciones entre estos y tendencias que permiten una toma de decisiones acertada. Incluye Asociacin, Caracterizacin, Clasificacin, Anlisis de Series Cronolgicas, etc. (Chaudhuri & Dayal, 1997).

OLTP (Online Transaction Proccesing): Se les llama as a las aplicaciones orientadas principalmente a la insercin, actualizacin y eliminacin de datos, diseada casi siempre usando el modelo Relacional. Estos sistemas estn optimizados para realizar estas operaciones en un tiempo corto. OLAP (Online Analitical Proccesing): Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del anlisis de estos.

Cubos de informacin: Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional.A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

Dimensiones: Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos. Una dimensin es una caracterstica de un hecho que permite su anlisis posterior, en el proceso de toma de decisiones. (Robert Wrembel & Christian Concilia, 2007).

Variables: Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.).

EjemplosEjemplos de variables podran ser:Beneficios

Gastos

Ventasetc.

Ejemplos de dimensiones podran ser:producto (diferentes tipos o denominaciones de productos)localidades (o provincia, o regiones, o zonas geogrficas)tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...)tipo de cliente (casado/soltero, joven/adulto/anciano, ...)

etc.

Segn lo anterior, podramos construir un cubo de informacin sobre el indice de ventas (variable a estudiar) en funcin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

Hecho: Llamamos evento o Hecho a una operacin que se realiza en el negocio en un tiempo determinado. Son objeto de anlisis para la toma de decisiones. Se Representan en una caja con su nombre y las medidas que lo caracterizan. (Robert Wrembel & Christian Concilia, 2007)

Los Hechos estn estrechamente relacionados con el tiempo. Los eventos que son estticos no tiene objetivo de anlisis para este modelo, aunque son muy pocos los hechos que no ocurren con determinada periodicidad en un negocio. Los hechos estn caracterizados por medidas numricas como se muestra en el ejemplo de la figura 1: la cantidad, el precio unitario, el descuento, etc, son las medidas del Hecho (VENTA). Nota: Fjese que el producto que se vende, su costo y la fecha de la venta no son caractersticas de esta como lo podran ser en cualquier diseo relacional. En este caso, esos seran dimensiones de ese Hecho, por las que, puede ser analizado ms adelante.

Medida: Una Medida es una propiedad de un Hecho (casi siempre numrica), que es usada para su anlisis. (Robert Wrembel & Christian Concilia, 2007)Nota: Un hecho puede no poseer ninguna medida. En ese caso se dice que el Hecho es vaco y solo se usa para contar la aparicin de este en el tiempo. Un hecho debe estar relacionado al menos con una dimensin: El tiempo.

Figura 13. Caractersticas de un Data WarehouseBill Inmonfue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define undata warehouse(almacn de datos) en trminos de las caractersticas del Almacn de datos: Un Data Warehouse o Almacn de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. 3.1 Orientado a temas:

Una primera caracterstica del data warehouse es que la informacin se clasifica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. En la Figura N 1 se muestra el contraste entre los dos tipos de orientaciones.

Figura 2: El DataWarehouse tiene una fuerte orientacin al temaLos datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede accesar a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicacin.

En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc.Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a temas, radican en el contenido de la data a nivel detallado. En el data warehouse se excluye la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. 3.2 Variante en el tiempo:Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. Los datos son relativos a un periodo de tiempo (semestre, ao, etc) y deben ser incrementados peridicamente.

Toda la informacin del data warehouse es requerida en algn momento. Esta caracterstica bsica de los datawarehouse, es muy diferente de la informacin encontrada en el ambiente operacional. En stos, la informacin se requiere al momento de accesar.Como la informacin en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados se llaman de "tiempo variante".

Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias. (Ver Figura N 2).

Figura 3 3.3 No voltilLa informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin deslo lectura, y se mantiene para futuras consultas. Los datos almacenados no son actualizados, slo son incrementados.Las actualizaciones de la base de datos operacional no ocurren en el entorno del datawarehouse, no se requieren mecanismos de control de la concurrencia y recuperacin.

Se requieren dos operaciones nada ms: Carga inicial de los datos y acceso a datos.En la Figura N 3 se muestra que la actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos.

Figura 43.4 IntegradoLa base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Integra datos recogidos de diferentes sistemas operacionales de la organizacin (y/o fuentes externas). Se construye mediante de fuentes de datos mltiples y heterogneas. Por ejemplo de Bases de Datos relacionales, ficheros planos, registros de transacciones on-line, etc.

Figura 5: DW IntegradoEl aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior est siempre integrada.

La integracin de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros.Los puntos de integracin afectan casi todos los aspectos de diseo, las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros.Cualquiera que sea la forma del diseo, el resultado es el mismo, la informacin necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente.Se aplican tcnicas de limpieza e integracin Asegurar la consistencia en el nombrado, en las estructuras

Codificadas, tipos de datos de los atributos, y dems aspectos entre las mltiples bases de datos.

Cuando los datos se mueven al datawarehouse, stos se tienen que transformar.

4. Arquitectura de un DWLa Arquitectura de un DW viene determinada por su situacin central como fuente de informacin para las herramientas de anlisis.

Figura 6: Arquitectura de un DataWarehouse4.1 Componentes Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin (limpieza, consolidacin, ...) y la carga del AD, realizando:

extraccin de los datos.

filtrado de los datos: limpieza, consolidacin, etc.

carga inicial del almacn: ordenacin, agregaciones, etc.

refrescamiento del almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos. Repositorio Propio de Datos: Informacin relevante, metadatos.Los metadatos son bsicamente datos acerca de los datos contenidos en el DW. Forma de describir propiedades de las bases de datos y sus atributos, incluyendo tablas y nombres de las columnas, atributos de columnas (tamao y tipo de dato) de las tablas de las bases de datos, as como claves primarias y relaciones con claves forneas.As, uno de los problemas con el que pueden encontrarse los usuarios de un DW es saber lo que hay en l y cmo pueden acceder a lo que quieren. El repositorio les ayuda a conseguirlo. Base fundamental para establecer la completa integracin de los datos de la empresa. Es til para analizar como los cambios afectarn a la aplicacin, sus mdulos y otras aplicaciones con las cuales esta interacta. Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos).Sin las herramientas adecuadas de acceso y anlisis el DW se puede convertir en una amalgama de datos sin ninguna utilidad. Es necesario poseer tcnicas que capturen los datos importantes de manera rpida y puedan ser analizados desde diferentes puntos de vista. Tambin deben transformar los datos capturados en informacin til para el negocio. Actualmente a este tipo de herramientas se las conocen como business intelligence tool (BIT) y estn situadas conceptualmente sobre el DW. Cada usuario final debe seleccionar que herramienta se ajusta mejor a sus necesidades y a su DW. Entre ellas podemos citar las Consultas SQL (Structured Query Language), las Herramientas MDA (Multidimensional Analysis) y OLAP (On-Line Analytical Processing), las Herramientas ROLAP (Relational On Line Analytical Processing) y las herramientas DATA MINIG, de las cuales se trata a continuacin.Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad. 5. Formas de modelar un Almacn de Datos

Esquema en estrella: si la jerarqua de dimensiones es lineal Esquema en copo de nieve: si la jerarqua no es lineal. Constelacin de estrellas

Esquema en estrella: Esquema relacional adaptado a la representacin de datos multidimensionales.Se basa en una serie de tablas que representan dimensiones unidas mediante claves ajenas, a una principal que acta como nexo y almacena datos agregados y precalculados. (Tablas no normalizadas)

Ventajas del esquema estrella. Crea una base de datos con tiempos de respuesta rpido.

Diseo fcil de modificar.

Simula como ven los datos los usuarios finales.

Simplifica la navegacin.

Facilita la interaccin con herramientas.

Problemas del esquema estrella Es ad hoc (Basado en intuicin y no en principios). Difcil cambiar el esquema cuando se agregan nuevos tipos de datos o cambian las dependencias.

Los esquemas estrellas son fsicos y no lgicos.

Las tablas Dimensin no estn normalizadas por completo.

Esquema en copo de nieve: Variante del esquema de estrella que presenta las tablas de dimensin estructuradas a ms de un nivel. (Tablas normalizadas).Constelacin de estrellas: Varios esquemas en estrella y/o en copo de nieve que comparten dimensiones.

6. Qu pueden ofrecer los Almacenes de Datos?La funcin de un Almacn de datos es centralizar una gran variedad de datos e informacin, interpretar dicha informacin y darle unvaloragregado para beneficio del negocio todo ello por supuesto, con un fcil acceso y visualizacin por parte de los usuarios. Algunos procesos que se realizan en estos escenarios son:Transformacin de Datos. Se obtienen datos e informacin de diferentes fuentes o almacenamientos y se aplica una serie de reglas definidas que convierten los datos en informacin til para la toma de decisiones.Repositorios y metadatos. Ms importante an que el flujo de datos es entender el origen y ladescripcinde stos de una forma que sea comn para toda la organizacin. "No se requiere ms datos, se requiere entenderlos".Procesamiento analtico en lnea (OLAP). Provee el medio para obtener visualizar y analizar informacin con alto rendimiento y flexibilidad. OLAP presenta la informacin a los usuarios de una forma natural e intuitiva. De esta manera los usuarios pueden ser ms efectivos en reconocer el valor de dicha informacin.Visualizacin. En la mayora de los casos los datos pueden ser mejor entendidos si los nmeros son combinados de diferentes formas y presentados visualmente en forma de histogramas y varios tipos degrficas. La visualizacin puede ser especialmente til en identificar rpidamente cuales datos pueden tener un anlisis especial.7. Los objetivos fundamentales de un Data Warehouse Hace que la informacin de la organizacin sea accesible: los contenidos del DataWarehouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpidodesempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cerotiempode espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de altacalidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: El Data Warehouse est diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. Eldiseode Data Marts separados que hacen al Data Warehouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Protege los valores de la informacin: El Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de latoma de decisiones: el Data Warehouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data Warehouse: las decisiones que son hechas despus de que el Data Warehouse haya presentado lasevidencias. La original etiqueta que preside el Data Warehouse sigue siendo la mejordescripcinde lo que queremos construir: un sistema de soporte a las decisiones.

8. Beneficios e Inconvenientes asociados a un DW

8.1 BeneficiosUn DW puede dar lugar a una serie de importantes beneficios para la organizacin. En cualquier caso, su utilizacin permitir que la informacin de gestin sea: accesible, correcta, uniforme y actualizada.

Por ejemplo,una empresadeserviciostelefnicos puede utilizar un almacn de datos para determinar cules servicios pueden interesarle a cada uno de sus clientes. De esta manera evitagastosen correo masivo e impersonal, con una rata de efectividad muy baja.

Una compaa no se debe olvidar que el objetivo de cualquier proyecto para un almacn de datos es reducir los costos operativos y generar ingresos. Esto es una inversin y se debepoderesperar un retorno cuantificable a esta inversin en el tiempo.

En conclusin, un almacn de datos bien implementada y mantenida redundar en beneficios para la compaa. Cualquier falla en su implementacin, garantizar queel dineroinvertido se ha despilfarrado.

Estas caractersticas asociadas a la informacin contenida en un DW, junto con otra serie de aspectos inherentes al mismo dan lugar a la obtencin de un conjunto de ventajas, que podramos resumir del siguiente modo:Menor coste en la toma de decisiones:Se suprime el despilfarro de tiempo que se poda producir al intentar ejecutar consultas de datos largas y complejas con bases de datos que estaban diseadas especficamente para transacciones ms cortas y sencillas.Mayor flexibilidad ante el entorno: El DW convierte los datos operacionales en informacin relacionada y estructurada, que genera el "conocimiento" necesario para la toma de decisiones. Esto permite establecer una base nica del modelo de informacin de la organizacin, que puede dar lugar a una visin global de la informacin en base a los conceptos de negocio que tratan los usuarios. Adems, aporta una mejor calidad y flexibilidad en el anlisis del mercado, y del entorno en general.Esta visin global puede conllevar tambin la obtencin de otras ventajas competitivas, al identificar determinados costes que con los sistemas anteriores podan permanecer ocultos, por ejemplo:Mejor servicio al cliente:Todo lo que hemos dicho en el punto anterior implica una importante mejora en la calidad de gestin, lo que tambin repercute en la relacin con el cliente, que es, como sabemos, uno de los pilares bsicos en los que descansa cualquier organizacin ajustada. De hecho, el que un DW implique una mayor flexibilidad ante el entorno tiene una consecuencia directa en una mayor capacidad para responder a las necesidades de los clientes.Rediseo de procesos:Ofrecer a los usuarios una capacidad de anlisis de la informacin de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una visin ms profunda y clara de los procesos de negocio propiamente dichos, lo que a su vez permite obtener ideas renovadoras para la rediseo de los mismos.

8.2 InconvenientesUtilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son:

A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados.

Los almacenes de datos se pueden quedar obsoletos relativamente pronto.

A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin.

A menudo existe una delgada lnea entre los almacenes de datos y sistemas operativos. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.9. Las razones para que una organizacin implemente un DWPara realizar tareas en losservidoresy discos, asociados a consultas y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones.Muchas de lasempresasquieren instalar sistemas de procesos de transacciones para que haya una altaprobabilidadde que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en losrecursosde servidores y discos, por tal motivo las empresas han implementado unaarquitecturade Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.Para utilizar modelos de datos o tecnologas de servidores que agilizan las consultas y reportes, y que no son apropiados para los procesos de transacciones.Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema delmodeloestrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja lavelocidaden el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive queproductosse adquieren para el impacto de los procesos de queries y reportes.Para proveer un ambiente donde relativamente una muy poca cantidad deconocimientode los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener las consultas y reportes.Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos porpersonalsin tanto conocimiento tcnico, lo que hace que sumantenimientoyconstruccinse haga sin ms complejidad.Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones.El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones.Para hacer las consultas y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes.Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo lalgicade bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buenaestrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.10. Base de datos Vs DatawarehouseBase de DatosDataWarehouse

Actualizaciones mayoritariamenteConsultas principalmente

Muchas transacciones pequeasConsultas largas y complejas

Mb - Gb de informacinGb - Tb de informacin

Instantneas actualesHistrica

Miles de usuarios (ej usuarios

administrativos)Cientos de usuarios (ej usuarios

que toman decisiones)

11. CASO DE ESTUDIOPENTAHO

Qu es Pentaho?

Pentaho es la solucin BI Open Source lder del mercado y la mejor alternativa a los productos comerciales.

La plataforma Open Source Pentaho Business Intelligence cubre muy amplias necesidades de Anlisis de los Datos y de los Informes empresariales. Las soluciones de Pentaho estn escritas en Java y tienen un ambiente de implementacin tambin basado en Java. Eso hace que Pentaho es una solucin muy flexible para cubrir una amplia gama de necesidades empresariales tanto las tpicas como las sofisticadas y especificas al negocio.

Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de anlisis e informes integrado con un motor de workflow de procesos de negocio. La plataforma ser capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la informacin adecuada en el momento adecuado, mediante analisis OLAP, Cuadros de Mando, etc...

Plataforma BI de Pentaho Elaborada con estndares abiertos y con una arquitectura moderna, la Plataforma de BI de Pentaho fue diseada para ser escalada y cumplir con las necesidades de organizaciones cualquiera sea su tamao.

Los mdulos de la plataforma Pentaho BI son: Reporting - un modulo de los informes ofrece la solucin adecuada a las necesidades de los usuarios. Pentaho Reporting es una solucin basada en el proyecto JFreeReport y permite generar informes gil y de gran capacidad. Pentaho Reporting permite la distribucin de los resultados del anlisis en mltiples formatos - todos los informes incluyen la opcin de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho permiten tambin programacin de tareas y ejecucin automtica de informes con una determinada periodicidad.

Anlisis - Pentaho Anlisis suministra a los usuarios un sistema avanzado de anlisis de informacin. Con uso de las tablas dinmicas (pivot tables, crosstabs), generadas por Mondrian y JPivot, el usuario puede navegar por los datos, ajustando la visin de los datos, los filtros de visualizacin, aadiendo o quitando los campos de agregacin. Los datos pueden ser representados en una forma de SVG o Flash, los dashboards widgets, o tambin integrados con los sistemas de mineria de datos y los portales web (portlets). Adems, con el Microsoft Excel Analysis Services, se puede analizar los datos dinmicos en Microsoft Excel (usando la conexin a OLAP server Mondrian).

Dashboards - todos los componentes del modulo Pentaho Reporting y Pentaho Anlisis pueden formar parte de un Dashboard. En Pentaho Dashboards es muy fcil incorporar una gran variedad en tipos de grficos, tablas y velocmetros (dashboard widgets) e integrarlos con los Portlets JSP, en donde podr visualizar informes, grficos y anlisis OLAP.

Data Mining - anlisis en Pentaho se realiza con una herramienta WeKa.

Integracin de Datos - se realiza con una herramienta Kettle ETL (Pentaho Data Integration) que permite implementar los procesos ETL. ltimamente Pentaho lanz una nueva versin - PDI 3.0 que marc un gran paso adelante en OSBI ETL y que hizo Pentaho Data Integration una alternativa interesante para las herramientas comerciales.

12. ConclusionesEl trmino Data Warehouse hace alusin a un tipo de herramienta que est teniendo un gran auge en los ltimos aos.

El problema ante el que nos encontramos, se centra en que muchos de los datos de que disponen las empresas sobre sus clientes estn 'bloqueados' en crceles de datos; es decir, bases de datos que han evolucionado como subsistemas independientes. Estas bases de datos son incapaces de ofrecer a la empresa una visin consolidada de quin es el cliente, o incluso de qu productos y servicios estn interrelacionados en la base de clientes. Este ejemplo de la informacin acerca de clientes es tambin aplicable a otros muchos mbitos.

Cualquier empresa, independientemente de su tamao, cuenta con un conjunto de aplicaciones de procesamiento transaccional que mecanizan los procesos operativos, muy estructurados y repetitivos, que vienen a constituir las funciones bsicas de la entidad, tales como la facturacin, contabilidad, nminas, etc.

Este conjunto de aplicaciones constituyen el subsistema de informacin operativo o transaccional, en l se procesan de manera automtica, grandes volmenes de datos referentes a las actividades rutinarias, que se almacenan en bases de datos operativas. De ellas se puede extraer informacin, fundamentalmente vlida para las transacciones del da a da, es decir, sirven para apoyar y ejecutar las decisiones operativas que conducen las actividades bsicas, pero no sirven para realizar anlisis ms avanzados, incluso de tipo estratgico, ya que no estn diseadas para apoyar este tipo de tareas.

A partir de los datos almacenados en estas bases de datos operativas, las cuales suelen ser inconsistentes en la manera en que representan los datos (por ejemplo, distintas bases de datos pueden estar utilizando unidades de medidas diferentes para los mismos atributos), es posible extraer un cmulo de conocimientos o informaciones que aporten un valor aadido a la gestin adecuada de la empresa, lo que constituirn los Data Warehouse.El fin del Data Warehouse es reunir y consolidar las bases de datos diferentes, que se mantienen en los diferentes departamentos o reas funcionales de la empresa como subsistemas de informacin independientes, en una gran base de datos, recogiendo datos muy dispares y, muchas veces infrautilizados, procedentes de fuentes internas repartidas por toda la organizacin. Tambin recoger datos o informaciones externas, que rutinariamente se recibe sobre las diferentes entidades u objetos de informacin, es decir, clientes, proveedores, productos y servicios, canales, estructura organizativa, competencia, mercado, coyuntura econmica, etc., en resumen, los derivados de las relaciones de la empresa con su entorno.Entre los motivos generales que dan lugar a la necesidad de implantar un Data Warehouse podemos encontrar los siguientes:

Mayor necesidad de ayuda a la toma de decisiones.

Proliferacin de aplicaciones de usuarios finales costosas, desintegradas, etc.

Falta de herramientas productivas integradas para el decisor o el usuario final real. Falta de informacin histrica.Las bases de datos que conforman un DW deben caracterizarse por:

Integradas: Han de constituir un conjunto de datos y metadatos perfectamente integrados. Temticas: Las bases de datos del DW deben conformarse hacia materias o temas (p.e. clientes, productos, campaas). Histricas: Un factor clave en la toma de decisiones es poder contar con informacin histrica para comparar datos en distintos perodos y poder identificar tendencias. El tiempo ha de estar presente en los registros del DW, de manera que pueda saberse en qu momento tena un dato un valor determinado. No voltiles: Este requisito est relacionado con el anterior. Cuando un dato tenga un nuevo valor, generalmente no se actualizar el valor anterior, sino que se introducir un nuevo registro con el valor actual. Como regla general, una vez incorporada la informacin al DW debe mantenerse en l invariable.

La infraestructura tecnolgica que soporte el Data Warehouse ha de estar separada y, por lo general, ser diferente de la que soporta los sistemas operacionales.

En definitiva, los requerimientos fundamentales que determinan la esencia del DW podran ser los siguientes: Acceso universal a los datos, que se crean y se tratan de acuerdo con los requerimientos del usuario y dentro del marco de un modelo de datos. Implantacin de un sistema abierto, con interfaces a fuentes de datos internas y externas. Seleccin de los datos de acuerdo con el contenido de informacin y la relevancia para las decisiones. Separacin lgica y fsica de las bases de datos de almacn de datos y de metadatos respecto a las bases de datos operacionales. Creacin de herramientas de consulta para el usuario final, con posibilidades de utilizacin intuitiva y funciones de unin e interrelacin.Beneficios Asociados al Data Warehouse

Un DW puede dar lugar a una serie de importantes beneficios para la organizacin. En cualquier caso, su utilizacin permitir que la informacin de gestin sea: accesible, correcta, uniforme y actualizada.

Estas caractersticas asociadas a la informacin contenida en un DW, junto con otra serie de aspectos inherentes al mismo dan lugar a la obtencin de un conjunto de ventajas, que podramos resumir del siguiente modo:Menor coste en la toma de decisiones

Mayor flexibilidad ante el entorno

Mejor servicio al cliente Rediseo de procesos

Alineamiento con los objetivos de rightsizingEn conclusin, el concepto de DW abarca mucho ms que simplemente copiar datos operacionales a una base de datos informacional distinta. El sistema deber ofrecer una solucin completa para gestionar y controlar el flujo de informacin desde bases de datos corporativas y fuentes externas a sistemas de soporte de decisiones de usuarios finales.Adems, debe permitir a los usuarios conocer qu informacin existe en el almacn de datos, y cmo poder acceder a ella y manipularla. 13. Bibliografa Ralph Kimball, Margy Ross The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling Second Edition.

http://es.wikipedia.org/wiki/Almacn_de_datos http://www.ongei.gob.pe/publica/metodologias/Lib5084/INDEX.HTM http://www.fing.edu.uy/inco/grupos/csi/esp/Publicaciones/2001/tr0118-vp.pdf http://cba365.com.ar/cms/index.php?option=com_content&view=article&id=53&Itemid=65 http://pentaho.almacen-datos.com/ http://www.pentaho.com/Base de Datos OperacionalData WarehouseDatos OperacionalesDatos del negocio para InformacinOrientado a la aplicacinOrientado al sujetoActualActual + histricoDetalladaDetallada + ms resumidaCambia continuamenteEstable

13

_2147483647.bin