topicos selec ing 240315

10
INSTITUTO TECNOLÓGICO DE NUEVO LEÓN Subdirección académica Ingeniería en Sistemas Computacionales Materia: Tópicos Selectos de Ingeniería del software Tareas Unidad II Profesor: Ing. Ricardo Espinoza Saldivar Guillermo Antonio Sánchez Leija #10480680

Upload: guillermo-sanchez

Post on 14-Nov-2015

215 views

Category:

Documents


0 download

DESCRIPTION

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

TRANSCRIPT

INSTITUTO TECNOLGICO DE NUEVO LENSubdireccin acadmica

Ingeniera en Sistemas Computacionales

Materia: Tpicos Selectos de Ingeniera del software

Tareas Unidad II

Profesor: Ing. Ricardo Espinoza SaldivarGuillermo Antonio Snchez Leija #10480680

Gpe. , Nuevo len 24 de Marzo del 2015Data Warehouse

Que es un Data WareHouse?

Es un repositorio dedatosde muy fcil acceso, alimentado de numerosasfuentes, transformadas engruposdeinformacinsobre temas especficos denegocios, para permitir nuevas consultas,anlisis, reporteador y decisiones.Que es lo que le preocupa a los ejecutivos?Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero desde diferentes ngulos, mostrando nicamente lo que es importante para tomar una decisin enla empresa, finalmente los ejecutivos saben que hay datos que nunca sern confiables, por lo que prefieren que se eviten en los reportes ejecutivos.Uno delos valoresms importantes de unaorganizacines la informacin.Estosvaloresnormalmente son guardados por la organizacin de dos formas:-Lossistemasoperacionales de registros-Y el Data WarehouseCrudamente hablando, lossistemaoperacionales deregistroses donde los datos son depositados y elData WareHousees de donde se extraen eso datos.Losobjetivosfundamentales de un Data WareHouse son:

-Hace que la informacin de la organizacin sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpidodesempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cerotiempode espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.-Hacer que la informacin de la organizacin sea consistente: la informacin de una parte dela organizacinpuede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de altacalidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.-Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. Eldiseode Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.-Es unsegurobaluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

-Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar latoma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas despus de que el Data WareHouse haya presentado lasevidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejordescripcinde lo que queremos construir: un sistema de soporte a las decisiones.

Los elementos bsicos de un Data WareHouse-Sistema fuente: sistemas operacionales de registros donde susfuncionesson capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System.-rea de trfico de datos: es un rea dealmacenamientoygrupodeprocesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse.-Servidor de presentacin: la maquinafsicaobjetivoen donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones.

-Modelo dimensional: unadisciplinaespecifica para el modelado de datos que es una alternativa para losmodelosde entidad relacin.-Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse.-Data Mart: un subgrupo lgico del Data WareHouse completo.-Data WareHouse: bsquedas fuentes de datos de laempresa. Y es la unin de todos los data marts que la constituyen.-Almacenamiento operacional de datos: es el punto deintegracinpor los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.-OLAP: actividad general de bsquedas para presentacin detextoy nmeros del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP.-ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.-MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios detecnologadebases de datosque tienen un fuerte estilo dimensional.-Aplicaciones para usuarios finales: una coleccin deherramientasque hacen los queries, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio.-Herramientas de acceso a datos por usuarios finales: unclientede Data WareHouse.-Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones.-Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse.-Meta Data: toda la informacin en elambientedel Data WareHouse que no son as mismo los datos actuales.

Los procesos bsicos del Data WareHouse (ETL)-Extraccin: este es el primer paso de obtener la informacin hacia el ambiente del Data WareHouse.-Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar labasuraque no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cadaregistrode una dimensin.-Carga: al final delprocesode transformacin, los datos estn en forma para ser cargados.Las razones bsicas de porque una organizacin implementa Data WareHouse:Para realizar tareas en losservidoresy discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones.Muchas de lasempresasquieren instalar sistemas de procesos de transacciones para que haya una altaprobabilidadde que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en losrecursosde servidores y discos, por tal motivo las empresas han implementado unaarquitecturade Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.Para utilizar modelos de datos o tecnologas de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones.Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema delmodeloestrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja lavelocidaden el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive queproductosse adquieren para el impacto de los procesos de queries y reportes.Para proveer un ambiente donde relativamente una muy poca cantidad deconocimientode los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener queries y reportes.Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos porpersonalsin tanto conocimiento tcnico, lo que hace que sumantenimientoyconstruccinse haga sin ms complejidad.Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones.El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones.Para hacer los queries y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes.Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo lalgicade bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buenaestrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.

Data Mart

UnData martes una versin especial dealmacn de datos(data warehouse). Son subconjuntos de datos con el propsito de ayudar a que un rea especfica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples formas para que diversos grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades.El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientasOLAP(On line Analytical Processing - Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la informacin. Sobre estas bases de datos se pueden construirEIS(Executive Information Systems, Sistemas de Informacin para Directivos) yDSS(Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones).En sntesis, se puede decir que losdata martsson pequeosdata warehousecentrados en un tema o un rea de negocio especfico dentro de una organizacin.

Dependencia de un data mart

Segn la tendencia marcada porInmonsobre los data warehouse, un data mart dependiente es un subconjunto lgico (vista) o un subconjunto fsico (extracto) de un almacn de datos ms grande, que se ha aislado por alguna de las siguientes razones:-Se necesita para un esquema omodelo de datosespacial (por ejemplo, para reestructurar los datos para alguna herramientaOLAP).-Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado.-Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.-Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicacin en el Data Warehouse principal de la Empresa.-Demostracinsobre el terreno: para demostrar la viabilidad y el potencial de una aplicacin antes de migrarla al Data Warehouse de la Empresa.

-Poltica: Razones internas de la organizacin para hacer esta divisin o separacin de los datos del almacn de datos, por ejemplo:-Cuando se decide una estrategia para lasTI(Tecnologas de la informacin) en situaciones en las que un grupo de usuarios tiene ms influencia, para determinar si se financia dicha estrategia o descubrir si sta no sera buena para el almacn de datos centralizado.-Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacn de datos no est en condiciones de crear un almacn de datos utilizable.Segn la escuelaInmonde data warehouse, entre las prdidas inherentes al uso de data marts estn la escalabilidad limitada, la duplicacin de datos, la inconsistencia de los datos con respecto a otros almacenes de informacin y la incapacidad para aprovechar las fuentes de datos de la empresa. As y todas estas herramientas son de gran importancia.

Conceptos errneos de data martAl hablar de los data marts, es inevitable la comparacin con los data warehouse y al final se acaba diciendo (o entendiendo) que son como estos, peroen pequeo, y en cierto modo esto es as, pero esta idea suele hacer caer en los siguientes errores sobre la implementacin y funcionamiento de los data marts:-Son ms simples de implementar que un Data Warehouse:FALSO, la implementacin es muy similar, ya que debe proporcionar las mismas funcionalidades.-Son pequeos conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos:FALSO, una aplicacin corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse.

-Las consultas son ms rpidas, dado el menor volumen de datos:FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero s se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse.-En algunos casos aade tiempo al proceso de actualizacin:FALSO, actualizar el data mart desde el data warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idnticos) que actualizar el data warehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformacin (verETL).

OLAP

El trmino OLAP, que proviene de Online Analitical Processing (Procesamiento Analtico en Lnea), define a una tecnologa que se basa en el anlisis multidimensional de los datos y que le permite al usuario tener una visin ms rpida e interactiva de los mismos.Este anlisis, tambin conocido como anlisis del hipercubo, organiza la informacin segn los parmetros que se consulten, de manera tal que a partir de estructuras multidimensionales que contienen los datos resumidos de Sistemas Transaccionales, conocidos como OLTP (Online Transactional Processing) o de grandes bases, se obtendr la informacin requerida.Es muy utilizado en el rea de marketing, ventas, informes, etc., especialmente porque las respuestas a consultas complejas se obtienen muy rpidamente y adems porque puede obtener los datos tanto de una fuente externa como de una base interna.Hay diversos tipos de implementaciones de la tecnologa OLAP, las que varan segn el tipo de motor en el que se almacenan los datos. De esta manera, podemos clasificarlas como ROLAP, que almacena los datos en un motor relacional por lo que se puede tener un acceso veloz a ellos; MOLAP, que almacena los datos en una base de datos multidimensional y DOLAP, que guarda los datos en el escritorio, los que obtiene a partir de una base de datos relacional.

Ante todo procedamos a definir las siglasOLAP, viene de las palabras inglesasOn-Line Analytical Processing, o el tratamiento y el anlisis de la informacin en lnea. En el contexto informtico o denuevas tecnologas, se trata de acceder a un estudiomultidimensionalde la informacin de manera rpida. ElOLAP es la parte ms importante en lo que es el Business Intelligence porque toma en cuenta lasbases de datos, losinformesrelacionados y laminera de datos. Este trminonace del concepto tradicional en base de datos, elOLTP(On-Line Transction Processing)En general se usa esta herramienta para elaborarinformesenventas,marketing,estrategiaempresarial,gestin de procesos, presupuestos, previsiones, finanzas, y ms usos por venir. Tambin cabe destacar que se permite a los usuarios un anlisisinteractivoy bajo variasperspectivas.OLAP procede segn 4 etapas, que son :+Recopilar: es elcmulodeinformacinen un ordenador paracalcularlasegn diferentescategoras. Por ejemplo, se recogetoda la informacin sobre ventas y se las relaciona al departamento de ventas, para calcular unaprevisinde lastendenciasen ventas.+Profundizar: es la fase que permite a losusuariosnavegar en la informacin accediendo a todo tipo dedetalles. Por ejemplo, cada usuario conoce cada producto con sus especificidades as como la cifra de negocio asignadas cada uno en funcin de su situacin geogrfica.+Especificar: es la fase segn la cual se analiza la informacin en funcin de categoras determinadas y, se extrae unaestrategiaque permita alcanzar elobjetivofijado.+Evaluar: se trata deevaluar esta estrategia bajo las diferentes opciones / dimensiones que ofrece la herramienta. Es decir, la estrategia anteriormente diseada en ventas y sus efectos en el departamento de marketing o de produccin.La base de datos OLAP se personaliza y se configura segn un esquema multidimensional, teniendo en cuenta complejas y actualizadas preocupaciones analticas, en tiempo real. Entran en juego bases de datos jerrquicas, relacionases y de navegacin.