data mining and data warehouse

Upload: fabian-flores

Post on 11-Oct-2015

51 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/20/2018 Data Mining and Data Warehouse

    1/28

    Objetivo Conceptualizar el entorno de la informacin

    empresarial, aplicada en la gestin de la toma dedecisiones a travs de almacenes de datos y laminera de los mismos para una inteligencia delnegocio.

    Alcances Reconocer las principales caractersticas de los sistemas de informacin

    ejecutiva. Explicar el concepto y los principales beneficios del datawarehousing. Explicar el concepto y los principales beneficios del datamining. Explicar los fundamentos de la tecnologa de informacin de la

    inteligencia de negocios. Analizar los procesos de negocios de una organizacin, para ofrecer

    alternativas ptimas de explotacin de los datos.

  • 5/20/2018 Data Mining and Data Warehouse

    2/28

    BibliografaTIPO

    TTULO

    AUTOR

    EDITORIAL

    AO

    LibroE-data convertir datos eninformacin con

    datawarehousing

    Dyche, Jill Pearson 2000

    LibroThe data warehouseLifecycle Toolkit (2ndEdition)

    Kimball, RalphWiley 2002

    Reeves, Laura

    Libro

    Datamining concepts andtechniques

    Han Jiawei;Kamber,Micheline

    MorganKaufmannPublishers

    2001

    LibroIntelligent Systems

    Reference Library,Volume12

    FlorinGorunescu Spinger 2011

  • 5/20/2018 Data Mining and Data Warehouse

    3/28

    Temario parte 1 Qu es el data warehouse?

    o Hacia dnde se dirigen los datos?o Sistemas de informacin ejecutivao Concepto data warehouseo Concepto data marto Data warehouse empresarialo El data warehouse como herramienta

    Planeacin y administracin del proyecto de data warehouseo Planeacin del ciclo de vida del proyectoo Diseo y anlisiso Modelo de implementacin

    Herramientas de optimizacin de un data warehouseo ndiceso Particin de datoso Agregados y vistas materializadaso

    Optimizacin de joins Anlisis dimensional y tablas de hechos

    o Definicin del modelo dimensionalo Tablas de hechos y tablas de dimensioneso Construccin de modelos dimensionaleso Llaves artificiales

  • 5/20/2018 Data Mining and Data Warehouse

    4/28

    Temario parte 2 Proceso ETL

    o Staging de datoso Planeacino Carga de tablas de dimensioneso Carga de tabla de hechoso Oracle Enterprise Manager Data Management Load

    Funciones SQL de Oracle para Data Warehouseo Funciones para agregacino Funciones SQL para clculos analticoso Expresiones CASE y WITHo Aplicaciones OLAP

    Qu es la minera de datos?o Definicin del concepto minera de datoso Extraccin y descubrimientoo Antologa como modeloso Bases cientficaso Metodologas de minera de datos

    Pilares de la organizacin de la minera de datoso La tecnologa de informacin de la inteligencia de negocioso Herramientas de inteligencia de negocioso Aplicaciones de inteligencia de negocioso Plataformas de procesamientoo Filosofa de la inteligencia de negocios

    Los datos en la minera de datoso Metadatao Representacin: cuantificacin y cdigoso Extraccin de caractersticas y mejoraso Calidad de los datoso Relevancia e independencia de las caractersticaso La preparacin de los datoso Seleccin de caractersticaso Demografa y comportamiento de los datos de los clientes

  • 5/20/2018 Data Mining and Data Warehouse

    5/28

    Examen Diagnostico Qu es una base de datos? Qu es un sistema de gestin de bases de datos? Qu significan las siglas SQL? Qu es SQL? Qu es una llave y cuantos tipos de llaves existen en el

    contexto de bases de datos? Qu es el modelo entidad relacin? Qu es una base de datos transaccional?

    Cules son las instrucciones principales del lenguaje demanipulacin de datos? Cul es la sintaxis bsica para realizar consultas en el

    lenguaje SQL ?

  • 5/20/2018 Data Mining and Data Warehouse

    6/28

    Introduccion

  • 5/20/2018 Data Mining and Data Warehouse

    7/28

    Sistemas de informacinejecutiva

    Es una herramienta software, basada en un DSS,que provee a los gerentes de un acceso sencillo ainformacin interna y externa de su compaa, yque es relevante para sus factores clave de xito.

    La finalidad principal es que el ejecutivo tenga a sudisposicin un panorama completo del estado delos indicadores de negocio que le afectan alinstante, manteniendo tambin la posibilidad de

    analizar con detalle aquellos que no estncumpliendo con las expectativas establecidas,para determinar el plan de accin ms adecuado.

  • 5/20/2018 Data Mining and Data Warehouse

    8/28

    Que es el datawarehouse?

    Un Datawarehousees una base de datos corporativa que se caracteriza porintegrar y depurar informacin de una o ms fuentes distintas, para luegoprocesarla permitiendo su anlisis desde infinidad de perspectivas y congrandes velocidades de respuesta. Y Se caracteriza por ser :

    Integrado

    Temtico

    Histrico

    No voltil

    Otra caracterstica del datawarehouse es que contiene metadatos, esdecir, datos sobre los datos. Los cuales apoyan a:

    Dar soporte al usuario final, ayudndole a acceder al

    datawarehouse con su propio lenguaje de negocio. Dar soporte a los responsables tcnicos del datawarehouse en

    aspectos de auditora

  • 5/20/2018 Data Mining and Data Warehouse

    9/28

    Ventajas de DWH Alto retorno de inversion

    Ventaja competitivas

    Mayor productividad de los responsables de la

    toma de decisiones

  • 5/20/2018 Data Mining and Data Warehouse

    10/28

    OLTP VS DWHOLTP Almacenes de datos

    Almacenan datos actuales Almacenan datos histricos

    Almacenan datos detallados Almacenan datos resumidos

    Los datos son dinmicos Los datos principalmente son estticos

    Procesamiento repetitivo Procesamiento ad-hoc, noestructurado y heurstico

    Alta tasa de transacciones Tasa media o baja de transacciones

    Patron de uso predecible Patron de uso impredecible

    Dirigido por transacciones Dirigido por analisis

    Orientado a la aplicacin Orientado a temas

    Soporta las decisiones cotidianas Soporta las decisiones estrategicas

    Sirve a un gran numero de usuarios Sirve a usuarios gerenciales ydirectivos

  • 5/20/2018 Data Mining and Data Warehouse

    11/28

    Problemas de losalmacenes de datos

    Subestimacin de los recursos necesarios para la cargade datos

    Problemas ocultos de los sistemas de origen No se capturan los datos requeridos

    Incremento de la demanda por parte de los usuariosfinales Homogeneizacin de datos Alta demanda de recursos Propiedad de los datos Altos costos de mantenimiento Proyectos de larga duracin Complejidad de la integracin

  • 5/20/2018 Data Mining and Data Warehouse

    12/28

    Qu es un datamart? Almacena informacin especifica de un rea de

    negocio

    Dispone de una estructura optima para analizarinformacin

    Los datamarts que estn dotados con estasestructuras ptimas de anlisis presentan lassiguientes ventajas:o Poco volumen de datos

    o Mayor rapidez de consultao Consultas SQL y/o MDX sencillas

    o Validacin directa de la informacin

    o Facilidad para la historizacin de los datos

  • 5/20/2018 Data Mining and Data Warehouse

    13/28

    Datawarehouse comoherramienta

    Proporciona una herramienta para la toma de decisiones encualquier rea funcional, basndose en informacinintegrada y global del negocio.

    Facilita la aplicacin de tcnicas estadsticas de anlisis ymodelizacin para encontrar relaciones ocultas entre losdatos del almacn; obteniendo un valor aadido para elnegocio de dicha informacin.

    Proporciona la capacidad de aprender de los datos delpasado y de predecir situaciones futuras en diversosescenarios.

    Simplifica dentro de la empresa la implantacin de sistemasde gestin integral de la relacin con el cliente.

    Supone una optimizacin tecnolgica y econmica enentornos de Centro de Informacin, estadstica o degeneracin de informes con retornos de la inversinespectaculares.

  • 5/20/2018 Data Mining and Data Warehouse

    14/28

    Ciclo de vida del proyecto

  • 5/20/2018 Data Mining and Data Warehouse

    15/28

    Factores que deben sertomados en cuenta

    Objetivo

    Costo

    Tiempo

    Riesgo Calidad

    Recursos

    Grupos de interes

  • 5/20/2018 Data Mining and Data Warehouse

    16/28

    Planificacion de undatawarehouse

  • 5/20/2018 Data Mining and Data Warehouse

    17/28

    Planificacion de undatawarehouse

    Descubriro Analisis y definicion de requerimiento

    Diseoo Modelos semanticos: es una representacin de algunas cosas identificables en el ambiente de

    trabajo de los usuarios.o Modelos esquematicos

    Tercera Forma Normal:o La tabla est en la segunda forma normal (2NF)

    una tabla 1NF est en 2NF si y solo si, dada una clave primaria y cualquieratributo que no sea un constituyente de la clave primaria, el atributo no clavedepende de toda la clave primaria en vez de solo de una parte de ella.

    o No hay orden de arriba-a-abajo en las filas.o No hay orden de izquierda-a-derecha en las columnas.o No hay filas duplicadas.o Cada interseccin de fila-y-columna contiene exactamente un valor del

    dominio aplicable (y nada ms).o Todas las columnas son regulares [es decir, las filas no tienen

    componentes como IDs de fila, IDs de objeto, o timestamps ocultos].o Ningn atributo no-primario de la tabla es dependiente transitivamente de una clave

    primaria Estrella: las tablas de dimensiones tendrn siempre una clave primaria simple, mientras que

    en la tabla de hechos, la clave principal estar compuesta por las claves principales de lastablas dimensionales.

    Copo de nieve: Se da cuando alguna de las dimensiones se implementa con ms de unatabla de datos.

  • 5/20/2018 Data Mining and Data Warehouse

    18/28

    Planeacion de un DWH Desarrollo

    o Modelar el diseo fisicoo Dimensionar la base de datoso Crear la convencion de nombres de objetoso Estrategias de indexacion

    o Desarrollo de esquemas para realizar el ETL (Extraer, Transformar y Cargar) Despliegue

    o Su despliegue es gradual hacia varios grupos de usuarioso Se pone la infraestrructurao Se instala el software y se evalua para ponerlo en producciono Los componentes de la pista de datos son desplegadoso Se contruyen las bases de datos del almaceno Lo procesos ETL se ponen en lineao Se ajustan los procesos y necesidadeso Se libera la capa de aplicacin

  • 5/20/2018 Data Mining and Data Warehouse

    19/28

    Planeacion de UN DWH Dia a dia:

    o Mantenimiento constante del hardware y software

    o Monitoreo constante del rendimiento y crecimiento del sistema

    o Validar si funciona completamente y si se encuentra actualizado

    o Resolver eventos, incidentes y problemas

    o Tener trabajos de respaldo definidos y agendadoso Los respaldos deben de ser verificados y probados en ambientes

    especificados para esto

    Defender: depende del tiempo de recuperacionnecesario y el punto de recuperacion objetivoo Externas (catastrofes naturales, incendios, inundaciones)

    o Internas (ataques, perdidas de archivos, configuraciones, entre otras)

    Intencionales

    Accidentales

  • 5/20/2018 Data Mining and Data Warehouse

    20/28

    Planeacion de un DWH Disponer fuera de servicio:

    o Sin remplazo: ya no se requieren los servicios del DWH

    o Corte y cambio: Se tiene un nuevo DWH y se realiza el cambio en un olomovimiento

    o Funcin en paralelo: se trabajan el sistema nuevo y el viejo en paralelo

    por un tiempo.

  • 5/20/2018 Data Mining and Data Warehouse

    21/28

    Repositorio de metadatos Descripcion de la estructura del data warehouse Datos operacionales:

    o Linea de tiempo de las migracioneso Estadisticas del datawarehouseo Actualizacion de la informacin

    Algoritmos utilizados para la sumarizacion Mapeo del ambiente operacional:

    o Fuentes de informacino Particiones de datoso Reglas de extaccion , limpieza y tranformacion

    Desempeo del sistema:o Actualizacioneso Ciclos de replica

    Metadatos del negocioo Definiciones y terminos

  • 5/20/2018 Data Mining and Data Warehouse

    22/28

    Modelo dimensional Tabla de hechos

    o Medidas numericas

    o Define que es lo que deseamos analizar en la relacion de todas lasdimensiones

    o Contiene las llaves de cada una de las tablas de dimension

    Tablas de dimensioneso Son las perspectivas o entidades con lo cual la organizacin desea llevar

    sus registros

    o Estas tablas contienen informacin relevante de los atributos de unaentidad

  • 5/20/2018 Data Mining and Data Warehouse

    23/28

    Tipos de modelosdimensionales

    Estrellao Una larga tabla de hechos

    o Algunas tablas de dimension, una por cada dimension.

    Copo de nieveo Las tablas de dimensiones puede tener su propia tabla de dimensiones

    Constelacion de hechoo Existen varias tablas de hechos que comparten dimensiones

  • 5/20/2018 Data Mining and Data Warehouse

    24/28

    Algunas definiciones Jerarquia: defines a sequence of mappings from a

    set of low-level concepts to higher-level, moregeneral concepts

    Metricao Distribuivas as count, min, maxo Algebraicas as sum(), avg, desviacion estandar

    o Holisticas: mediana, moda, rango

  • 5/20/2018 Data Mining and Data Warehouse

    25/28

    Operaciones OLAP Rol-up

    Drilldown

    Slice-dice

    Pivote Drillacross

    Drill-througth

    Top N

    Bottom N

  • 5/20/2018 Data Mining and Data Warehouse

    26/28

    Proceso

    Seleccin de datos

    Transformacin de datos

    Minera de datos

    Evaluacin de patrones

    Presentacin de conocimiento

    Limpieza dedatos

    Integracin dedatos

  • 5/20/2018 Data Mining and Data Warehouse

    27/28

  • 5/20/2018 Data Mining and Data Warehouse

    28/28

    MDX SELECT { [Measures].[Sales Amount], [Measures].[Tax

    Amount] } ON 0, { [Date].[Fiscal].[FiscalYear].&[2002], [Date].[Fiscal].[Fiscal Year].&[2003] }ON 1 FROM [Adventure Works] WHERE ( [Sales

    Territory].[Southwest] )