temas unidad 2 inteligencia de negocios
TRANSCRIPT
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
1/23
Unidad 2. Base de Datos para la Toma deDecisiones
2.1. Base de Datos Multidimensionales.2.1.1. Datawarehouse2.1.2. Data Mart2.1.3. Sistemas OLTP2.1.4. Sistemas OLAP2.1.5. Operaciones Analticas Bsicas de los Sistemas OLAP2.1.6. Vista de Datos de los sistemas OLAP2.1.7. Modelo de Datos de los sistemas OLAP.
2.2. Sistemas de Gestin del conocimiento.2.2.1. Preparacin de los Datos.2.2.2. Minera de Datos.2.2.3. Patrones.2.2.4. Evaluacin / Interpretacin / Visualizacin.
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
2/23
2.1 BASES DE DATOS MULTIDIMIENCIONALES
2.1 BASE DE DATOS MULTIDIMENSIONAL
Las bases de datos multidimensionales son una variacin del modelo relacional que
utiliza cubos OLAP para organizar los datos y expresar las relaciones entre ellos. Las
principales ventajas de este tipo de bases de datos son la versatilidad para cruzar
informacin y la alta velocidad de respuesta. Esto las convierte en herramientas bsicas
para soluciones de Business Intelligence o de Big Data, donde el anlisis de los datos
resulta crucial.
Este tipo de base de datos se aplica sobre el sistema OLAP tambin llamado cubo
multidimensional o hipervnculo. Se compone de hechos numricos llamados medidas
que se clasifican por dimensiones. El cubo de metadatos es creado tpicamente apartar
de un esquema en estrella o copo de nieve y utilizando tablas de una base de datos
relacional.
Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones de
cuadros.
Una base de datos multidimensional, es aquella que almacena sus datos con varias
dimensiones, es decir que en vez de un valor, encontramos varios dependiendo de los
"ejes" definidos o una base de datos de estructura basada en dimensiones orientada a
consultas complejas y alto rendimiento. Puede utilizar un SGBDR en estrella (Base de
datos Multidimensional a nivel lgico) o SGBDM (Base de datos Multidimensional a
niveles lgico y fsico o Base de datos Multidimensional Pura).
En una base de datos multidimensional, la informacin se representa como matrices
multidimensionales, cuadros de mltiples entradas o funciones de varias variables sobre
conjuntos finitos. Cada una de estas matrices se denomina cubo.
OLAP: On-Line Analytical Processing
Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este
anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para
llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de
comportamiento de los consumidores, elaboracin de informes complejos etc.
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
3/23
Representando la informacin: los cubos OLAP
Un cubo OLAP no es ms que un vector de varias dimensiones. Desde un punto de vista
relacional, puede verse como una tabla de hechos (fact table ) que tiene dos tipos de
columnas:
Indicadores : tambin denominados mtricas o ratios , son los valores numricos conlos que se opera. Por ejemplo: n de clientes, n de proveedores, importe de las
ventas, n de ventas, importe de las compras, n de compras etc.
Dimensiones : son las caractersticas por las que se pueden filtrar y cruzar losindicadores. Por ejemplo: tiempo (fijando un determinado da, mes o ao), geografa
(fijando un determinado pas, regin o ciudad), proveedor, cliente, modo de pago etc.
Las columnas correspondientes a las dimensiones tienen claves forneas a tablas de
dimensin, que generalmente son tablas de maestros con clave-valor (esquema enestrella) o tablas organizadas en jerarquas (esquema en copo de nieve) como: ciudad
provincia pas.
En general suele resultar necesario dimensionar la volumetra de los cubos para
conseguir que generen los informes deseados, y monitorizar su tamao para garantizar
que los resultados se obtienen en el tiempo esperado. En este sentido suele resultar
fundamental tener en cuenta dos caractersticas bsicas: la cardinalidad del cubo ,posibles combinaciones de todos los valores de todas las dimensiones, y
la granularidad del cubo , nivel de detalle mximo de los datos, o lo que es lo mismo,nivel de agregacin mnimo de la informacin.
Propiedades de las bases de datos OLAP
As como los sistemas OLTP son tpicos para bases de datos convencionales y data
warehouses, los sistemas OLAP son propios de los datamarts.
Optimizadas para operaciones de lectura : dado que la accin ms comn es laconsulta, estas bases de datos disponen de valores agregados y resultados
precalculados que les permiten responder en tiempo rcord. Evitar las restricciones
ACID les da agilidad.
Organizadas segn las necesidades analticas : los datos estn estructurados segnlas reas de negocio, y los formatos de los datos estn integrados de manera uniforme
en toda la organizacin. Se busca evitar islas de datos.
http://es.wikipedia.org/wiki/Tabla_de_hechoshttp://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3nhttp://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3nhttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3nhttp://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3nhttp://es.wikipedia.org/wiki/Tabla_de_hechos -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
4/23
Asncronas : no siempre se actualizan en tiempo real, sino que se suelen alimentarcon informacin procedente de las bases de datos relacionales mediante un proceso
de extraccin, transformacin y carga (ETL).
Consultas realizadas en MDX : este lenguaje, MDX (MultiDimensional eXpressions )fue desarrollado inicialmente por Microsoft y adoptado posteriormente como estndar
para leer cubos OLAP. Un cliente puede manipular el cubo de distintas formas: rotarlo,
rebanarlo cortarlo en dados etc.
Gestin de datos histricos a largo plazo : una de las exigencias analticas consisteen realizar estudios de evolucin a lo largo del tiempo, esto requiere que estas bases
de datos mantengan un histrico a largo plazo, normalmente no inferior a cinco aos.
TIPOS DE OLAP
Tradicionalmente los sistemas OLAP se clasifican en las siguientes categoras:
ROLAPLa implementacin OLAP almacena los datos en un botn relacional llamado ROLAP los
datos son detallados evitando las agregaciones y las tablas que se encuentran
normalizadas, los esquemas ms comunes son de estrella y copo de nieve aunque es
posible de trabajar sobre cualquier base de datos relacional. La arquitectura de esta se
compone de un servidor de banco de datos relacional y el botn OLAP se encuentra en
el servidor dedicado. La principal ventaja de esta arquitectura es que permite el anlisis
de
Una enorme cantidad de datos.
La arquitectura ROLAP excede a los datos relacionados para proporcionar los anlisis
OLAP. La primicia de los sistemas ROLAP es que las capacidades OLAP se ejecutan
mejor contra las bases de datos relacionales
Utiliza una arquitectura de tres niveles:
Nivel Base De Datos: Usa base de datos relacionales para el manejo, acceso y
obtencin de datos.
Nivel de Aplicacin: Ejecuta las consultas multidimensionales de los usuarios
Motor Rolap: Se integra con niveles de presentacin atreves de los cuales los
usuarios realizan un anlisis OLAP.
http://blog.classora.com/2013/04/30/etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data/http://es.wikipedia.org/wiki/Expresiones_multidimensionaleshttp://es.wikipedia.org/wiki/Expresiones_multidimensionaleshttp://blog.classora.com/2013/04/30/etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data/ -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
5/23
MOLAP Esta almacena los datos de una base de datos multidimensional. Para utilizar los
tiempos de respuesta, hacer resmenes de informacin calculados por adelantado y un
sinfn de operaciones utilizadas de forma multidimensional para proporcionar el anlisis
su principal premisa es que OLAP esta mejor implantado almacenando los datosmultidimensionales.
El sistema MOLAP utiliza una arquitectura de 2 niveles, la base de datos
multidimensional y el motor analtico.
MOLAP VS ROLAP
Cuando se comparan estas dos estructuras se pueden realizar las siguientes:
ROLAP delega la negociacin entre el tiempo de respuesta entre el tiempo de respuesta
y procesa en Bach. Mientras que MOLAP requiere que sus bases de datos se compilen
para conseguir un rendimiento aceptable.
Los sistemas con alta volatilidad de datos requieren de una arquitectura
que pueda realizar esta consideracin.
Los sistemas ROLAP soportan esta consolidacin dinmica mientras que
MOLAP estn orientados a una consolidacin Bach.
Los ROLAP pueden crecer un gran nmero de dimensiones mientras que MOLAPgeneralmente son adecuados para 10 o menos dimensiones.
Los ROLAP soportan anlisis OLAP contra grandes volmenes de datos mientras que
los MOLAP se comportan relacionalmente en volmenes ms reducidos (-5gb).
Existen otros modelos OLAP como son:
WOLAP (basado y orientado para web)DOLAP(Basado en escritorio)RTOLAP (o Real Time, basado en tiempo real)SOLAP (o especial Solap, Basado en OLAP especiales)
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
6/23
BIBLIOGRAFIA:
http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM) .
http://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.html
http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/
http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM)http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM)http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM)http://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.htmlhttp://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.htmlhttp://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.htmlhttp://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap-vs-oltp/http://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.htmlhttp://www.buenastareas.com/ensayos/Base-De-Datos-Multidimensionales/190823.htmlhttp://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM)http://topicos-1.wikispaces.com/1.2+Bases+de+datos+multidimensionales+(BDM) -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
7/23
2.1.1 DATAWAREHOUSETras las dificultades de los sistemas tradicionales en satisfacer las necesidadesinformacionales, surge el concepto de Data Warehouse, como solucin a lasnecesidades informacionales globales de la empresa. Este trmino acuado por BillInmon, se traduce literalmente como Almacn de Datos. No obstante si el Data
Warehouse fuese exclusivamente un almacn de datos, los problemas seguiran siendolos mismos que en los Centros de Informacin.
La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, laestructura de la informacin. Este concepto significa el almacenamiento deinformacin homognea y fiable, en una estructura basada en la consulta y eltratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemasoperacionales. Segn defini Bill Inmon, el Data Warehouse se caracteriza por ser:Integrado, Temtico, Histrico, No voltil
Las diferencias de un Data Warehouse con un sistema tradicional las podramos resumiren el siguiente esquema:
Una de las claves del xito en la construccin de un Data Warehouse es el desarrollo deforma gradual, seleccionando a un departamento usuario como piloto y expandiendoprogresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir
este usuario inicial o piloto, siendo importante que sea un departamento con pocosusuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedaobtener y medir resultados a corto plazo.
La arquitectura general de un DW es la que se muestra en la figura, este diagramamuestra como primera componente dentro de la arquitectura de DW a las fuentes desdelas cuales se extrae la informacin necesaria para poblar la base de datos. Conectada acada una de las fuentes se encuentran los siguientes componentes bsicos de laarquitectura los wrapper o extractos, los cuales extraen y transforman la informacin de
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
8/23
las fuentes. Posteriormente atraves de un integrador dicha informacin se carga a labase de datos, la cual constituye el siguiente componente bsico de la arquitectura.
Modelo multidimensional
Para facilitar el anlisis de los datos, un DW representa los datos que contieneusando modelos multidimensionales. De manera general, un modelo multidimensionalprovee dos conceptos principales: medida y dimensin. Una medida es un valor en unespacio multidimensional definido por dimensiones ortogonales. As el cubo es elconcepto central del modelo de datos multidimensional.
Dentro del modelo multidimensional las medidas o atributos numricos describen un
cierto proceso del mundo real el cual va a ser objeto de un anlisis. Estos atributosdependen de ciertas dimensiones las cuales proveen el contexto a travs del cual van aser interpretadas las medidas. Dichas dimensiones regularmente se encuentran enorden jerrquico. Las medidas pueden ser agregadas a lo largo de las dimensiones locual resulta en un cubo el cual es la base para el uso de las operaciones OLAP.
Bibliografa: http//: www.capitulo2.Datawarehouse.pdf.com
http://www.capitulo2.datawarehouse.pdf.com/http://www.capitulo2.datawarehouse.pdf.com/http://www.capitulo2.datawarehouse.pdf.com/ -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
9/23
2.1.2 DATA MART Un Data mart es una versin especial de almacn de datos (data warehouse).Son subconjuntos de datos con el propsito de ayudar a que un rea especficadentro del negocio pueda tomar mejores decisiones. Los datos existentes en estecontexto pueden ser agrupados, explorados y propagados de mltiples formas
para que diversos grupos de usuarios realicen la explotacin de los mismos de laforma ms conveniente segn sus necesidades.
El Data mart es un sistema orientado a la consulta, en el que se producenprocesos batch de carga de datos (altas) con una frecuencia baja y conocida. Esconsultado mediante herramientas OLAP (On line Analytical Processing -Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de lainformacin. Sobre estas bases de datos se pueden construir EIS (ExecutiveInformation Systems, Sistemas de Informacin para Directivos) y DSS (DecisionSupport Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte,se conoce como Data Mining al proceso no trivial de anlisis de grandescantidades de datos con el objetivo de extraer informacin til, por ejemplo pararealizar clasificaciones o predicciones.
En sntesis, se puede decir que los data Mart son pequeos datawarehouse centrados en un tema o un rea de negocio especfico dentro de unaorganizacin.
Fuente de informacin:
http://es.wikipedia.org/wiki/Data_mart
http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datoshttp://es.wikipedia.org/wiki/OLAPhttp://es.wikipedia.org/wiki/Sistemas_de_informaci%C3%B3n_ejecutivahttp://es.wikipedia.org/wiki/Sistemas_de_soporte_a_decisioneshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Data_marthttp://es.wikipedia.org/wiki/Data_marthttp://es.wikipedia.org/wiki/Data_marthttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Sistemas_de_soporte_a_decisioneshttp://es.wikipedia.org/wiki/Sistemas_de_informaci%C3%B3n_ejecutivahttp://es.wikipedia.org/wiki/OLAPhttp://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
10/23
2.1.3 SISTEMAS OLTPOLTP - On-Line Transactional Processing
Los sistemas OLTP son bases de datos orientadas al procesamiento detransacciones. Una transaccin genera un proceso atmico (que debe servalidado con un commit, o invalidado con un rollback), y que puede involucraroperaciones de insercin, modificacin y borrado de datos. El procesotransaccional es tpico de las bases de datos operacionales.
El acceso a los datos est optimizado para tareas frecuentes de lectura yescritura. (Por ejemplo, la enorme cantidad de transacciones que tienen quesoportar las BD de bancos o hipermercados diariamente).
Los datos se estructuran segn el nivel aplicacin (programa de gestin amedida, ERP o CRM implantado, sistema de informacin departamental...).
Los formatos de los datos no son necesariamente uniformes en los diferentesdepartamentos (es comn la falta de compatibilidad y la existencia de islas dedatos).
El historial de datos suele limitarse a los datos actuales o recientes.
Fuente de informacin:
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
11/23
2.1.4 SISTEMAS OLAPOLAP - On-Line Analytical Processing
Los sistemas OLAP son bases de datos orientadas al procesamiento analtico.Este anlisis suele implicar, generalmente, la lectura de grandes cantidades dedatos para llegar a extraer algn tipo de informacin til: tendencias de ventas,patrones de comportamiento de los consumidores, elaboracin de informescomplejos etc. Este sistema es tpico de los datamarts.
El acceso a los datos suele ser de slo lectura. La accin ms comn es laconsulta, con muy pocas inserciones, actualizaciones o eliminaciones.
Los datos se estructuran segn las reas de negocio, y los formatos de los datosestn integrados de manera uniforme en toda la organizacin.
El historial de datos es a largo plazo, normalmente de dos a cinco aos.
Las bases de datos OLAP se suelen alimentar de informacin procedente de lossistemas operacionales existentes, mediante un proceso de extraccin,transformacin y carga (ETL).
Fuente de informacin:
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx
http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
12/23
2.1.5 OPERACIONES ANALTICAS BSICAS DE SISTEMAS OLAP
Los sistemas OLAP soportan las siguientes operaciones
Consolidacin: este comprende el conjunto de datos. Esto puede involucraracumulaciones simples o agrupaciones complejas que incluyen datos
interrelacionados.
Drill-Down: OLAP puede moverse en la direccin contraria y presentarautomticamente datos detallados que abarcan datos consolidados.
Slicing and Dicing: se refiere a la capacidad de visualizar a la BD desdediferentes puntos de vista. Tambin se la conoce como operacin
de Pivotaje .
Vistas de Datos
La vista de datos como cubos es una extensin de la manera normal en que los
usuarios de negocios interactan con los datos. Por Ejemplo: la mayora de los
usuarios deseara ver cmo se desarrollan las ventas a lo largo del tiempo. Para
ello se necesitara ver varas planillas de clculo.
Debido a su representacin pueden ser tomadas rebanadas de datos de las
mismas, para responder diversas preguntas.
Herramientas de Mineo de Datos
Mineo de datos es el proceso de descubrir nuevas correlaciones significativas,
patrones y tendencias por medio del mineo de grandes cantidades de datos
almacenados en un Datawarehouse o en un data mart, usando tcnicas
estadsticas, reconocimiento de patrones y algoritmos de aprendizaje para
identificar relaciones entre los elementos de datos.
Fuente de informacin:
http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?pagina=datawarehouse
3
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
13/23
2.1.6. VISTA DE DATOS DE LOS SISTEMAS OLAP Las herramientas OLAP proporcionan a las compaas un sistema confiable para
procesar datos que luego sern utilizados para llevar a cabo anlisis e informes que
permitan mejorar las operaciones productivas, tomar decisiones inteligentes y optimizar
la competitividad en el mercado.
Para funcionar, las aplicaciones OLAP utilizan un tipo de base de datos que posee la
peculiaridad de ser multidimensional, denominada comnmente Cubo OLAP.
Bsicamente, el Cubo OLAP, es una base de datos que posee diversas dimensiones,
ampliando las posibilidades que hasta el momento ofrecan las conocidas hojas de
clculo.
Mediante la incorporacin de estos vectores o cubos, se han ampliado las posibilidades
de las bases de datos relacionales, permitiendo el procesamiento de importantesvolmenes de informacin, que de lo contrario sera imposible realizar.
Cada una de las dimensiones que posee la base de datos incorpora un campo
determinado para un tipo de dato especfico, que luego podr ser comparado con la
informacin contenida en el resto de dimensiones, para hacer posible la evaluacin y
posteriores informes de la informacin realmente relevante para una compaa.
Una base de datos multidimensional puede contener varios cubos o vectores que
extendern las posibilidades del sistema OLAP con el cual se trabaja.
Por ello, si bien en general los sistemas OLAP suelen estar compuestos por tres
dimensiones, lo cierto es que existe la posibilidad de que el sistema OLAP albergue ms
de tres dimensiones mediante la utilizacin de estos Cubos OLAP.
Para tener una idea ms simple de la funcin de los Cubos OLAP dentro de una base de
datos multidimensional, cabe destacar que cada una de las dimensiones o escalas del
cubo corresponde bsicamente a una jerarqua de datos.
Caractersticas
En este modelo los datos son vistos como cubos los cuales consisten
en categora descriptivas (dimensiones) y valores cuantitativos (medidas).
http://www.ecured.cu/index.php/Modelo_OSIhttp://www.ecured.cu/index.php?title=Categor%C3%ADa)&action=edit&redlink=1http://www.ecured.cu/index.php?title=Valores_cuantitativos&action=edit&redlink=1http://www.ecured.cu/index.php?title=Valores_cuantitativos&action=edit&redlink=1http://www.ecured.cu/index.php?title=Categor%C3%ADa)&action=edit&redlink=1http://www.ecured.cu/index.php/Modelo_OSI -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
14/23
Es un modelo multidimensional de datos, que simplifica a los usuarios
realizar consultas complejas, arreglar datos en un reporte, cambiar de datos
resumidos a datos detallados, etc.
Los Cubos OLAP son vectores en los cuales se dispone la informacin, y gracias aesta ordenada jerarqua es posible llevar a cabo un anlisis rpido de los datos.
Existen tres tipos de modelos OLAP ellos son:
MOLAP: en estos sistemas se encuentran almacenados los datos en una estructura de
datos multidimensional (OLAP Multidimensional)
ROLAP: son sistemas en los cuales los datos se encuentran almacenados en una base
de datos relacional (OLAP Relacional)
HOLAP: estos sistemas mantienen los registros detallados en la base de datos
relacional, mientras que los datos resumidos o agregados se almacenan en una base de
datos multidimensional separada.
BIBLIOGRAFIA:
http://www.ecured.cu/index.php/Cubos_OLAP
2.1.7 MODELO DE DATOS DE LOS SISTEMAS OLAPLos sistemas OLAP son bases de datos orientadas al procesamiento analtico.
Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de
datos para llegar a extraer algn tipo de informacin til: tendencias de ventas,
patrones de comportamiento de los consumidores, elaboracin de informes
complejos, etc.. Este sistema es tpico de los datamarts. Los sistemas de ayuda
a la toma de decisiones se presentan en varios formatos, incluidos los sistemasOLAP y los sistemas de recopilacin de datos.
En un modelo de datos OLAP, la informacin es vista como cubos, los cuales
consisten de categoras descriptivas (dimensiones) y valores cuantitativos
(medidas). El modelo de datos multidimensional simplifica a los usuarios formular
http://www.ecured.cu/index.php?title=Consulta&action=edit&redlink=1http://www.ecured.cu/index.php/Cubos_OLAPhttp://www.ecured.cu/index.php/Cubos_OLAPhttp://www.ecured.cu/index.php/Cubos_OLAPhttp://www.ecured.cu/index.php?title=Consulta&action=edit&redlink=1 -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
15/23
consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a
datos detallados y filtrar o rebanar los datos en subconjuntos significativos.
Visualizacin de los datos. Las herramientas de procesamiento analtico enlnea (online analytical processing, OLAP) ayudan a los analistas a ver los datos
resumidos de diferentes maneras, de manera que puedan obtener una
perspectiva del funcionamiento de la organizacin
.Se ve a un problema de negocios en trminos de un cierto nmero de
componentes (dimensiones) tales como productos, tiempo, regiones, fabricantes,
o artculos. Los usuarios de negocios desean poder analizar un conjunto de
nmeros usando cualquier par de estos componentes, como as tambin poder
intercambiarlos para lograr distintas vistas.
Implementacin de OLAP.
Los primeros sistemas de OLAP utilizaban arrays de memoria
multidimensionales para almacenar los cubos de datos y se denominaban
sistemas OLAP multidimensionales (Multidimensional OLAP, MOLAP).
Posteriormente, los servicios OLAP se integraron en los sistemas relacionales y
los datos se almacenaron en las bases de datos relacionales. Estos sistemas sedenominan sistemas OLAP relacionales (Relational OLAP, ROLAP). Los
sistemas hbridos, que almacenan algunos resmenes en la memoria y los datos
bsicos y otros resmenes en bases de datos relacionales, se denominan
sistemas OLAP hbridos (Hybrid OLAP, HOLAP).
Fuente de informacin:
http://tallerbd.wikispaces.com/OLAP
http://tallerbd.wikispaces.com/OLAPhttp://tallerbd.wikispaces.com/OLAPhttp://tallerbd.wikispaces.com/OLAP -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
16/23
2.2 SISTEMAS DE GESTIN DEL CONOCIMIETOSe define como herramientas para llevar a cabo la gestin del conocimiento.
La gestin del conocimiento : Es el proceso que continuamente asegura eldesarrollo y la aplicacin de todo tipo de conocimientos pertinentes de unaempresa con objeto de mejorar su capacidad de resolucin de problemas y ascontribuir a la sostenibilidad de sus ventajas competitivas
Estn manifestados en una variedad de implementaciones (por ejemplo):
Repositorios de documentos Bases de datos de experticia Listas de discusin Sistemas de recuperacin especficos del contexto
Objetivos:
EN GENERAL
Apoyar los procesos de creacin, almacenamiento, recuperacin,transferencia y aplicacin del conocimiento.
EN LA ORGANIZACIN
Hacer visible el conocimiento y mostrar a las personas el rol delconocimiento en la organizacin usando herramientas tales comomapas de conocimiento, pginas amarillas e hipertextos.
Desarrollar una cultura intensiva en conocimiento, fomentandoconductas que propicien el compartirlo y sean proactivas a pedirlo yofrecerlo.
Construir una infraestructura de conocimiento. No solo un sistematcnico, sino toda una red de conexiones entre personas, facilitndolesespacio, tiempo y herramientas para que interacten y colaboren.
BIBLIOGRAFIA:
http://es.slideshare.net/difagram/sistemas-de-gestion-del-conocimiento
http://es.slideshare.net/difagram/sistemas-de-gestion-del-conocimientohttp://es.slideshare.net/difagram/sistemas-de-gestion-del-conocimientohttp://es.slideshare.net/difagram/sistemas-de-gestion-del-conocimiento -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
17/23
2.2.1 PREPARACIN DE DATOS
El propsito fundamental de la preparacin de los datos es la manipulacin y
transformacin de los datos sin refinar para que la informacin contenida en el
conjunto de datos pueda ser Descubierta o estar accesible de forma ms fcil.
Los datos reales pueden ser impuros, pueden conducir a la extraccin depatrones/reglas poco tiles.
Esto se puede deber a: Datos Incompletos: falta de valores de atributos,
Datos con Ruido.
Datos inconsistentes (incluyendo discrepancias).
Pre procesamiento de Datos
Importancia de la preparacin de datos
2. La preparacin de datos puede generar un conjunto de
Datos ms pequeo que el original, lo cual puede mejorar la eficiencia delproceso de Minera de Datos.
Esta actuacin incluye:
Seleccin relevante de datos: eliminando registros Duplicados, eliminando anomalas, Reduccin de Datos: Seleccin de caractersticas, Muestreo o seleccin de instancias, desratizacin.
3. La preparacin de datos genera datos de calidad, los cuales pueden conducira patrones/reglas de calidad.
Por ejemplo, se puede:
Recuperar informacin incompleta. Eliminar outliers Resolver conflictos, Datos de baja calidad puede llevar a modelos de minera de datos de baja
calidad. Decisiones de calidad deben ser basadas en datos de calidad.
Fuente de informacin
http://sci2s.ugr.es/docencia/in/pdf/Tema05-PreparacionDeDatos-v2.pdf
http://sci2s.ugr.es/docencia/in/pdf/Tema05-PreparacionDeDatos-v2.pdfhttp://sci2s.ugr.es/docencia/in/pdf/Tema05-PreparacionDeDatos-v2.pdfhttp://sci2s.ugr.es/docencia/in/pdf/Tema05-PreparacionDeDatos-v2.pdf -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
18/23
CUESTIONARIO
1. El propsito fundamental de la preparacin de los datos es?
La manipulacin y transformacin de los datos
2. La preparacin de datos puede generar un conjunto de?
Datos ms pequeo que el original, lo cual puede mejorar la eficiencia del
proceso de Minera de Datos
3. La preparacin de datos genera?
Datos de calidad
4. Los datos de calidad, los cuales pueden conducir a patrones/reglas de
calidad se puede?
Recuperar informacin incompleta.
Eliminar outliers
Resolver conflictos.
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
19/23
1.2.2. MINERA DE DATOS.
El datamining (minera de datos ), es el conjunto de tcnicas y tecnologas que permitenexplorar grandes bases de datos, de manera automtica o semiautomtica, con el
objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto.
Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un
repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos
casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes
neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuarioles atribuye algn significado especial pasan a convertirse en informacin. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que
surge entre la informacin y ese modelo represente un valor agregado, entonces nos
referimos al conocimiento. Vea ms diferencias entre datos, informacin y conocimiento.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el
proceso comn a todos ellos se suele componer de cuatro etapas principales:
Determinacin de los objetivos. Trata de la delimitacin de los objetivos que elcliente desea bajo la orientacin del especialista en data mining.
Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, elenriquecimiento, la reduccin y la transformacin de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data mining.
Determinacin del modelo. Se comienza realizando unos anlisis estadsticosde los datos, y despus se lleva a cabo una visualizacin grfica de los mismos
para tener una primera aproximacin. Segn los objetivos planteados y la tarea
que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes reas de la Inteligencia Artificial.
http://www.sinnexus.com/business_intelligence/piramide_negocio.aspxhttp://www.sinnexus.com/business_intelligence/piramide_negocio.aspx -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
20/23
Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes ylos coteja con los obtenidos por los anlisis estadsticos y de visualizacin
grfica. El cliente determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.
Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:
Comprensin: del negocio y del problema que se quiere resolver.
Determinacin, obtencin y limpieza: de los datos necesarios.
Creacin de modelos matemticos.
Validacin, comunicacin: de los resultados obtenidos.
Integracin: si procede, de los resultados en un sistema transaccional o similar.
La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es muchoms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia
acumulada en proyectos de minera de datos se han ido desarrollando metodologas que
permiten gestionar esta complejidad de una manera ms o menos uniforme.
BIBLIOGRAFIA:
http://www.sinnexus.com/business_intelligence/datamining.aspx
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
http://www.sinnexus.com/business_intelligence/datamining.aspxhttp://www.sinnexus.com/business_intelligence/datamining.aspxhttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://www.sinnexus.com/business_intelligence/datamining.aspx -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
21/23
2.2.3 PATRONES
La tarea de minera de datos real es el anlisis automtico o semi-automtico de
grandes cantidades de datos para extraer patrones interesantes hasta ahoradesconocidos, como los grupos de registros de datos (anlisis cluster), registrospoco usuales (la deteccin de anomalas) y dependencias (minera por reglas deasociacin). Esto generalmente implica el uso de tcnicas de bases de datoscomo los ndices espaciales. Estos patrones pueden entonces ser vistos comouna especie de resumen de los datos de entrada, y pueden ser utilizados en elanlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisispredictivo. Por ejemplo, el paso de minera de datos podra identificar variosgrupos en los datos, que luego pueden ser utilizados para obtener resultadosms precisos de prediccin por un sistema de soporte de decisiones. Ni larecoleccin de datos, preparacin de datos, ni la interpretacin de los resultadosy la informacin son parte de la etapa de minera de datos, pero que pertenecena todo el proceso KDD como pasos adicionales.
Los trminos relacionados con la obtencin de datos, la pesca de datos yespionaje de los datos se refieren a la utilizacin de mtodos de minera de datosa las partes de la muestra de un conjunto de datos de poblacin ms grandesestablecidas que son (o pueden ser) demasiado pequeas para las inferencias
estadsticas fiables que se hizo acerca de la validez de cualquier patrndescubierto. Estos mtodos pueden, sin embargo, ser utilizados en la creacinde nuevas hiptesis que se prueban contra poblaciones de datos ms grandes.
Patrones de fugaUn ejemplo ms habitual es el de la deteccin de patrones de fuga . En muchasindustrias como la banca, las telecomunicaciones, etc. existe un
comprensible inters en detectar cuanto antes aquellos clientes que puedan
estar pensando en rescindir sus contratos para, posiblemente, pasarse a la
competencia. A estos clientes y en funcin de su valor se les podran hacer
ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo
ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los
ms proclives a darse de baja estudiando sus patrones de comportamiento y
-
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
22/23
comparndolos con muestras de clientes que, efectivamente, se dieron de baja
en el pasado.
Fuente de informacin: http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
Cuestionario
1. La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos sirve para extraer?Patrones como los grupos de registro.
2. Estos patrones pueden entonces ser vistos como una especie de?
Resumen de los datos de entrada, y pueden ser utilizados en el anlisisadicional.
3. En qu forma ayuda a la minera de datos en los patrones de fuga? A Determinar qu clientes son los ms proclives a darse de baja
estudiando sus patrones de comportamiento y comparndolos con
muestras de clientes que, efectivamente, se dieron de baja en el pasado.
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos -
8/10/2019 Temas Unidad 2 Inteligencia de Negocios
23/23