sem 3 y 4 - fundamentos dw

19
FUNDAMENTOS DE DATA WAREHOUSE 1. ¿Qué es Data Warehouse? El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos, etc.) y brindar una visión integrada de dicha información, especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización. Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Es un sitio donde se almacena de manera integrada toda la información resultante de la operatoria diaria de la organización. Además, se almacenan datos estratégicos y tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas a obtener información oculta (Data Mining). Esta información incluye movimientos que modifican el estado del negocio, cualquier interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que ayude a comprender la evolución del negocio. Esta tecnología ayuda a la organización a responder preguntas esenciales para la toma de decisiones que le permitan obtener ventajas competitivas y mejorar su posición en el mercado en el que operan. Algunas de las preguntas podrían ser: ¿Cuál es el perfil de mis clientes? ¿Cómo es su comportamiento? ¿Cuál es la rentabilidad que me deja? ¿Cuál es el riesgo que corro con él? ¿Qué servicios y productos utiliza y cómo puedo incrementarlos? Etc.

Upload: edson-nimer-samillan-sanga

Post on 11-Sep-2015

214 views

Category:

Documents


2 download

DESCRIPTION

El Data Warehouse es una tecnología para el manejo de la información construido sobrela base de optimizar el uso y análisis de la misma utilizado por las organizaciones paraadaptarse a los vertiginosos cambios en los mercados

TRANSCRIPT

  • FUNDAMENTOS DE DATA WAREHOUSE1. Qu es Data Warehouse?El Data Warehouse es una tecnologa para el manejo de la informacin construido sobrela base de optimizar el uso y anlisis de la misma utilizado por las organizaciones paraadaptarse a los vertiginosos cambios en los mercados. Su funcin esencial es ser la basede un sistema de informacin gerencial, es decir, debe cumplir el rol de integrador deinformacin proveniente de fuentes funcionalmente distintas (Bases Corporativas, Basespropias, de Sistemas Externos, etc.) y brindar una visin integrada de dicha informacin,especialmente enfocada hacia la toma de decisiones por parte del personal jerrquicode la organizacin.

    Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar ydepurar informacin de una o ms fuentes distintas, para luego procesarla permitiendosu anlisis desde infinidad de perspectivas y con grandes velocidades de respuesta.

    Es un sitio donde se almacena de manera integrada toda la informacin resultante de laoperatoria diaria de la organizacin. Adems, se almacenan datos estratgicos y tcticoscon el objetivo de obtener informacin estratgica y tctica que pueden ser de granayuda para aplicar sobre las mismas tcnicas de anlisis de datos encaminadas a obtenerinformacin oculta (Data Mining). Esta informacin incluye movimientos que modificanel estado del negocio, cualquier interaccin que se tenga con los clientes y proveedores,y cualquier dato adicional que ayude a comprender la evolucin del negocio.

    Esta tecnologa ayuda a la organizacin a responder preguntas esenciales para la tomade decisiones que le permitan obtener ventajas competitivas y mejorar su posicin en elmercado en el que operan. Algunas de las preguntas podran ser:

    Cul es el perfil de mis clientes? Cmo es su comportamiento? Cul es la rentabilidad que me deja? Cul es el riesgo que corro con l? Qu servicios y productos utiliza y cmo puedo incrementarlos? Etc.

  • 2. Caractersticas de un Data Warehouse.

    Integrado. Los datos almacenados en el datawarehouse deben integrarse en unaestructura consistente, por lo que las inconsistencias existentes entre los diversossistemas operacionales deben ser eliminadas. La informacin suele estructurarsetambin en distintos niveles de detalle para adecuarse a las distintas necesidades de losusuarios.

    La integracin de datos se muestra de muchas maneras: en convenciones de nombresconsistentes, en la medida uniforme de variables, en la codificacin de estructurasconsistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros.

    En la siguiente imagen podemos ver cmo se maneja la informacin en distintasaplicaciones y lo que buscamos con la integracin seria escoger de todas un estndar deinformacin para que uniformice los datos y se introduzcan al repositorio

  • Temtico. Slo los datos necesarios para el proceso de generacin del conocimientodel negocio se integran desde el entorno operacional. Los datos se organizan por temaspara facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo,todos los datos sobre clientes pueden ser consolidados en una nica tabla deldatawarehouse. De esta forma, las peticiones de informacin sobre clientes sern msfciles de responder dado que toda la informacin reside en el mismo lugar.

    En la siguiente imagen se muestra cmo se maneja un sistema de informacin orientadaa sus aplicaciones y otra temtica una diferencia importante entre estas est en lainterrelacin de la informacin. Los datos operacionales (aplicaciones) mantienen unarelacin continua entre dos o ms tablas basadas en una regla comercial. Las del datawarehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse(podremos indagar en toda la informacin pasada relacionada entre todas lasaplicaciones).

  • De tiempo variante. El tiempo es parte implcita de la informacin contenida enun datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estadode la actividad del negocio en el momento presente. Por el contrario, la informacinalmacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis detendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que tomauna variable en el tiempo para permitir comparaciones.

    Los datos histricos son de poco uso en el procedimiento operacional. La informacindel depsito por el contrario, debe incluir los datos histricos para usarse en laidentificacin y evaluacin de tendencias.

    1. La ms simple es que la informacin representa los datos sobre un horizonte largode tiempo - desde cinco a diez aos. El horizonte de tiempo representado para elambiente operacional es mucho ms corto - desde valores actuales hasta sesenta anoventa das. Las aplicaciones que tienen un buen rendimiento y estn disponiblespara el procesamiento de transacciones, deben llevar una cantidad mnima de datossi tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionalestienen un corto horizonte de tiempo, debido al diseo de aplicaciones rgidas.

    2. La segunda manera en la que se muestra el tiempo variante en el data warehouseest en la estructura clave. Cada estructura clave en el data warehouse contiene,implcita o explcitamente, un elemento de tiempo como da, semana, mes, etc. Elelemento de tiempo est casi siempre al pie de la clave concatenada, encontrada enel data warehouse. En ocasiones, el elemento de tiempo existir implcitamente,como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

  • 3. La tercera manera en que aparece el tiempo variante es cuando la informacin deldata warehouse, una vez registrada correctamente, no puede ser actualizada. Lainformacin del data warehouse es, para todos los propsitos prcticos, una serielarga de "snapshots" (vistas instantneas). Por supuesto, si los snapshots de losdatos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendoque los snapshots se han tomado adecuadamente, ellos no son alterados una vezhechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshotsen el data warehouse. Los datos operacionales, siendo requeridos a partir delmomento de acceso, pueden actualizarse de acuerdo a la necesidad.

    No Voltil. El almacn de informacin de un datawarehouse existe para ser ledo,pero no modificado. La informacin es por tanto permanente, significando laactualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron lasdistintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

    La informacin es til slo cuando es estable. Los datos operacionales cambian sobreuna base momento a momento. La perspectiva ms grande, esencial la manipulacinbsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dosnicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hayactualizacin de datos (en el sentido general de actualizacin) en el depsito, como unaparte normal de procesamiento.

    Hay algunas consecuencias muy importantes de esta diferencia bsica, entre elprocesamiento operacional y del data warehouse. En el nivel de diseo, la necesidad deser precavido para actualizar las anomalas no es un factor en el data warehouse, ya queno se hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, sepueden tomar libertades para optimizar el acceso a los datos, particularmente al usar lanormalizacin y de normalizacin fsica.

    Como se puede observar en la imagen en la base de datos operacional la actualizacin(actualizar, borrar y modificar) se hace regularmente, mientras en el data warehousesea una sola actualizacin esto hace que cuando tengamos que tomar una decisin conesta informacin tengamos seguridad de esta.

  • 3. Ventajas de un Data WarehouseDatawarehouse proporciona una informacin de gestin accesible, correcta, uniforme yactualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidadante el entorno, un mejor servicio al cliente y permite el rediseo de los procesos. Entrelas ventajas tenemos:

    - Proporciona informacin clave para la toma de decisiones empresariales.- Mejora la calidad de las decisiones tomadas.- Especialmente til para el medio y largo plazo.- Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos

    estn claros.- Muy tiles para el almacenamiento de anlisis y consultas de histricos.- Proporciona un gran poder de procesamiento de informacin.- Permite una mayor flexibilidad y rapidez en el acceso a la informacin.- Facilita la toma de decisiones en los negocios.- Las empresas obtienen un aumento de la productividad.- Proporciona una comunicacin fiable entre todos los departamentos de la empresa.- Mejora las relaciones con los proveedores y los clientes.

  • - Permite conocer qu est pasando en el negocio, es decir, estar siempre enteradode los buenos y malos resultados.

    - Transforma los datos en informacin y la informacin en conocimiento- Permite hacer planes de forma ms efectiva.- Reduce los tiempos de respuesta y los costes de operacin.

    4. Desventajas de un Data WarehouseLas empresas que utilizan data warehouse son fundamentalmente aquellas que manejangrandes volmenes de datos relativos a clientes, compras, marketing, transacciones,operaciones, como lo son las empresas de telecomunicaciones, transporte, Turismo,fabricacin de bienes de consumo masivo etc. Entre las desventajas tenemos:

    - No es muy til para la toma de decisiones en tiempo real debido al largo tiempo deprocesamiento que puede requerir. En cualquier caso la tendencia de los productosactuales (junto con los avances del hardware) es la de solventar este problemaconvirtiendo la desventaja en una ventaja.

    - Requiere de continua limpieza, transformacin e integracin de datos.- Mantenimiento.- En un proceso de implantacin puede encontrarse dificultades ante los diferentes

    objetivos que pretende una organizacin.- Una vez implementado puede ser complicado aadir nuevas fuentes de datos.- Requieren una revisin del modelo de datos, objetos, transacciones y adems del

    almacenamiento.- Tienen un diseo complejo y multidisciplinar.- Requieren una reestructuracin de los sistemas operacionales.- Tienen un alto coste.- Requieren sistemas, aplicaciones y almacenamiento especfico

    5. Estructura de un Data WarehouseEn la estructura de un data warehouse encontraremos 4 niveles de esquematizacin loscuales forman la metadata, estos niveles se diferencian x el nivel de sntesis o depuracionde informacin requerida por la empresa que lo usa y son:

  • Detalle de datos antiguos (histricos). Es aquella que se almacenasobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y sealmacena a un nivel de detalle, consistente con los datos detallados actuales. Mientrasno sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa delgran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizarel disco como medio de almacenamiento.

    Detalle de datos actuales. En gran parte, el inters ms importante radica enel detalle de los datos actuales, debido a que:

    Estos datos reflejan las ocurrencias ms recientes, las cuales son de gran inters Son voluminosos, ya que se almacenan al ms bajo nivel de granularidad (no

    estn procesados). Casi siempre se almacena en disco, al cual se tiene fcil acceso, aunque su

    administracin sea costosa y compleja

    Datos ligeramente resumidos. Es aquella que proviene desde un bajo nivelde detalle encontrado al nivel de detalle actual. Este nivel el data warehouse casi siemprese almacena en disco. Los puntos en los que se basa el diseador para construirlo son:

    Que la unidad de tiempo se encuentre sobre la esquematizacin hecha. Qu contenidos (atributos) tendr la data ligeramente resumida.

    Datos completamente resumidos. El siguiente nivel de datos encontradoen el data warehouse es el de los datos completamente resumidos. Estos datos soncompactos y fcilmente accesibles por lo general son indicadores que son usados conms frecuencia para el anlisis gerencial.

  • Metadata. El componente final del data warehouse es el de la metadata. De muchasmaneras la metadata se sita en una dimensin diferente al de otros datos del datawarehouse, debido a que su contenido no es tomado directamente desde el ambienteoperacional.

    La metadata juega un rol especial y muy importante en el data warehouse y es usadacomo:

    Un directorio para ayudar al analista a ubicar los contenidos del data warehouse. Una gua para el mapping de datos de cmo se transforma, del ambiente

    operacional al de data warehouse. Una gua de los algoritmos usados para la esquematizacin entre el detalle de

    datos actual, con los datos ligeramente resumidos y stos, con los datoscompletamente resumidos, etc.

    La metadata juega un papel mucho ms importante en un ambiente data warehousingque en un operacional clsico.

    A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse,considere el ejemplo mostrado en la Figura.

  • El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos losdetalles de ventas desde 1982 (o cuando el diseador inici la coleccin de losarchivos) son almacenados en el nivel de detalle de datos ms antiguo.

    El detalle actual contiene informacin desde 1992 a 1993 (suponiendo que 1993es el ao actual). En general, el detalle de ventas no se ubica en el nivel dedetalle actual hasta que haya pasado, por lo menos, veinticuatro horas desdeque la informacin de ventas llegue a estar disponible en el ambiente operacional.

    En otras palabras, habra un retraso de tiempo de por lo menos veinticuatrohoras, entre el tiempo en que en el ambiente operacional se haya hecho un nuevoingreso de la venta y el momento cuando la informacin de la venta hayaingresado al data warehouse.

    El detalle de las ventas son resumidas semanalmente por lnea de subproducto ypor regin, para producir un almacenamiento de datos ligeramente resumidos.

    El detalle de ventas semanal es adicionalmente resumido en forma mensual,segn una gama de lneas, para producir los datos completamente resumidos.

    La metadata contiene (al menos):

    La estructura de los datos Los algoritmos usados para la esquematizacin El mapping desde el ambiente operacional al data warehouse

    La informacin adicional que no se esquematiza es almacenada en el data warehouse.En muchas ocasiones, all se har el anlisis y se producir un tipo u otro de resumen.El nico tipo de esquematizacin que se almacena permanentemente en el datawarehouse, es el de los datos que son usados frecuentemente. En otras palabras, si unanalista produce un resumen que tiene una probabilidad muy baja de ser usadonuevamente, entonces la esquematizacin no es almacenada en el data warehouse.

  • 6. Flujo de datos de un Data WarehouseEl DW posee un flujo de datos estndar y generalizado, el cual puede apreciarse mejoren la siguiente figura.

    Cuando la informacin ingresa al depsito de datos se almacena a nivel de Detalle dedatos actuales. Los datos permanecern all hasta que ocurra alguno de los tres eventossiguientes:

    Sean borrados del depsito de datos. Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de

    Datos altamente resumidos. Sean archivados a nivel de Detalle de datos histricos.

    7. Redundancia de un Data WarehouseDebido a que el DW recibe informacin histrica de diferentes fuentes, sencillamente sepodra suponer que existe una repeticin de datos masiva entre el ambiente DW y eloperacional. Por supuesto, este razonamiento es superficial y errneo, de hecho, hayuna mnima redundancia de datos entre ambos ambientes.

    Para entender claramente lo antes expuesto, se debe considerar lo siguiente:

  • Los datos del ambiente operacional se filtran antes de pertenecer al DW. Existenmuchos datos que nunca ingresarn, ya que no conforman informacin necesariao suficientemente relevante para la toma de decisiones.

    El horizonte de tiempo es muy diferente entre los dos ambientes. El almacn de datos contiene un resumen de la informacin que no se encuentra

    en el ambiente operacional. Los datos experimentan una considerable transformacin, antes de ser cargados

    al DW. La mayor parte de los datos se alteran significativamente al serseleccionados, consolidados y movidos al depsito.

    En vista de estos factores, se puede afirmar que, la redundancia encontrada al cotejarlos datos de ambos ambientes es mnima, ya que generalmente resulta en un porcentajemenor del 1%.

    8. Arquitectura de un Data WarehouseEn este punto y teniendo en cuenta que ya se han detallado claramente lascaractersticas generales del Data Warehousing, se definirn y describirn todos loscomponentes que intervienen en su arquitectura o ambiente.

    A travs del siguiente grfico se explicitar la estructura del Data Warehousing:

    Tal y como se puede apreciar, el ambiente est formado por diversos elementos queinteractan entre s y que cumplen una funcin especfica dentro del sistema.

  • Bsicamente, la forma de operar del esquema superior se resume de la siguientemanera:

    Los datos son extrados desde aplicaciones, bases de datos, archivos, etc. Estainformacin generalmente reside en diferentes tipos de sistemas, orgenes yarquitecturas y tienen formatos muy variados.

    Los datos son integrados, transformados y limpiados, para luego ser cargados enel DW.

    Principalmente, la informacin del DW se estructura en cubosmultidimensionales, ya que estos preparan esta informacin para responder aconsultas dinmicas con una buena performance. Pero tambin pueden utilizarseotros tipos de estructuras de datos para representar la informacin del DW, comopor ejemplo Business Models.

    L@s usuari@s acceden a los cubos multidimensionales, Business Models (u otrotipo de estructura de datos) del DW utilizando diversas herramientas de consulta,exploracin, anlisis, reportes, etc.

    9. Data MartUn Datamart es una base de datos departamental, especializada en el almacenamientode los datos de un rea de negocio especfica. Se caracteriza por disponer la estructuraptima de datos para analizar la informacin al detalle desde todas las perspectivasque afecten a los procesos de dicho departamento. Un datamart puede ser alimentadodesde los datos de un datawarehouse, o integrar por si mismo un compendio de distintasfuentes de informacin.

  • Por tanto, para crear el datamart de un rea funcional de la empresa es preciso encontrarla estructura ptima para el anlisis de su informacin, estructura que puede estarmontada sobre una base de datos OLTP, como el propio datawarehouse, o sobre unabase de datos OLAP. La designacin de una u otra depender de los datos, los requisitosy las caractersticas especficas de cada departamento. De esta forma se pueden planteardos tipos de datamarts:

    Datamart OLAP. Se basan en los populares cubos OLAP, que se construyen agregando,segn los requisitos de cada rea o departamento, las dimensiones y los indicadoresnecesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimientode los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice.

    Datamart OLTP. Pueden basarse en un simple extracto del datawarehouse, noobstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y losfiltrados suelen ser las operaciones ms usuales) aprovechando las caractersticasparticulares de cada rea de la empresa. Las estructuras ms comunes en este sentidoson las tablas report, que vienen a ser fact-tables reducidas (que agregan lasdimensiones oportunas), y las vistas materializadas, que se construyen con la mismaestructura que las anteriores, pero con el objetivo de explotar la reescritura de queries(aunque slo es posibles en algunos SGBD avanzados, como Oracle).

    Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentanlas siguientes ventajas:

    Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos

    De acuerdo a las operaciones que se deseen o requieran desarrollar, los datamartspueden adoptar las siguientes arquitecturas:

    Top-Down: primero se define el data warehouse y luego se desarrollan, construyeny cargan los DM a partir del mismo. En la siguiente figura se encuentra detalladaesta arquitectura:

  • Como se puede apreciar, el DW es cargado a travs de procesos ETL y luego estealimenta a los diferentes DM, cada uno de los cuales recibir los datos quecorrespondan al tema o departamento que traten. Esta forma de implementacincuenta con la ventaja de no tener que incurrir en complicadas sincronizaciones dehechos, pero requiere una gran inversin y una gran cantidad de tiempo deconstruccin.

    Bottom-Up: en esta arquitectura, se definen previamente los DM y luego seintegran en un DW centralizado. La siguiente figura presenta esta implementacin.

    Los DM se cargan a travs de procesos ETL, los cuales suministrarn la informacinadecuada a cada uno de ellos. En muchas ocasiones, los DM son implementados sinque exista el DW, ya que tienen sus mismas caractersticas pero con la particularidadde que estn enfocados en un tema especfico. Luego de que hayan sido creados ycargados todos los DM, se proceder a su integracin con el depsito. La ventajaque trae aparejada este modelo es que cada DM se crea y pone en funcionamientoen un corto lapso de tiempo y se puede tener una pequea solucin a un costo notan elevado. Luego que todos los DM estn puestos en marcha, se puede decidir si

  • construir el DW o no. El mayor inconveniente est dado en tener que sincronizar loshechos al momento de la consolidacin en el depsito.

    10. Bases de datos OLAP vs OLTPOLAP - On-Line Analytical Processing. Los sistemas OLAP son bases de datosorientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, lalectura de grandes cantidades de datos para llegar a extraer algn tipo de informacintil: tendencias de ventas, patrones de comportamiento de los consumidores,elaboracin de informes complejos etc. Este sistema es tpico de los datamarts.

    El acceso a los datos suele ser de slo lectura. La accin ms comn es laconsulta, con muy pocas inserciones, actualizaciones o eliminaciones.

    Los datos se estructuran segn las reas de negocio, y los formatos de los datosestn integrados de manera uniforme en toda la organizacin.

    El historial de datos es a largo plazo, normalmente de dos a cinco aos. Las bases de datos OLAP se suelen alimentar de informacin procedente de los

    sistemas operacionales existentes, mediante un proceso de extraccin,transformacin y carga (ETL).

    OLTP - On-Line Transactional Processing. Los sistemas OLTP son bases de datosorientadas al procesamiento de transacciones. Una transaccin genera un procesoatmico (que debe ser validado con un commit, o invalidado con un rollback), y quepuede involucrar operaciones de insercin, modificacin y borrado de datos. El procesotransaccional es tpico de las bases de datos operacionales.

    El acceso a los datos est optimizado para tareas frecuentes de lectura yescritura. (Por ejemplo, la enorme cantidad de transacciones que tienen quesoportar las BD de bancos o hipermercados diariamente).

    Los datos se estructuran segn el nivel aplicacin (programa de gestin amedida, ERP o CRM implantado, sistema de informacin departamental...).

    Los formatos de los datos no son necesariamente uniformes en los diferentesdepartamentos (es comn la falta de compatibilidad y la existencia de islas dedatos).

  • El historial de datos suele limitarse a los datos actuales o recientes.

    OLAP OLTPDefinicin Procesamiento Analtico en Lnea Procesamiento de Transacciones EnLnea

    Objetivos

    - Asistir en el anlisis del negocio- Identificando tendencias,comparando periodos,

    - Gestiones, mercados, ndicesmediante el almacenamiento dedatos.

    - Asistir a aplicaciones especficas.- Mantener integridad de los datos

    Alineacin de datos

    - Estn alineados por dimensin- Los datos son organizados definiendodimensiones del negocio.

    - Se focaliza en el cumplimiento derequerimientos del anlisis delnegocio.

    - Estn alineados por aplicacin.- Se focaliza en el cumplimiento derequerimientos de una aplicacinespecial o una tarea especfica.

    Integracin de datos

    - Los datos deben ser integrados.- Son conocidos como datos derivadoso DSS, dado que provienen desistemas transaccionales y sistemasde archivos maestros.

    - Los datos no estn integrados.- Son calificados como datosprimitivos, operacionales.

    - Son estructuradosindependientemente uno deotros.

    - Son almacenados en diferentesformatos de archivos.

    - Pueden residir en diferentesplataformas de hardware oRDBMS.

    Historia

    Almacenan tanta historia como seanecesario para el anlisis del negocio,son guardados por 2 a 5 aos, retienenvalores para cada periodo en la Base deDatos.

    Retienen datos para 60 o 90 dasdespus son resguardados poradministradores de B.D enalmacenamientos secundarios.

    Acceso ymanipulacin de

    datos

    - Tienen una carga y acceso masivo dedatos, la carga y refresco es batch(bulk copy).

    - La validacin de datos se realizaantes o despus de la carga, serealizan sentencias de Select sobrevarios registros y tablas.

    - Realizan manipulacin de datosregistro por registro con inserts,updates y deletes.

    - Necesitan rutinas de validacin ytransacciones a nivel de registro.

    Patrones de Uso- Patrn de uso liviano con picos deuso eventuales en el tiempo.

    - Los picos de uso suceden diario osemanal

    - Patrn de uso constante- Requiere grandes cantidades derecursos consumiendo solo eltiempo referido a la transaccin.

    Perfil de UsuarioEl perfil de usuario corresponde a lacomunidad gerencial para la toma dedecisiones.

    El perfil de usuario corresponde alos que interactan con dichossistemas, puesto que es lacomunidad operativa.

  • 11. Fundamentos de Data MiningEl datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permitenexplorar grandes bases de datos, de manera automtica o semiautomtica, con elobjetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen elcomportamiento de los datos en un determinado contexto.

    Bsicamente, el datamining surge para intentar ayudar a comprender el contenido deun repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunoscasos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redesneuronales.

    De forma general, los datos son la materia prima bruta. En el momento que el usuarioles atribuye algn significado especial pasan a convertirse en informacin. Cuando losespecialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surgeentre la informacin y ese modelo represente un valor agregado, entonces nos referimosal conocimiento.

    Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior,el proceso comn a todos ellos se suele componer de cuatro etapas principales:

  • Determinacin de los objetivos. Trata de la delimitacin de los objetivos queel cliente desea bajo la orientacin del especialista en data mining.

    Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, elenriquecimiento, la reduccin y la transformacin de las bases de datos. Estaetapa consume generalmente alrededor del setenta por ciento del tiempo totalde un proyecto de data mining.

    Determinacin del modelo. Se comienza realizando unos anlisis estadsticosde los datos, y despus se lleva a cabo una visualizacin grfica de los mismospara tener una primera aproximacin. Segn los objetivos planteados y la tareaque debe llevarse a cabo, pueden utilizarse algoritmos desarrollados endiferentes reas de la Inteligencia Artificial.

    Anlisis de los resultados. Verifica si los resultados obtenidos son coherentesy los coteja con los obtenidos por los anlisis estadsticos y de visualizacingrfica. El cliente determina si son novedosos y si le aportan un nuevoconocimiento que le permita considerar sus decisiones.

    Carga de trabajo en las fases de un proyecto de datamining

    En resumen, el datamining se presenta como una tecnologa emergente, con variasventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y laspersonas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa yabre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con estatecnologa implica cuidar un sinnmero de detalles debido a que el producto finalinvolucra "toma de decisiones".