aplicaciones difusas: limpieza de datos, resolución de entidades, integración de datos y...

31
Aplicaciones Difusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información Autor(es ): Mtr. Luis Fernando Aguas

Upload: luis-fernando-aguas-bucheli

Post on 10-Jan-2017

103 views

Category:

Engineering


2 download

TRANSCRIPT

Page 1: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Aplicaciones Difusas:Limpieza de datos,

resolución de entidades, integración de datos y

extracción de información

Autor(es):

• Mtr. Luis Fernando Aguas

Page 2: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Perspectiva histórica de los Sistemas de Información

Primeros sistemas de información basados en aplicaciones.Generan ficheros específicos y/o utilizan bases de datos normalmente heterogéneas entre ellas donde almacenan la información.

Diseño marcado por las necesidades puntuales del día a día de diferentes departamentos del negocio.La integración entre aplicaciones no era un objetivo.Aunque la tecnología ha mejorado, perdura la falta de integración, consistencia, coherencia (limitaciones) , sin embargo la demanda de información crece.Problema: Las aplicaciones siguen profundamente marcadas por las primeras consideraciones que dirigieron su desarrollo.La arquitectura sobre la que se construyeron estas aplicaciones (OLTP) no es válida para soportar las necesidades de los sistemas de información de gestión actuales.En estos sistemas la arquitectura de los datos nunca fue un objetivo del negocio.

Page 3: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Nacimiento del conceptoData Warehouse

La complejidad y dinamismo de la “economía digital” han situado en un lugar predominante a los gestores, desvelando las dificultades de acceso a la información de la empresa.La calidad y disponibilidad de la información se convierte en un objetivo primordial del negocio.Se apunta como primera solución crear una gran base de datos virtual para integrar los datos de las aplicaciones existentes, una vez que hayan sido depurados y reconciliadas sus disparidades. Esto posibilitará que los datos sean utilizados para la gestión.La solución pasa por separar el procesamiento en dos grandes categorías

Proceso Operacional (OLTP).Procesamiento para el sistema de soporte de decisiones (OLAP/DSS/DM).

Como consecuencia de lo anterior aparece el concepto de

Page 4: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Definición Data Warehouse

Data Warehousing / Data Warehouse / DW(Almacenes de datos)

“El Data Warehouse es un componente de la arquitectura de sistemas, temático, integrado, no volátil y dependiente del tiempo diseñado para ayudar en la toma de decisiones.”[W. H. Inmon (considerado el padre del concepto DW) – 1992]

“Conjunto de tecnologías de soporte a la toma de decisión, cuyo objeto es que quien trabaja con los conocimientos (ejecutivo, director, analista) pueda tomar decisiones de manera más rápida y eficaz.”[Chaudhuri y Dayal – 1997]

Page 5: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Pero…, ¿Qué es un Data Warehouse?

El DW es un conjunto de tecnologías, NO UN PRODUCTO. Debe construirse, paso a paso.Es una arquitectura que debe construirse de acuerdo a las necesidades y entorno específico del cliente, y debe construirse de manera ITERATIVA, para consolidar y administrar datos de varias fuentes con el propósito de conseguir en un período de tiempo aceptable y gracias a las nuevas capacidades de procesamiento y técnicas analíticas:

Responder preguntas de negocio (OLAP - Análisis de datos)Ayudar en la toma de decisiones (DSS – EIS)Descubrir conocimiento (Data Mining - Minería de datos)

El Data Warehouse es una arquitectura bien definida cuyo objetivo inicial es satisfacer la demanda de los gestores de obtener una visión integrada de la empresa y su entorno.

Page 6: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Terminología y definicionesOLAP (On-Line Analytical Processing o procesamiento analítico on-line)

Se define como análisis rápido de información multidimensional compartida.[Richard Creeth, Nigel Pendse]Herramientas OLAP (para análisis de datos en DW):

Frontales para el acceso a los datos del DW (o bases de datos multidimensionales también denominadas OLAP) basados en el modelo de datos multidimensional.

DSS (Decision-Support Systems o sistemas de soporte a la toma de decisiones)EIS (Executive Information Systems o sistemas de información ejecutiva)

Hacen alusión a las herramientas para obtener datos de nivel superior del DW para la toma de decisiones.Herramientas DSS / EIS:

Objetivo: apoyar la toma de decisiones mediante la aplicación de modelos matemáticos y estadísticos, o de conocimiento específico a un problema particular.Son un sistema integrado de planificación y tratamiento de la información que incorpora la habilidad de consultar los datos del DW en una forma determinada, analizar la información obtenida y predecir, en base a unos determinados modelos, el impacto de las futuras decisiones antes de llevarlas a la práctica.

DM (Data Mining o minería de datos)Se emplea como parte del proceso de descubrir conocimiento:

Reglas de asociación, Patrones secuenciales, Árboles de clasificación.Objetivos:

Predicción, Identificación, Clasificación, Optimización.

Page 7: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Terminología y definiciones

BI (Business Intelligence)Considerado como una Tecnología de InformaciónDescribe un conjunto de conceptos y métodos diseñados para mejorar la toma de decisiones en los negocios a través del uso de sistemas basados en hechos. Los sistemas basados en hechos abarcan:

Sistemas de información ejecutiva - EIS (Executive Information Systems)Sistemas de soporte a la toma de decisiones - DSS (Decision-Support Systems)Procesamiento analítico on-line - OLAP (On-Line Analytical Processing)Minería de datos - DM (Data Mining)Herramientas de visualización de datos – Data VisualizationSistemas de información Geográfica - Geoghaphic Information Systems

[Howard Dresner]

Es el conjunto de tecnologías que permiten a las empresas utilizar la información disponible en cualquier parte de la organización para hacer mejores análisis, descubrir nuevas oportunidades y tomar mejores decisiones estratégicas.

Page 8: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Terminología y definiciones

Metadata en un Data WarehouseMetadata es la información sobre los datos que se introducen, transforman y existen en el DW. (Datos acerca de los datos)

Metadata normalmente incluye los siguientes elementos:Las estructuras de datos.Las definiciones del sistema de registro desde el cual se construye el DW.Las especificaciones de transformaciones de datos que deben realizarse para la carga de nuevos datos en el DW desde las fuentes de datos.El modelo de datos del DW.Información de cuando los nuevos elementos de datos se agregan al DW y cuando los elementos de datos antiguos se eliminan o se resumen. Los niveles de sumarización, el método de sumarización y las tablas de registros de el DW.

Page 9: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Sistemas operacionales (OLTP) vsSistemas analíticos (OLAP, DSS, DM)

Sistema Operacional (BD tradicional) Sistema Analítico (DW o almacén de datos)

Almacena datos actuales Almacena datos históricos(datos tienen clave de tiempo)

Almacena datos de detalle Almacena datos de detalle y datos agregados a distintos niveles

Los datos son dinámicos (actualizables) Los datos son principalmente estáticos Las actualizaciones no suelen estar

programadas Las actualizaciones son escasas y

programadas, incremental a intervalos regulares

Los procesos (transacciones) son repetitivos

Los procesos no son previsibles

Dedicado al procesamiento de transacciones

Dedicado al análisis de datos

Orientado a los procesos operativos Orientado a la obtención de información Soporta decisiones diarias (corto plazo) Soporta decisiones estratégicas

(medio y largo plazo) Sirve a muchos usuarios Sirve a técnicos de dirección pocos

usuarios* Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Modelo de datos relacional

(normalmente) Modelo de datos multidimensional

Page 10: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Base de Datos operativa vsData Warehouse

Una base de datos operativa:Almacena la información de un sector del negocio.Se actualiza a medida que llegan datos que deban ser almacenados.Se opera mediante los cuatro mecanismos clásicos “añadir-eliminar-modificar-consulta”.Normalmente se orienta hacia la elaboración de informes periódicos.Suele manejar “pequeños” volúmenes de datos.Entorno optimizado para muchas transacciones (con gran cantidad de actualizaciones).Sirve de infraestructura al día a día de las funciones de explotación de una empresa.

Un Data Warehouse:Almacena información integrada de los distintos sectores del negocio.Su actualización se realiza a intervalos regulares (típicamente una al día) dentro de un proceso controlado, y tras realizar un preprocesado de los datos que se van a almacenar.Su orientación es hacia la consulta del estado del negocio y obtención de información para ayuda en la toma de decisiones estratégicas.Se ofrece información bajo demanda (análisis mediante el uso de herramientas de generación de informes que consultan el data warehouse).Refleja el modelo de negocio, frente al modelo de proceso.

Page 11: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Características de un Data Warehouse

Un DW es normalmente un almacén de datos integrados proveniente de fuentes diversas (datos de “una” empresa o negocio):

Datos externos de ficheros generados por aplicaciones ad hoc.Administración, Contabilidad, Facturación…

Datos provenientes de diferentes sistemas de BDs transaccionales (datos operacionales), que normalmente son heterogéneas.Datos generados por las herramientas de análisis y de obtención de información y conocimiento a partir de los datos originales del DW.

Los datos almacenados en el DW mantienen series de tiempo y de tendencia.

Mayor cantidad de datos históricos que los contenidos normalmente por las BDs transaccionales.

Page 12: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Características de un Data Warehouse

Abarcan gran cantidad de datos (suelen ser del orden de Terabytes).

Tienen un orden de magnitud (a veces dos) superior al de las bases de datos fuente.El volumen de datos es tratado por medio de:

Almacenes de datos en grandes empresasSon proyectos de gran tamaño que requieren una enorme inversión de tiempo y recursos.*Almacenes de datos virtualesProporcionan vistas de bases de datos operacionales que se materializan para un acceso eficiente.Data marts (mercadillos de datos)Tienen generalmente como objetivo un subconjunto de la organización de la empresa (por ejemplo un departamento).

La tarea más difícil y que más tiempo consume en la construcción de un DW es extraer, transformar y cargar los datos en él.

Page 13: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Proceso de Extracción, Transformación y Carga (ETL) de datos en el DW

DW

Extraccióny Limpiado

Transformación

Fuentes de Datos

Bases de datos

Ficheros

DatosPreprocesados

DataWarehouse

OLAP

DSS

DM

Carga

Page 14: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos Relacional

Ejemplo de Modelo Relacional Entidad-Relación (ER) de una empresa

Page 15: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelo de datos para DW:El modelo de datos Relacional (KO)

Situación que se presenta para trabajar en análisis de datos en el modelo ER:

Legibilidad limitada.Los usuarios finales no son capaces de entender el modelo ER (normalmente no son informáticos). Evidentemente, por tanto, no pueden "navegar" por dicho modelo en busca de información.Dificultad para las herramientas de consulta en el acceso a un modelo ER general.A menudo presentan prestaciones mediocres o inaceptables cuando se trabaja en entornos de grandes volúmenes de información (problemas de optimización de consultas)La utilización de la técnica de modelado ER frustra la recuperación de información intuitiva y con alto rendimiento (característica deseable de un Data Warehouse).

Modelo de datos no apropiado para Almacenes de datos (DW)

Page 16: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos multidimensional

Características del Modelo Dimensional (o Multidimensional)

Un modelo dimensional está compuesto de:Una tabla con una clave primaria compuesta, denominada tabla de hechos y un conjunto de tablas más pequeñas denominadas tablas de dimensiones.Cada una de las tablas de dimensión tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos.La tabla de hechos, debido a su clave primaria compuesta de dos o más claves ajenas, siempre expresa una relación 'n' a 'n'. Las tablas de hechos, además de sus campos clave, contienen una o más medidas numéricas o "hechos", que se "dan" para la combinación de las claves que definen cada registro.

Page 17: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos multidimensional

Características del Modelo Dimensional (o Multidimensional)Tiene estructura que asemeja una estrella (o un copo de nieve):

Una gran tabla central o tabla de hechos está conectada con un conjunto de tablas (una por dimensión) dispuestas de manera radial alrededor de esta tabla central. Recibe a menudo el nombre de "star join" o modelado en estrella.

El modelado en estrella es altamente desnormalizado. Con ello se logra minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas

Una variante del modelo en estrella es el modelo en copo de nieve o snowflake. En este modelado se normalizan las dimensiones (más de una tabla por dimensión) creando así jerarquías en las mismas y conservando lo esencial del modelo en estrella: las tablas de hechos

Permite el empleo de diferentes bases de datos:Denominado ROLAP, cuando se aplica el modelo dimensional a una base de datos relacional.Denominado MOLAP, cuando se aplica el modelo dimensional sobre base de datos dimensional.

Page 18: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos multidimensional

Ejemplo de Modelo Dimensional (o Multidimensional)

Page 19: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos multidimensional

Visualización del Modelo Dimensional mediante representación en cubo

Page 20: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelado de datos:El modelo de datos multidimensional

Las herramientas OLAP permiten navegar a través de los datos almacenados en un modelo de datos dimensional para analizarlos dinámicamente desde una perspectiva multidimensional, es decir, considerando unas variables en relación con otras y no de forma independiente entre sí, permitiendo enfocar el análisis desde distintos puntos de vista (por ejemplo se podría rotar el cubo de datos anterior para mostrar las ventas por producto a modo de filas). Esta visión multidimensional de los datos puede visualizarse como un “cubo de Rubik”, que puede girarse para examinarlo desde distintos puntos de vista, y del que se pueden seleccionar distintas “rodajas” o “cubos” dependiendo de los aspectos de interés para el análisis.

Page 21: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelo de datos para DW:El modelo de datos multidimensional

Situación que se presenta para trabajar en análisis de los datos en el modelo Dimensional

El modelo de datos es intuitivo.Es el mismo que manejan habitualmente los usuarios finales: Ejecutivos, Directivos y Analistas.

Permite a las herramientas OLAP analizar los datos desde una perspectiva multidimensional (una tabla de hechos puede verse desde la perspectiva de varias tablas de dimensiones – técnica denominada pivotación o rotación).Permite crear fácilmente representaciones jerárquicas:

Exploración ascendente (roll-up)Desplaza la jerarquía hacia arriba agrupando en unidades mayores (de grano más grueso) a través de una dimensión (por ejemplo, resumiendo los datos semanales en trimestrales o anuales)

Exploración descendente (drill-down)Se da una visión más concreta (de grano más fino), por ejemplo, disgregar las ventas por provincias en ciudades, y clasificar los productos por tipos o categorías.

Page 22: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Modelo de datos para DW:El modelo de datos multidimensional

Situación que se presenta para trabajar en análisis de los datos en el modelo Dimensional

Las ampliaciones del modelo son sencillas y transparentes para las aplicaciones y consultas que ya trabajan con el modelo:

Añadir nuevos atributos a la tabla de hechosAñadir nuevas tablas de dimensiones

Existe un número creciente de utilidades administrativas y aplicaciones que gestionan y utilizan los agregados (dependientes del modelo dimensional).

Los agregados son resúmenes de registros (redundantes con la información ya existente en el DW) y son empleados para mejorar el rendimiento de las consultas.

Page 23: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Pasos para el desarrollo de un DW

Identificar los requerimientos de usuario y delimitar el ámbito del proyecto.Desarrollar el modelo de datos lógico del DW (modelo de datos dimensional).Implementar la arquitectura (seleccionar tecnologías, hardware y software) que constituirá la infraestructura del DW.Implementar físicamente el modelo lógico de datos crear la base de datos.Identificar las fuentes de datos -sistemas operacionales y/o externos- del DW.Describir los procesos de conversión necesarios para la incorporación de los datos origen al DW.

Page 24: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Pasos para el desarrollo de un DW

Documentar el metadata del DW.Seleccionar y/o desarrollar los programas de extracción, limpieza, conversión e integración de los datos fuente.Cargar la base de datos del DW con los programas anteriores.Verificar con el usuario final la calidad de los datos, disponibilidad y rendimiento.El siguiente paso “debería” ser reconstruir de forma incremental (iteraciones), las entradas al sistema de procesamiento para establecer un entorno bien definido que permita las cargas automáticas de datos, y a lo largo del tiempo, eliminar completamente todas las aplicaciones viejas, desintegradas y con problemas de mantenimiento.

Page 25: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Software en un Data WarehouseBases de datos usadas para data warehouse

PRODUCTO (EMPRESA DISTRIBUIDORA)Adabas D (Software AG)Advanced Pick (Pick Systems)DB2 (IBM)Fast-Count DBMS (MegaPlex Software)HOPS (HOPS International)Microsoft SQL Server (Microsoft)Model 204 (Computer Corporation of America)NonStop SQL (Tandem)Nucleus Server (Sand Technology Systems)OnLine Dynamic Server (Informix)Extended Parallel Server (Informix)OpenIngres (Computer Associates)Oracle Server (Oracle)Rdb (Oracle)

Red Brick Warehouse (Red Brick Systems)SAS System (SAS)Sybase IQ (Sybase)Sybase SQL Server, SQL Server MPP (Sybase)SymfoWARE (Fujitsu)Teradata DBS (NCR)THOR (Hitachi)Time Machine (Data Management Technologies, Inc.)Titanium (Micro Data Base Systems, Inc.)Unidata,Unidata (Inc.)UniVerse (VMARK)Vision (Innovative Systems Techniques, Inc.)WX9000 (White Cross Systems, Inc.)XDB Server (XDB Systems, Inc.)

Datos de Software obtenidos del manual para la construcción de un Data Warehouse referenciado en la bibliografía.

Page 26: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Software en un Data WarehouseHerramientas de consulta y reporte

PRODUCTO (EMPRESA DISTRIBUIDORA)Access (Microsoft)Access+ (Sonetics)Actuate Reporting System (Actuate Software Corporation)AMIS Information Server (Hoskyns Group plc)Application System (IBM)Approach (Lotus Corporation)ARPEGGIO (Wall Data Inc.)APTuser (International Software Group)AS/Access for Microsoft Access (Martin Spencer & Associates)ASK Joe (Information Management Services)aXcess/400 (Glenbrook Software)BrioQuery (Brio Technology)Business Objects (Business Objects, Inc.)Crystal Reports, Crystal Info (Seagate Software)d.b. Express (Computer Concepts Corp.)Databoard, Dataread (SLP Infoware)DataDirect Explorer (Intersolv)DataSite (NetScheme Solutions, Inc.)DB Publisher (Xense Technology Inc.)DbPower (Db-Tech Inc.)Decision Analyzer (Decisión Technology)DECquery, DECdecision (Touch Technologies, Inc.)Discoverer, Discoverer/2000 (Oracle Corporation)DS Server, DS Modeler (Interweave)EasyReporter (Speedware Corporation)Eclipse Query/Report (Cornut Informatique)ELF (ELF Software)English Wizard (English Wizard)EnQuiry (Progress Software)Esperant (Speedware)FOCUS Six (Information Builders, Inc.)

4S-Report (Four Seasons Software, Inc)Freequery (Dimension Software Systems)Front & Center for Reporting, Nomad (Thomson Software Products)GQL (Andyne)HarborLight (Harbor Software)HP Information Access (Hewlett-Packard)Impress, SqlBuddy (Objective Technologies, Inc.)Impromptu (Cognos Corporation)InfoAssistant (Asymetrix)InfoMaker (Powersoft Corporation)InfoQuery (Platinum Technology, Inc.)InfoReports (Platinum Technology, Inc.)InformEnt Warehouse Desktop (Fiserv)Internet DataSpot (DTL Data Technologies Ltd.)inSight (Williams & Partner)Interactive Query (New Generation software)IQ/Objects, IQ/SmartServer (IQ Software Corporation)Iridon Panorama (The Great Elk Company Limited)Kinetix (Hilco Technologies)LANSA/Client (LANSA USA)MARKIS/400 (AS Software)Nirvana (Synergy Technologies)OR-REPORTER II (Output Reporting, Inc.)Oracle Reports, Browser (Oracle Corporation)Paradox (Borland)Platinum Report Facility (Platinum Technology, Inc)ProBit (System Builder)Productivity Series Reports (michaels, ross & cole)QBE Vision (Sysdeco)QMF (IBM)QueryObject (Cross/Z International, Inc.)Quest (Centura Software Corporation)R&R Report Writer (Concentric Data Systems)

Report Writer (Raima)Reportoire (Synergistic Systems, Inc.)Reports (Nine to Five software Co.)ReporTool (Zen Software)ReportSmith (Borland)Rocket Shuttle (Rocket Software, Inc.)Safari ReportWriter (Interactive Software Systems)Sagent Data Mart Solution (Sagent Technology, Inc.)SAS System (SAS Institute)Second Wind (Anju Technologies)Select! (Attachmate)SEQUEL (Advanced Systems Concepts)Snow Report Writer (Snow International Corporation)Spectrum Writer (Pacific Systems Group)SQLPRO Agent (Beacon Ware, Inc.)SQR Workbench (MITI)Strategy (ShowCase Corporation)The Reporter (Sea Change Systems, Inc)Unique XTRA (Unique AS)URSA InfoSuite (Decision Support Inc.)ViewPoint (Informix)Viper (Brann Software)VisPro/Reports (Hock Ware)Visual Cyberquery (Cyberscience Corporation)Visual Dbase (Borland)Visual Express (Computer Associates International)Visual FoxPro (Microsoft Corporation)Visual Net (CNet Svenska AB)Visualizer Query, Charts (IBM)Voyant (Brossco Systems)WebBiz (Cybercom Partners)WebSeQueL (InfoSpace Inc.)WinQL (Data Access Corporation)Xentis (GrayMatter Software Corporation)

Page 27: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Software en un Data WarehouseHerramientas de base de datos multidimensional/olap

PRODUCTO, EMPRESA DISTRIBUIDORA, TIPOAcuity ES, Acuity Management Systems Ltd., MDDBAcumate ES, Kenan Systems Corporation, MDDBAdvance For Windows, Lighten, Inc., MDDBAMIS OLAP Server, Hoskyns Group plc, MDDBBrioQuery, Brio Technology, MDDBBusiness Objects, Business Objects, Inc., Relacional Commander OLAP, Decision, Prism, Comshare Inc., MDDBControl, KCI Computing, Relacional CrossTarget, Dimensional Insight, MDDBCube-It, FICS Group, MDDBDataman, SLP Infoware, MDDBDataTracker, Silvon Software, Inc., Relacional DecisionSuite, Information Advantage, Inc., Relacional Delta Solutions, MIS AG, MDDBDemon for Windows, Data Command Limited, MDDBDSS Agent, MicroStrategy, Relacional DynamicCube.OCX, Data Dynamics, Ltd., Relacional EKS/Empower, Metapraxis, Inc., MDDBEssbase Analysis Server, Arbor Software Corporation, MDDBEssbase/400, ShowCase Corporation, MDDBExpress Server, Objects, Oracle, MDDBFiscal, Lingo Computer Design, Inc., Relacional

Fusion, Information Builders, Inc., MDDBFYI Planner, Think Systems, MDDBGentia, Planning Sciences, MDDBHelm, Codeworks, MDDBHolos, Holistic Systems, MDDBHyperion OLAP, Hyperion Software, MDDBInfoBeacon, Platinum technology, Inc., Relacional Informer, Reportech, MDDB/Relacional Intelligent Decision Server, IBM, Relacional IQ/Vision, IQ Software Corporation, Relacional Khalix, Longview Solutions, Inc., Relacional Lightship, Pilot Software, Inc., MDDBMatryx, Stone, Timber, River, MDDBMDDB Server, SAS, Relacional Media, Speedware Corporation, MDDBMetacube, Informix, Relacional MIKSolution, MIK, MDDBMIT/400, SAMAC, Inc, MDDBMSM, Micronetics Design Corporation, MDDBMuse, OCCAM Research Corp., MDDBOLAP Office, Graphitti Software GmbH, MDDBOpenOLAP, Inphase Software Limited, Relacional Pablo, Andyne, MDDB/Relacional

MDDB: Multidimensional Data Base.

Page 28: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Software en un Data WarehouseSistemas de información ejecutivos

PRODUCTO, EMPRESA DISTRIBUIDORA, TIPOAcuity/ES, Acuity Management Systems Limited, 1Applixware, Applix, 1BusinessMetrics, Valstar Systems Ltd., 1BOARD, Pragma Inform, 1COINS, Russell Consulting Limited, 1ColumbusEIS, Jitcons YO, 1Commander EIS, Comshare Inc., 1Corporate Management/ Financial Executive Information System, Strategic Information Associates, Inc., 1CorVu, CorVu Pty Ltd., 1Decision Suite, Softkit, 1Discovery EIS, Atlantic Information Systems Ltd., 1EIS, Inphase Software Limited, 1Electronic Balanced Scorecard, ASI Financial Services, 1Enterprise Periscope, Everyware Development Corp., 1Eureka, European Management Systems, 1ExecuSense, TLG Corporation, 1FOCUS EIS, Information Builders, Inc., 1Forest & Trees, Platinum Technologies, Inc., 1iMonitor, BayStone Software, 1InfoManager, Ferguson Information Systems, 1Iridon Almanac, The Great Elk Company Limited, 1

InSight, Arcplan Information Services, 2LEADER, Sterling Strategic Solutions, 1MagnaFORUM, Forum Systems, Inc., 1Merit, GIST, s.r.o., 1Open EIS Pak, Microsoft, 1Panorama Business Views, Panorama Business Views Inc., 1Perspectives, Syntell, 1Qbit, Zenia Software, Inc., 1Reveal, CSD Software Inc., 1SAS System, SAS Institute, 1Show Business EIS, Show Business Software, 1Tiler EIS++, Avoca Systems Limited, 1Track, Track Business Solutions, 1Traffic Control EIS, Research & Planning, Inc., 3VentoMap, VentoSales, Vento Software Inc., 1Virtual Headquarters Management System, vHQ LLC, 1Visual EIS, Synergistic Software, 1Visual Publisher, KMA Associates International, Inc, 1VITAL, Braintec Corporation, 1Wingz, Investment Intelligence Systems Group, 1Wired for OLAP, AppSource Corporation, 1Xecutive Pulse EIS, Megatrend Systems, Ltd., 1

TIPO1.- Proporciona un sistema de información ejecutivo con capacidades analíticas. 2.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/3. 3.- Proporciona un sistema de información ejecutivo con capacidades analíticas para usuarios SAP R/2 y R/3.

Page 29: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Data Mining (DM)Minería de datosIntroducción

La idea clave es que los datos contienen más información oculta de la que se ve a simple vista.KDD (Knowlegde Discovery in Databases): descubrimiento de conocimiento en bases de datos

KDD = proceso completo:“extracción no trivial de conocimiento implícito, previamente desconocido y potencialmente útil, a partir de una base de datos”[Frawley et al., 1991]DM = etapa de descubrimiento en el proceso de KDD:“paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados”[Fayyad et al., 1996]

Page 30: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Data Mining (DM)Minería de datosAplicaciones

Informática:Soporte al Diseño de Bases de Datos.Reverse Engineering (nomalizar bases de datos desnormalizadas).Mejora de Calidad de Datos.Mejora de Consultas (si se descubren dependencias funcionales)

Comercio/Marketing:Identificar patrones de compra de los clientes.Buscar asociaciones entre clientes y características demográficas.Predecir respuesta a campañas de marketing.Análisis de cestas de la compra.

Banca:Detectar patrones de uso fraudulento de tarjetas de crédito.Identificar clientes leales.Predecir clientes con probabilidad de cambiar su afiliación.Determinar gasto en tarjeta de crédito por grupos.Encontrar correlaciones entre indicadores financieros.Identificar reglas de mercado de valores a partir de históricos.

Page 31: Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración de datos y extracción de información

Data Mining (DM)Minería de datosAplicaciones

Seguros y Salud Privada:Análisis de procedimientos médicos solicitados conjuntamente.Predecir qué clientes compran nuevas pólizas.Identificar patrones de comportamiento para clientes con riesgo.Identificar comportamiento fraudulento.

Transportes: Determinar la planificación de la distribución entre tiendas.Analizar patrones de carga.

Medicina:Identificación de terapias médicas satisfactorias para diferentes enfermedades.Asociación de síntomas y clasificación diferencial de patologías.Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en distintas patologías.Segmentación de pacientes para una atención más inteligente según su grupo.Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones.Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc.