olap

33
MINERÍA DE DATOS Dra. María Josefa Somodevilla García [email protected] Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de

Upload: mayela-miranda

Post on 07-Dec-2015

213 views

Category:

Documents


0 download

DESCRIPTION

sistemas para la toma de decisiones, olap

TRANSCRIPT

MINERÍA DE DATOS

Dra. María Josefa Somodevilla Garcí[email protected]

Facultad de Ciencias de la ComputaciónBenemérita Universidad Autónoma de Puebla

Inteligencia de negocios o BI (business intelligence)

• Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa.• BI se centra en los conceptos de: datos, información y conocimiento,

• Aquí es donde BI entra en juego, ya que al obtener conocimiento del negocio una vez capturada la información de todas las áreas en la empresa es posible establecer estrategias y cuales son sus fortalezas y debilidades.

2

Se obtiene mediante el análisis de la información. “Mayo es el mes más bajo en ventas“

Algo más estructurado o preciso“Las ventas del mes de Mayo fueron 10000”

Algo vago “10000”

Relación de DSS y BI

• El término inteligencia empresarial se refiere al uso de datos en una empresa para facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.

• Las herramientas de inteligencia se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos de producción, con información relacionada con la empresa o sus ámbitos y con datos económicos.

3

4

Contenido

1. Finalidades y Evolución de los Sistemas de Información

2. Herramientas para la Toma de Decisiones: diferencias e interrelación.

3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación.

4. Áreas de Aplicación

5

Finalidad de los Sistemas de Información

La información reduce nuestra incertidumbre (sobre algún aspecto

de la realidad) y, por tanto, nos permite tomar mejores decisiones

6

Finalidad de los Sistemas de Información

Inicialmente la finalidad de los sistemas de información era recopilar información sobre un parte del mundo para ayudar en la toma de decisiones: recuentos de cereales en Babilonia, de cacao por los pipiles, censos civiles y militares romanos o chinos, libros contables de árabes , ...

Actualmente, con la informatización de las organizaciones y la aparición de aplicaciones software operacionales sobre el sistema de información, la finalidad principal de los sistemas de información es dar soporte a los procesos básicos de la organización (ventas, producción, personal...).

7

Interés Renovado

Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización

(sistemas de información para la gestión).

Las organizaciones exigen nuevas prestaciones de los sistemas de información

(Sistemas de Información para la Toma de Decisiones).

8

Evolución

60’s: Informes batch: la información es difícil de encontrar y analizar, poco flexible, se

necesita reprogramar cada petición.

70’s: Primeros DSS (Decision Support Systems) y EIS (Executive Information Systems):

basados en terminal, no integrados con el resto de herramientas.

80’s: Acceso a datos y herramientas de análisis integradas (conocidas como intelligent business tools):

Herramientas de consultas e informes, hojas de cálculo, interfaces gráficos e integrados, fáciles de usar.

Acceden a las bases de datos operacionales.

90’s: Almacenes de Datos y herramientas OLAP.

00’s: Herramientas de Minería de Datos.

9

Herramientas para la Toma de Decisiones

¿Cuál es la diferencia entre EIS y OLAP?

¿Cuál es la diferencia entre “informes avanzados” y OLAP?

¿Cuál es la diferencia entre OLAP y Minería de Datos?

¿Qué interrelaciones existen entre todas estas herramientas?

Han aparecido diferentes herramientas de negocio o DSS que coexisten: EIS, OLAP, consultas & informes, minería de datos, ...

10

Herramientas para la Toma de Decisiones

Un EIS (Executive Information System) es un sistema de información y un conjunto de herramientas asociadas:

Proporciona a los directivos acceso a la información de estado y sus actividades de gestión.

Está especializado en analizar el estado diario de la organización (mediante indicadores clave) para informar rápidamente sobre cambios a los directivos.

La información solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma gráfica al estilo de las hojas de cálculo.

Las herramientas OLAP (On-Line Analyitical Processing) son más genéricas: Funcionan sobre un sistema de información (transaccional o almacén de datos) Permiten realizar agregaciones y combinaciones de los datos de maneras mucho más

complejas y ambiciosas, con objetivos de análisis más estratégicos.

¿Cuál es la diferencia entre EIS y OLAP?

11

Herramientas OLAP

Categoría Ventas

Refrescos 8000000

Jugos 12900000

roll-

acr

os

s

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Jugos

Jugos

Jugos

Jugos

2000000

12

Herramientas OLAP

Categoría Trimestre VentasMes

T1

T1

500000

Refrescos T1

Enero

dri

ll-d

ow

n

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Jugos

Jugos

Jugos

Jugos

2000000

Febrero

Refrescos

Refrescos Marzo

1000000

500000

Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes).

13

Herramientas OLAP

Ventas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysClothingCosmetics

Stor

e 1 $5,2

$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Stor

e 2 $5,6

$1,4$2,6$1,1

Productos Q1 Q2

$8,9$0,75$4,6$1,5

$7,2$0,4$4,6$0,5

PIVOT

14

Herramientas OLAP

Ventas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysQ

1 $5,2$1,9

Productos Store1

ElectronicsToysQ

2 $8,9$0,75

SLICE & DICE

Informes Avanzados

MySQL

SELECT year, country, product,

SUM(profit)

FROM SalesGROUP BY year, country, product

WITH ROLLUP;

15

Year Country Product SUM(profit)

2000 Finland Computer 1500

2000 Finland Phone 100

2000 Finland NULL 1600

2000 India Calculator 150

2000 India Computer 1200

2000 India NULL 1350

2000 US A Calculator 75

2000 USA Computer 1500

2000 USA NULL 1575

2000 NULL NULL 4525

2001 Finland Phone 10

2001 Finland NULL 10

2001 US A Calculator 50

2001 US A Computer 2700

2001 US A TV 250

2001 US A NULL 3000

2001 NULL NULL 3010

NULL NULL NULL 7535

16

Herramientas para la Toma de Decisiones

Los sistemas de informes o consultas avanzadas: están basados, generalmente, en sistemas relacionales u objeto-relacionales, utilizan los operadores clásicos: concatenación, proyección, selección,

agrupamiento, … (en SQL y extensiones). el resultado se presenta de una manera tabular.

Las herramientas OLAP Están basadas, generalmente, en sistemas o interfaces multidimensionales, Utilizando operadores específicos (además de los clásicos): drill, roll, pivot, slice

& dice, … El resultado se presenta de una manera matricial o híbrida.

¿Cuál es la diferencia entre “informes avanzados” y OLAP?

17

Herramientas para la Toma de Decisiones

Las herramientas OLAP proporcionan facilidades para “manejar” y “transformar” los datos. producen otros “datos” (más agregados, combinados). ayudan a analizar los datos porque producen diferentes vistas de los

mismos.

Las herramientas de Minería de Datos: son muy variadas: permiten “extraer” patrones, modelos, descubrir

relaciones, regularidades, tendencias, etc. producen “reglas” o “patrones” (“conocimiento”).

¿Cuál es la diferencia entre OLAP y Minería de Datos?

18

Herramientas para la Toma de Decisiones

La aparición de algunas de ellas han hecho cambiar la manera de trabajar de otras herramientas.

¿Qué interrelaciones existen entre todas estas herramientas?

Base de Datos Transaccional

Fuentes Internas

Fuentes Externas

Fuente de Datos

Fuente de Datos 3

HTML

Fuente de Datos 1

texto

Almacén de Datos

ETL Interfaz y Operadores

Herramientas de consultas e

informes

Herramientas EIS

Herramientas OLAP

Herramientas de Minería de

Datos

19

Almacenes de Datos

El almacén de datos es ahora el “sistema de información central” en todo este proceso.

Un almacén de datos es una colección de datos: orientada a un dominio integrada no volátil variante en el tiempo

para ayudar en la toma de decisiones [Immon 1992, 1996]

20

Arquitectura de un Almacén de Datos

Venta

simporte

unidades

Alm

acén

Almacén

Ciudad

Región

Tipo

Pro

duct

o

Departamento

Nro_producto

Categoría

Marca

Tipo

Descripción

hecho

medidasdimensión

atributos

Tie

mpo

Día

Mes

Semana

AñoTrimestre

21

Arquitectura de un Almacén de Datos

Zumo Piña 1l.

Cola 33cl.

Leche Entera 1l

Pepsi 33cl

Cerveza Kiel 20 cl

Jabón Salitre

1 2 3 4 1 2

TIEMPO: trimestre

MadridBarcelona

Valencia

ZaragozaAlicante

Murcia

175793

512

Ventas en miles de Eurosos

Jerarquía de dimensiones:

Categoría

Gama Prov.

\ /

Artículo

País

Ciudad

Supermercado

Año

/ \

Trimestre \

/ \

Mes Semana

\ /

Día

|

Hora

PRODUCTO:artículo

LUGAR:ciudad

PRODUCTO LUGAR TIEMPO

2004 2005

22

• Se pueden obtener hechos a diferentes niveles de agregación:

• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones

Un nivel de agregación para 3 dimensiones se denomina cubo

HECHO: “El primer trimestre de 2004 la empresa vendió en

Valencia por un importe de 22.000 euros del

producto pepsi 33 cl.”

22

Almacenes de Datos

La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque:

Podemos tener Almacenes de Datos sin OLAP y viceversa.

Los almacenes de datos y las técnicas OLAP son maneras efectivas y tecnológicamente avanzadas para integrar,

transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.

23

Minería de Datos

La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten:

Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos.

Extraer patrones y tendencias para predecir comportamientos futuros.

Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.

24

Minería de Datos

La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que:

no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente.

la minería de datos “analiza” los datos

25

Minería de Datos

La minería de datos es sólo una etapa del proceso de extracción de conocimiento a partir de datos.

Este proceso consta de varias fases: Preparación de Datos (selección, limpieza, y transformación),

Minería de Datos, Evaluación, Difusión y Uso de Modelos. incorpora muy diferentes técnicas

árboles de decisión, regresión lineal, redes neuronales artificiales, técnicas bayesianas, máquinas de soporte vectorial, etc.

de campos diversos: aprendizaje automático e I.A., estadística, bases de datos, …

aborda una tipología variada de problemas: clasificación, categorización, estimación/regresión, agrupamiento, ...

• Queremos saber si jugar o no jugar esta tarde al tenis.• Hemos recogido datos de experiencias anteriores:

Ejemplo de Modelo Predictivo

26

Example Outlook Temperature Humidity WindPlayTennis1 Sunny Hot High Weak No2 Sunny Hot High Strong No3 Overcast Hot High Weak Yes4 Rain Mild High Weak Yes5 Rain Cool Normal Weak Yes6 Rain Cool Normal Strong No7 Overcast Cool Normal Strong Yes8 Sunny Mild High Weak No9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No

• Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output).

• El resultado del algoritmo es el siguiente modelo:

• Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia:

(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) es NO.

Ejemplo de Modelo Predictivo

27

Outlook?

YESHumidity?

SunnyOvercast

Rain

Wind?

YES YESNONO

High Normal Strong Weak

• Queremos categorizar nuestros empleados.• Tenemos estos datos de los empleados:

Ejemplo de Modelo Descriptivo:

28

#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

• Pasamos estos ejemplos a un algoritmo de clustering K-means.• Se crean tres clusters, con la siguiente descripción:

Ejemplo de Modelo Descriptivo:

29

cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8

Sí -> 0.2 Coche : No -> 0.8

Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8

Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6

M -> 0.4

cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75

Prop -> 0.25

Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25

M -> 0.75

cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17

Prop -> 0.83

Sindic. : No -> 0.67 Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83

M -> 0.17

• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.

• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

30

Almacenes de Datos y Minería de Datos

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple archivo de datos.

Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

¿Es necesario tener Almacenes de datos para realizar Minería de datos?

31

La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing).

Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como:

“¿Han subido las ventas del producto X en junio?”

“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”

Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo:

“¿Qué factores influyen en las ventas del producto X?”

“¿Cuál será el producto más vendido si abrimos una delegación en México?

Relación de DM con Otras Disciplinas

La minería de datos aspira a más

32

Comparación entre sistemas tradicionales y DSS

Sistema Tradicional (OLTP) Sistemas para la toma de decisiones(DW)

- almacena datos actuales - almacena datos históricos

- almacena datos de detalle - almacena datos de detalle y datos agregados a distintos niveles

-bases de datos medianas - bases de datos grandes(100Mb-1Gb) (100Gb-1Tb)

- los datos son dinámicos (actualizables) - los datos son estáticos

- los procesos (transacciones) son repetitivos - los procesos no son previsibles

- el número de transacciones es elevado - el número de transacciones esbajo o medio

- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)

- dedicado al procesamiento de transacciones - dedicado al análisis de datos

- orientado a los procesos de la organización - orientado a la información relevante

- soporta decisiones diarias - soporta decisiones estratégicas

- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección

33

• Toma de Decisiones (banca-finanzas-seguros, márketing, políticas sanitarias/demográficas, ...)

• Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes, procesos, etc.)

• Investigación Científica (medicina, astronomía, meteorología, psicología, ...).

• Soporte al Diseño de Bases de Datos. • Reverse Engineering (dada una base de datos, desnormalizarla

para que luego el sistema la normalice). • Mejora de Calidad de Datos.• Mejora de Consultas (si se descubren dependencias

funcionales nuevas u otras condiciones evitables).

Áreas de Aplicación