olap
DESCRIPTION
sistemas para la toma de decisiones, olapTRANSCRIPT
MINERÍA DE DATOS
Dra. María Josefa Somodevilla Garcí[email protected]
Facultad de Ciencias de la ComputaciónBenemérita Universidad Autónoma de Puebla
Inteligencia de negocios o BI (business intelligence)
• Conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa.• BI se centra en los conceptos de: datos, información y conocimiento,
• Aquí es donde BI entra en juego, ya que al obtener conocimiento del negocio una vez capturada la información de todas las áreas en la empresa es posible establecer estrategias y cuales son sus fortalezas y debilidades.
2
Se obtiene mediante el análisis de la información. “Mayo es el mes más bajo en ventas“
Algo más estructurado o preciso“Las ventas del mes de Mayo fueron 10000”
Algo vago “10000”
Relación de DSS y BI
• El término inteligencia empresarial se refiere al uso de datos en una empresa para facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.
• Las herramientas de inteligencia se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos de producción, con información relacionada con la empresa o sus ámbitos y con datos económicos.
3
4
Contenido
1. Finalidades y Evolución de los Sistemas de Información
2. Herramientas para la Toma de Decisiones: diferencias e interrelación.
3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación.
4. Áreas de Aplicación
5
Finalidad de los Sistemas de Información
La información reduce nuestra incertidumbre (sobre algún aspecto
de la realidad) y, por tanto, nos permite tomar mejores decisiones
6
Finalidad de los Sistemas de Información
Inicialmente la finalidad de los sistemas de información era recopilar información sobre un parte del mundo para ayudar en la toma de decisiones: recuentos de cereales en Babilonia, de cacao por los pipiles, censos civiles y militares romanos o chinos, libros contables de árabes , ...
Actualmente, con la informatización de las organizaciones y la aparición de aplicaciones software operacionales sobre el sistema de información, la finalidad principal de los sistemas de información es dar soporte a los procesos básicos de la organización (ventas, producción, personal...).
7
Interés Renovado
Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización
(sistemas de información para la gestión).
Las organizaciones exigen nuevas prestaciones de los sistemas de información
(Sistemas de Información para la Toma de Decisiones).
8
Evolución
60’s: Informes batch: la información es difícil de encontrar y analizar, poco flexible, se
necesita reprogramar cada petición.
70’s: Primeros DSS (Decision Support Systems) y EIS (Executive Information Systems):
basados en terminal, no integrados con el resto de herramientas.
80’s: Acceso a datos y herramientas de análisis integradas (conocidas como intelligent business tools):
Herramientas de consultas e informes, hojas de cálculo, interfaces gráficos e integrados, fáciles de usar.
Acceden a las bases de datos operacionales.
90’s: Almacenes de Datos y herramientas OLAP.
00’s: Herramientas de Minería de Datos.
9
Herramientas para la Toma de Decisiones
¿Cuál es la diferencia entre EIS y OLAP?
¿Cuál es la diferencia entre “informes avanzados” y OLAP?
¿Cuál es la diferencia entre OLAP y Minería de Datos?
¿Qué interrelaciones existen entre todas estas herramientas?
Han aparecido diferentes herramientas de negocio o DSS que coexisten: EIS, OLAP, consultas & informes, minería de datos, ...
10
Herramientas para la Toma de Decisiones
Un EIS (Executive Information System) es un sistema de información y un conjunto de herramientas asociadas:
Proporciona a los directivos acceso a la información de estado y sus actividades de gestión.
Está especializado en analizar el estado diario de la organización (mediante indicadores clave) para informar rápidamente sobre cambios a los directivos.
La información solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma gráfica al estilo de las hojas de cálculo.
Las herramientas OLAP (On-Line Analyitical Processing) son más genéricas: Funcionan sobre un sistema de información (transaccional o almacén de datos) Permiten realizar agregaciones y combinaciones de los datos de maneras mucho más
complejas y ambiciosas, con objetivos de análisis más estratégicos.
¿Cuál es la diferencia entre EIS y OLAP?
11
Herramientas OLAP
Categoría Ventas
Refrescos 8000000
Jugos 12900000
roll-
acr
os
s
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Jugos
Jugos
Jugos
Jugos
2000000
12
Herramientas OLAP
Categoría Trimestre VentasMes
T1
T1
500000
Refrescos T1
Enero
dri
ll-d
ow
n
Categoría Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Jugos
Jugos
Jugos
Jugos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes).
13
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysClothingCosmetics
Stor
e 1 $5,2
$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Stor
e 2 $5,6
$1,4$2,6$1,1
Productos Q1 Q2
$8,9$0,75$4,6$1,5
$7,2$0,4$4,6$0,5
PIVOT
14
Herramientas OLAP
Ventas
ElectronicsToysClothingCosmetics
Q1
$5,2$1,9$2,3$1,1
ElectronicsToysClothingCosmetics
Q2
$8,9$0,75$4,6$1,5
Productos Store1 Store2
$5,6$1,4$2,6$1,1
$7,2$0,4$4,6$0,5
Ventas
ElectronicsToysQ
1 $5,2$1,9
Productos Store1
ElectronicsToysQ
2 $8,9$0,75
SLICE & DICE
Informes Avanzados
MySQL
SELECT year, country, product,
SUM(profit)
FROM SalesGROUP BY year, country, product
WITH ROLLUP;
15
Year Country Product SUM(profit)
2000 Finland Computer 1500
2000 Finland Phone 100
2000 Finland NULL 1600
2000 India Calculator 150
2000 India Computer 1200
2000 India NULL 1350
2000 US A Calculator 75
2000 USA Computer 1500
2000 USA NULL 1575
2000 NULL NULL 4525
2001 Finland Phone 10
2001 Finland NULL 10
2001 US A Calculator 50
2001 US A Computer 2700
2001 US A TV 250
2001 US A NULL 3000
2001 NULL NULL 3010
NULL NULL NULL 7535
16
Herramientas para la Toma de Decisiones
Los sistemas de informes o consultas avanzadas: están basados, generalmente, en sistemas relacionales u objeto-relacionales, utilizan los operadores clásicos: concatenación, proyección, selección,
agrupamiento, … (en SQL y extensiones). el resultado se presenta de una manera tabular.
Las herramientas OLAP Están basadas, generalmente, en sistemas o interfaces multidimensionales, Utilizando operadores específicos (además de los clásicos): drill, roll, pivot, slice
& dice, … El resultado se presenta de una manera matricial o híbrida.
¿Cuál es la diferencia entre “informes avanzados” y OLAP?
17
Herramientas para la Toma de Decisiones
Las herramientas OLAP proporcionan facilidades para “manejar” y “transformar” los datos. producen otros “datos” (más agregados, combinados). ayudan a analizar los datos porque producen diferentes vistas de los
mismos.
Las herramientas de Minería de Datos: son muy variadas: permiten “extraer” patrones, modelos, descubrir
relaciones, regularidades, tendencias, etc. producen “reglas” o “patrones” (“conocimiento”).
¿Cuál es la diferencia entre OLAP y Minería de Datos?
18
Herramientas para la Toma de Decisiones
La aparición de algunas de ellas han hecho cambiar la manera de trabajar de otras herramientas.
¿Qué interrelaciones existen entre todas estas herramientas?
Base de Datos Transaccional
Fuentes Internas
Fuentes Externas
Fuente de Datos
Fuente de Datos 3
HTML
Fuente de Datos 1
texto
Almacén de Datos
ETL Interfaz y Operadores
Herramientas de consultas e
informes
Herramientas EIS
Herramientas OLAP
Herramientas de Minería de
Datos
19
Almacenes de Datos
El almacén de datos es ahora el “sistema de información central” en todo este proceso.
Un almacén de datos es una colección de datos: orientada a un dominio integrada no volátil variante en el tiempo
para ayudar en la toma de decisiones [Immon 1992, 1996]
20
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidasdimensión
atributos
Tie
mpo
Día
Mes
Semana
AñoTrimestre
21
Arquitectura de un Almacén de Datos
Zumo Piña 1l.
Cola 33cl.
Leche Entera 1l
Pepsi 33cl
Cerveza Kiel 20 cl
Jabón Salitre
1 2 3 4 1 2
TIEMPO: trimestre
MadridBarcelona
Valencia
ZaragozaAlicante
Murcia
175793
512
Ventas en miles de Eurosos
Jerarquía de dimensiones:
Categoría
Gama Prov.
\ /
Artículo
País
Ciudad
Supermercado
Año
/ \
Trimestre \
/ \
Mes Semana
\ /
Día
|
Hora
PRODUCTO:artículo
LUGAR:ciudad
PRODUCTO LUGAR TIEMPO
2004 2005
22
• Se pueden obtener hechos a diferentes niveles de agregación:
• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
Un nivel de agregación para 3 dimensiones se denomina cubo
HECHO: “El primer trimestre de 2004 la empresa vendió en
Valencia por un importe de 22.000 euros del
producto pepsi 33 cl.”
22
Almacenes de Datos
La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque:
Podemos tener Almacenes de Datos sin OLAP y viceversa.
Los almacenes de datos y las técnicas OLAP son maneras efectivas y tecnológicamente avanzadas para integrar,
transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información.
23
Minería de Datos
La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten:
Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos.
Extraer patrones y tendencias para predecir comportamientos futuros.
Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.
24
Minería de Datos
La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que:
no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente.
la minería de datos “analiza” los datos
25
Minería de Datos
La minería de datos es sólo una etapa del proceso de extracción de conocimiento a partir de datos.
Este proceso consta de varias fases: Preparación de Datos (selección, limpieza, y transformación),
Minería de Datos, Evaluación, Difusión y Uso de Modelos. incorpora muy diferentes técnicas
árboles de decisión, regresión lineal, redes neuronales artificiales, técnicas bayesianas, máquinas de soporte vectorial, etc.
de campos diversos: aprendizaje automático e I.A., estadística, bases de datos, …
aborda una tipología variada de problemas: clasificación, categorización, estimación/regresión, agrupamiento, ...
• Queremos saber si jugar o no jugar esta tarde al tenis.• Hemos recogido datos de experiencias anteriores:
Ejemplo de Modelo Predictivo
26
Example Outlook Temperature Humidity WindPlayTennis1 Sunny Hot High Weak No2 Sunny Hot High Strong No3 Overcast Hot High Weak Yes4 Rain Mild High Weak Yes5 Rain Cool Normal Weak Yes6 Rain Cool Normal Strong No7 Overcast Cool Normal Strong Yes8 Sunny Mild High Weak No9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No
• Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output).
• El resultado del algoritmo es el siguiente modelo:
• Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia:
(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) es NO.
Ejemplo de Modelo Predictivo
27
Outlook?
YESHumidity?
SunnyOvercast
Rain
Wind?
YES YESNONO
High Normal Strong Weak
• Queremos categorizar nuestros empleados.• Tenemos estos datos de los empleados:
Ejemplo de Modelo Descriptivo:
28
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H
• Pasamos estos ejemplos a un algoritmo de clustering K-means.• Se crean tres clusters, con la siguiente descripción:
Ejemplo de Modelo Descriptivo:
29
cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8
Sí -> 0.2 Coche : No -> 0.8
Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8
Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67 Sí -> 0.33
Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
30
Almacenes de Datos y Minería de Datos
Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple archivo de datos.
Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.
¿Es necesario tener Almacenes de datos para realizar Minería de datos?
31
La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing).
Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como:
“¿Han subido las ventas del producto X en junio?”
“¿Las ventas del producto X bajan cuando promocionamos el producto Y?”
Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo:
“¿Qué factores influyen en las ventas del producto X?”
“¿Cuál será el producto más vendido si abrimos una delegación en México?
Relación de DM con Otras Disciplinas
La minería de datos aspira a más
32
Comparación entre sistemas tradicionales y DSS
Sistema Tradicional (OLTP) Sistemas para la toma de decisiones(DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle y datos agregados a distintos niveles
-bases de datos medianas - bases de datos grandes(100Mb-1Gb) (100Gb-1Tb)
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el número de transacciones es elevado - el número de transacciones esbajo o medio
- tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable (segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a técnicos de dirección
33
• Toma de Decisiones (banca-finanzas-seguros, márketing, políticas sanitarias/demográficas, ...)
• Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes, procesos, etc.)
• Investigación Científica (medicina, astronomía, meteorología, psicología, ...).
• Soporte al Diseño de Bases de Datos. • Reverse Engineering (dada una base de datos, desnormalizarla
para que luego el sistema la normalice). • Mejora de Calidad de Datos.• Mejora de Consultas (si se descubren dependencias
funcionales nuevas u otras condiciones evitables).
Áreas de Aplicación