1 3.5. líneas de investigación abiertas. 2 líneas de investigación abiertas resúmenes:...

1

3.5. Líneas de Investigación Abiertas

2

Líneas de Investigación Abiertas

Resúmenes:

• S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim. Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, pages 303-312, 1999 http://citeseer.nj.nec.com/madria99research.html

• Padhraic Smyth. "Breaking Out of the Black-Box: Research Challenges in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001

• Pedro Domingos and Geoff Hulten. "Catching Up with the Data: Research Issues in Mining Data Streams" Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001

3


Resúmenes:

• Ramakrishnan Srikant (IBM Almaden) "New Directions in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2002

• John F. Roddick "Data Warehousing and Data Mining: Are we working on the right things?" Advances in Database Technologies. Berlin, Springer-Verlag. Lecture Notes in Computer Science. 1552. Kambayashi, Y., Lee, D. K., Lim, E.-P., Masunaga, Y. and Mohania, M., Eds. 141-144

4


Conferencias especializadas en Minería de Datos:• KDD – International Conference on Knowledge Discovery from

Databases

• IEEE ICDM – IEEE International Conference on Data Mining

• IDA – Intelligent Data Analysis

• PKDD – European Conference on Principles and Practice of Knowledge Discovery in Databases

• DMKD - Workshop on Research Issues in Data Mining and Knowledge Discovery

• DS – International Conference on Discovery Science

• DWDM - International Workshop on Data Warehouse and Data Mining.

• DaWaK - International Conference on Data Warehousing and Knowledege Discovery.

5


Conferencias especializadas en Aprendizaje Automático:

• ICML “International Conference on Machine Learning”

• ECML “European Conference on Machine Learning”

• MLDM – “Machine Learning and Data Mining in Pattern Recognition”

6

Nuevos Lenguajes de Consulta:

• El descubrimiento en bases de datos se ve como un proceso de consulta a una base de datos (Imielinski and Manilla 1996). La situación se parece al desarrollo de lenguajes de consulta en los sesenta y setenta.

• Una consulta inductiva o de búsqueda de patrones debe permitir al usuario restringir la búsqueda inductiva en los siguientes aspectos (Han et al. 1999):

• La parte de la base de datos a ser minada (también llamada la vista minable o vista relevante) (Ng et al. 1998).

• El tipo de patrón/reglas a ser minado (también llamado restricciones del conocimiento).

• Cuantificadores estadísticos: representatividad (support) %, precisión (confidence/accuracy) %.

• Otras propiedades que el patrón debería cumplir (número y forma de las reglas, interés, novedad, etc.).

Lenguajes de Consulta Inductivos

7

Ejemplos de consultas que se desean:

ASOCIACIÓN-¿Por qué (causa) la división de "serie para torpes" es tan provechosa?

ASOCIACIÓN + CLASIFICACIÓN-¿Qué características comparten los clientes que no renovaron sus pólizas y en qué se diferencian de las que renovaron sus pólizas?

CLUSTERING:-Grupos de clientes que no pagaron su crédito.-Grupos de productos que han fallado el test de calidad.

CLUSTERING + PREDICCIÓN-Grupos de clientes que es probable que vayan a comprar un nuevo producto en el próximo año.

CLUSTERING + ASOCIACIÓN-Grupos de pacientes cuya muerte la causó combinaciones (cócteles) de fármacos.


8

La consultas no pueden ser en lenguaje natural...

EJEMPLO:


DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado11251545 5.000.000 Barcelona Ejecutivo 45 3 S S30512526 1.000.000 Melilla Abogado 25 0 S N22451616 3.000.000 León Ejecutivo 35 2 S S25152516 2.000.000 Valencia Camarero 30 0 S S23525251 1.500.000 Benidorm Animador

ParqueTemático

30 0 N N

¿Qué es exactamente lo que se busca?

9

EJEMPLO (cont.):

Tipo de consulta:SELECT CORRELATIONS ON NUMERICALFROM Persona

Respuesta:Renta Familiar y Edad correlacionan (0.XX).Hijos y Edad correlacionan (0.YY).Renta Familiar e Hijos correlacionan (0.ZZ).

Tipo de consulta:SELECT APPROX. ASSOCIATIONS ON (Obeso, Casado, Hijos > 0)FROM Persona

Respuesta:Casado e (Hijos > 0) están asociados (4 casos, 80%).Obseso y casado están asociados (4 casos, 80%)

Se deben poder poner condiciones, p.ej.: SUPPORT > 3, CONFIDENCE > 75%


Correlaciones y Asociaciones

10

EJEMPLO (cont.):

Tipo de consulta:SELECT EXACT DEPENDENCY RULES ON (Obeso, Casado, Hijos > 0)FROM Persona

Respuesta: (Hijos > 0) Casado (5 casos, 100%).Casado Obeso (5 casos, 100%)

Tipo de consulta:SELECT EXACT DEPENDENCY RULES ON *FROM Persona

Respuesta: (DNI) ...Ciudad ...

Tipo de consulta:SELECT PROB. DEPENDENCY RULES ON *FROM Persona

Respuesta: Casado Obeso (5 casos, 100%)Se compara P(RHS/LHS) con P(RHS) para ver si tiene SUPPORT (significación).


Reglas de Dependencias de Valor

11

EJEMPLO (cont.):

Tipo de consulta:SELECT CLASSIFICATION RULES FOR (Hijos > 0) ON *FROM Persona

Respuesta:Casado AND (Renta Familiar > 2.000.000) (Hijos > 0)

También se deberían poder obtener reglas exactas, fuertes (sólo se permite un máx de errores) o probabilísticas.


Clasificación

12

EJEMPLO (cont.):

Tipo de consulta:SELECT SEGMENTATION RULES ON *FROM Persona

Respuesta: Three ClassesClass 1 if Casado AND (Renta Familiar > 2.000.000)Class 2 if Casado AND (Renta Familiar <= 2.000.000)Class 3 if ¬Casado

Tipo de consulta:SELECT SEGMENTATION RULES FOR Renta Familiar ON *FROM Persona

Respuesta: Two classes on Renta FamiliarRenta Familiar >= 2.000.000 if CasadoRenta Familiar < 2.000.000 if ¬Casado


Segmentación

13

EJEMPLO (cont.):

Patrón secuencial:¿Qué compras preceden a la compra de un microondas?Respuesta:

Frigorífico con congelador de cuatro pisos (60%).Predicciones:

¿Volumen total de ventas estimado para el año 2000?Regresión lineal sobre ventas 1995-1999 para predecir ventas 2000.

Tipo de consulta:SELECT PRIMARY KEYS ON (Obeso, Casado, Hijos, Profesión)FROM Persona

Respuesta:(Profesión, Hijos)(Hijos, Obeso, Casado)


Tendencias temporales, Predicción

Información del Esquema (descubrir claves primarias, R.I.).

14

EJEMPLO (cont.):

Varias tablas:SELECT RULESFROM Persona, Casado

Respuesta:Persona(X) AND Persona (Y) AND Casado(X,Y) Renta Familiar(X) = Renta Familiar(Y)


Esta aproximación es restrictiva a los “modelos de consulta” que permita el lenguaje.

Patrones más complicados

15

Propuesta M-SQL (Imielinski et al. 1996)

Basada en modelos de consulta...

Ejemplo:

SELECT FROM MINE(T): RWHERE R.Consequent = { (Age = *) }

R.Support > 1000R.Confidence > 0.65;

R es una variable de regla y se puede utilizar:R.ConsequentR.Body (antecedente)R.SupportR.Confidence.


16

Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998):• Utiliza la sintaxis del SQL para la vista minable• También basado en modelos de consulta.

EJEMPLO:Esquema:

SALES(customer_name, item_name, transaction_id)LIVES(customer_name, district, city)ITEM(item_name, category, price)TRANSACTION(transaction_id, day, month, day)

Consulta Inductiva (lenguaje natural):“buscar las ventas de qué artículos baratos (con una suma de precios menor que $100) que puede motivar las ventas de qué artículos caros (con el precio mínimo de $500) de la misma categoría de los clientes de Vancouver en 1998”.


17

Propuesta DMQ. EJEMPLO:

Ejemplo de Consulta Inductiva:mine associations as

lives(C,_, “Vancouver”) andsales+(C, ?[I], {S}) sales+(C, ?[J], {T})

from saleswhere S.year = 1998 and T.year = 1998 and I.category = J.categorygroup by C, I.categoryhaving sum(I.price) < 100 and min(J.price) >= 500with min_support = 0.01 and min_confidence = 0.5

Ejemplo de Respuesta:lives(C,_, “Vancouver”) and

sales(C, “Census_CD”, _) and sales(C, “Ms/Office97”, _) sales(C, “Ms/SQLServer”,_) [0.015, 0.68]


+: operador regular (1 o más tuplas)

?[I] : utilizar clave ajena. I es la tupla instanciada.

Es un patrón relacional.

Support & Confidence.

18

Propuesta “OLE DB for Data Mining” de Microsoft.

extensión del protocolo de acceso a BB.DD. OLE DB.Implementa una extensión del SQL que trabaja con DMM( Data

Mining Model) y permite:

1. Crear el modelo2. Entrenar el modelo3. Realizar predicciones


19

Propuesta “OLE DB for Data Mining”:

Ejemplo: CREACIÓN DEL MODELO (DMM):

CREATE MINING MODEL CredikRisk( [Customer ID] LONG KEY, [Profession] TEXT DISCRETE, [Income] TEXT DISCRETE, [Age] LONG CONTINUOUS, [Risk Level] TEXT DISCRETE PREDICT,)USING [Microsoft Decision Tree]

Esto crea un DMM vacío.


Atributos de Entrada

Atributo de Salida

Tipo de Modelo

20


Ejemplo: ENTRENAR EL MODELO: Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una tabla normal lo que hace es analizar los casos que le introduzcamos y construir el contenido del DMM.

INSERT INTO [CreditRisk]( [CustomerID],[Profession],[Income],[Age],[RiskLevel] )OPENROWSET('[Provider='MSOLESQL','user','pwd', 'SELECT [CustomerID],[Profession], [Income],[Age],[Risk] FROM [Customers]')


Obtención de los datos de entrenamiento a través de una consulta SQL por OLE SQL

Vista Minable

21


Ejemplo: USAR EL MODELO:

El modelo se aplica a nuevos datos. La manera de hacerlo es similar a la concatenación de dos tablas relacionales, considerando el modelo como una tabla y los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos que queramos (todos o sólo las predicciones).

SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel, PredictProbability(CreditRisk.RiskLevel)FROM CreditRisk PREDICTION JOIN Customers ON CreditRisk.Profession=Customers.Profession AND CreditRisk.Income=Customers.Income AND CreditRisk.Age=Customers.Age


22

También existen lenguajes de consulta para seleccionar patrones relativos a uso de páginas web:

P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou 2000), basado también en un grafo de secuencias de visitas, se puede utilizar el lenguaje MINT para hacer consultas del estilo:

SELECT tFROM NODE AS a b,TEMPLATE a * b AS tWHERE a.support > 7AND (b.support / a.support) >= 0.4AND b.url != “G.html”

Seleccionaría pares de páginas visitadas consecutivamente en la que la primera se ha visitado al menos 7 veces y de éstas, al menos el 40% han llegado a la segunda. Además la segunda no puede ser “G.html”.

Lenguajes de consulta inductivos para Web Usage Mining

23

• Escalabilidad:

• esquemas de muestreo eficientes y suficientes.

• procesamiento en memoria vs. en disco.

• combinación de recursos entre tareas involucradas.

• interfaces con los almacenes de datos.

• uso de metadata para optimizar el acceso.

• cuestiones cliente/servidor (dónde hacer el procesamiento).

• aprovechamiento de paralelismo y de computación distribuida.

Retos para la Minería de Datos

24

• Automatización:

• Desarrollo de asistentes (wizards) y/o lenguajes de consulta:

• para definir la tarea de minería, entradas, salidas, ...

• seleccionar y utilizar el conocimiento previo.

• Transformación de los datos y reducción de dimensionalidad.

• Compromiso entre simplicidad y precisión de los modelos en pro de una mayor inteligibilidad.


25

• Otros Retos:

• Tratamiento de datos cambiantes: necesidad de revisión y extensión de patrones (incrementalidad).

• Minería de datos con tipos no-estándar (no numérico o no textual, p.ej. gráficos vectoriales, índices a ficheros, hiperenlaces), multimedia u orientados a objetos.


26

• 80s y principios 90s:• OLAP y reporting: consultas predefinidas. El sistema OLAP como

sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas.

• Se usa casi exclusivamente información interna a la organización.• Finales de los 90

• Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos.

• El Data-Warehouse incluye Información Interna fundamentalmente.• Principios de los 00

• Técnicas de “scoring” y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido.

• El Data-Warehouse incluye Información Interna y Externa (parámetros de la economía, poblacionales, geográficos, etc.).

Tendencias

27

Software Gratuito

Software Disponible:

• Librerías Genéricas:• MLC++ en C++. (Kohavi et al. 1994) (http://www.sgi.com/Technology/mlc/) • WEKA en Java. (http://www.cs.waikato.ac.nz/ml/weka)

Acompañado por el libro: “Data Mining: practical machine learning tools and techniques with Java implementations” Morgan Kaufmann

• ML-Lisp en LISP (ftp://ftp.cs.utexas.edu/pub/mooney/ml-progs/) (http://mlwww.diee.unica.it/ML/gdl/mlsoftware.html)• Entorno DELVE: http://www.cs.utoronto.ca/~delve/index.html• Otros (data-mining): http://www.the-data-mine.com/bin/veiw/Software/WebIndex

• Software Particular:• C4.5 (http://mlwww.diee.unica.it/ML/gdl/c4_5.html)• Progol (http://www-users.cs.york.ac.uk/~stephen/progol.html)• Golem (http://www-users.cs.york.ac.uk/~stephen/golem.html).• ILP systems (http://www-ai.ijs.si/~ilpnet2/systems/)• FLIP & SMILES (http://www.dsic.upv.es/~flip/)

28

Recursos Generales:• KDcentral (www.kdcentral.com)• The Data Mine (http://www.the-data-mine.com) • Knowledge Discovery Mine (http://www.kdnuggets.com)

Mailing list:• KDD-nuggets: moderada y con poco ruido:

Para suscribirse, enviar un mensaje a “[email protected]” con “subscribe kdnuggets” en la primera línea del mensaje (el resto en blanco).

Revistas:

• Data Mining and Knowledge Discovery. (http://www.digimine.com/usama/datamine)

• Intelligent Data Analysis (http://www.elsevier.com/locate/ida)

Asociaciones:

• ACM SIGKDD (y la revista “explorations”, http://www.acm.org/sigkdd/explorations/instructions.htm)

Direcciones

29

Refrescadores de Estadística:• http://cne.gmu.edu/modules/dau/stat/index.html• http://www.statsoft.com/textbook/stathome.html

Otras fuentes sobre DM:• CRISP - DM, un consorcio industrial.

http://www.crisp-dm.org

• DMG - The Data Mining Group, un consorcio mixto para crear estándares para intercambiar modelos predictivos. http://www.dmg.org/

• Kurt Thearling's site: libros, artículos, tutoriales. http://www3.shore.net/~kht/

Más Direcciones

30

• RED MIDAS: Red Española de Minería de Datos y Aprendizaje Automático. Coordinador: José Riquelme, Universidad de Sevilla.

• http://www.lsi.us.es/~riquelme

• KDNET: Red de Excelencia Europea en “Knowledge Discovery”

• http://www.kdnet.org

Redes de Investigación

http://www.lsi.us.es/%7Eriquelme





http://www.kdnet.org/

31

...

1 3.5. líneas de investigación abiertas. 2 líneas de investigación abiertas resúmenes:...

Documents

in web data mining

research issues in mining

learning and

and mohania

research challenges

in proceedings of

first international

in computer science