cube based summaries of large association rule sets

28
Cube Based Summaries Of Large Association Rule Sets Marie Ndiaye - Cheikh T. Diop Arnaud Giacometti - Patrick Marcel - Arnaud Soulet Présenté par: Sous la direction de: Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh Talibouya Diop Master 2 Recherche Informatique UGB St-Louis / 2010 – 2011 1

Upload: papa-cheikh-cisse

Post on 01-Jun-2015

512 views

Category:

Technology


1 download

DESCRIPTION

Ce travail est la contribution de Marie Ndiaye, Cheikh T. Diop du Laboratoire d'Analyse Numérique et d'Informatique de l'Université Gaston Berger de Saint Louis et de Arnaud Giacometti, Patrick Marcel et Arnaud Soulet du Laboratoire d'Informatique de l'Université François Rabelais de Tours aux problèmes de l'extraction et de la représentation du trop grand nombre de règles d'association issues des algorithmes d'extraction de données. Dans le cadre d'un cours d'extraction de connaissances, j'ai juste eu à faire une présentation des différents concepts et méthodes qui y sont exposés.

TRANSCRIPT

Page 1: Cube based summaries of large association rule sets

1

Cube Based Summaries Of Large Association Rule Sets

Marie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet

Présenté par: Sous la direction de:Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh Talibouya DiopMaster 2 Recherche InformatiqueUGB St-Louis / 2010 – 2011

Page 2: Cube based summaries of large association rule sets

2

SommaireIntroductionLe ContexteA Summary: DéfinitionCBS: Cube Based SummariesLa génération de CBS

Mesure de la qualité: homogénéité L’heuristique proposée

Conclusion

Page 3: Cube based summaries of large association rule sets

3

Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.

Explorer ces règles devient dès lors difficile.

Introduction

Page 4: Cube based summaries of large association rule sets

4

Solution 1:Méthode de génération de règles plus génériques. Réduire les règles extraits

ConséquenceCette quantité de règles est tout de même

importante et donc risque de perte.

Introduction

Page 5: Cube based summaries of large association rule sets

5

Pour éviter cela:Solution2:• Résumer les règles extraites, mais:

o Difficulté d’exploration des résuméso Résumés pas bien organisés

• Explorer les règles extraites:o Méthodes proposées incomplètes

Introduction

Page 6: Cube based summaries of large association rule sets

6

Contributions et solutions à ces manquements énoncés précédemment:

• Les CBS (Cube Based Summaries): représentation des règles sous forme de cubeso ¹ niveaux de détail et ¹ axes d’analysesomotivés par existence de techniques de manipulation

de cube sous OLAP

Introduction

Page 7: Cube based summaries of large association rule sets

7

Contributions et solutions à ces manquements énoncés précédemment:

• Une heuristique (greedy_CBS) pour générer les CBS en fonction d’une taille donnéeo Basée sur une mesure: l’homogénéitéo Détermination du degré d’importance d’un CBSo Résultats proches de la solution optimale

Introduction

Page 8: Cube based summaries of large association rule sets

8

• Représentation de larges règles facilités par les "summaries"

• Fait ressortir les relations entre règles

Le contexte

Page 9: Cube based summaries of large association rule sets

9

• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}

Le contexte

• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}

• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}

Soit R, l’ensemble des règles d’associations suivantes defini sur A:

Soit A = {CONTROL, STABILITY, VISIBILITY}

dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}

Page 10: Cube based summaries of large association rule sets

10

A Summary: Définition

Couverture:

Soient (P, £p) et (S, £s), deux langages de motifs partiellement ordonnés. Une relation de couverture sur P ´ S, notée Ñ est une relation binaire sur P ´ S tel que, pour tout p ÎP et s ÎS :

(i) " p’ Î P, si p £p p’ et s Ñp , alors s Ñp’ (ii) " s’ Î S, si s’ £s s et s Ñp , alors s’ Ñp

Page 11: Cube based summaries of large association rule sets

11

A Summary: Définition

Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2

et Y1 Í Y2

Exemple:r2: {auto} Þ {stab, yes} est plus spécifique que

r1: {auto} Þ {stab} et r1 couvre r2

Page 12: Cube based summaries of large association rule sets

12

Summary• Soient deux langages de motifs P et S• Une relation de couverture D entre P et S• Un "Summary" de P Í P est un ensemble de motifs S Í S tel

que:

(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|

A Summary: Définition

Page 13: Cube based summaries of large association rule sets

13

Summary

A Summary: Définition

Page 14: Cube based summaries of large association rule sets

14

A Summary: Définition

• Exemple:

S=(r1: {auto }→ {stab}, r10:{ } → {auto}, r11: { } →{stab}, r12: { } →{yes} ) est un Summary .

• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}

• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}

• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}

(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|

cover(r1,R)={r1,r2}, cover(r10,R)={r5,r6,r8,r9}, cover(r11,R)={r1,r2,r7,r8}Et cover(r12,R)={r2,r3,r4,r6}.

Page 15: Cube based summaries of large association rule sets

15

A Summary: Définition

• « Summary minimal » ?

{r1,r3,r4,r7,r9} est un Summary minimal.

1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association?

2.Quel est le summary minimal le plus intéressant?

Page 16: Cube based summaries of large association rule sets

16

CBS: Cube Based Summaries

Soit A, un ensemble fini d’attributs.

X = {a1, ..., ak} tel que ai Î A, i Î {1,...,k} et X Í A est un schéma.

Page 17: Cube based summaries of large association rule sets

17

Exemple:

Soit A = {CONTROL, STABILITY, VISIBILITY}dom(CONTROL) = {auto, noauto}dom(STABILITY) = {stab, xstab}dom(VISIBILITY) = {yes, no}

<Body.CONTROL, Body.VISIBILITY,

Head.CONTROL> est un schéma.

CBS: Cube Based Summaries

Page 18: Cube based summaries of large association rule sets

18

• Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations.

• On appelle référence sur X, un tuple s = <a1,...,

ai> tel que :

• ai Í (dom(xj) È null)

• s couvre au moins une règle de R.

CBS: Cube Based Summaries

Page 19: Cube based summaries of large association rule sets

19

Exemple:

Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL>

dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}

{nullC , yes, auto} est une référence du schéma A.

CBS: Cube Based Summaries

Page 20: Cube based summaries of large association rule sets

20

Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R

CBS: Cube Based Summaries

Page 21: Cube based summaries of large association rule sets

21

Soit un schéma <Body.VISIBILITY, Head.CONTROL>

CBS = {S1, S3, S7, S9}• Différents niveaux de détail

CBS: Cube Based Summaries

Page 22: Cube based summaries of large association rule sets

22

CBS: Cube Based Summaries

Page 23: Cube based summaries of large association rule sets

23

Mesure de la qualité:homogénéité

• Impossibilité d’identifier le plus intéressant parmi plusieurs CBS.

• Besoin de mesurer la qualité d’un CBS.• La qualité d’un CBS est une fonction qui à tout

couple (R, Sc,R) associe une valeur dans R.

Page 24: Cube based summaries of large association rule sets

24

Pour évaluer la qualité d’un CBS.

Mesure de la qualité:homogénéité

Page 25: Cube based summaries of large association rule sets

25

L’heuristique proposée

1. On commence par le CBS Ci le plus général possible

2. AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj.

3. Tant que H(Cj) > H(Ci) refaire l’étape 2 avec Cj à la place de Ci.

4. Dès que H(C2) = H(C1), arrêt.

Page 26: Cube based summaries of large association rule sets

26

Conclusion

• Une nouvelle technique de résumé du trop grand nombre de règles d’association.

• Une mesure de la qualité des CBS: l’homogénéité.

• Une heuristique de génération de CBS.

Page 27: Cube based summaries of large association rule sets

27

• Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets".

• Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for Closed Itemset Mining".

• Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation".

Références

Page 28: Cube based summaries of large association rule sets

28

Vos questions sont les bienvenues ...

Merci de votre attention