cube based summaries of large association rule sets

1

Cube Based Summaries Of Large Association Rule Sets

Marie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet

Présenté par: Sous la direction de:Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh Talibouya DiopMaster 2 Recherche InformatiqueUGB St-Louis / 2010 – 2011

2

SommaireIntroductionLe ContexteA Summary: DéfinitionCBS: Cube Based SummariesLa génération de CBS

Mesure de la qualité: homogénéité L’heuristique proposée

Conclusion

3

Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.

Explorer ces règles devient dès lors difficile.

Introduction

4

Solution 1:Méthode de génération de règles plus génériques. Réduire les règles extraits

ConséquenceCette quantité de règles est tout de même

importante et donc risque de perte.

Introduction

5

Pour éviter cela:Solution2:• Résumer les règles extraites, mais:

o Difficulté d’exploration des résuméso Résumés pas bien organisés

• Explorer les règles extraites:o Méthodes proposées incomplètes

Introduction

6

Contributions et solutions à ces manquements énoncés précédemment:

• Les CBS (Cube Based Summaries): représentation des règles sous forme de cubeso ¹ niveaux de détail et ¹ axes d’analysesomotivés par existence de techniques de manipulation

de cube sous OLAP

Introduction

7

Contributions et solutions à ces manquements énoncés précédemment:

• Une heuristique (greedy_CBS) pour générer les CBS en fonction d’une taille donnéeo Basée sur une mesure: l’homogénéitéo Détermination du degré d’importance d’un CBSo Résultats proches de la solution optimale

Introduction

8

• Représentation de larges règles facilités par les "summaries"

• Fait ressortir les relations entre règles

Le contexte

9

• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}

Le contexte

• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}

• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}

Soit R, l’ensemble des règles d’associations suivantes defini sur A:

Soit A = {CONTROL, STABILITY, VISIBILITY}

dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}

10

A Summary: Définition

Couverture:

Soient (P, £p) et (S, £s), deux langages de motifs partiellement ordonnés. Une relation de couverture sur P ´ S, notée Ñ est une relation binaire sur P ´ S tel que, pour tout p ÎP et s ÎS :

(i) " p’ Î P, si p £p p’ et s Ñp , alors s Ñp’ (ii) " s’ Î S, si s’ £s s et s Ñp , alors s’ Ñp

11


Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2

et Y1 Í Y2

Exemple:r2: {auto} Þ {stab, yes} est plus spécifique que

r1: {auto} Þ {stab} et r1 couvre r2

12

Summary• Soient deux langages de motifs P et S• Une relation de couverture D entre P et S• Un "Summary" de P Í P est un ensemble de motifs S Í S tel

que:

(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|


13

Summary


14


• Exemple:

S=(r1: {auto }→ {stab}, r10:{ } → {auto}, r11: { } →{stab}, r12: { } →{yes} ) est un Summary .

• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}

• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}

• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}

(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|

cover(r1,R)={r1,r2}, cover(r10,R)={r5,r6,r8,r9}, cover(r11,R)={r1,r2,r7,r8}Et cover(r12,R)={r2,r3,r4,r6}.

15


• « Summary minimal » ?

{r1,r3,r4,r7,r9} est un Summary minimal.

1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association?

2.Quel est le summary minimal le plus intéressant?

16

CBS: Cube Based Summaries

Soit A, un ensemble fini d’attributs.

X = {a1, ..., ak} tel que ai Î A, i Î {1,...,k} et X Í A est un schéma.

17

Exemple:

Soit A = {CONTROL, STABILITY, VISIBILITY}dom(CONTROL) = {auto, noauto}dom(STABILITY) = {stab, xstab}dom(VISIBILITY) = {yes, no}

<Body.CONTROL, Body.VISIBILITY,

Head.CONTROL> est un schéma.


18

• Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations.

• On appelle référence sur X, un tuple s = <a1,...,

ai> tel que :

• ai Í (dom(xj) È null)

• s couvre au moins une règle de R.


19

Exemple:

Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL>

dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}

{nullC , yes, auto} est une référence du schéma A.


20

Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R


21

Soit un schéma <Body.VISIBILITY, Head.CONTROL>

CBS = {S1, S3, S7, S9}• Différents niveaux de détail


22


23

Mesure de la qualité:homogénéité

• Impossibilité d’identifier le plus intéressant parmi plusieurs CBS.

• Besoin de mesurer la qualité d’un CBS.• La qualité d’un CBS est une fonction qui à tout

couple (R, Sc,R) associe une valeur dans R.

24

Pour évaluer la qualité d’un CBS.

Mesure de la qualité:homogénéité

25

L’heuristique proposée

1. On commence par le CBS Ci le plus général possible

2. AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj.

3. Tant que H(Cj) > H(Ci) refaire l’étape 2 avec Cj à la place de Ci.

4. Dès que H(C2) = H(C1), arrêt.

26

Conclusion

• Une nouvelle technique de résumé du trop grand nombre de règles d’association.

• Une mesure de la qualité des CBS: l’homogénéité.

• Une heuristique de génération de CBS.

27

• Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets".

• Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for Closed Itemset Mining".

• Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation".

Références

28

Vos questions sont les bienvenues ...

Merci de votre attention

cube based summaries of large association rule sets

Technology

rgles extraites

rgles sous forme

cbs cube

larges rgles facilits

cbs mesure

cube sous olap6introduction

dom stability

dom control