cube based summaries of large association rule sets
DESCRIPTION
Ce travail est la contribution de Marie Ndiaye, Cheikh T. Diop du Laboratoire d'Analyse Numérique et d'Informatique de l'Université Gaston Berger de Saint Louis et de Arnaud Giacometti, Patrick Marcel et Arnaud Soulet du Laboratoire d'Informatique de l'Université François Rabelais de Tours aux problèmes de l'extraction et de la représentation du trop grand nombre de règles d'association issues des algorithmes d'extraction de données. Dans le cadre d'un cours d'extraction de connaissances, j'ai juste eu à faire une présentation des différents concepts et méthodes qui y sont exposés.TRANSCRIPT
1
Cube Based Summaries Of Large Association Rule Sets
Marie Ndiaye - Cheikh T. DiopArnaud Giacometti - Patrick Marcel - Arnaud Soulet
Présenté par: Sous la direction de:Mouhamadou Khoulé - Papa Cheikh Cisse Dr. Cheikh Talibouya DiopMaster 2 Recherche InformatiqueUGB St-Louis / 2010 – 2011
2
SommaireIntroductionLe ContexteA Summary: DéfinitionCBS: Cube Based SummariesLa génération de CBS
Mesure de la qualité: homogénéité L’heuristique proposée
Conclusion
3
Les Algorithmes d’extraction de données produisent un trop grand nombre de règles d’association.
Explorer ces règles devient dès lors difficile.
Introduction
4
Solution 1:Méthode de génération de règles plus génériques. Réduire les règles extraits
ConséquenceCette quantité de règles est tout de même
importante et donc risque de perte.
Introduction
5
Pour éviter cela:Solution2:• Résumer les règles extraites, mais:
o Difficulté d’exploration des résuméso Résumés pas bien organisés
• Explorer les règles extraites:o Méthodes proposées incomplètes
Introduction
6
Contributions et solutions à ces manquements énoncés précédemment:
• Les CBS (Cube Based Summaries): représentation des règles sous forme de cubeso ¹ niveaux de détail et ¹ axes d’analysesomotivés par existence de techniques de manipulation
de cube sous OLAP
Introduction
7
Contributions et solutions à ces manquements énoncés précédemment:
• Une heuristique (greedy_CBS) pour générer les CBS en fonction d’une taille donnéeo Basée sur une mesure: l’homogénéitéo Détermination du degré d’importance d’un CBSo Résultats proches de la solution optimale
Introduction
8
• Représentation de larges règles facilités par les "summaries"
• Fait ressortir les relations entre règles
Le contexte
9
• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}
Le contexte
• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}
• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}
Soit R, l’ensemble des règles d’associations suivantes defini sur A:
Soit A = {CONTROL, STABILITY, VISIBILITY}
dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}
10
A Summary: Définition
Couverture:
Soient (P, £p) et (S, £s), deux langages de motifs partiellement ordonnés. Une relation de couverture sur P ´ S, notée Ñ est une relation binaire sur P ´ S tel que, pour tout p ÎP et s ÎS :
(i) " p’ Î P, si p £p p’ et s Ñp , alors s Ñp’ (ii) " s’ Î S, si s’ £s s et s Ñp , alors s’ Ñp
11
A Summary: Définition
Soient r1: X1 Þ Y1 et r2: X2 Þ Y2, r2 est plus spécifique que r1, (r1 £r r2) si X1 Í X2
et Y1 Í Y2
Exemple:r2: {auto} Þ {stab, yes} est plus spécifique que
r1: {auto} Þ {stab} et r1 couvre r2
12
Summary• Soient deux langages de motifs P et S• Une relation de couverture D entre P et S• Un "Summary" de P Í P est un ensemble de motifs S Í S tel
que:
(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|
A Summary: Définition
13
Summary
A Summary: Définition
14
A Summary: Définition
• Exemple:
S=(r1: {auto }→ {stab}, r10:{ } → {auto}, r11: { } →{stab}, r12: { } →{yes} ) est un Summary .
• r1: {auto} Þ {stab}• r2: {auto} Þ {stab, yes}• r3: {auto} Þ {yes}
• r4: {stab} Þ {yes}• r5: {stab} Þ {auto}• r6: {stab} Þ {auto,yes}
• r7: {yes} Þ {stab}• r8: {yes} Þ {auto, stab}• r9: {yes} Þ {auto}
(i) Chaque motif de P est couvert par au moins un motif de S (ii) Chaque motif de S couvre au moins un motif de P(iii) |S| £ |P|
cover(r1,R)={r1,r2}, cover(r10,R)={r5,r6,r8,r9}, cover(r11,R)={r1,r2,r7,r8}Et cover(r12,R)={r2,r3,r4,r6}.
15
A Summary: Définition
• « Summary minimal » ?
{r1,r3,r4,r7,r9} est un Summary minimal.
1.Comment définit t-on un langage de motifs et une relation de coverture qui permettrait de construire et d’explorer efficacement des summaries minimales de larges ensembles de règles d’association?
2.Quel est le summary minimal le plus intéressant?
16
CBS: Cube Based Summaries
Soit A, un ensemble fini d’attributs.
X = {a1, ..., ak} tel que ai Î A, i Î {1,...,k} et X Í A est un schéma.
17
Exemple:
Soit A = {CONTROL, STABILITY, VISIBILITY}dom(CONTROL) = {auto, noauto}dom(STABILITY) = {stab, xstab}dom(VISIBILITY) = {yes, no}
<Body.CONTROL, Body.VISIBILITY,
Head.CONTROL> est un schéma.
CBS: Cube Based Summaries
18
• Soit X = {x1, …, xj} un schéma, R un ensemble de règles d’associations.
• On appelle référence sur X, un tuple s = <a1,...,
ai> tel que :
• ai Í (dom(xj) È null)
• s couvre au moins une règle de R.
CBS: Cube Based Summaries
19
Exemple:
Soit le schéma A=<Body.CONTROL, Body.VISIBILITY, Head.CONTROL>
dom (CONTROL)= {auto, noauto}dom (STABILITY) = {stab, xstab}dom (VISIBILITY) = {yes, no}
{nullC , yes, auto} est une référence du schéma A.
CBS: Cube Based Summaries
20
Soit un ensemble de règles R, le CBS d’un schéma C de R noté SC,R est l’ensemble des références définies sur C qui couvrent au moins une règle de R
CBS: Cube Based Summaries
21
Soit un schéma <Body.VISIBILITY, Head.CONTROL>
CBS = {S1, S3, S7, S9}• Différents niveaux de détail
CBS: Cube Based Summaries
22
CBS: Cube Based Summaries
23
Mesure de la qualité:homogénéité
• Impossibilité d’identifier le plus intéressant parmi plusieurs CBS.
• Besoin de mesurer la qualité d’un CBS.• La qualité d’un CBS est une fonction qui à tout
couple (R, Sc,R) associe une valeur dans R.
24
Pour évaluer la qualité d’un CBS.
Mesure de la qualité:homogénéité
25
L’heuristique proposée
1. On commence par le CBS Ci le plus général possible
2. AddToHead(Ci) et/ou AddToBody(Ci) pour passer à un CBS Cj.
3. Tant que H(Cj) > H(Ci) refaire l’étape 2 avec Cj à la place de Ci.
4. Dès que H(C2) = H(C1), arrêt.
26
Conclusion
• Une nouvelle technique de résumé du trop grand nombre de règles d’association.
• Une mesure de la qualité des CBS: l’homogénéité.
• Une heuristique de génération de CBS.
27
• Ndiaye M., Diop C. T., Giacommetti A., Marcel P., Soulet A., "Cube Based Summaries Of Large Associations Rule Sets".
• Zaki M. J., Hsiao C.-J., "CHARM: An Efficient Algorithm for Closed Itemset Mining".
• Chandola V., Kumar V., "Summarization - Compressing Data into an Informative Representation".
Références
28
Vos questions sont les bienvenues ...
Merci de votre attention