incremental mining association rules

22
Incremental Mining Association Rules 報報報 : 報報報 4/15

Upload: mei

Post on 30-Jan-2016

108 views

Category:

Documents


0 download

DESCRIPTION

Incremental Mining Association Rules. 報告人 : 楊士賢 4/15. Introduction. Data Mining 的重要性日益普及,目前相關的演算法和研究是偏重在靜態的資料庫上。 對於現實生活而言,資料庫的內容往往是隨時間在變動的,如何有效的改良現有的演算法用配合動態的資料庫是一個重要的課題。 接下來將報告 Association Rules Mining 運用在動態的資料庫的相關研究。. 我們來看看一個例子. 變動前. 變動後. 假如我想做 Association Rules Mining ?. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Incremental Mining Association Rules

Incremental Mining Association Rules

報告人 : 楊士賢 4/15

Page 2: Incremental Mining Association Rules

Introduction

• Data Mining 的重要性日益普及,目前相關的演算法和研究是偏重在靜態的資料庫上。

• 對於現實生活而言,資料庫的內容往往是隨時間在變動的,如何有效的改良現有的演算法用配合動態的資料庫是一個重要的課題。

• 接下來將報告 Association Rules Mining 運用在動態的資料庫的相關研究。

Page 3: Incremental Mining Association Rules

我們來看看一個例子

變動前 變動後

Page 4: Incremental Mining Association Rules

• min_support=40%

• 透過 Apriori Algorithm

• C1={A(6), B(6), C(6), D(3), E(4), F(3)}

• S1={A(6), B(6), C(6), E(4)}

• C2={AB(4), AC(4), AE(2), BC(4), BE(4), CE(2)}

• S2={AB(4), AC(4), BC(4), BE(4)}

• C3={ABC(3)}

假如我想做 Association Rules Mining ?

Page 5: Incremental Mining Association Rules

• min_support=40%• 透過 Apriori Algorithm• C1={A(4), B(5), C(5), D(5), E(5), F(4)} • S1={A(4), B(5), C(5), D(5), E(4), F (4)}• C2={AB(2), AC(3), AD(2), AE(1), AF(1), BC(2), BD(4), BE(4), CE

(2)…} • S2={BD(4), BE(4), DE(4)}• C3={BDE(3)}

資料變動後,假如我想再做一次做 Association Rules Mining ?

Page 6: Incremental Mining Association Rules

FUP Base

• 1996 年由 David W. Cheung 、Jiawei Han 提出。

• 利用之前已經 mining 好的結果,降低之後再做 mining 時所產生的 candicate itemset 數目,以減少 scan 資料庫的時間。

Page 7: Incremental Mining Association Rules

• min_support=40%• 透過 Apriori Algorithm• C1={A(6), B(6), C(6), D(3), E(4), F(3)} • S1={A(6), B(6), C(6), E(4)}• C2={AB(4), AC(4), AE(2), BC(4), BE

(4), CE(2)} • S2={AB(4), AC(4), BC(4), BE(4)}• C3={ABC(3)}

Q1 D(3), F(3) P1 A(6), B(6), C(6), E(4)

Q2 AE(2), CE(2) P2 AB(4), AC(4), BC(4), BE(4)

Q3 ABC(3)

Q : 是 candicate itemset 但不是 frequent itemsetP : 是 candicate itemset 也是 frequent itemset

Page 8: Incremental Mining Association Rules

Q1 D(3), F(3) P1 A(6), B(6), C(6), E(4)

Q2 AE(2), CE(2) P2 AB(4), AC(4), BC(4), BE(4)

Q3 ABC(3)

Q1 D(5), F(4) P1 A(4), B(5), C(5), E(5)

Q2 AE(1), CE(1) P2 AB(2), AC(3), BC(2), BE(3)

Q3 ABC(1)

我們只要掃過 – 和 + 即可知道這些 itemset 的新Support 值。

變更

Page 9: Incremental Mining Association Rules

Q1 D(5), F(4) P1 A(4), B(5), C(5), E(5)

Q2 AE(1), CE(1) P2 AB(2), AC(3), BC(2), BE(3)

Q3 ABC(1)

C1 A, B, C, D, E, F S1 A, B, C, D, E, F

C2 AB, AC, AD, AE, AF, BC, BD, BE, BF, CD, CE, CF, DE, DF, EF,

S2 BD, BE, DE

C3 BDE

Page 10: Incremental Mining Association Rules

PELICAN & MAAP Algorithm

• PELICAN & MAAP Algorithm 都是在 2001 年發表的論文,兩篇論文的作者皆認為所謂 “ 重要的 frequent itemset ” ,指的是那些 maximum frequent itemsets ,所以在 mining 的時候,只需算出哪些是 maximum frequent itemsets 即可。

• 在做法上是屬於 FUP 家族,而 PELICAN 和 MAAP 的不同點在 PELICAN 是利用 latice 的做法,而 MAAP 則是利用 apriori 的方式。 ( 其實 latice 也是 apriori 的一種 ,資料結構不同 )

Page 11: Incremental Mining Association Rules

Min_support=50%

Page 12: Incremental Mining Association Rules
Page 13: Incremental Mining Association Rules

Sliding Window

• 在 2001 年,由 Ming-Syan Chen ( 陳銘憲 ) 、 Chang-Hung Lee (李昌鴻 ) 提出。

想法:• 將資料及 itemset 利用時間切成

一部份、一部份,假如資料庫變動之後,針對變動的部分做處理。

Page 14: Incremental Mining Association Rules

• 假如某 itemset ( 稱為 I1 ) 在 P1 中的出現次數大於 | P1 | * min_support ,

• 且 P1 到 P2 的出現次數大於 | P1 + P2 | * min_support

• 且 P1 到 P3 的出現次數大於 | P1 + P2 + P3 | * min_support

• 則 I1 必為 frequent itemset 。

F

F

F

• 假如某 itemset ( 稱為 I2 ) 在 P1 中的出現次數大於 | P1 | * min_support ,

• 且 P1 到 P2 的出現次數小於 | P1 + P2 | * min_support

• 而在 P3 的出現次數大於 | P3 | * min_support

• 則 I2 可能為 frequent itemset 。 ( 我們稱 I2 為 candicate itemset )

F

NoF

F

Page 15: Incremental Mining Association Rules

• 假如某 itemset ( 稱為 I3 ) 在 P1 中的出現次數大於 | P1 | * min_support

• 但 P1 到 P2 的出現次數小於 | P1 + P2 | * min_support

• 且在 P3 的出現次數也小於 | P3 | * min_support

• 則 I3 不可能為 frequent itemset 。

F

NoF

NoF

123 1231234

Page 16: Incremental Mining Association Rules

1. 根據實驗,大部分做 frequent itemset mining 的瓶頸是卡在 C2 到 L2 的步驟,利用 Sliding Window Algorithm ,可將 C2 的產生的時間縮短,並且將 C2 的結果逼近 L2 。

2. 一但產生 C2 後,因為 C2 的結果逼近 L2 ,所以直接用 C2*C2 產生 C3 ,再用 C3*C3 產生 C4 ,再用 C4*C4 產生 C5… 。

3. 最後將 C2 + C3 + C4 +…+ Ck 一起做 check 去決定是否為 freqeunt 。( 2 、 3 步驟合起來稱為 scan reduction )

Incremental Mining :1. 修正上一次的 C2﹝同樣利用 Sliding Window 做修正﹞。2. 一但產生新 C2 後,因為新 C2 的結果逼近新 L2 ,所以直接用 C2*C2產生 C3 ,再用 C3*C3 產生 C4 ,再用 C4*C4 產生 C5… 。3. 最後將 C2 + C3 + C4 +…+ Ck 一起做 check 去決定是否為 freqeunt 。

Page 17: Incremental Mining Association Rules
Page 18: Incremental Mining Association Rules
Page 19: Incremental Mining Association Rules

FUP + Sliding Window

• FUP 的目的在降低 candicate itemset 的數目,以縮短 scan 資料庫的時間。

• Sliding Window 目的在快速的產生數目接近 的 2-freqeunt itemset 的 2-candicate itemset ,以縮短 mining 時間。

• FUP + Sliding Window :

先以 Sliding Window 快速的產生長度為 2 的 candicate itemset ,在利用 FUP 降低長度大於 2 的 candicate itemset 數目,以縮短 scan 資料庫的時間。

Page 20: Incremental Mining Association Rules

Experiment

|D| Transaction No. in the database 100

| + | The added transaction No. 10

| – | The deleted transaction No. 10

|d| The incremental transaction No. 10

|T| Average size of the transactions 10

|I| Average No. of frequent itemsets 4

|L| No. of frequent itemsets 2000

N Number of items 10000

T10-I4-D100-d10

Page 21: Incremental Mining Association Rules

T10-I4-D100-d10

0

50

100

150

200

250

300

0.1% 0.125% 0.15% 0.175% 0.2% 0.25%

FUP+SWFSWF

0

50

100

150

200

250

300

SWF SWF+FUP

final scan database

generate candicate

support計算新

scan change database

0.1%

Page 22: Incremental Mining Association Rules

References

• David W. Cheung, S.D. Lee, Benjamin Kao, “A General Incremental Techniques for Maintaining Discovered Association Rules”, Proceedings of the 5th international conference on database systems for advanced applications, Melbourne, Australia, Apr. 1-4, 1997

• Chang-Hung Lee, Cheng-Ru Lin, and Ming-Syan Chen, “Sliding-Window Filtering: An Efficient Algorithm for Incremental Mining”, ACM CIKM 2001

• Zequn Zhou, “A Low-Scan Incremental Association Rule maintenance Method Based on the Apriori Property”, AI 2001

• A. Veloso, B. Possas, W. Meira Jr., M. B. de carvalho, Knowledge Management in Association Rule Mining, ICDM 2001