incremental mining association rules

Incremental Mining Association Rules

報告人 : 楊士賢 4/15

Introduction

• Data Mining 的重要性日益普及，目前相關的演算法和研究是偏重在靜態的資料庫上。

• 對於現實生活而言，資料庫的內容往往是隨時間在變動的，如何有效的改良現有的演算法用配合動態的資料庫是一個重要的課題。

• 接下來將報告 Association Rules Mining 運用在動態的資料庫的相關研究。

我們來看看一個例子

變動前變動後

• min_support=40%

• 透過 Apriori Algorithm

• C1={A(6), B(6), C(6), D(3), E(4), F(3)}

• S1={A(6), B(6), C(6), E(4)}

• C2={AB(4), AC(4), AE(2), BC(4), BE(4), CE(2)}

• S2={AB(4), AC(4), BC(4), BE(4)}

• C3={ABC(3)}

假如我想做 Association Rules Mining ?

• min_support=40%• 透過 Apriori Algorithm• C1={A(4), B(5), C(5), D(5), E(5), F(4)} • S1={A(4), B(5), C(5), D(5), E(4), F (4)}• C2={AB(2), AC(3), AD(2), AE(1), AF(1), BC(2), BD(4), BE(4), CE

(2)…} • S2={BD(4), BE(4), DE(4)}• C3={BDE(3)}

資料變動後，假如我想再做一次做 Association Rules Mining ?

FUP Base

• 1996 年由 David W. Cheung 、Jiawei Han 提出。

• 利用之前已經 mining 好的結果，降低之後再做 mining 時所產生的 candicate itemset 數目，以減少 scan 資料庫的時間。

• min_support=40%• 透過 Apriori Algorithm• C1={A(6), B(6), C(6), D(3), E(4), F(3)} • S1={A(6), B(6), C(6), E(4)}• C2={AB(4), AC(4), AE(2), BC(4), BE

(4), CE(2)} • S2={AB(4), AC(4), BC(4), BE(4)}• C3={ABC(3)}

Q1 D(3), F(3) P1 A(6), B(6), C(6), E(4)

Q2 AE(2), CE(2) P2 AB(4), AC(4), BC(4), BE(4)

Q3 ABC(3)

Q : 是 candicate itemset 但不是 frequent itemsetP : 是 candicate itemset 也是 frequent itemset

Q1 D(3), F(3) P1 A(6), B(6), C(6), E(4)

Q2 AE(2), CE(2) P2 AB(4), AC(4), BC(4), BE(4)

Q3 ABC(3)

Q1 D(5), F(4) P1 A(4), B(5), C(5), E(5)

Q2 AE(1), CE(1) P2 AB(2), AC(3), BC(2), BE(3)

Q3 ABC(1)

我們只要掃過 – 和 + 即可知道這些 itemset 的新Support 值。

變更

Q1 D(5), F(4) P1 A(4), B(5), C(5), E(5)

Q2 AE(1), CE(1) P2 AB(2), AC(3), BC(2), BE(3)

Q3 ABC(1)

C1 A, B, C, D, E, F S1 A, B, C, D, E, F

C2 AB, AC, AD, AE, AF, BC, BD, BE, BF, CD, CE, CF, DE, DF, EF,

S2 BD, BE, DE

C3 BDE

PELICAN & MAAP Algorithm

• PELICAN & MAAP Algorithm 都是在 2001 年發表的論文，兩篇論文的作者皆認為所謂 “ 重要的 frequent itemset ” ，指的是那些 maximum frequent itemsets ，所以在 mining 的時候，只需算出哪些是 maximum frequent itemsets 即可。

• 在做法上是屬於 FUP 家族，而 PELICAN 和 MAAP 的不同點在 PELICAN 是利用 latice 的做法，而 MAAP 則是利用 apriori 的方式。 ( 其實 latice 也是 apriori 的一種，資料結構不同 )

Min_support=50%

Sliding Window

• 在 2001 年，由 Ming-Syan Chen ( 陳銘憲 ) 、 Chang-Hung Lee (李昌鴻 ) 提出。

想法：• 將資料及 itemset 利用時間切成

一部份、一部份，假如資料庫變動之後，針對變動的部分做處理。

• 假如某 itemset ( 稱為 I1 ) 在 P1 中的出現次數大於 | P1 | * min_support ，

• 且 P1 到 P2 的出現次數大於 | P1 + P2 | * min_support

• 且 P1 到 P3 的出現次數大於 | P1 + P2 + P3 | * min_support

• 則 I1 必為 frequent itemset 。

F

F

F

• 假如某 itemset ( 稱為 I2 ) 在 P1 中的出現次數大於 | P1 | * min_support ，

• 且 P1 到 P2 的出現次數小於 | P1 + P2 | * min_support

• 而在 P3 的出現次數大於 | P3 | * min_support

• 則 I2 可能為 frequent itemset 。 ( 我們稱 I2 為 candicate itemset )

F

NoF

F

• 假如某 itemset ( 稱為 I3 ) 在 P1 中的出現次數大於 | P1 | * min_support

• 但 P1 到 P2 的出現次數小於 | P1 + P2 | * min_support

• 且在 P3 的出現次數也小於 | P3 | * min_support

• 則 I3 不可能為 frequent itemset 。

F

NoF

NoF

123 1231234

1. 根據實驗，大部分做 frequent itemset mining 的瓶頸是卡在 C2 到 L2 的步驟，利用 Sliding Window Algorithm ，可將 C2 的產生的時間縮短，並且將 C2 的結果逼近 L2 。

2. 一但產生 C2 後，因為 C2 的結果逼近 L2 ，所以直接用 C2*C2 產生 C3 ，再用 C3*C3 產生 C4 ，再用 C4*C4 產生 C5… 。

3. 最後將 C2 + C3 + C4 +…+ Ck 一起做 check 去決定是否為 freqeunt 。( 2 、 3 步驟合起來稱為 scan reduction )

Incremental Mining ：1. 修正上一次的 C2﹝同樣利用 Sliding Window 做修正﹞。2. 一但產生新 C2 後，因為新 C2 的結果逼近新 L2 ，所以直接用 C2*C2產生 C3 ，再用 C3*C3 產生 C4 ，再用 C4*C4 產生 C5… 。3. 最後將 C2 + C3 + C4 +…+ Ck 一起做 check 去決定是否為 freqeunt 。

FUP + Sliding Window

• FUP 的目的在降低 candicate itemset 的數目，以縮短 scan 資料庫的時間。

• Sliding Window 目的在快速的產生數目接近的 2-freqeunt itemset 的 2-candicate itemset ，以縮短 mining 時間。

• FUP + Sliding Window :

先以 Sliding Window 快速的產生長度為 2 的 candicate itemset ，在利用 FUP 降低長度大於 2 的 candicate itemset 數目，以縮短 scan 資料庫的時間。

Experiment

|D| Transaction No. in the database 100

| + | The added transaction No. 10

| – | The deleted transaction No. 10

|d| The incremental transaction No. 10

|T| Average size of the transactions 10

|I| Average No. of frequent itemsets 4

|L| No. of frequent itemsets 2000

N Number of items 10000

T10-I4-D100-d10

T10-I4-D100-d10

0

50

100

150

200

250

300

0.1% 0.125% 0.15% 0.175% 0.2% 0.25%

FUP+SWFSWF

0

50

100

150

200

250

300

SWF SWF+FUP

final scan database

generate candicate

support計算新

scan change database

0.1%

References

• David W. Cheung, S.D. Lee, Benjamin Kao, “A General Incremental Techniques for Maintaining Discovered Association Rules”, Proceedings of the 5th international conference on database systems for advanced applications, Melbourne, Australia, Apr. 1-4, 1997

• Chang-Hung Lee, Cheng-Ru Lin, and Ming-Syan Chen, “Sliding-Window Filtering: An Efficient Algorithm for Incremental Mining”, ACM CIKM 2001

• Zequn Zhou, “A Low-Scan Incremental Association Rule maintenance Method Based on the Apriori Property”, AI 2001

• A. Veloso, B. Possas, W. Meira Jr., M. B. de carvalho, Knowledge Management in Association Rule Mining, ICDM 2001

incremental mining association rules

Documents