資料探勘與 modeler 使用介紹

46
資資資資資 Modeler 資資資資 資資資資 -C5.0 資 CR&T 資資 資資資資 -K-means 資資資資資 4 2 3 1 SPSS Modeler 資資資資資資資資 資資資資 -Apriori 資 Sequence

Upload: kaiser

Post on 13-Jan-2016

160 views

Category:

Documents


1 download

DESCRIPTION

資料探勘與 Modeler 使用介紹. 1. 資料分類 - C5.0 和 CR&T 模型. 2. 3. 資料集群 -K-means 和模型評估. 4. SPSS Modeler 資料探勘實務基礎. 資料關聯 -Apriori 和 Sequence. 關聯範例一 : 購物產品關聯分析. 1. 關聯範例二 : 訓練課程需求預測. 2. 3. 關聯範例四 : 網頁瀏覽行為分析. 4. 3. 資料關聯 -Apriori 和 Sequence. 關聯範例三 : 維修案例的次序分析. 資料關聯範例 一. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 資料探勘與 Modeler 使用介紹

資料探勘與 Modeler 使用介紹資料探勘與 Modeler 使用介紹

資料分類 -C5.0 和 CR&T 模型資料分類 -C5.0 和 CR&T 模型

資料集群 -K-means 和模型評估資料集群 -K-means 和模型評估 4

2

3

1

SPSS Modeler 資料探勘實務基礎SPSS Modeler 資料探勘實務基礎

資料關聯 -Apriori 和 Sequence

Page 2: 資料探勘與 Modeler 使用介紹

關聯範例一 : 購物產品關聯分析關聯範例一 : 購物產品關聯分析

關聯範例二 : 訓練課程需求預測關聯範例二 : 訓練課程需求預測

關聯範例四 : 網頁瀏覽行為分析關聯範例四 : 網頁瀏覽行為分析 4

2

3

1

3.資料關聯 -Apriori 和Sequence3.資料關聯 -Apriori 和Sequence

關聯範例三 : 維修案例的次序分析

Page 3: 資料探勘與 Modeler 使用介紹

資料關聯範例 一

節點【 Apriori 】檔案 shopping.txt

786 records 15 fields

Page 4: 資料探勘與 Modeler 使用介紹

關聯法則基本概念在資料探勘的領域之中,關聯性法則(association rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性。在關聯性法則之使用中, Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikant 等兩位學者於1994年首先提出。if前項 antecedent(s) then後項consequent(s)

Page 5: 資料探勘與 Modeler 使用介紹

購物產品關聯分析

shopping.txt 的欄位計有 15項,產品分為10個類別分別是 Ready made 、 Frozen Food 、 Alcohol 、 Fresh Vegetables 、 Milk 、 Bakery goods 、 Fresh meat 、 Toiletries 、 Snacks 、 Tinned Goods ,有買資料值為 1 ,沒買則資料值為 0基本資料包括 GENDER 、 AGE 、 MARITAL 、 CHILDREN 、 WORKING ( Currently employed?)

Page 6: 資料探勘與 Modeler 使用介紹

【變數檔案】節點

Page 7: 資料探勘與 Modeler 使用介紹

【類型】節點

Page 8: 資料探勘與 Modeler 使用介紹

欄位的角色設定【輸入】表示允許資料進入 Apriori模型節點作分析,此項資料僅會在關聯規則的前項中出現。【目標】表示設定資料為 Apriori模型節點的輸出欄位,輸出欄位可以是連續型數值也可以是類別型資料。此項資料僅會在關聯規則的後項中出現。 【兩者】表示資料進入 Apriori模型節點分析,此欄位中的資料可以在關聯規則的前項也可以在關聯規則的後項中出現。 【無】表示資料將被 Apriori模型節點忽略。

Page 9: 資料探勘與 Modeler 使用介紹

【 Apriori 】節點

Page 10: 資料探勘與 Modeler 使用介紹

關聯模型注意事項

建模時可以設定支援度、信心度等建模的細節,當門檻值過高而無法生成模型時,使用者須適度調整門檻值 執行後產生關聯規則的模型,可以查看詳細的規則內容。排序的規則有支援度(Support) 、信賴度 (Confidence) 、規則支援 % (Rule Support) 、後項 (Consequent)、提昇 (Lift) 以及可部署性 (Deployability)等方式, 使用者可依需求選擇

Page 11: 資料探勘與 Modeler 使用介紹

執行後的關聯規則 4 個

Page 12: 資料探勘與 Modeler 使用介紹

顯示更多的準則

Page 13: 資料探勘與 Modeler 使用介紹

名詞解釋以第一個關聯規則為例說明如下 :

全部總共 786筆資料買 Milk和 Frozen Food的人是 85筆買 Bakery goods的人是 337筆買 Milk和 Frozen Food而且買 Bakery goods的人是 71筆買 Milk和 Frozen Food但不買 Bakery goods的人是 14筆後項– Bakery goods 前項– Milk和 Frozen Food實例– 85,即符合前項的筆數

Page 14: 資料探勘與 Modeler 使用介紹

名詞解釋支援度– 10.814 = 85/786,是指購買前項產品的客戶佔全部客戶的比例信賴度 - 83.529 = 71/85,是指購買前項產品的客戶中也買後項產品的比例 規則支援 %(即支援度 x 信賴度 )–9.033 = 10.814% x 83.529% 或 = 71 / 786,指購買前項產品也買後項產品的客戶佔全部客戶的比例 提昇– 1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購買後項產品佔購買前項產品的比例除以購買後項產品佔全部客戶的比例 可部署性– 1.781 = 14/786,指購買前項產品但不買後項產品的人佔全部客戶的比例

Page 15: 資料探勘與 Modeler 使用介紹

降低最小規則信賴度 80%75%

Page 16: 資料探勘與 Modeler 使用介紹

產生目標 Alcohol 的規則組節點

Page 17: 資料探勘與 Modeler 使用介紹

規則組節點 Alcohol 產生的欄位

可分析符合某規則的客戶基本資料, 3 個規則條件不適用時,信心值為 0.5 , 3 個規則條件全符合時,信心值為(0.776+0.752+0.76)/3

Page 18: 資料探勘與 Modeler 使用介紹

資料關聯範例 二

節點【 Apriori 】檔案 UKtraining.txt

2136 records 26 fields

Page 19: 資料探勘與 Modeler 使用介紹

【變數檔案】節點

Page 20: 資料探勘與 Modeler 使用介紹

設定欄位角色 ( 三種基礎課程 )

Page 21: 資料探勘與 Modeler 使用介紹

設最小支援度 1% 最小信賴度50%

Page 22: 資料探勘與 Modeler 使用介紹

資料關聯範例 三

節點【 Sequence 】檔案 Telrepair.txt

750 cases 5915 records 3 fields

Page 23: 資料探勘與 Modeler 使用介紹

次序分析次序 (Sequence)分析的重點在於資料中必須存在先後順序的關係 ( 例如時間 )目前次序分析有兩種方式的,一種是只考量時間的先後順序,僅著重時間的順序作資料關聯的分析,另一種則是考量時間的區段,也就是週期性發生的類型,重點在於時間區段內的變化次序分析可以提共我們針對客戶客製化行銷的預測

Page 24: 資料探勘與 Modeler 使用介紹

次序分析的名詞解釋

實例– 48,和 Apriori不同,是指符合前項且符合後項的筆數支援度– 15.0=75/500,是指符合前項的客戶佔全部客戶的比例信賴度 – 64.0= 48/75,是指符合前項且符合後項的客戶佔符合前項客戶的比例 規則支援 %– 9.6= 48/500,指符合前項且符合後項的客戶佔全部客戶的比例

前項 後項 實例 支援度

信賴度

規則支援 %

Base & Regression Models

Advanced Models

PASW Modeler

48 15.0 64.0 9.6

Page 25: 資料探勘與 Modeler 使用介紹

維修案例檔案說明檔案 Telrepair.txt包括 750個維修案例,共有 5915紀錄,3 個欄位分別是 ID、 index1和stage一個 ID對應一份診斷修理報告, index1紀錄著修理診斷的順序,每個階段的代碼表示一種修理診斷的動作診斷開始以代碼 90表示( 但不完全是 ) ,成功完成修理以代碼 210表示,若問題無法成功解決,則以代碼 299表示FailTelrepair.txt則包括以代碼 299結束的失敗案例

Page 26: 資料探勘與 Modeler 使用介紹

【變數檔案】節點

Page 27: 資料探勘與 Modeler 使用介紹

【類型】節點

Page 28: 資料探勘與 Modeler 使用介紹

【表格】節點

Page 29: 資料探勘與 Modeler 使用介紹

【序列】節點

Page 30: 資料探勘與 Modeler 使用介紹

【序列】節點的 default 值

Page 31: 資料探勘與 Modeler 使用介紹

執行後的關聯規則

Page 32: 資料探勘與 Modeler 使用介紹

不同的排序準則 ( 成功率92%=690/750)

Page 33: 資料探勘與 Modeler 使用介紹

重複修理 ( 22.133% = 166/750 個id)

Page 34: 資料探勘與 Modeler 使用介紹

練習 :失敗案例 FailTelrepair.txt

Page 35: 資料探勘與 Modeler 使用介紹

資料關聯範例四

節點【 Sequence 】檔案 weblog.txt

912 ID 3000 records 3 fields

Page 36: 資料探勘與 Modeler 使用介紹

【變數檔案】節點

Page 37: 資料探勘與 Modeler 使用介紹

【類型】節點

Page 38: 資料探勘與 Modeler 使用介紹

【表格】節點

Page 39: 資料探勘與 Modeler 使用介紹

【序列】節點

Page 40: 資料探勘與 Modeler 使用介紹

執行後的關聯規則 1 個

Page 41: 資料探勘與 Modeler 使用介紹

降低最小規則支援度20%1%

Page 42: 資料探勘與 Modeler 使用介紹

信賴度 100% 時支援度等於規則支援度

Page 43: 資料探勘與 Modeler 使用介紹

序列節點產生的 3 個預測欄位

Page 44: 資料探勘與 Modeler 使用介紹

產生某選定規則的超級節點

Page 45: 資料探勘與 Modeler 使用介紹

序列規則超級節點的選項

Page 46: 資料探勘與 Modeler 使用介紹

超級節點增加的欄位