introduktion til visual data mining and machine learning › kntur85557 › attachments... ·...

17
Copyright © SAS Institute Inc. All rights reserved. SAS ® USER FORUM DENMARK 2017 Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute

Upload: others

Post on 25-Jun-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

Copyright © SAS Inst itute Inc. A l l r ights reserved.

SAS® USER FORUMDENMARK 2017

Introduktion til Visual Data Mining and Machine LearningAstrid Enslev Vestergård, SAS Institute

Page 2: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

Copyright © SAS Inst itute Inc. A l l r ights reserved.

SAS® USER FORUMSWEDEN 2017

Agenda

• Introduktion til et par machine learning-modeller

• Case-introduktion

• Demo

Page 3: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Beslutningstræ1

2 3

X2 < 0.63

6 7

X1 >= 0.50

10 11

X2 >=0.69

4 5

X2 >= 0.63

X1 < 0.50 X1 >= 0.50

8 9

X1 >= 0.54X1 < 0.54

X1 < 0.50

Page 4: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

BeslutningstræSplit populationen op i to sub-populationer

N = 64104P = 0.65

N = 39544P=0.52

N = 24560P = 0.86

x <= 42 x > 42

ASplitter populationen op i to sub-populationer ved en vilkårlig variabel x – her med værdien 42

B

Variable Value Split strength*

Gender M vs F 0.017

Age 42 0.002

Etnicity {DK,EU} vs {nonEU} 0.005

Insurance {A,C} vs {D,E,F} 0.776

Municipality {Aarhus,Aalborg, …} vs {Odense, Esbjerg,…}

0.546

Business type {Bakery, Farming, ..} vs {Banking, Insurance, …}

0.443

Salary 123.456 0.022

Number of children X=0 vs 0<X 0.086

Company size 18 0.321

C Måle splitstyrken

* = Small means strong relation

Mand Kvinde

T = 1 123 443

T = 0 143 12

Traditionel Chi2-test for uafhængighed giver en P-værdi for hypotesen, at køn og target er uafhængige (ikke-relaterede).

Små P-værdier betyder derfor, at vi kan afvise hypotesen med stor sikkerhed.

Find ud af, hvilken variabel x er, og for hvilken værdi splittet skal ske ved. Næsten alle muligheder bliver afprøvet

Page 5: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

BeslutningstræOpdel inputrummet i kasser (bladnoder)

x1

x2

4 8

9

6

10

111

2 3

X2 < 0.63

6 7

X1 >= 0.50

10 11

X2 >=0.69

4 5

X2 >= 0.63

X1 < 0.50 X1 >= 0.50

8 9

X1 >= 0.54X1 < 0.54

X1 < 0.50

Page 6: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

BeslutningstræKompleksitet af beslutningstræsmodeller

Simple modeller Komplekse modeller

Antal slutnoder

L=2 L=3 L=4 L=5

Fejl

Valideringsfejl

Træningsfejl

Page 7: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Overbygning på beslutningstræetBagging aka bootstrap aggregation

• Laver stikprøver af observationerne

• Laver flere modeller

• Laver en gennemsnitsmodel

• Sørger for, at outliers ikke får for meget vægt

Page 8: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Random forestBagging begge veje

Fuldt datasæt Tilfældige stikprøvedata Træ på stikprøvedata

Random forests er en ensemblemetode, der bruger flere beslutningstræer baseret på

tilfældigt udvalgte subsæt af data.

Page 9: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Overbygning på beslutningstræetBoosting – fokus på problemerne

Page 10: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Adaptiv boostingBoosting – fokus på problemerne

Data set Subset

Upweight errors

Upweight errors

Tree Error Weight

Læring Klassificering

Source: Machine Perception and Robotics Group, Dept. of Robotics Science and Technology, Chubu University

Page 11: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Neurale netværkHvad er det egentlig, det er?

Neurale netværker var oprindeligt inspireret af den biologiske analogi af et

neuron i hjernen. Det er imidlertid bare en matematisk model.

I det neurale netværk er inputtet sendt fremad i netværket, transformeres og

sendt videre frem, indtil det når outputnoden, som er estimatet af target-

variablen.

Output

Hidden layer variables

Weights (to be estimated)

More weights

Input valuesDefinition of the hidden layer variables

Page 12: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

OverfittingDatapartitionering

Træningsdata Valideringsdata Testdata

Alt data

Data brugt til at estimere modelparametrene.

Data brugt til at finde den optimale kompleksitet (fleksibilitet).

Data brugt til at estimere performance af modellen.

Tilfældig permutering af datapunkter

?

Page 13: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

Case – OrganicsHvem skal modtage tilbud om økologiske varer?

Finde den bedste model til klassifiering i SAS® Viya™ VDMML

Page 14: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

OrganicsDatasættet

Variabelnavn Type LabelAntal

kategorier

ID Char Customer Loyalty ID 22,223

DemAffl Num Affluence Grade

DemAge Num Age

DemGender Char Gender 3

DemReg Char Geographic Region 5

DemTVReg Char Television Region 13

PromClass Char Loyalty Status 4

PromSpend Num Total Spend

PromTime Num Loyalty Card Tenure

TargetBuy CharOrganics Purchase

Indicator2

TargetAmt Num Organics Purchase Count

Page 15: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

SAS® USER FORUMDENMARK 2017

Copyright © SAS Inst itute Inc. A l l r ights reserved.

OrganicsDatapartionering

• Proc Surveyselect

• Simple sampling method

• 60% er træningsdata, og 40% er valideringsdata

Page 16: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

Copyr ight © SAS Inst i tute Inc. Al l r ights reserved.

Demo

Page 17: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at

Copyright © SAS Inst itute Inc. A l l r ights reserved.

SAS® USER FORUMDENMARK 2017

Astrid Enslev Vestergård M: +45 51 38 76 44E: [email protected]