francesco cutugno
DESCRIPTION
Francesco Cutugno. Classificazione - WEKA. #. Classificazione Clusterizzazione Machine learning. Informatica. Data Warehouse. [email protected]. Sommario. Concetti di base Features Apprendimento supervisionato Apprendimento non supervisionato - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/1.jpg)
Lezione n. Parole chiave:
Corso di Laurea:
Insegnamento:
Email Docente:
A.A. 2009-2010
Francesco CutugnoClassificazione - WEKA
#ClassificazioneClusterizzazioneMachine learning
Informatica
Data Warehouse
![Page 2: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/2.jpg)
Sommario• Concetti di base
• Features
• Apprendimento supervisionato
• Apprendimento non supervisionato
• Classi di algoritmi di machine learning
• Valutazione
• WEKA
• RapidMiner
![Page 3: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/3.jpg)
Oggetti conosciuti
Oggetti sconosciuti Risposta
Machine learning
![Page 4: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/4.jpg)
FeaturesGli oggetti esistono solo in termini delle caratteristiche registrate
Ogni tipo di analisi automatica riguardante un insieme di oggetti è vincolata a come questi sono stati descritti
Se chiedessimo ad un algoritmo di machine learning di risolvere un problema senza fornire le caratteristiche importanti per tale
scopo?
![Page 5: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/5.jpg)
Apprendimento non supervisionato – Esempio
![Page 6: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/6.jpg)
Apprendimento supervisionato – Esempio
A
A
A BB
B
B A
D
D
DD
C
CC
C
![Page 7: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/7.jpg)
Le istanze sconosciuteNella maggior parte dei casi il dominio delle features è continuo
Tracciare confini di decisione troppo approssimati può rendere la classificazione delle istanze vicine a tali confini praticamente casuale
In ogni caso, verrà fornita una risposta in base alle maggiori probabilità di appartenenza di un oggetto ad una classe piuttosto che ad un'altra
? ?
![Page 8: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/8.jpg)
Clustering
![Page 9: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/9.jpg)
Regressione
![Page 10: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/10.jpg)
Training Set
Test set Classificatore
Classe 1
Classe n
.
.
.
.
.
.
Classificazione
![Page 11: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/11.jpg)
Misure di valutazione
fptptp
Precision
fntptp
Recall
fpfntntptntp
Accuracy
RPRPF
2
2 )(1
True X True YLabeled X True positives False positivesLabeled Y False negatives True negatives
![Page 12: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/12.jpg)
Generalizzazione
step
![Page 13: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/13.jpg)
Cross validation
1
2
10
![Page 14: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/14.jpg)
Il formato ARFFIl formato ARFF è composto da un header, all'interno del quale viene descritta l'organizzazione dei dati, e da una sezione data, all'interno della quale vengono registrati i valori delle features secondo lo schema descritto nell'header. Di seguito riportiamo un esempio sul dataset di riferimento iris:
% 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%[email protected]) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa ...
![Page 15: Francesco Cutugno](https://reader031.vdocuments.site/reader031/viewer/2022033015/56815d8d550346895dcb9c22/html5/thumbnails/15.jpg)
<dataset name="iris" version="3.5.3"> <header> <attributes> <attribute name="sepallength" type="numeric"/> <attribute name="sepalwidth" type="numeric"/> <attribute name="petallength" type="numeric"/> <attribute name="petalwidth" type="numeric"/> <attribute class="yes" name="class" type="nominal"> <labels> <label>Iris-setosa</label> <label>Iris-versicolor</label> <label>Iris-virginica</label> </labels> </attribute> </attributes> </header> <body> <instances> <instance> <value>5.1</value> <value>3.5</value> <value>1.4</value> <value>0.2</value> <value>Iris-setosa</value> </instance> ... </instances> </body> </dataset>
Il formato XRFF - Esempio