bayesian bayesian network
Post on 03-Apr-2018
259 Views
Preview:
TRANSCRIPT
-
7/29/2019 bayesian bayesian network
1/20
March 29, 2013 1
Data Mining:Klasifikasi dan Prediksi
Naive Bayesian &Bayesian Network.
-
7/29/2019 bayesian bayesian network
2/20
March 29, 2013 Data Mining: Concepts and Techniques 2
Chapter 6. Classification and Prediction
Apa itu klasifikasi ? Apa itu prediksi
Beberapa hal terkait dengan
klassifikasi and prediksi
Klasifikasi Bayesian
-
7/29/2019 bayesian bayesian network
3/20
March 29, 2013 Data Mining: Concepts and Techniques 3
Supervised vs. Unsupervised Learning
Supervised learning (classification)
Supervision (terawasi): Data training (observations,
measurements, etc.) ada kelas dalam data training
Data baru diklasifikasikan didasarkan pada data
training
Unsupervised learning(clustering)
Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan
pembentukan adanya kelas atau kelompok dalam
data
-
7/29/2019 bayesian bayesian network
4/20
March 29, 2013 Data Mining: Concepts and Techniques 4
Classification Memprediksi label clas (diskrit atau kontinu)
mengklasifikasi data (membangun model) didasarkanpada data training dan nilai label class dalam
mengklasifikasikan atribut dan menggunakannya saatmengklasifikasikan data baru
Prediksi
Memodelkas fungsi bernilai kontinu;yaitu memprediksinilai yang tidak diketahui
Bentuk aplikasinya
Persetujuan pinjaman atau kredit:
Diagnosa medis: apakah hepatitis A atau B
Deteksi kegagalan:
Classification vs. Prediction
-
7/29/2019 bayesian bayesian network
5/20
March 29, 2013 Data Mining: Concepts and Techniques 5
Process (1): Model Construction
Training
Data
N A M E R A N K Y E A R S T E N U R E D
Mike A ssistant Prof 3 no
Mary Assistant Prof 7 yesBill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Pro f 3 no
Classification
Algorithms
IF rank = professor
OR years > 6
THEN tenured = yes
Classifier
(Model)
-
7/29/2019 bayesian bayesian network
6/20
March 29, 2013 Data Mining: Concepts and Techniques 6
Process (2): Using the Model in Prediction
Classifier
Testing
Data
N A M E R A N K Y E A R S T E N U R E D
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Unseen Data
(Jeff, Professor, 4)
Tenured?
-
7/29/2019 bayesian bayesian network
7/20March 29, 2013 Data Mining: Concepts and Techniques 7
Issues: Data Preparation
Data cleaning
Memproses awal data untuk mengurangi noise dan
mengatasi nilai-nilai yang hilang
Analisa relevansi (seleksi fitur)
Menghilangkan atribut-atribut yang tidak relevan atau
atribut yang redundan
Transformasi data
Membangun normalisasi data
-
7/29/2019 bayesian bayesian network
8/20March 29, 2013 Data Mining: Concepts and Techniques 8
Issues: Evaluating Classification Methods
Akurasi Keakuratan klasifikasi : memperkirakan label class
Keakurasisan prediksi: nilai yang ditebak dari atributyang diprediksi
Kecepatan Waktu untuk membangun model (training time)
Waktu dalam menggunakan model(classification/prediction time)
Kehandalan: mengatasi noise dan missing values
-
7/29/2019 bayesian bayesian network
9/20March 29, 2013 Data Mining: Concepts and Techniques 9
Chapter 6. Classification and Prediction
What is classification? What is
prediction?
Issues regarding classification and
prediction
Classification by decision tree
induction
Bayesian classification
-
7/29/2019 bayesian bayesian network
10/20March 29, 2013 Data Mining: Concepts and Techniques 10
Bayesian Classification: Why?
A statistical classifier: membangun probabilistic prediction,yaitumemprediksi probabilitas keanggotaan kelas
Didasarkan pada Bayes Theorem.
Performance: A simple Bayesian classifier, nave Bayesianclassifier, has comparable performance with decision treeand selected neural network classifiers
Incremental: Each training example can incrementallyincrease/decrease the probability that a hypothesis iscorrect prior knowledge can be combined with observed
data Standard: Even when Bayesian methods are
computationally intractable, they can provide a standardof optimal decision making against which other methodscan be measured
-
7/29/2019 bayesian bayesian network
11/20March 29, 2013 Data Mining: Concepts and Techniques 11
Bayesian Theorem: Basics
Xadalah data sample (evidence): label kelas tidakdiketahui
H adalah dugaan (hypothesis) bahwa X adalah anggota C
Klasifikasi ditentukan P(H|X), (posteriori probability),
probabilitas bahwa dugaan terhadap data sampleX
P(H) (prior probability), initial probability
MisalXakan membeli computer, tidak memperhatikanage, income,
P(X): probabilitas dari sample data yang diamatii
P(X|H) (likelyhood), probabilitas dari sampleX, dengan thememperhatikan dugaan
Misal ,Xakan membeli computer, probabilitas bahwa X.Adalah 31..40, penghasilan sedang
-
7/29/2019 bayesian bayesian network
12/20March 29, 2013 Data Mining: Concepts and Techniques 12
Bayesian Theorem
Dari training dataX, posteriori probabilitas dari hypothesis
H, P(H|X), teoremaBayes
Ini dapat ditulis denganposterior = likelihood x prior/evidence
PrediksiXanggota C2 jika dan hanya jika probabilitas
P(C2|X) paling tinggi diantara semua P(C
k|X) dari semua
kelas k
Prakteknya sulit : perlu pengetahuan awal dari banyak
probabilitas , biaya komputasi yang signifikan
)(
)()|()|(X
XX
P
HPHPHP
-
7/29/2019 bayesian bayesian network
13/20March 29, 2013 Data Mining: Concepts and Techniques 13
Nave Bayesian Classifier: Training Dataset
age income student credit_rating buys_computer 40 low yes fair yes>40 low yes excellent no
3140 low yes excellent yes
-
7/29/2019 bayesian bayesian network
14/20March 29, 2013 Data Mining: Concepts and Techniques 14
Klasifikasi Nave Bayesian
Perhatikan D adalah record training dan ditetapkan label-label kelasnya dan masing-masing record dinyatakan natribut ( n field ) X= (x1, x2, , xn)
Misalkan terdapat mkelas C1, C2, , Cm.
Klassifikasi adalah diperoleh maximum posteriori yaitumaximum P(Ci|X)
Ini dapat diperoleh dari teorema Bayes
Karena P(X) adalah konstan untuk semua kelas, hanya
Perlu dimaksimumkan
)(
)()|()|(
X
XX
Pi
CPi
CP
iCP
)()|()|(i
CPi
CPi
CP XX
-
7/29/2019 bayesian bayesian network
15/20March 29, 2013 Data Mining: Concepts and Techniques 15
Derivation of Nave Bayes Classifier
Diasumsikan: atribut dalam kondisi saling bebas(independent) yaitu tidak ada kebergantungan antaraatribut-atribut :
Ini sangat mengurangi biaya .Hanya menghitung
distribusi dari kelas Akadalah categorical, P(xk|Ci) adalah jumlah record dalam
kelas Ci yang memiliki nilai xkuntuk Akdibagi dengan|Ci, D| jumlah record dalam Ci dalam D)
Jika Akbernilai kontinu , P(xk|Ci) biasanya dihitungberdasarkan pada distribusi Gausian dengan mean andstandar deviasi
Dan P(xk|Ci) adalah
)|(.. .)|()|(
1
)|()|(21
CixPCixPCixP
n
k
CixPCiPnk
X
2
2
2
)(
2
1),,(
x
exg
),,()|(ii CCk
xgCiP X
-
7/29/2019 bayesian bayesian network
16/20March 29, 2013 Data Mining: Concepts and Techniques 16
Nave Bayesian Classifier: Training Dataset
Class:
C1:buys_computer = yes
C2:buys_computer = no
Data sample
X = (age 40 low yes excellent no
3140 low yes excellent yes
-
7/29/2019 bayesian bayesian network
17/20March 29, 2013 Data Mining: Concepts and Techniques 17
a ve ayes an ass er: nExample
P(Ci): P(buys_computer = yes) = 9/14 = 0.643P(buys_computer = no) = 5/14= 0.357
Compute P(X|Ci) for each classP(age =
-
7/29/2019 bayesian bayesian network
18/20March 29, 2013 Data Mining: Concepts and Techniques 18
Menghindari masalah Probabilitas 0
Prediksi Nave Bayesian membutuhkan masing-masing probabilitastidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadinol
Misalkan data dengan 1000 record , income=low (0), income=medium (990), and income = high (10),
Menggunakan Laplacian correction (atau Laplacian estimator)
Tambahkan 1 untuk masing-masing case
Prob(income = low) = 1/1003
Prob(income = medium) = 991/1003
Prob(income = high) = 11/1003
The corrected prob. estimates are close to their uncorrected
counterparts
n
kCixkPCiXP
1
)|()|(
-
7/29/2019 bayesian bayesian network
19/20March 29, 2013 Data Mining: Concepts and Techniques 19
Penjelasan Nave Bayesian Classifier:
Keuntungan Mudah diimplementasikan
Hasil baik dalam banyak kasus
Kerugian
Asumsi : kondisi kelas saling bebas , sehingga kurangakurat
Pada prakteknya , kebergantungan anda diantaravariabel
Misal hospitals: patients: Profile: age, family history, etc.Gejala (symptom: demam (fever), batuk (cough) etc., Disease:
lung cancer, diabetes, etc.
Kebergantunagn diantara variabel ini tidak dapat dimodelkandengan menggunakan Nave Bayesian Classifier
How to deal with these dependencies?
-
7/29/2019 bayesian bayesian network
20/20M h 29 2013 D t Mi i C t d T h i 20
Bayesian Belief Networks
Bayesian belief network memungkinkan sebagain variabel
dalam kondisi saling bebas
Model grafik menyatakan keterhubungan sebab akibat
Menyatakan kebergantungan (dependency) diantara variabel-variabel
Gives a specification of joint probability distribution
X Y
ZP
Node (simpul ): variabel-variabel bebas
Links: kebergantungan
X dan Y adalah parents dari Z, dan Y
adalan parent dari P
tidak ada kebergantungan diantara Z dan P
Tidak memiliki loop atau siklus
top related