data mining ii estimasi - · pdf filedata mining hanya menggunakan dua: 1. nominal (diskrit)...
TRANSCRIPT
![Page 1: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/1.jpg)
Data Mining II
Estimasi
Data Mining-2012-a@b 1
Estimasi
Matakuliah Data warehouse
Universitas Darma Persada
Oleh: Adam AB
![Page 2: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/2.jpg)
Tahapan proses datamining
Data Mining-2012-a@b 2
Input(Data)
Metode(Algoritma
Data Mining)
Output(Pola/Model/Knowledge)
Evaluation(Akurasi, AUC,
RMSE, etc)
![Page 3: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/3.jpg)
Atribut , Class dan tipe data
• Atribut adalah faktor atau parameter yang
menyebabkan class/label/target terjadi
• Class adalah atribut yang akan dijadikan target,
sering juga disebut dengan label
• Tipe data untuk variabel pada statistik terbagi • Tipe data untuk variabel pada statistik terbagi
menjadi empat: nominal, ordinal, interval, ratio
• Tapi secara praktis, tipe data untuk atribut pada
data mining hanya menggunakan dua:
1. Nominal (Diskrit)
2. Numeric (Kontinyu atau Ordinal)
Data Mining-2012-a@b 3
![Page 4: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/4.jpg)
Metode/Algoritma Data mining
1. Estimation (Estimasi):– Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):– Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
Data Mining-2012-a@b 4
3. Classification (Klasifikasi):– Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Random Forest,
Linear Discriminant Analysis, Neural Network, etc
4. Clustering (Klastering):– K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):– FP-Growth, A Priori, etc
![Page 5: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/5.jpg)
Output/pola/model/knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2
PESANAN
2. Decision Tree (Pohon Keputusan)
3. Rule (Aturan)
Data Mining-2012-a@b 5
3. Rule (Aturan)
– IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
![Page 6: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/6.jpg)
2
2.5
3
Iteration 6
Data Mining-2012-a@b 6
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
x
y
![Page 7: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/7.jpg)
Refund
Yes No
Splitting Attributes
Data Mining-2012-a@b 7
MarSt
TaxInc
YESNO
NO
NO
Yes No
Single, Divorced
< 80K > 80K
![Page 8: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/8.jpg)
Kriteria Evaluasi dan Validasi
Model• Secara umum pengukuran model data mining
mengacu kepada tiga kriteria: Akurasi
(Accuracy), Kehandalan(Reliability) dan
Kegunaan (Usefulness)
Data Mining-2012-a@b 8
Kegunaan (Usefulness)
• Keseimbangan diantaranya ketiganya diperlukan
karena belum tentu model yang akurat adalah
handal, dan yang handal atau akurat belum tentu
berguna
![Page 9: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/9.jpg)
Kriteria Evaluasi dan Validasi
Model
1. Akurasi adalah ukuran dari seberapa baik model
mengkorelasikan antara hasil dengan atribut dalam data yang
telah disediakan. Terdapat berbagai model akurasi, tetapi
semua model akurasi tergantung pada data yang digunakan
Data Mining-2012-a@b 9
2. Kehandalan adalah ukuran di mana model data mining
diterapkan pada dataset yang berbeda akan menghasilkan
sebuah model data mining dapat diandalkan jika
menghasilkan pola umum sama terlepas dari data testing
yang disediakan
3. Kegunaan mencakup berbagai metrik yang mengukur apakah
model tersebut memberikan informasi yang berguna.
![Page 10: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/10.jpg)
Tool software datamining
• WEKA
• RapidMiner
• DTREG
Data Mining-2012-a@b 10
• Clementine
• Matlab
• R
• SPSS
![Page 11: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/11.jpg)
Data mining-Estimasi
• Estimasi merupakan fungsi minor kedua
dari data mining.
• Suatu misal kita diberi sampel data volume
air isi ulang yang diisi otomatis oleh mesin
Data Mining-2012-a@b 11
air isi ulang yang diisi otomatis oleh mesin
pengisi dengan isi yang bervariasi,
sementara volume yang diharapkan adalah
2000 ml.
![Page 12: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/12.jpg)
Data Mining-Estimasi(lanj)
Data Mining-2012-a@b 12
![Page 13: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/13.jpg)
Data Mining-Estimasi (lanj)
• Berdasarkan data di atas pengisian air pada mesin tidak tepat 2000 ml
• Berapakah volume air pada umumnya di dalam botol yang diisikan?
• Berapa kira-kira volume air yang akan diisi pada
Data Mining-2012-a@b 13
• Berapa kira-kira volume air yang akan diisi pada botol di masa datang bila mesin mengisi (berapa kali) botol tersebut?
• � estimasi/memperkirakan
• Estimasi � estimasi titik
• � setimasi selang
![Page 14: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/14.jpg)
Data Mining-Estimasi (lanj)
• Istilah
• Populasi : objek yang diteliti, dalam hal ini
air minum dalam botol
Data Mining-2012-a@b 14
air minum dalam botol
• Sampel : contoh/cuplikan objek yang
diambil untuk dijadikan penelitian, dalam
hal ini 12 botol minuman.
• Populasi besarnya tidak terbatas
![Page 15: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/15.jpg)
Estimasi Titik
• Estimasi titik : bentuk estimasi yang menghasilkan
satu buah nilai estimasi saja yaitu berupa angka
• Populasi yang terus bertambah , tidak mungkin
bagi kita untuk menghitung mean dan varians.
• Karena itu kita perlu sampel untuk melakukan
Data Mining-2012-a@b 15
• Karena itu kita perlu sampel untuk melakukan
estimasi/perkiraan pada parameter di atas
• Mengapa perkiraan? � sebab bila kita memiliki
perkiraan rata-rata dan varians yang akurat maka
akan banyak pertanyaan yang dapat kita jawab
dengan baik.
![Page 16: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/16.jpg)
Estimasi titik (lanj)
• Cara memperkirakan
• Rata-rata populasi µ dapat diestimasi
dengan rata-rata sampel
• Varians populasi σ2 dapat diestimasi dengan
Data Mining-2012-a@b 16
varians sampel (s2)
![Page 17: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/17.jpg)
Estimasi titik - contoh
Data Mining-2012-a@b 17
• Rata-rata sampel = 24084/12 = 2007 ml
• Varians sampel = 10620/(12-1) = 965.45 ml2
• Standar deviasi = sqrt (965.45) = 31.07 ml
![Page 18: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/18.jpg)
Estimasi titik - contoh
• Pengetahuan apa yang diperoleh dari
informasi ini?
• � pada umumnya setiap botol akan diisi air
Data Mining-2012-a@b 18
• � pada umumnya setiap botol akan diisi air
sebanyak 2007 ml (rata-rata), dengan
varians sebesar 965.45 ml
![Page 19: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/19.jpg)
Estimasi - selang
• Estimasi titik hanya menghasilkan satu
angka, bagaimana bila diinginkan angka
yang selang agar lebih mengakomodasi
error.
Data Mining-2012-a@b 19
• Menggunakan batas bawah (L) dan batas
atas (U)
• � batas bawah (L) = X - zα /2 . σx
• � batas atas (U) = X + zα /2 . σx
![Page 20: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/20.jpg)
Estimasi - selang
Data Mining-2012-a@b 20
•Rata-rata sampel = 24084/12 = 2007 ml
•Varians sampel = 10620/(12-1) = 965.45 ml2
•Standar deviasi = sqrt (965.45) = 31.07 ml
![Page 21: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/21.jpg)
Estimasi selang (lanj)
• Selang kepercayaan 95%, maka α = 100% -
95% = 5%
• Selang kepercayaan 90% maka α = 10%
• Misal kita gunakan selang kepercayaan 95%
Data Mining-2012-a@b 21
• Misal kita gunakan selang kepercayaan 95%
� α = 5%
• zα /2 = 5/2 = 2.5 % = 0.025
• � lihat tabel distribusi
![Page 22: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/22.jpg)
Estimasi selang (lanj)
Data Mining-2012-a@b 22
![Page 23: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/23.jpg)
Estimasi selang (lanj)
• Nilai 0.024998 ~ 0.0250 terletak dalam
baris 1.9 dan kolom 0.06 sehingga diperoleh
1.9 + 0.06 = 1.96
• � zα /2 batas bawah = - 1.96 (nilai negatif)
Data Mining-2012-a@b 23
• � zα /2 batas atas = 1.96 (nilai positif)
• Tinggal menghitung σx
• σx = σ/sqrt(n) (baca: standar deviasi dibagi akar banyaknya data)
![Page 24: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/24.jpg)
Estimasi selang (lanj)
• σ � standar deviasi � 31.07 ml
• n � banyaknya data � 12 ml
• σx =σ/sqrt(n) � 31.07 / sqrt(12) = 8.97
Data Mining-2012-a@b 24
• σx =σ/sqrt(n) � 31.07 / sqrt(12) = 8.97
• Batas bawah (L) = 2007 – 19.6 (8.97) = 1989.42 ml
• Batas atas (U) = 2007 + 19.6 (8.97) = 2024.58 ml
• Jadi selang kepercayaan 95% berdasarkan sampel
tersebut adalah (1989.42 ; 2024.58 ) ml
![Page 25: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/25.jpg)
Estimasi selang (lanj)
• Pengetahuan apa yang bisa diperoleh dari
pengolahan data di atas?
• � bila kita melakukan prosedur 100 kali
Data Mining-2012-a@b 25
• � bila kita melakukan prosedur 100 kali
maka akan berpeluang untuk mendapatkan
95 buah selang yang benar-benar mencakup
populasi sesungguhnya.
![Page 26: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/26.jpg)
latihan
• Sebuah bagian dari
depnaker bermaksud
memperkirakan besarnya
penghasilan penduduk di
suatu daerah. Lima belas
orang yang telah bekerja
Data Mining-2012-a@b 26
orang yang telah bekerja
diambil secara acak dan
ditanya penghasilan
perbulan. Hasil yang
diperoleh adalah
![Page 27: Data Mining II Estimasi - · PDF filedata mining hanya menggunakan dua: 1. Nominal (Diskrit) 2. Numeric (Kontinyu atau Ordinal) Data Mining-2012-a@b 3. Metode/Algoritma Data ... (Rumus](https://reader034.vdocuments.site/reader034/viewer/2022051320/5a7531457f8b9a63638c4d51/html5/thumbnails/27.jpg)
latihan
1. Perkirakan rata-rata dan varians
penghasilan penduduk daerah tersebut
2. Buatlah selang keyakinan 99%, dan 95%
untuk rata-rata penghasilan. Bandingkan
dari segi intervalnya
Data Mining-2012-a@b 27
dari segi intervalnya