Download - 8186 8 reduksi data
![Page 1: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/1.jpg)
![Page 2: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/2.jpg)
KONSEP DASAR Reduksi data adalah proses analisis untuk memilih,
memusatkan perhatian, meyederhanakan,mengabstraksikan serta mentransformasikan datayang muncul dari catatan-catatan lapangan.
Mereduksi data berarti membuat rangkuman, memilihhal-hal pokok, memfokuskan pada hal-hal penting,mencari tema dan pola, serta membuang yangdianggap tidak perlu.
![Page 3: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/3.jpg)
KONSEP DASAR Contoh: data yang besar dalam data warehouse
pada data set kompleks.
Reduksi data berarti : Mengurangi ukuran data settetapi menghasilkan hasil analisis yang sama (hampirsama)
![Page 4: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/4.jpg)
TUJUAN Menentukan kualitas solusi dalam data mining
![Page 5: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/5.jpg)
OPERASI DASAR Tiga dimensi utama dari data set (plain files):
Kolom (fitur)
Baris (kasus/ contoh)
Nilai fitur
Tiga operasi dasar dari proses reduksi data:
Delete kolom,
Delete baris
Pengurangan jumlah nilai kolom (penghalusan suatu fitur).
![Page 6: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/6.jpg)
PENDEKATAN YANG DIGUNAKAN Operasi lain mereduksi tetapi data baru tidak dikenali lagi.
Menggantikan sekumpulan fitur awal dengan fitur campuran yang baru.
Contoh: data set fitur (tinggi dan berat) diganti dengan BMI (body-mass-index).
Merupakan proporsi hasil bagi dari dua fitur awal.
![Page 7: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/7.jpg)
PARAMETER ANALISIS DASAR Waktu komputasi, data yang lebih sederhana dapat
mereduksi waktu untuk proses data mining
Keakuratan prediksi/deskriptif, mengukurseberapa baik data dapat disimpulkan danmengeneralisasi ke dalam suatu model.
Penyajian dari model data mining, kesederhanaanrepresentasi menjadi model yang dapat dimengerti
![Page 8: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/8.jpg)
dapat mereduksi waktu, meningkatkan akurasi danpenyajian dalam bentuk yang sederhana pada waktuyang bersamaan, menggunakan strategiDimensionality reduction.
![Page 9: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/9.jpg)
FEATURE REDUCTION Proses reduksi fitur harus menghasilkan:
Data yang lebih kecil, sehingga algoritma data miningdapat bekerja lebih cepat
Akurasi yang tinggi dari proses data mining, sehinggamodel dapat mengeneralisasikan data lebih baik
Hasil yang sederhana, sehingga lebih mudah dimengertidan digunakan
Fitur yang lebih kecil.
![Page 10: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/10.jpg)
Klasifikasi Reduksi Fitur Feature selection: proses pememilihan fitur yang
ditemukan pada sebuah data set awal.
Feature composition: faktor penentu dalammenghasilkan hasil data mining yang berkualitas
![Page 11: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/11.jpg)
Feature Selection Terdiri dari algoritma feature-rangking dan algoritma
subset minimum. Algoritma feature-rangking.
Daftar fitur yang terurut berdasarkan hasil evaluasi. Suatu ukuran dapat digunakan berdasarkan akurasi data yang
tersedia, konsistensi, isi informasi, jarak. Algoritma ini tidak dapat memberitahukan apakah kumpulan
fitur dapat dianalisa lebih lanjut.
Algoritma subset minimum Mendapatkan subset fitur minimum dan tidak ada perbedaan
urutan diantara fitur-fitur dalam subset. Fitur-fitur dalam subset yang relevan ditujukan untuk proses
mining
![Page 12: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/12.jpg)
Seleksi fitur secara umum dapat digambarkan sebagaimasalah pencarian, dengan setiap state di areapencarian khusus suatu subset.
Seleksi fitur dan reduksi dimensi data membantuseluruh tahapan dalam proses data mining untukpenemuan pengetahuan.
![Page 13: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/13.jpg)
Entropy Measure Suatu metoda untuk seleksi unsupervised fitur atau
merangking berdasarkan ukuran entropy.
Asumsi dasar adalah semua contoh diberikan sebagaivektor tanpa adanya klasifikasi dari output sample.
Pendekatan didasarkan atas observasi pembuangan fituryang tidak relevan, fitur redundan, atau keduanya darikemungkinan yg tidak mengubah karakteristik data set.
Algoritma didasarkan atas ukuran kesamaan S yangberbanding terbalik dengan jarak D antara dua n-dimensional sample. Ukuran jarak D kecil, dekat dengancontoh, dan yang besar untuk perbedaan pasangan.
![Page 14: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/14.jpg)
Ada 2 formula yg dipakai untuk mengukur kesamaanterhadap fitur: data numerik dan non numerik(kategori).
1. Data numerik:
Similarity (S)
dimana: e=2.7183;
Namun sering digunakan sebagai konstanta
Dan ukuran jarak D didapatkan:
![Page 15: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/15.jpg)
2. Data non-numerik
Di mana |xij=xjk| adalah 1 jika xij=xjk, dan sebaliknya 0. Jumlah variable adalah n.
Sample F1 F2 F3
R1R2R3R4R5
ABCBC
XYYXZ
12213
R1 R2 R3 R4 R5
R1R2R3R4
0/3 0/32/3
2/31/30/3
0/30/31/30/3
Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
![Page 16: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/16.jpg)
Nilai Entropy yang digunakan untuk rangking fitur adalah:
Kedekatan suatu fitur ditunjukan semakin kecilnya perbedaan nilai entropy.
![Page 17: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/17.jpg)
DATA REDUCTION METHODS Principal Component Analysis
Values Reduction
Feature Discretization
![Page 18: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/18.jpg)
Principal Component Analysis (PCA) Metoda statistik yang populer untuk mereduksi dimensi
data set yang besar adalah metode Karhunen-Loeve (K-L).
Merupakan metoda pentranformasian data set awal ygdirepresentasikan vector sample menjadi kumpulan vectorsample baru dengan dimensi yang didapatkan.
Tujuannya memfokuskan informasi terhadap perbedaan-perbedaan diantara sample menjadi dimensi yang kecil.
![Page 19: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/19.jpg)
Principal Component Analysis (PCA) Ide dasar: sekumpulan vector sampel berdimensi n X={x1,
x2, x3, …, xm} ditransformasikan ke himpunan lain Y = {y1,y2, y3, …, ym} dengan dimensi yg sama, tetapi y ,memilikiproperty yg paling informatif isinya disimpan dalamdimensi pertama.
Transformasi didasarkan atas asumsi bahwa informasi ygtinggi berhubungan dengan varian yg tinggi. Sehingga jikamereduksi ke satu dimensi dari matrik X ke matrik Y dapatdituliskan:Y= A ∙ X, pemilihan A sehingga Y mempunyai varian terbesar dari data
set yg diberikan. Dimensi tunggal dari Y diperoleh dari transformasiini disebut first principal component.
![Page 20: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/20.jpg)
Principal Component Analysis (PCA) Maka untuk menentukan matrix A, dihitung dahulu
covariance matrix S sebagai tahap awal daritransformasi fitur.
Dimana:
![Page 21: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/21.jpg)
Eigen values & Eigen vector Eigenvalues dari matrix covariance S : λ1 ≥ λ2 ≥… λn ≥0
Eigenvectors v1,v2,… vn berhubungan dengan eigenvalues λ1 ≥ λ2≥… λn dan disebut principal axes.
Kriteria untuk seleksi fitur didasarkan atas rasio penjumlahaneigenvalue terbesar S ke nilai seluruh S, sehingga dapat dituliskan:
Ketika nilai rasio R cukup besar (lebih besar dari nilai threshold),seluruh analisa dari subset atas fitur m merepresentasikan estimasiawal yg baik dari n dimensi ruang.
![Page 22: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/22.jpg)
Eigen values & Eigen vector Nilai eigen value diperoleh dengan mengetahui
nilai covariance sehingga dituliskan: det (S – λ) = 0 ; dimana S= matrix covariance
Sedangkan nilai eigen vector (v) diperoleh denganrumusan berikut:
λv = Sv
![Page 23: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/23.jpg)
ContohFeature 1 Feature 2 Feature 3 Feature 4
Feature 1 1.0000 1.1094 0.8718 0.8180
Feature 2 −0.1094 1.0000 −0.4205 −0.3565
Feature 3 0.8718 −0.4205 1.0000 0.9628
Feature 4 0.8180 −0.3565 0.9628 1.0000
Feature Eigenvalue
Feature 1 2.91082
Feature 2 0.92122
Feature 3 0.14735
Feature 4 0.02061
Eigenvalue dari data
Covariance
![Page 24: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/24.jpg)
Dengan nilai threshold R*=0.95, maka dipilih 2 fitur pertama, sebab:
R = (2.91082 + 0.92199)/(2.91082 + 0.92122 + 0.14735 + 0.02061)
= 0.958 > 0.95, sehingga 2 fitur tersebutcukup mendeskripsikan karakteristik data set.
![Page 25: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/25.jpg)
Value Reduction Suatu reduksi jumlah nilai-nilai diskrit untuk figure yg
diberikan didasarkan atas teknik diskritisasi.
Tujuannnya : mendiskritisasi nilai fitur kontinumenuju sejumlah kecil interval, yg mana setiapinterval dipetakkan ke simbol diskrit.
Keuntungan: diskripsi data disederhanakan sehinggadata dan hasil-hasil data-mining mudah dimengerti,juga kebanyakan teknik data mining dapatdiaplikasikan dengan nilai fitur diskrit.
![Page 26: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/26.jpg)
Sebagai contoh: suatu umur seseorang, diberikan diawalproses data-mining sebagai nilai kontinu (antara 0 dan 150tahun) mungkin diklasifikasikan menjadi segmen2kategori: anak, remaja, dewasa, setengah tua, tua. Titik2batas didefinisikan secara subyektif.
Cut points?
Child Adolescent Adult Middle-age Elderly
age
0 150
![Page 27: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/27.jpg)
Pengelompokan nilai-nilai fitur Diberikan suatu fitur mempunyai suatu jarak nilai-nilai
numerik, dan nilai-nilai ini dapat diurutkan dari yg terkecilke yg terbesar. penempatan pembagian nilai-nilai ke dalam kelompok-kelompok
dengan nilai-nilai yg dekat.
Seluruh nilai dalam kelompok akan digabung ke konseptunggal yg direpresentasikan dengan nilai tunggal,biasanya mean atau median dari nilai-nilai tersebut.
Nilai mean/ mode biasanya efektif untuk jumlah nilai yglumayan besar.
Namun bila kecil/ sedikit, batasan dari setiap kelompokdapat menjadi kandidat untuk representasinya.
![Page 28: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/28.jpg)
Contoh Sebagai contoh, jika diberikan fitur f {3, 2, 1, 5, 4, 3,
1, 7, 5, 3} kemudian setelah sorting didapatkan : {1,1, 2, 3, 3, 3, 4, 5, 5, 7}
Maka sekarang, mungkin dipecah jumlahkumpulan nilai kedalam 3 bins
{1, 1, 2, 3, 3, 3, 4, 5, 5, 7}
BIN1 BIN2 BIN3
![Page 29: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/29.jpg)
Langkah berikutnya, perbedaan representasi dapatdipilih untuk setiap bin.
Berdasarkan mode dalam bin, maka nilai-nilaibaru:
{1, 1, 1, 3, 3, 3, 5, 5, 5, 5}BIN1 BIN2 BIN3
Berdasarkan mean{1.33, 1.33, 1.33, 3, 3, 3, 5.25, 5.25, 5.25, 5.25}BIN1 BIN2 BIN3
Berdasarkan kedekatan dengan batasan nilaidalam bin:
{1, 1, 2, 3, 3, 3, 4, 4, 4, 7}BIN1 BIN2 BIN3
![Page 30: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/30.jpg)
Masalah utama dari metoda ini adalahmenemukan batasan terbaik untuk bin. Makaprosedurenya terdiri langkah-langkah berikut:
Urutkan seluruh nilai bagi fitur yg diberikan
Assign dengan perkiraan sejumlah nilai-nilai ygberdekatan setiap bin
Pindahkan elemen batas dari satu bin ke berikutnya(atau sebelumnya) ketika mereduksi error jarakkeseluruhan (ER)
![Page 31: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/31.jpg)
Contoh: Kumpulan nilai dari fitur f adalah {5, 1, 8, 2, 2, 9, 2, 1, 8, 6}. Split
ke dalam 3 bin (k=3), dimana bin2 akan direpresentasikandengan mode-nya.
Sorted nilai2 fitur f : { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9} Inisialisasi bin (k=3) BIN1 BIN2 BIN3(i) Modes untuk ketiga bin terpilih : {1, 2, 8}. Maka total error:
ER = 0 + 0 + 1+ 0 + 0 + 3 + 2 + 0 + 0 + 1 = 7(ii) Setelah memindahkan 2 elemen dari BIN2 ke BIN1 dan 1
elemen dari BIN3 ke BIN2, maka diperoleh ER yg lebih kecil dandistribusi akhir menjadi:Final bins f= { 1, 1, 2, 2, 2, 5, 6, 8, 8, 9}
BIN1 BIN2 BIN3 Modesnya: {2, 5, 8}, dan total error ER diminimisasi menjadi 4. Distribusi akhir, dengan median-median sebagai representative
akan didaptkan masalah reduksi nilai.
![Page 32: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/32.jpg)
FEATURE DISCRETIZATION ChiMerge: suatu algoritma diskritisasi yang
menganalisi kualitas interval atas fitur yg diberikandengan menggunakan statistik X2.
Algoritma menentukan kesamaan antara distribusidata dalam interval yg berdekatan berdasarkanklasifikasi output sample.
Jika kesimpulan dari X2 test ini adalah class output ygindependen maka interval harus digabungkan,sebaliknya jika perbedaannya terlalu besar maka tidakdigabung.
![Page 33: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/33.jpg)
Algoritma ChiMerge Algoritma ChiMerge berisi 3 tahap untuk diskritisasi:
1. Sort data atas fitur yg diberikan secara urut naik
2. Definisikan inisial awal interval sehingga setiap nilaidalam interval terpisah
3. Ulangi hingga tidak ada X2 dari 2 interval yg berdekatanlebih kecil dari nilai threshold.
![Page 34: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/34.jpg)
Dimana:
k= jumlah kelas
Aij=jumlah contoh dalam interval ke-i, kelas ke-j
Eij =frekuensi yg diharapkan dari Aij, yg mana dihitung (Ri.Cj)/N
Ri= jumlah contoh dalam interval ke –i
Cj = jumlah contoh dalam kelas ke –j
N= jumlah total dari contoh
Class 1 Class 2 ∑
Interval-1 A11 A12 R1
Interval-2 A21 A22 R2
∑ C1 C2 N
![Page 35: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/35.jpg)
ContohSample: F K
1 1 1
2 3 2
3 7 1
4 8 1
5 9 1
6 11 2
7 23 2
8 37 1
9 39 2
10 45 1
11 46 1
12 59 1
![Page 36: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/36.jpg)
No Median
1 5.0
2 7.5
3 8.5
4 10.0
5 17.0
6 30.0
7 38.0
8 42.0
9 45.5
10 52.5
![Page 37: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/37.jpg)
K = 1 K = 2 ∑
Interval [7.5, 8.5] A11 = 1 A12 = 0 R1 = 1
Interval [8.5, 10] A21 = 1 A22 = 0 R2 = 1
∑ C1 = 2 C2 = 0 N = 2
Berdasarkan tabel di atas didapatkan:E11 = 2/2 = 1E12 0/2 ≈ 0.1 E21 = 2/2 = 1 dan E22 = 0/2 ≈ 0.1
X2 =(1-1)2/1+(0-0.1)2/0.1 +(1-1)2/1 +(0-0.1)2/0.1 = 0.2Oleh karena lebih kecil dari threshold (2.706 untuk distribusi dg α =0.1, maka dilakukan penggabungan
![Page 38: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/38.jpg)
K = 1 K = 2 ∑
Interval [0, 7.5] A11 = 2 A12 = 1 R1 = 3
Interval [7.5, 10] A21 = 2 A22 = 0 R2 = 2
∑ C1 = 4 C2 = 1 N = 5
E11 = 12/5 = 2.4E12 = 3/5 = 0.6E21 = 8/5 = 1.6E22 = 2/5 = 0.4
X2 = 0.834
![Page 39: 8186 8 reduksi data](https://reader031.vdocuments.site/reader031/viewer/2022012315/55c7c7f9bb61ebca488b456a/html5/thumbnails/39.jpg)
K = 1 K = 2 ∑
Interval [0, 10.0] A11 = 4 A12 = 1 R1 = 5
Interval [10.0, 42.0]
A21 = 1 A22 = 3 R2 = 4
∑ C1 = 5 C2 = 4 N = 9
E11 = 2.78, E12 = 2.22, E21 = 2.22, E22 = 1.78, dan χ2 = 2.72
Oleh karena dihasilkan > dari threshold (2.706), maka tidak diperlukan lagi penggabungan