subsample in big data based some methoddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel14...

SUBSAMPLE IN BIG DATA BASED SOME METHOD

(LEVERAGE, MEAN OF LOG LIKELIHOOD, BUGS OF LITTLE BOOTSTRAPS (BLB))

TUGAS PENGANTAR BIG DATA

Dosen Pengampu : Dr.Danardono, MPH

Vemmie Nastiti, M.Si

Disusun oleh :

Danang Akbar Riyano (13/352688/PA/15690)

Farah Adibah M (14/363866/PA/15867)

Dita Dwi Aprilliani Ayu Lestari (14/364245/PA/15965)

Andi Giofanny M (14/368626/PA/16297)

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2017

BAB I

PENDAHULUAN

Pada bagian ini akan diberikan pengantar mengenai latar belakang dituliskannya

paper ini. Dimulai dengan permasalahan umum dari big data dan beberapa cara untuk

mengatasinya. Dalam pendahuluan ini akan dijelaskan secara umum mengenai beberapa

untuk menyelesaikan kasus dalam big data.

1.1 Latar Belakang

Belakangan ini, big data menjadi isu yang hangat dalam dunia statistika. Big data

mulai masuk dan dikenal di Indonesia sejak tahun 2000 seiring dengan kebutuhan

manusia yang semakin banyak dan keinginan pemenuhan kebutuhannya yang semakin

cepat dan serba praktis. Oleh karena itu big data merupakan sebuah tantangan baru yang

harus dieksekusi sesegera mungkin dan seefisien mungkin. Semakin besar sebuah data

maaka semakin besar yang harus ditangani. Big data tidak hanya mengenai suatu data

yang berjumlah besar tetapi lebih pada sebuah sistem yang merupakan perpaduan dari

tiga unsur utama, yaitu volume, variasi dan kecepatan. Volume menyangkut mengenai

jumlah dari data yang besar, bahkan mencapai angka miliaran data. Selain itu, volume

juga menunjukkan berbagai sub-sub populasi dari berbagai karakteristik yang bersatu

padu dalam kapasitas yang besar. Variasi, elemen variasi dalam Data Besar menunjukkan

besarnya keragaman karakteristik yang ada dari setiap kombinasi antar data dalam jumlah

yang besar dalam satuan volume tertentu. Secara mendalam adanya variasi menunjukkan

keanekaragaman informasi dalam suatu data sehingga semakin bervariasi artinya data

tersebut semakin besar memberikan informasi dalam beragam karakteristik.

Oleh karena itu, dalam big data terdapat informasi yang memungkinkan hampir

tidak terbatas jumlahnya sehingga sangat diperlukan alat yang sesuai untuk analisis yang

nantinya digunakan sebagai pengambilan. Kecepatan, elemen ketiga ini sangat erat

hubungannya dengan kendala waktu atas keinginan para pengguna data karena selain ada

beberapa sifat data yang sangat sensitif dan strategis juga terdapat pula data yang memang

perlu waktu relatif lama untuk digunakan. Kecepatan diperlukan karena menyangkut

strategi bisnis dan perdagangan sehingga menuntut agar informasi mengenai data tersebut

bisa didapatkan oleh pengguna data dengan cepat untuk segera mengambil keputusan dan

kebijakan bisnis dan perdagangan. Semakin besar jumlah data maka akan menghasilkan

informasi yang semakin banyak, valid dan mengambarkan kenyataan. Namun, dalam

kenyataannya sangat sulit untuk mengolah data dalam jumlah yang sangat besar. Selain

itu juga masih terbatasnya jurnal dan alat yang dapat digunakan untuk mengolah big data.

Sejalan dengan kemajuan dan perkembangan ilmu pengetahuan dan teknologi,

peranan ilmu statistika mengalami banyak perubahan ke arah yang lebih baik, khususnya

metodologi penelitian, baik eksak maupun non-eksak. Keterkaitan dengan metodologi

penelitian, dalam prosedur untuk sampai tahapan analisis secara umum salah satunya

dapat menggunakan metode sub sampling.

Subsampling adalah sebuah metode statistika unuk mengukur dan mengontrol

non-sampling error dan mengestimasi standard errors. Metode ini menjadi sebuah alat

mengambil kesimpulan dari berbagai kondisi populasi. Metode ini mulai berkembang

sejak berkembangnya metode bootstraping yang mampu mengestimasi dan membangun

sampling distribution menggunakan nilai dari subsample-nya. Terkait dalam upaya

mendapatkan sampel, dalam perkembangannya para ahli statistika telah mengembangkan

berbagai bentuk formula mengenai seberapa besar jumlah sampel yang relevan untuk

digunakan sebagai pondasi bahan baku analisis data. Relasinya dengan Big Data, dengan

volumenya yang banyak dengan variasi yang besar serta adanya kendala waku dalam

aspek kecepatan dalam penyajian hasil kepada konsumen data, menjadikan metode sub

sampling bisa digunakan sebagai salah satu alternatif dalam mengolah big data. Dalam

tugas ini akan dibahas beberapa metode dalam subsampling seperti Bootstrap,

Laveraging, dan Mean Log-Likelihood.

1. Leveraging

Dalam metode laveraging sebuah sampel diambil dari proporsi tertentu sebuah

data dengan bobot tertentu dari data keseluruhan, kemudian dilakukan perhitungan

jumlah sampel keseluruhan. Inti dari metode laveraging adalah proses pembobotan,

distribusi marginal dari setiap sampel. Salah satu analisis statistik yang lazim digunakan

dalam menentukan nilai suatu sampel adalah regresi linier. Dalam tugas ini akan dibahas

proses laveraging untuk model regresi dalam melakukan analisis big data.

Dimulai dengan membahas model linier dan estimasi parameternya. Ordinary

Lest Square (OLS) merupakan salah satu metode yang sering digunakan dalam membuat

suatu model linier. Diberikan model regresi linier gaussian

𝑦 = 𝑋𝛽0 + 𝜀

dimana y adalah vektor varibel respon berukuran n x 1, X merupakan matrix variabel

prediktor berukuran n x p, 𝛽0 adalah vektor keofisien berukuran p x 1, dan noise vector

𝜀~𝑁(0, 𝜎2𝐼). Dengan kondisi keofisien 𝛽0 diestimasi dengan maximum likelihood

estimation dan diperoleh

�̂�𝑜𝑙𝑠 = 𝑎𝑟𝑔𝑚𝑖𝑛𝛽‖𝑦 − 𝑋𝛽‖2 = (𝑋𝑇𝑋)−1𝑋𝑇𝑦

dalam kasus ini vektor respon didapatkan �̂� = 𝐻𝑦, dimana 𝐻 = (𝑋𝑇𝑋)−1𝑋𝑇. Diagonal

elemen ke-𝑖𝑡ℎ dari H dituliskan ℎ𝑖𝑖 = 𝑥𝑖𝑇(𝑋𝑇𝑋)−1𝑥𝑖, dimana 𝑥𝑖

𝑇 adalah baris ke-𝑖𝑡ℎdari

X, adalah statistical laverage dari 𝑖𝑡ℎatau disebut sampel. Sejak H dapat dituliskan seperti

𝐻 = 𝑈𝑈𝑇 dimana U adalah setiap basis ortogonal untuk ruang kolom dari X , leverage

dari observasi 𝑖𝑡ℎ dituliskan

ℎ𝑖𝑖 = ∑ 𝑈𝑖𝑗2

𝑝

𝑗=1

= ‖𝑢𝑖‖2

dimana 𝑢𝑖𝑇adalah baris ke-𝑖𝑡ℎdari U. Untuk estimasi 𝛽, nilai kesalahan estimator �̂�

diukur dengan Mean Ssquared Error didefinisikan

𝑀𝑆𝐸(�̂�) =1

𝑛𝐸 [(𝑋𝛽0 − 𝑋�̂�)

𝑇(𝑋𝛽0 − 𝑋�̂�)]

=1

𝑛𝑇𝑟(𝑉𝑎𝑟[𝑋�̂�]) +

1

𝑛(𝐸[𝑋�̂�] − 𝑋𝛽0)

𝑇(𝐸[𝑋�̂�] − 𝑋𝛽0)

=1

𝑛𝑇𝑟(𝑉𝑎𝑟[𝑋�̂�]) +

1

𝑛(𝑏𝑖𝑎𝑠[𝑋�̂�])

𝑇(𝑏𝑖𝑎𝑠[𝑋�̂�])

dimana 𝛽0 adalah nilai sebenarnya dari 𝛽. MSE dapat digunakan sebagai pembanding

dengan estimator subsampling lain.

Ketika ukuran sampel n sangat besar estimator OLS dapat menyebabkan bias

dalam melakukan estimasi. Misalnya, jika 𝑝 = √𝑛, perhitungan estimator OLS adalah

𝑂(𝑛2) untuk n yang sangat besar mungkin tidak layak digunakan. Untuk

mengoptimalisasikannya dapat digunakan metode laveraging. Seperti yang telah

dijelaskan sebelumnya, salah satu hal terpenting dalam metode ini adalah proses

pembobotannya. Langkah pembobotan metode laveraging adalah sebagai berikut:

- Mengambil random subsample dengan besar r dari data yang probablitas samplingny

telah ditentukan 𝜋 = {𝜋1, 𝜋2, … , 𝜋𝑛}. Membuat random subsample dari r<<n, tuliskan

sebagai (𝑋∗, 𝑦∗)dari sampel keseluruhan dengan probabilitas 𝜋. Lalu simpan matrix

sampling probabilitas 𝜗 = 𝑑𝑖𝑎𝑔{𝜋𝑘∗} yang saling berkorespondensi

- Berikutnya dilakutan pembobotan least square menggunakan subsample yang telah

dihasilkan. Lalu akan diperoleh estimator OLS menggunakan subsample. Estimasi dari

β yang diperoleh dari subsample pembobotan least square, sehingga diperoleh

�̂�𝑤𝑙𝑠 = 𝑎𝑟𝑔𝑚𝑖𝑛𝛽‖𝜗−1 2⁄ 𝑦 − 𝜗−1 2⁄ 𝑋𝛽‖2

2. Mean Log-likelihood

Metode ini menggunakan rata-rata Monte Carlo yang dihitung dari sub-sampel

untuk memperkirakan ukuran yang dibutuhkan untuk data penuh. Misalkan dimiliki n

sampel 𝑋1, 𝑋2, … , 𝑋𝑛, selanjutnya dari setiap sampel dilakukan perhatingan subsample

yang dinotasikan dengan 𝑥1, 𝑥2, … , 𝑥𝑛. Untuk setiap 𝑥𝑖, 𝑖 = 1,2, … , 𝑛 merupakan rata-rata

Monte Carlo berikutnya dilambangkan 𝜇𝑖. Selanjutnya dengan mengambil

𝑓(𝜇1, 𝜇2, … , 𝜇𝑛; 𝜃) dengan 𝜃 ∈ Ω dimana 𝜃 adalah parameter yang tidak diketahui serta

Ω adalah ruang parameter yang menunjukan himpunan seluruh nilai 𝜃 yang mungkin

maka fungsi likelihood dari 𝜃 adalah sebagai berikut

𝐿(𝜃) = 𝑓(𝜇1; 𝜃)𝑓(𝜇2; 𝜃) … 𝑓(𝜇𝑛; 𝜃)

𝐿(𝜃) merupakan fungsi peluang bersama dari variabel random 𝑋1, 𝑋2, … , 𝑋𝑛 yang bersifat

i.i.d (identically independent distributed).

Prinsip maximum likelihood dalam mengestimasi 𝜃 adalah memilih estimator 𝜃

yang memaksimumkan nilai likelihood-nya (Bain dan Engelhard, 1991). Nilai suatu 𝜃

dalam Ω yang memaksimumkan 𝐿(𝜃) disebut sebagai Maksimum Likelihood Estimator

(MLE). Nilai 𝜃 merupakan suatu nilai dari 𝜃 yang memenuhi

𝑓(𝜇1; 𝜃)𝑓(𝜇2; 𝜃) … 𝑓(𝜇𝑛; 𝜃) = max 𝜃 ∈ Ω𝑓(𝜇1; 𝜃)𝑓(𝜇2; 𝜃) … 𝑓(𝜇𝑛; 𝜃)

𝐿(𝜃) maksimum jika turunan pertamanya sama dengan nol dan turunan keduanya bernilai

negatif, maka nilai MLE dapat diperoleh dengan menyelesaikan persamaan

𝜕𝐿(𝜃)

𝜕𝜃= 0

𝜕2𝐿(𝜃)

𝜕𝜃2< 0

Diferensiasi yang dilakukan pada fungsi likelihood umumnya lebih mudah

dilakukan pada nilai logaritmanya yaitu 𝑙𝑜𝑔𝐿(𝜃), fungsi tersebut dikenal dengan log

likelihood. Fungsi log likelihood yang naik tegas dalam interval (0, ∞) menyebabkannya

akan memliki nilai ekstrem yang sama sehingga dapat merepresentasikan fungsi

likelihood. Karena setiap nilai 𝜃 yang memaksimalkan 𝐿(𝜃) juga akan memaksimalkan

𝑙𝑜𝑔𝐿(𝜃) maka fungsi log likelihood dapat digunakan sebgai berikut.

𝑙𝑜𝑔𝜕𝐿(𝜃)

𝜕𝜃= 0

𝑙𝑜𝑔𝜕2𝐿(𝜃)

𝜕𝜃2< 0

BAB II

Bags of Little Bootstraping

Pada bab ini akan dibahas mengenai metode bootstraping, dan metode bags of

little bootstraping sebagai metode pengembangannya. Pembahasan dimulai dengan

pengenalan metode bootstrap secara umum dan dilanjutkan dengan bags of little

bootstrap. Berikutnya dilanjutkan dengan algoritma dari metode bags of little bootstrap.

2.1 Metode Bootstrap

Bootstrap adalah suatu metode yang dapat bekerja tanpa membutuhkan asumsi

distribusi karena sampel asli digunakan sebagai populasi. Bootstrap adalah teknik

resampling nonparametrik yang bertujuan untuk menentukan estimasi standar eror dan

interval konfidensi dari parameter populasi seperti mean, rasio, median, proporsi,

koefisien korelasi atau koefisien regresi tanpa menggunakan asumsi distribusi. Bootstrap

diperkenalkan pertama kali oleh Efron pada tahun 1979. Metode bootstrap dilakukan

dengan mengambil sampel dari sampel asli dengan ukuran sama dengan ukuran sampel

asli dan dilakukan dengan pengembalian. Kedudukan sampel asli dalam metode

bootstrap dipandang sebagai populasi. Metode peyampelan ini biasa disebut dengan

resampling bootstrap.

Misalkan 𝑥𝑛 = (𝑋1, 𝑋2, … , 𝑋𝑛) merupakan sampel berukuran n dari variabel

random i.i.d yang nilainya terdapat diruang sample S dan memiliki distribusi probabilitas

yang belum diketahui P, dimana P diasumsikan mengikuti distribusi tertentu dari 𝚸.

Kumpulan dari 𝚸 mungkin besifat parametric, semiparametric, atau nonparametric.

Tentu keluarga distribusi dari 𝚸 diparameterisasi dari koleksi probabilitas P didalam 𝚸,

dengan tidak perlu memberi batasan terhadap 𝚸. Hal yang menarik dalam membangun

interval konfidensi untuk beberapa parameter 𝜃(𝑃), didalam range {𝜃(𝑃): 𝑃 ∈ 𝚸} dapat

dinotasikan Θ. Θ merupakan sebuah subset dari garis bilangan real, namun Θ dapat

disesuaikan dengan parameter lain yang lebih umum. Secara deskriptif fungsi dari metode

bootstrap dapat dilihat melalu gamabr dibawah:

Gambar 3.1 Deskripsi Penggunaan Bootstrap

Sebagai contoh akan dibahas proses pengestimasian parameter model regresi.

Metode bootstrap yang diberikan pada regresi ini adalah resampling residual. Misalkan

dimiliki sampel berpasangan antara variabel dependen dan independen yang dituliskan

dalam bentuk matrik Y dan X dengan ukuran sampel n. Selanjutnya sampel ini disebut

sampel asli. Prosedur bootstrap resampling residual untuk estimasi parameter regresi

dapat dituliskan sebagai berikut :

1. Menentukan fit model berdasarkan sampel asli dengan menggunakan metode kuadrat

terkecil, diperoleh �̂� = 𝑋�̂�

2. Menghitung nilai residual 𝑒 = 𝑌 − �̂�, diperoleh 𝑒 = (𝑒1, 𝑒2, … , 𝑒𝑛)

3. Mengambil sampel bootstrap berukuran n dari 𝑒1, 𝑒2, … , 𝑒𝑛 secara random dengan

pengembalian, diperoleh sampel bootstrap pertama sebagai berikut

𝑒1 = (𝑒11, 𝑒2

1, … , 𝑒𝑛1)

4. Menghitung nilai bootstrap untuk 𝑌 dengan menambahkan 𝑒1 pada fit model,

sehingga diperoleh 𝑌1 = 𝑋�̂� + 𝑒1

5. Menghitung koefisien regresi untuk sampel bootstrap yang pertama dengan 𝑌1

dengan 𝑋, diperoleh �̂�1 = (𝑋𝑇𝑋)−1𝑋𝑇𝑌1

6. Mengulangi proses diatas sebanyak B kali, diperoleh �̂�1, �̂�2, … , �̂�𝐵

POPULASI SAMPLE BOOTSTRAP

SAMPLE

7. Pendekatan estimasi bootstrap untuk parameter regresi adalah mean dari distribusi

�̂�1, �̂�2, … , �̂�𝐵

Estimasi interval konfidensi bootstrap untuk parameter regresi diberikan dalam

interval pendekatan normal dan interval persentil. Interval konfidensi bootstrap dengan

pendekatan normal sebenarnya analog dengan interval konfidensi standar. Pemanfaatan

metode bootstrap dalam mengkonstruksi interval ini adalah untuk menentukan standar

eror dari estimator. Berdasarkan sampel bootstrap dengan replikasi B kali diperoleh

�̂�1, �̂�2, … , �̂�𝐵. Variansi estimator bootstrap �̂�𝑘 diberikan oleh

𝑉(�̂�𝑘) = ∑(�̂�𝑘

𝑏 − �̂�𝑘)2

(𝐵 − 1)

𝐵

𝑏=1

2.2 Metode Bags of Little Bootstrap

Bags of Little Bootstrap (BLB) merupakan pengembangan dari metode bootstrap

yang telah dikenalkan sebelemunya. Fungsi BLB berasal dari rata-rata hasil dari proses

bootstraping. Misalkan sample dari BLB dengan subset s berukuran b yang diambil dari

sampel berukuran n. Besarnya b dapat ditentukan dengan 𝑏 = 𝑛𝛾 , dimana 𝛾 𝜖 [0.5,1].

Dalam jurnalnya “A Scalable Bootstrap for Massive Data” Kleiner menuliskan hasil

penelitiannya dimana dari 1 Terra Byte (TB) data populasi, ketika menggunakan metode

bootstrap standar dibutuhkan sampel sebesar 632 Giga Byte (GB) untuk

merepresentasikan atau mendekati sifat-sifat yang dimiliki populasi. Ketika

menggunakan metode BLB hanya diperlukan sampel sebesar 4GB untuk untuk dapat

merepresentasikan populasi yang ada.

Diberikan 𝑥𝑛 = (𝑋1, 𝑋2, … , 𝑋𝑛) merupakan sampel berukuran n dari variabel

random i.i.d yang nilainya terdapat diruang sample S dan memiliki distribusi probabilitas

yang belum diketahui P. Berikutnya untuk setiap 𝑋𝑖, 𝑖 = 1,2, … , 𝑛 dilakukan proses

resampling dengan mengambil 𝑚𝑟 = (𝑀1, 𝑀2, … , 𝑀𝑟) sebesar b. Paramater-parameter

dari populasi dapat diestimasi dangan merata-rata parameter yang dihasil dari setiap

bootstrap sampling. Misalkan ingin diestimasi interval konfidensi sebuah populasi

sebesar N, karena besarnya ukuran N maka dilakukan pengambilan sampel sebesar n. Dari

sampel sebesar n diambil subsampel sebanyak s dan sebesar b. Menggunakan setiap

subsampel diambil sampel bootstrap sebanyak r dengan ukuran n, selanjuntnya kita dapat

mengestimasi batas atas dan bawah interval konvidensi dari setiap subsampel. Dan rata-

rata batas atas dan rata-rata batas bawah sampel bootstrap dapat mengestimasi interval

konvidensi populasi keseluruhan. Dalam penelitiannya Kleiner juga menyimpulkan

beberapa hasil penelitiannya mengenai kelebihan metode bags of little bootstrap selain

yang telah disebutkan sebelumnya adalah:

- Sederhana dalam proses komputasinya

- Memiliki fleksibelitas seperti metode bootstrap pada umumnya

- Memiliki sifat robustness dibanding metode sebelumnya

- Mempertahankan sifat statistik dari metode bootstrap

BAB III

ILUSTRASI

Pada bab ini akan diberikan ilustrasi penggunaan metode bags of bootstrap untuk

mengestimasi nilai median dan interval konvidensi. Data yang digunakan dalam ilustrasi

adalah data dari sektor penerbangan dengan sampel sebesar 5268 data dan terdapat

beberapa variabel antara lain, tanggal penerbangan, lokasi, operator, aboard, fatalities,

dan ground. Deskriptif algoritma pada metode BLB bekerja sebagai berikut:

Gambar 3.1 Deskripsi Prosess Bags of Little Bootstrap

Dengan menggunakan langkah diatas kita dapat memperoleh estimasi nilai-nilai standar

error dan interval konfidensi dari parameter populasi seperti mean, rasio, median,

proporsi, tanpa harus mengetahui distribusi data penerbangan yang sebenarnya.

POPULASI (N)

SAMPLE (n)

Bootstrap Sample

Dari setiap subsample yang dilakukan resample dengan besar setiap resample sebesar n

SUBSAMPLE

(dilakukan subsampling sebanyak m kali dengan ukuran b, dimana 𝑏 = 𝑛𝛾

BAB IV

KESIMPULAN

Setelah dilakukan diskusi dalam pembuatan makalah ini diperoleh beberapa

kesimpulan mengenai beberapa metode subsample yang dapat diaplikasikan dalam big

data yaitu antara lain

1. Sebuah data dikatakan sebuah big data ketika suatu data memliki volume,

velocity, dan variance dengan nilai yang besar.

2. Dalam metode laveraging proses pembobotan setiap subsample merupakan hal

terpenting.

3. Metode mean log-likelihood dapat mengestimasi parameter populasi dengan

mencari rata-rata subsample menggunakan metode Monte Carlo.

4. Bootstrap merupakan metode sampling yang sangat sederhana dalam mencari

tahu kondisi parameter populasi

5. Bags of little bootstrap memiliki banyak keunggulan dibanding metode bootstrap

sederhana. Menurut Kleiner dalam analisis big data, BLB membutuhkan jumlah

sampel dengan ukuran lebih kecil dibanding bootstrap biasa.

Lampiran

cs=read.delim("clipboard") #Membuat Data Frame

head(cs)

length(cs$Aboard)

clean=na.omit(cs) #Melakukan cleaning data

head(clean)

BLB = function(x,nss,r1,g1){ #Fungsi BLB

jj = r1*nss #Menentukan ukuran matriks

med = matrix(0, nrow = r1, ncol = nss) #Membuat matriks untuk nilai median

IC = matrix(0, nrow = r1*nss, ncol = 2) #Membuat matriks untuk nilai intervalkonvidensi

m=length(x)^g1 #Menentukan besar subsampel

for(i in 1:nss){ #Menentukan replikasi subsampel

for(j in 1:r1) { #Menentukan replikasi sampling bootstrap

ss = sample(length(x),m,T)

datass = as.numeric(x[ss])

med[j,i] = median(datass) #Mencari rata-rata nilai median

}}

for(j in 1:jj) {

ss = sample(m,length(x),T)

datass = as.numeric(x[ss])

error = (qnorm(0.95,mean = mean(datass),sd = sd(datass))*sd(datass)) / (length(datass)^0.5)

IC[j,1] = mean(datass) - error #Mencari batas bawah interval konvide

IC[j,2] = mean(datass) + error #Mencari batas atas interval konvidensi

}

print(med) print(colMeans(med))print(mean(colMeans(med))) print(IC)print(colMeans(IC))

}BLB(x=clean$Aboard, nss=10, r1=5, g1=0.8)

subsample in big data based some methoddanardono.staff.ugm.ac.id/matakuliah/bigdata/kel14...

Documents