analisis data output
DESCRIPTION
Analisis Data Output. Slide terutama diambil dari : “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]. Outline. Pengukuran Central Tendency Mean, Median, Mode Bagaimana merangkum Variabilitas? - PowerPoint PPT PresentationTRANSCRIPT
1
Analisis Data Output
Slide terutama diambil dari:“The Art of Computer Systems Performance
Analysis” by Raj Jain, Wiley 1991.[Chapters 12, 13, and 25]
2
Outline Pengukuran Central Tendency
Mean, Median, Mode Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan
Sample Data Membandingkan dua alternatif Transient Removal
3
Pengukuran Central Tendency (1) Sample mean – Jumlah semua hasil observasi
dibagi banyaknya observasi Selalu ada dan unik Mean memberikan beban yang sama pada semua
observasi Mean sangat dipengaruhi oleh outlier
Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; # observasi genap – mean dari dua nilai tengah Selalu ada dan unik Tidak terpengaruh outlier
4
0
0.1
0.2
0.3
0.4
0 4 8 12 16 20
x
PD
F f
(x)
Pengukuran Central Tendency (2) Modus sample – plot
histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; Modus mungkin tidak ada
(yaitu, semua sample memiliki frekuensi yang sama)
Bisa lebih dari satu (yaitu, bimodal)
Jika hanya ada satu modus, distribusi tersebut adalah unimodal
0
0.05
0.1
0.15
0.2
0 4 8 12 16 20
x
PD
F f
(x)
0
0.1
0.2
0.3
0.4
0.5
0.6
0 4 8 12
x
PD
F f
(x)
mode
mode mode
mode
5
Pengukuran Central Tendency (3)
Pakah data categorical? Ya: gunakan modus Contoh: sumber daya yang paling banyak dipakai
dalam sistem Apakah jumlah total penting?
Ya: gunakan mean Contoh: total response time untuk Web requests
Apakah distribusi tidak simetris? Ya: gunakan median
• Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean.
Tidak: gunakan mean. Kenapa?
6
Penyalahgunaan Mean yang umum (1) Kegunaan mean bergantung pada jumlah
observasi dan varians Contoh: dua sample response time: 10 ms and
1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya.
Penggunaan mean tanpa ,mempedulikan ketaksimetrisan
Sistem A Sistem B10 59 5
11 5 10 4 10 31Mean: 10 10Modus: 10 5Min,Max: [9,11] [4,31]
7
Penyalahgunaan Mean yang umum(2)
Mean suatu hasil kali dengan mengalikan
mean
Mean suatu hasil kali sama dengan hasil kali mean
jika kedua variabel acak tersebut independen.
Jika x dan y berkorelasi E(xy) != E(x)E(y)
Rata-rata user pada sistem system 23; rata-rata
proses/user 2. Rata-rata # proses pada sistem?
Apakah sama dengan 46?
Tidak! Umlah proses yang dipakai bersama oleh
user bergantung pada beban.
8
Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan
Sample Data Membandingkan dua alternatif Transient Removal
9
Merangkum Variabilitas Merangkum dengan satu bilangan cukup jarang
dilakukan Jika ada dua sistem dengan mean yang sama, kita biasanya
memilih yang variabilitasnya lebih rendah
Freq
uenc
y
Mean=2s
Response Time
1.5 s80%
4 s20%
Freq
uenc
y
Mean=2s
Response Time
60% ~ 0.001 s40%
~5 s
Indeks penyebaran• Range, Varians, 10- dan 90-percentil, Semi-interquantile
range, dan mean absolute deviation
10
Range (kisaran) Mudah dihitung; range = max – min
Pada banyak skenario, tidak terlalu berguna: Min mungkin sama dengan nol Max bisa jadi merupakan “outlier” Dengan lebih banyak sample, max mungkin terus
naik, dan min mungkin terus turun → tidak ada titik “stabil”
Range berguna jika kinerja sistem terbatas
11
Varians dan Standard Deviasi Jika ada sample dari n observasi {x1, x2, …, xn},
varians sample dihitung sebagai:
Varians sample: s2 (kuadrat satuan observasi) Standard deviasi sample: s (dalam satuan observasi) Perhatikan (n-1) pada perhitungan varians
(n-1) dari n selisih bersifat independen Jika ada (n-1) selisih, selisih ke-n dapat dihitung Jumlah independent terms adalah “derajat kebebasan” /
degrees of freedom (df)
n
ii
n
ii x
nxxx
ns
1
2
1
2 1 e wher
1
1
12
Standard Deviasi (SD) Standard deviasi dan mean memiliki satuan
yang sama Lebih baik! Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah?
Pengukuran lain yang banyak digunakan – C.O.V C.O.V = Rasio standard deviasi terhadap mean C.O.V tidak memiliki satuan C.O.V menunjukkan besar variabilitas C.O.V pada (a) adalah 1 dan pada (b) adalah .1
13
Percentile, Quantile, Quartile Batas atas dan bawah dinyatakan dalam persen
atau pecahan 90-percentile →0.9-quantile –quantile: men-sort dan mengambil [(n-1)+1]th
observasi• [] mean dibulatkan ke integer terdekat
Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) 25% dari observasi ≤ Q1 (quartile pertama) Quartile kedua Q2 juga merupakan median
Range (Q3 – Q1) adalah interquartile range (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range
14
Mean Absolute Deviation
Mean absolute deviation dihitung sebagai:
xxn
n
ii
1
1
15
Pengaruh Outlier
Range: besar Varians sample: besar, tetapi lebih kecil dari
range Mean absolute deviation: lebih kecil dari varians
Tidak mengkuadratkan (memperbesar) outlier SIQR range: sangat resistant
Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency
16
Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan Sistem dengan Mengunakan
Sample Data Sample vs. Populasi Confidence Interval untuk Mean
Membandingkan dua alternatif Transient Removal
17
Membandingkan Sistem dengan menggunakan Sample Data
Kata “sample” dan “example” memiliki akar yang sama – “essample” (French)
Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example)
Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem.
Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat.
Konsep Confidence interval (interval kepercayaan) sebagai building block
18
Sample versus Populasi Bangkitkan 1-juta bilangan acak
Dengan mean dan SD dan letakkan di satu tempat
Anbil sample dari n observasi {x1, x2, …, xn} memiliki mean , standard deviasi s
mungkin berbeda dari !
Di dunia nyata, mean populasi tidak diketahui atau tidak mungkin didapati Dengan demikian, dapatkan estimasi dari
x
x
x
19
Confidence Interval untuk Mean Definisikan batas c1 dan c2 sedemikian
sehingga: Prob{c1 < < c2} = 1-
(c1, c2) adalah confidence interval adalah significance level 100(1- ) adalah confidence level
Biasanya diinginkan yang kecil confidence level 90%, 95% atau 99%
Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2
20
Teorema Central Limit (CLT) Kita tidak membutuhkan banyak sample.
Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n))
SD sample mean /sqrt(n) disebut Standard error
Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah
( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) z1-/2 adalah quantil (1-/2) dari unit normal variate
(didapat dari tabel!) s adalah SD sample
x
x
x
21
Contoh Confidence Interval Waktu CPU didapat dengan mengulangi
eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.
9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} Mean = 3.9, standard deviasi (s) = 0.95, n=32
Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)
22
Arti Confidence Interval (CI)
xx
- c
x
+ c
90% kemungkinan bahwa interval ini berisi
Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. Contoh, Ambil 100 sample dan buat CI. Dalam 10
kasus, interval tidak berisi mean populasi.
23
Besar Confidence Interval z1-/2s/sqrt(n) = c Maka, z1-/2 = (c.sqrt(n))/s
s yang lebih besar menunjukkan confidence interval yang lebih besar
n yang lebih besar menunjukkan confidence interval yang lebih pendek
• → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi
• → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2.
Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.
24
Bagaimana jika n tidak besar? Untuk sample yang lebih sedikit, confidence
interval dapat dibuat hanya jika populasi terdistribusi normal
t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)
nstxnstx nn /,/ ]1;2/1[]1;2/1[
25
Pengujian Zero Mean Cek apakah nilai yang terukur jauh berbeda
dari nol Tentukan confidence interval Cek apakah nol ada di dalam interval
0
mean
Mean is zero
Mean is nonzero
26
Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan
Sample Data Membandingkan dua alternatif Transient Removal
27
Membandingkan Dua Alternatif Contoh
Penjadwalan “SJF” vs. “FIFO”
Teknik statistik untuk perbandingan seperti ini: Observasi berpasangan Observasi tidak berpasangan Aproksimasi uji visual
28
Observasi berpasangan (1) n eksperimen dengan korespondensi satu-satu
antara pengujian pada sistem A dengan pengujian pada sistem B Tidak ada korespondensi => tidak berpasangan Uji ini menggunakan ide mean nol…
Perlakukan kedua sample sebagai satu sample dengan n pasang
Untuk setiap pasangan, hitung selisihnya Buat confidence interval untuk selisih
CI termasul nol => sistem tidak banyak berbeda
29
Observasi berpasangan (2)
Enam beban kerja yang hampir sama digunakan pada dua sistem. {(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik?
Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6}
Sample mean = -.32, sample SD = 9.03 CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69)
Quantil .95 dari t dengan DF 5 adalah 2.015 Confidence interval 90% = (-7.75, 7.11) Sistem tidak berbeda karena mean nol ada dalam
CI
30
Aproksimasi Uji Visual Hitung confidence interval untuk mean Jika CI tidak bertumpangan, satu sistem lebih
baik dari yang lainnya
meanmean mean
CI tidak bertumpangan => alternatif berbeda
CI betumpangan dan meanyang satu lebih baik dari yang lain => tidak banyak berbeda
CI bertumpangan tetapimean yang satu tidakberada pada CI yang lain => perlu pengujian lagi
31
Menentukan Ukuran Sample Tujuan: menentukan ukuran sample n sekecil mungkin
sehingga hasil dapat dipercaya Metode:
himpunan pengukn awal estimasi varians pengukuran gunakan estimasi untuk menentukan ukuran sample untuk
ketepatan
Akurasi r% => +r% pada confidence 100(1-)%
2100
1001
xr
zsn
rx
n
szx
32
Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan
Sample Data Membandingkan dua alternatif Transient Removal
33
Transient Removal Pada banyak simulasi, diinginkan adanya
steady state performance Buang status transient awal
Bagaimanapun, pendefinisian status transient secara tepat cukup sulit!
Dikembangkan beberapa heuristik : Long run Inisialisasi yang layak Truncation Penghapusan data awal Membuang rata-rata replika Batch mean
34
Long Run Penggunaan long run (percobaan yang
lama/banyak) Dampak status transient dapat diabaikan Penggunaan sumber daya yang sia-sia Seberapa banyak menjadi “cukup banyak”? Metode ini diusulkan untuk digunakan secara
terpisah
35
Batch Mean Jalankan simulasi untuk waktu
lama Bagi observasi (N) menjadi m
batch, masing-masing dengan ukuran n
Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 …
Plot varians vs. ukuran batch
2
1
1
1
)(1
1)(Var
meansbatch of varianceCompute 3)
1
mean overall 2)Compute
,...,2,1 ,1
meanbatch Compute 1)
xxm
x
xm
x
mixn
x
m
ii
m
ii
n
iiji
Abaikan
VariansBatch mean
Ukuran batch n
Transientinterval