analisis data output

1

Analisis Data Output

Slide terutama diambil dari:“The Art of Computer Systems Performance

Analysis” by Raj Jain, Wiley 1991.[Chapters 12, 13, and 25]

2

Outline Pengukuran Central Tendency

Mean, Median, Mode Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan

Sample Data Membandingkan dua alternatif Transient Removal

3

Pengukuran Central Tendency (1) Sample mean – Jumlah semua hasil observasi

dibagi banyaknya observasi Selalu ada dan unik Mean memberikan beban yang sama pada semua

observasi Mean sangat dipengaruhi oleh outlier

Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; # observasi genap – mean dari dua nilai tengah Selalu ada dan unik Tidak terpengaruh outlier

4

0

0.1

0.2

0.3

0.4

0 4 8 12 16 20

x

PD

F f

(x)

Pengukuran Central Tendency (2) Modus sample – plot

histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; Modus mungkin tidak ada

(yaitu, semua sample memiliki frekuensi yang sama)

Bisa lebih dari satu (yaitu, bimodal)

Jika hanya ada satu modus, distribusi tersebut adalah unimodal

0

0.05

0.1

0.15

0.2

0 4 8 12 16 20

x

PD

F f

(x)

0

0.1

0.2

0.3

0.4

0.5

0.6

0 4 8 12

x

PD

F f

(x)

mode

mode mode

mode

5

Pengukuran Central Tendency (3)

Pakah data categorical? Ya: gunakan modus Contoh: sumber daya yang paling banyak dipakai

dalam sistem Apakah jumlah total penting?

Ya: gunakan mean Contoh: total response time untuk Web requests

Apakah distribusi tidak simetris? Ya: gunakan median

• Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean.

Tidak: gunakan mean. Kenapa?

6

Penyalahgunaan Mean yang umum (1) Kegunaan mean bergantung pada jumlah

observasi dan varians Contoh: dua sample response time: 10 ms and

1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya.

Penggunaan mean tanpa ,mempedulikan ketaksimetrisan

Sistem A Sistem B10 59 5

11 5 10 4 10 31Mean: 10 10Modus: 10 5Min,Max: [9,11] [4,31]

7

Penyalahgunaan Mean yang umum(2)

Mean suatu hasil kali dengan mengalikan

mean

Mean suatu hasil kali sama dengan hasil kali mean

jika kedua variabel acak tersebut independen.

Jika x dan y berkorelasi E(xy) != E(x)E(y)

Rata-rata user pada sistem system 23; rata-rata

proses/user 2. Rata-rata # proses pada sistem?

Apakah sama dengan 46?

Tidak! Umlah proses yang dipakai bersama oleh

user bergantung pada beban.

8

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan


9

Merangkum Variabilitas Merangkum dengan satu bilangan cukup jarang

dilakukan Jika ada dua sistem dengan mean yang sama, kita biasanya

memilih yang variabilitasnya lebih rendah

Freq

uenc

y

Mean=2s

Response Time

1.5 s80%

4 s20%

Freq

uenc

y

Mean=2s

Response Time

60% ~ 0.001 s40%

~5 s

Indeks penyebaran• Range, Varians, 10- dan 90-percentil, Semi-interquantile

range, dan mean absolute deviation

10

Range (kisaran) Mudah dihitung; range = max – min

Pada banyak skenario, tidak terlalu berguna: Min mungkin sama dengan nol Max bisa jadi merupakan “outlier” Dengan lebih banyak sample, max mungkin terus

naik, dan min mungkin terus turun → tidak ada titik “stabil”

Range berguna jika kinerja sistem terbatas

11

Varians dan Standard Deviasi Jika ada sample dari n observasi {x1, x2, …, xn},

varians sample dihitung sebagai:

Varians sample: s2 (kuadrat satuan observasi) Standard deviasi sample: s (dalam satuan observasi) Perhatikan (n-1) pada perhitungan varians

(n-1) dari n selisih bersifat independen Jika ada (n-1) selisih, selisih ke-n dapat dihitung Jumlah independent terms adalah “derajat kebebasan” /

degrees of freedom (df)

n

ii

n

ii x

nxxx

ns

1

2

1

2 1 e wher

1

1

12

Standard Deviasi (SD) Standard deviasi dan mean memiliki satuan

yang sama Lebih baik! Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah?

Pengukuran lain yang banyak digunakan – C.O.V C.O.V = Rasio standard deviasi terhadap mean C.O.V tidak memiliki satuan C.O.V menunjukkan besar variabilitas C.O.V pada (a) adalah 1 dan pada (b) adalah .1

13

Percentile, Quantile, Quartile Batas atas dan bawah dinyatakan dalam persen

atau pecahan 90-percentile →0.9-quantile –quantile: men-sort dan mengambil [(n-1)+1]th

observasi• [] mean dibulatkan ke integer terdekat

Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) 25% dari observasi ≤ Q1 (quartile pertama) Quartile kedua Q2 juga merupakan median

Range (Q3 – Q1) adalah interquartile range (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range

14

Mean Absolute Deviation

Mean absolute deviation dihitung sebagai:

xxn

n

ii

1

1

15

Pengaruh Outlier

Range: besar Varians sample: besar, tetapi lebih kecil dari

range Mean absolute deviation: lebih kecil dari varians

Tidak mengkuadratkan (memperbesar) outlier SIQR range: sangat resistant

Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency

16

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan Sistem dengan Mengunakan

Sample Data Sample vs. Populasi Confidence Interval untuk Mean

Membandingkan dua alternatif Transient Removal

17

Membandingkan Sistem dengan menggunakan Sample Data

Kata “sample” dan “example” memiliki akar yang sama – “essample” (French)

Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example)

Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem.

Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat.

Konsep Confidence interval (interval kepercayaan) sebagai building block

18

Sample versus Populasi Bangkitkan 1-juta bilangan acak

Dengan mean dan SD dan letakkan di satu tempat

Anbil sample dari n observasi {x1, x2, …, xn} memiliki mean , standard deviasi s

mungkin berbeda dari !

Di dunia nyata, mean populasi tidak diketahui atau tidak mungkin didapati Dengan demikian, dapatkan estimasi dari

x

x

x

19

Confidence Interval untuk Mean Definisikan batas c1 dan c2 sedemikian

sehingga: Prob{c1 < < c2} = 1-

(c1, c2) adalah confidence interval adalah significance level 100(1- ) adalah confidence level

Biasanya diinginkan yang kecil confidence level 90%, 95% atau 99%

Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2

20

Teorema Central Limit (CLT) Kita tidak membutuhkan banyak sample.

Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n))

SD sample mean /sqrt(n) disebut Standard error

Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah

( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) z1-/2 adalah quantil (1-/2) dari unit normal variate

(didapat dari tabel!) s adalah SD sample

x

x

x

21

Contoh Confidence Interval Waktu CPU didapat dengan mengulangi

eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.

9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} Mean = 3.9, standard deviasi (s) = 0.95, n=32

Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)

22

Arti Confidence Interval (CI)

xx

- c

x

+ c

90% kemungkinan bahwa interval ini berisi

Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. Contoh, Ambil 100 sample dan buat CI. Dalam 10

kasus, interval tidak berisi mean populasi.

23

Besar Confidence Interval z1-/2s/sqrt(n) = c Maka, z1-/2 = (c.sqrt(n))/s

s yang lebih besar menunjukkan confidence interval yang lebih besar

n yang lebih besar menunjukkan confidence interval yang lebih pendek

• → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi

• → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2.

Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.

24

Bagaimana jika n tidak besar? Untuk sample yang lebih sedikit, confidence

interval dapat dibuat hanya jika populasi terdistribusi normal

t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)

nstxnstx nn /,/ ]1;2/1[]1;2/1[

25

Pengujian Zero Mean Cek apakah nilai yang terukur jauh berbeda

dari nol Tentukan confidence interval Cek apakah nol ada di dalam interval

0

mean

Mean is zero

Mean is nonzero

26



27

Membandingkan Dua Alternatif Contoh

Penjadwalan “SJF” vs. “FIFO”

Teknik statistik untuk perbandingan seperti ini: Observasi berpasangan Observasi tidak berpasangan Aproksimasi uji visual

28

Observasi berpasangan (1) n eksperimen dengan korespondensi satu-satu

antara pengujian pada sistem A dengan pengujian pada sistem B Tidak ada korespondensi => tidak berpasangan Uji ini menggunakan ide mean nol…

Perlakukan kedua sample sebagai satu sample dengan n pasang

Untuk setiap pasangan, hitung selisihnya Buat confidence interval untuk selisih

CI termasul nol => sistem tidak banyak berbeda

29

Observasi berpasangan (2)

Enam beban kerja yang hampir sama digunakan pada dua sistem. {(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik?

Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6}

Sample mean = -.32, sample SD = 9.03 CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69)

Quantil .95 dari t dengan DF 5 adalah 2.015 Confidence interval 90% = (-7.75, 7.11) Sistem tidak berbeda karena mean nol ada dalam

CI

30

Aproksimasi Uji Visual Hitung confidence interval untuk mean Jika CI tidak bertumpangan, satu sistem lebih

baik dari yang lainnya

meanmean mean

CI tidak bertumpangan => alternatif berbeda

CI betumpangan dan meanyang satu lebih baik dari yang lain => tidak banyak berbeda

CI bertumpangan tetapimean yang satu tidakberada pada CI yang lain => perlu pengujian lagi

31

Menentukan Ukuran Sample Tujuan: menentukan ukuran sample n sekecil mungkin

sehingga hasil dapat dipercaya Metode:

himpunan pengukn awal estimasi varians pengukuran gunakan estimasi untuk menentukan ukuran sample untuk

ketepatan

Akurasi r% => +r% pada confidence 100(1-)%

2100

1001

xr

zsn

rx

n

szx

32



33

Transient Removal Pada banyak simulasi, diinginkan adanya

steady state performance Buang status transient awal

Bagaimanapun, pendefinisian status transient secara tepat cukup sulit!

Dikembangkan beberapa heuristik : Long run Inisialisasi yang layak Truncation Penghapusan data awal Membuang rata-rata replika Batch mean

34

Long Run Penggunaan long run (percobaan yang

lama/banyak) Dampak status transient dapat diabaikan Penggunaan sumber daya yang sia-sia Seberapa banyak menjadi “cukup banyak”? Metode ini diusulkan untuk digunakan secara

terpisah

35

Batch Mean Jalankan simulasi untuk waktu

lama Bagi observasi (N) menjadi m

batch, masing-masing dengan ukuran n

Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 …

Plot varians vs. ukuran batch

2

1

1

1

)(1

1)(Var

meansbatch of varianceCompute 3)

1

mean overall 2)Compute

,...,2,1 ,1

meanbatch Compute 1)

xxm

x

xm

x

mixn

x

m

ii

m

ii

n

iiji

Abaikan

VariansBatch mean

Ukuran batch n

Transientinterval

analisis data output

Documents