analisis data output

35
1 Analisis Data Output Slide terutama diambil dari : “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]

Upload: kort

Post on 06-Jan-2016

57 views

Category:

Documents


7 download

DESCRIPTION

Analisis Data Output. Slide terutama diambil dari : “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]. Outline. Pengukuran Central Tendency Mean, Median, Mode Bagaimana merangkum Variabilitas? - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Analisis Data Output

1

Analisis Data Output

Slide terutama diambil dari:“The Art of Computer Systems Performance

Analysis” by Raj Jain, Wiley 1991.[Chapters 12, 13, and 25]

Page 2: Analisis Data Output

2

Outline Pengukuran Central Tendency

Mean, Median, Mode Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan

Sample Data Membandingkan dua alternatif Transient Removal

Page 3: Analisis Data Output

3

Pengukuran Central Tendency (1) Sample mean – Jumlah semua hasil observasi

dibagi banyaknya observasi Selalu ada dan unik Mean memberikan beban yang sama pada semua

observasi Mean sangat dipengaruhi oleh outlier

Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; # observasi genap – mean dari dua nilai tengah Selalu ada dan unik Tidak terpengaruh outlier

Page 4: Analisis Data Output

4

0

0.1

0.2

0.3

0.4

0 4 8 12 16 20

x

PD

F f

(x)

Pengukuran Central Tendency (2) Modus sample – plot

histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; Modus mungkin tidak ada

(yaitu, semua sample memiliki frekuensi yang sama)

Bisa lebih dari satu (yaitu, bimodal)

Jika hanya ada satu modus, distribusi tersebut adalah unimodal

0

0.05

0.1

0.15

0.2

0 4 8 12 16 20

x

PD

F f

(x)

0

0.1

0.2

0.3

0.4

0.5

0.6

0 4 8 12

x

PD

F f

(x)

mode

mode mode

mode

Page 5: Analisis Data Output

5

Pengukuran Central Tendency (3)

Pakah data categorical? Ya: gunakan modus Contoh: sumber daya yang paling banyak dipakai

dalam sistem Apakah jumlah total penting?

Ya: gunakan mean Contoh: total response time untuk Web requests

Apakah distribusi tidak simetris? Ya: gunakan median

• Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean.

Tidak: gunakan mean. Kenapa?

Page 6: Analisis Data Output

6

Penyalahgunaan Mean yang umum (1) Kegunaan mean bergantung pada jumlah

observasi dan varians Contoh: dua sample response time: 10 ms and

1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya.

Penggunaan mean tanpa ,mempedulikan ketaksimetrisan

Sistem A Sistem B10 59 5

11 5 10 4 10 31Mean: 10 10Modus: 10 5Min,Max: [9,11] [4,31]

Page 7: Analisis Data Output

7

Penyalahgunaan Mean yang umum(2)

Mean suatu hasil kali dengan mengalikan

mean

Mean suatu hasil kali sama dengan hasil kali mean

jika kedua variabel acak tersebut independen.

Jika x dan y berkorelasi E(xy) != E(x)E(y)

Rata-rata user pada sistem system 23; rata-rata

proses/user 2. Rata-rata # proses pada sistem?

Apakah sama dengan 46?

Tidak! Umlah proses yang dipakai bersama oleh

user bergantung pada beban.

Page 8: Analisis Data Output

8

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan

Sample Data Membandingkan dua alternatif Transient Removal

Page 9: Analisis Data Output

9

Merangkum Variabilitas Merangkum dengan satu bilangan cukup jarang

dilakukan Jika ada dua sistem dengan mean yang sama, kita biasanya

memilih yang variabilitasnya lebih rendah

Freq

uenc

y

Mean=2s

Response Time

1.5 s80%

4 s20%

Freq

uenc

y

Mean=2s

Response Time

60% ~ 0.001 s40%

~5 s

Indeks penyebaran• Range, Varians, 10- dan 90-percentil, Semi-interquantile

range, dan mean absolute deviation

Page 10: Analisis Data Output

10

Range (kisaran) Mudah dihitung; range = max – min

Pada banyak skenario, tidak terlalu berguna: Min mungkin sama dengan nol Max bisa jadi merupakan “outlier” Dengan lebih banyak sample, max mungkin terus

naik, dan min mungkin terus turun → tidak ada titik “stabil”

Range berguna jika kinerja sistem terbatas

Page 11: Analisis Data Output

11

Varians dan Standard Deviasi Jika ada sample dari n observasi {x1, x2, …, xn},

varians sample dihitung sebagai:

Varians sample: s2 (kuadrat satuan observasi) Standard deviasi sample: s (dalam satuan observasi) Perhatikan (n-1) pada perhitungan varians

(n-1) dari n selisih bersifat independen Jika ada (n-1) selisih, selisih ke-n dapat dihitung Jumlah independent terms adalah “derajat kebebasan” /

degrees of freedom (df)

n

ii

n

ii x

nxxx

ns

1

2

1

2 1 e wher

1

1

Page 12: Analisis Data Output

12

Standard Deviasi (SD) Standard deviasi dan mean memiliki satuan

yang sama Lebih baik! Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah?

Pengukuran lain yang banyak digunakan – C.O.V C.O.V = Rasio standard deviasi terhadap mean C.O.V tidak memiliki satuan C.O.V menunjukkan besar variabilitas C.O.V pada (a) adalah 1 dan pada (b) adalah .1

Page 13: Analisis Data Output

13

Percentile, Quantile, Quartile Batas atas dan bawah dinyatakan dalam persen

atau pecahan 90-percentile →0.9-quantile –quantile: men-sort dan mengambil [(n-1)+1]th

observasi• [] mean dibulatkan ke integer terdekat

Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) 25% dari observasi ≤ Q1 (quartile pertama) Quartile kedua Q2 juga merupakan median

Range (Q3 – Q1) adalah interquartile range (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range

Page 14: Analisis Data Output

14

Mean Absolute Deviation

Mean absolute deviation dihitung sebagai:

xxn

n

ii

1

1

Page 15: Analisis Data Output

15

Pengaruh Outlier

Range: besar Varians sample: besar, tetapi lebih kecil dari

range Mean absolute deviation: lebih kecil dari varians

Tidak mengkuadratkan (memperbesar) outlier SIQR range: sangat resistant

Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency

Page 16: Analisis Data Output

16

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan Sistem dengan Mengunakan

Sample Data Sample vs. Populasi Confidence Interval untuk Mean

Membandingkan dua alternatif Transient Removal

Page 17: Analisis Data Output

17

Membandingkan Sistem dengan menggunakan Sample Data

Kata “sample” dan “example” memiliki akar yang sama – “essample” (French)

Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example)

Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem.

Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat.

Konsep Confidence interval (interval kepercayaan) sebagai building block

Page 18: Analisis Data Output

18

Sample versus Populasi Bangkitkan 1-juta bilangan acak

Dengan mean dan SD dan letakkan di satu tempat

Anbil sample dari n observasi {x1, x2, …, xn} memiliki mean , standard deviasi s

mungkin berbeda dari !

Di dunia nyata, mean populasi tidak diketahui atau tidak mungkin didapati Dengan demikian, dapatkan estimasi dari

x

x

x

Page 19: Analisis Data Output

19

Confidence Interval untuk Mean Definisikan batas c1 dan c2 sedemikian

sehingga: Prob{c1 < < c2} = 1-

(c1, c2) adalah confidence interval adalah significance level 100(1- ) adalah confidence level

Biasanya diinginkan yang kecil confidence level 90%, 95% atau 99%

Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2

Page 20: Analisis Data Output

20

Teorema Central Limit (CLT) Kita tidak membutuhkan banyak sample.

Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n))

SD sample mean /sqrt(n) disebut Standard error

Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah

( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) z1-/2 adalah quantil (1-/2) dari unit normal variate

(didapat dari tabel!) s adalah SD sample

x

x

x

Page 21: Analisis Data Output

21

Contoh Confidence Interval Waktu CPU didapat dengan mengulangi

eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.

9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} Mean = 3.9, standard deviasi (s) = 0.95, n=32

Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)

Page 22: Analisis Data Output

22

Arti Confidence Interval (CI)

xx

- c

x

+ c

90% kemungkinan bahwa interval ini berisi

Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. Contoh, Ambil 100 sample dan buat CI. Dalam 10

kasus, interval tidak berisi mean populasi.

Page 23: Analisis Data Output

23

Besar Confidence Interval z1-/2s/sqrt(n) = c Maka, z1-/2 = (c.sqrt(n))/s

s yang lebih besar menunjukkan confidence interval yang lebih besar

n yang lebih besar menunjukkan confidence interval yang lebih pendek

• → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi

• → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2.

Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.

Page 24: Analisis Data Output

24

Bagaimana jika n tidak besar? Untuk sample yang lebih sedikit, confidence

interval dapat dibuat hanya jika populasi terdistribusi normal

t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)

nstxnstx nn /,/ ]1;2/1[]1;2/1[

Page 25: Analisis Data Output

25

Pengujian Zero Mean Cek apakah nilai yang terukur jauh berbeda

dari nol Tentukan confidence interval Cek apakah nol ada di dalam interval

0

mean

Mean is zero

Mean is nonzero

Page 26: Analisis Data Output

26

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan

Sample Data Membandingkan dua alternatif Transient Removal

Page 27: Analisis Data Output

27

Membandingkan Dua Alternatif Contoh

Penjadwalan “SJF” vs. “FIFO”

Teknik statistik untuk perbandingan seperti ini: Observasi berpasangan Observasi tidak berpasangan Aproksimasi uji visual

Page 28: Analisis Data Output

28

Observasi berpasangan (1) n eksperimen dengan korespondensi satu-satu

antara pengujian pada sistem A dengan pengujian pada sistem B Tidak ada korespondensi => tidak berpasangan Uji ini menggunakan ide mean nol…

Perlakukan kedua sample sebagai satu sample dengan n pasang

Untuk setiap pasangan, hitung selisihnya Buat confidence interval untuk selisih

CI termasul nol => sistem tidak banyak berbeda

Page 29: Analisis Data Output

29

Observasi berpasangan (2)

Enam beban kerja yang hampir sama digunakan pada dua sistem. {(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik?

Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6}

Sample mean = -.32, sample SD = 9.03 CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69)

Quantil .95 dari t dengan DF 5 adalah 2.015 Confidence interval 90% = (-7.75, 7.11) Sistem tidak berbeda karena mean nol ada dalam

CI

Page 30: Analisis Data Output

30

Aproksimasi Uji Visual Hitung confidence interval untuk mean Jika CI tidak bertumpangan, satu sistem lebih

baik dari yang lainnya

meanmean mean

CI tidak bertumpangan => alternatif berbeda

CI betumpangan dan meanyang satu lebih baik dari yang lain => tidak banyak berbeda

CI bertumpangan tetapimean yang satu tidakberada pada CI yang lain => perlu pengujian lagi

Page 31: Analisis Data Output

31

Menentukan Ukuran Sample Tujuan: menentukan ukuran sample n sekecil mungkin

sehingga hasil dapat dipercaya Metode:

himpunan pengukn awal estimasi varians pengukuran gunakan estimasi untuk menentukan ukuran sample untuk

ketepatan

Akurasi r% => +r% pada confidence 100(1-)%

2100

1001

xr

zsn

rx

n

szx

Page 32: Analisis Data Output

32

Outline Pengukuran Central Tendency Bagaimana merangkum Variabilitas? Membandingkan sistem dengan menggunakan

Sample Data Membandingkan dua alternatif Transient Removal

Page 33: Analisis Data Output

33

Transient Removal Pada banyak simulasi, diinginkan adanya

steady state performance Buang status transient awal

Bagaimanapun, pendefinisian status transient secara tepat cukup sulit!

Dikembangkan beberapa heuristik : Long run Inisialisasi yang layak Truncation Penghapusan data awal Membuang rata-rata replika Batch mean

Page 34: Analisis Data Output

34

Long Run Penggunaan long run (percobaan yang

lama/banyak) Dampak status transient dapat diabaikan Penggunaan sumber daya yang sia-sia Seberapa banyak menjadi “cukup banyak”? Metode ini diusulkan untuk digunakan secara

terpisah

Page 35: Analisis Data Output

35

Batch Mean Jalankan simulasi untuk waktu

lama Bagi observasi (N) menjadi m

batch, masing-masing dengan ukuran n

Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 …

Plot varians vs. ukuran batch

2

1

1

1

)(1

1)(Var

meansbatch of varianceCompute 3)

1

mean overall 2)Compute

,...,2,1 ,1

meanbatch Compute 1)

xxm

x

xm

x

mixn

x

m

ii

m

ii

n

iiji

Abaikan

VariansBatch mean

Ukuran batch n

Transientinterval