systemy ćwiczenie 7-8-9

60
MATERIAŁY POMOCNICZE DO PRZEDMIOTU SYSTEMY I PROCESY TRANSPORTOWE -LABORATORIUM ĆWICZENIE 7-8 -9 TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA KOŁMOGOROWA 1

Upload: rzezniol

Post on 06-Jun-2015

3.540 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Systemy     ćwiczenie 7-8-9

MATERIAŁY POMOCNICZE DO PRZEDMIOTU SYSTEMY I PROCESY TRANSPORTOWE

-LABORATORIUM

ĆWICZENIE 7-8 -9

TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA KOŁMOGOROWA

Katowice 2007

1

Page 2: Systemy     ćwiczenie 7-8-9

TESTY ZGODNOŚCI CHI - KWADRAT PEARSONA I LAMBDA KOŁMOGOROWA

1. CEL ĆWICZENIA

W poprzednich ćwiczeniach zapoznano się z metodami zbierania, przedstawiania i przetwarzania danych oraz z obliczaniem podstawowych charakterystyk zbiorowości próbnej, nie formułując żadnych wniosków poza tymi, które wynikały z samych danych. Jeżeli na przykład na podstawie pomiarów średnich czasów przejazdu samochodów dokonanych dla dwóch tras łączących sąsiednie miejscowości otrzymano wyniki t1 = 15 minut 30 sekund i t2 = 13 minut 20 sekund, to tego rodzaju postępowanie, polegające na obliczeniu średniej arytmetycznej, należy do dziedziny statystyki opisowej. Stwierdzenie jednak, że trasa druga jest korzystniejsza dla kierowców, mówi więcej niż sama informacja o średnich czasach i stanowi uogólnienie, tj. wnioskowanie statystyczne. Ta, być może pochopna, konstatacja rodzi liczne pytania dotyczące np.: sposobu przeprowadzania pomiarów pozwalających na uogólnienia, stopnia porównywalności warunków techniczno-ruchowych obu tras, stanie bezpieczeństwa i wreszcie, czy różnica średnich czasów przejazdu wynosząca 2 minuty 10 sekund to dużo czy mało?

Metody wnioskowania statystycznego, jak wiadomo, służą do liczbowego wyrażenia decyzji o poziomach nieznanych parametrów lub o kształtach nieznanych rozkładów zbiorowości generalnych. Wyrażenie sądu o populacji generalnej bez przeprowadzenia badania wyczerpującego nazywa się hipotezą statystyczną.

Celem niniejszego ćwiczenia jest poznanie sposobów weryfikowania testami zgodności hipotez o rozkładach zmiennych losowych na podstawie reguł przenoszenia rezultatów badania próby na populacje. Testy zgodności odgrywają istotną rolę między innymi w pracach badawczych na potrzeby modelowania procesów transportowych. Weryfikacja hipotez nieparametrycznych przeprowadzona będzie sposobem rachunkowym za pomocą klasycznych testów zgodności 2 (chi - kwadrat) i (lambda), co powinno ułatwić późniejsze wykonywanie obliczeń z wykorzystaniem statystycznych programów komputerowych. Ponieważ program komputerowy charakteryzuje się prostotą operowania jego funkcjami, łatwością wprowadzania i transformowania danych oraz bogactwem możliwości graficznych (wystarczy naciśnięcie klawisza), celem kolejnym ćwiczenia - podobnie jak ćwiczeń 1 i 2 - jest przywołanie z pamięci Czytelnika tych wiadomości, które pozwolą na prowadzenie dialogu z komputerem w sposób świadomy i analityczny.

2

Page 3: Systemy     ćwiczenie 7-8-9

2. TEORETYCZNE OMÓWIENIE ĆWICZENIA

2.1. Wprowadzenie

W teoretycznej części ćwiczenia przypomniane zostaną niektóre pojęcia, wzory i wykresy poznane przez Czytelnika z takich przedmiotów, jak rachunek prawdopodobieństwa i statystyka mate-matyczna. Zawarte tu informacje będą ze zrozumiałych względów uproszczone, skrótowe i nierzadko dalekie od precyzji. Uzupełnieniem wiadomości z omawianego zakresu niech będzie literatura wymieniona na końcu rozdziału. Przypomniano szczególnie te rozkłady teoretyczne zmiennych losowych, z którymi ma się do czynienia w badaniach procesów transportowych, w inżynierii ruchu, w teorii masowej obsługi z uwypukleniem interpretacji statystycznej niektórych pojęć, rezygnując zarazem z troski o daleko idącą poprawność i ścisłość naukową. Treścią ćwiczenia jest bowiem tylko ten dział wnioskowania statystycznego. który odnosi się do sprawdzania hipotez statystycznych o zgodności rozkładów empirycznych z hipotetycznymi rozkładami teoretycznymi za pomocą dwóch testów zgodności. W celu uniknięcia chaosu pojęciowo-interpretacyjnego posłużono się w zasadniczej warstwie dosłownie przytaczanymi definicjami, sformułowaniami i przykładami, zaczerpniętymi z profesjonalnej literatury.

2.2. Zmienne losowe jednowymiarowe, ich charakterystyki liczbowe i rozkłady

2. 2. 1. Zmienne losowe skokowe (dyskretne)

Chcąc ilościowo ocenić szansę zaistnienia zdarzenia polegającego na tym, że do hali dworca autobusowego wejdzie dokładnie 6 pasażerów w ciągu dowolnie wybranego 15-minutowego okresu obserwacji, zakłada się tym samym możliwość jego niezaistnienia. O zdarzeniach, które w określonych warunkach, pod wpływem wielkiej liczby prawie niezależnych czynników, mogą zajść lub nie, mówi się, że są to zdarzenia losowe mające określone prawdopodobieństwo zajścia (lub niezajścia). Jeżeli takie obserwacje zostaną przeprowadzone przez 30 15-minutowych okresów, przy czym na ogólną liczbę obserwacji 3 razy zdarzy się, że do hali dworca wejdzie dokładnie 6 pasażerów, to częstość tego zdarzenia (wi = ni : n) wynosi: 3 : 30 = 0,1. Liczba 3 jest tu frekwencją, liczba 0,1 częstością empiryczną, z jaką występuje dane zdarzenie elementarne. Teoretycznym odpowiednikiem częstości empirycznej (wi) jest prawdopodobieństwo zdarzenia (pi) w przypadku skończonej liczebności zbioru zdarzeń elementarnych. Prawdopodobieństwo zdarzenia losowego z przykładu jest granicą, do jakiej dąży częstość empiryczna (0,1), przy założeniu że liczebność jednostek obserwacji wzrasta nieograniczenie1.

Liczba pasażerów wchodzących do budynku dworca jest wielkością, której wartości nie można ściśle przewidzieć i którą przyporządkowuje się każdemu zdarzeniu losowemu. Wielkość liczbowa przyporządkowana poszczególnym zdarzeniom losowym nazywa się zmienną losową. Zmienna losowa, jaką jest liczba pasażerów zgłaszających się w określonym przedziale czasu, moze przyjmowac dowolne wartości całkowite w granicach od zera do nieskończoności. Bardziej realne będzie założenie,

1 Zobacz aksjomatyczną definicję A.N. Kołmogorowa, np. w [6], [7], [11], [13], [17].

3

Page 4: Systemy     ćwiczenie 7-8-9

że wartości tej zmiennej są ograniczone, jednak zarówno w jednym, jak i w drugim przypadku ma się tu do czynienia ze zmienną losową skokową, czyli dyskretną.

Interpretując statystycznie pojęcie zmiennej losowej, można powiedzieć, że jest ona odpowiednikiem poznanego wcześniej pojęcia cechy statystycznej. Warianty cechy statystycznej występują z określoną częstością empiryczną, natomiast realizacjom (wartościom) zmiennej losowej odpowiadają określone prawdopodobieństwa. Mówiąc inaczej, zmienne losowe są wynikami doświadczeń, przy czym konkretna wartość liczbowa, jaką przyjmuje zmienna losowa, zależy od przypadku.

A. Luszniewicz [9], str. 17 pisze: „Badając zjawiska masowe (...) obserwujemy w rzeczywistości zdarzenia o charakterze losowym, przy czym rozmiary oraz zmienność tych zdarzeń są uwarunkowane działaniem zarówno przyczyn głównych (wywołujących zmienność systematyczną), jak i przyczyn ubocznych (wywołujących zmienność przypadkową)”. W innym zaś miejscu: „Im większa liczebność losowej próby jednostek obserwacji, tym większa szansa (prawdopodobieństwo), że wyraźnie ujawni się efekt działania przyczyn głównych, wywołujących zmienność systematyczną”. Cytowane zdania prowadzą do znanych zapewne Czytelnikowi twierdzeń, zwanych prawami wielkich liczb, a opisanych między innymi w [4], [13], [16].

Rys. 1. Wykres funkcji rozkładu prawdopodobieństw zmiennej losowej dyskretnejZródło: [7]

4

Page 5: Systemy     ćwiczenie 7-8-9

Zmienna losowa X jest typu skokowego, jeżeli istnieje skończony albo przeliczalny zbiór Wx= {x1,....,xk,...} jej wartości x1,..., xk,.. taki, że

(1)

(2)

gdzie górna granica sumowania wynosi n albo zależnie od tego, czy zbiór Wx jest skończony, czy przeliczalny. Równość (2) nazywa się warunkiem unormowania, liczby x1‚ x2,.., xk... - punktami skokowymi (atomami) zmiennej losowej X, prawdopodobieństwa p1,p2,....,pk... skokami.

Zmienna losowa jest zdefiniowana nie tylko przez zbiór możliwych realizacji, ale również przez odpowiednią funkcję rozkładu częstości (prawdopodobieństwa). Rozkładem zmiennej losowej skokowej jest zbiór wszystkich par (xi, pi), dla i = 1‚ ... k lub i = 1, 2, ..., gdzie xi jest realizacją punktową zmiennej losowej XS, a pi jest prawdopodobieństwem, z jakim XS przybiera wartość liczbową xi (tabl. 1).

Tablica 1Rozkład zmiennej losowej skokowej dlaskończonej liczby realizacji tej zmiennej

XS = xi xi x2 ... xk OgółemP(XS = xi) pi p2 ... pk 1

Źródło: [9]

Obrazem funkcji prawdopodobieństwa w prostokątnym układzie współrzędnych (rys. 1.) jest zbiór punktów (xi, pi). Suma długości wszystkich odcinków o końcach (xi, 0; xi, pi) jest równa jedności. Na rys. 2 przedstawiono histogram funkcji prawdopodobieństwa.

5

Page 6: Systemy     ćwiczenie 7-8-9

Rys. 2. Histogram funkcji rozkładu prawdopodobieństwaŹródło: [7].

W celu zobrazowania pojęcia rozkładu zmiennej losowej skokowej posłużono się następującym przykładem [9]:

Prawdopodobieństwa liczby wypadków drogowych XS, jakim ulegają prywatne samochody osobowe, oszacowano w pewnym mieście na podstawie danych z ostatnich dziesięciu lat, co pokazano w tablicy 2.

Tablica 2Przykładowy rozkład prawdopodobieństwa

realizacji zmiennej losowej skokowej

Źródło: [9].

Otrzymano rozkład zmiennej losowej skokowej XS z wartościami tej zmiennej na poziomach x1

= 0, 1, 2, 3, 4, 5 i z sumą prawdopodobieństw realizacji tej zmiennej równą 1. Na przykład P(XS = 0) = 0,3742 oznacza prawdopodobieństwo niewystępowania wypadku dla każdego z badanych samochodów w ciągu badanego okresu.

6

Page 7: Systemy     ćwiczenie 7-8-9

2. 2. 2. Zmienne losowe ciągłe

Proces wejścia podróżnych do hali dworca autobusowego można również opisać badając długości odstępów czasowych między kolejnymi zgłoszeniami podróżnych. Zmienną losową jest tu odstęp czasowy, który może przyjmować dowolne wartości liczbowe z ograniczonego lub nieograniczonego przedziału liczb nieujemnych. Jeżeli budynek dworca posiada jedno wejście, przedział ten ograniczają realizacje xmin, ...,xmax, lub xmin, ..., +; w przypadku kilku wejść - przedział 0, ..., xmax lub 0, ..., +. Bardzo duże wartości odstępów, jeżeli są przyjmowane jako możliwe, są mało prawdopodobne.

Należy pamiętać o tym, że w przypadku zmiennej ciągłej stwierdzenie, iż prawdopodobieństwo jakiegoś zdarzenia równe jest 0, nie oznacza, że zdarzenie to jest niemożliwe. Podobnie z faktu, że jakieś zdarzenie ma prawdopodobieństwo równe 1, nie wynika, by było to zdarzenie pewne 2

Formą przedstawienia rozkładów zmiennych losowych ciągłych jest określenie ich funkcji gęstości, czyli „natężenia” prawdopodobieństwa 3.

Dla zilustrowania pojęcia zmiennej losowej ciągłej i funkcji gęstości posłużono się przykładem rozkładu empirycznego ilości zakupionego paliwa, który przedstawiono w tablicy 3.

Tablica 3Etylina pobrana na stacji paliw

Wyniki pomiarów Liczba pomiarówCzęstości względne

wi = ni : n 0 – 10 10 0,1010 – 20 32 0,3220 – 31 40 0,4030 – 40 12 0,1240 – 50 4 0,0450 – 60 2 0,02Ogółem 100 1,00

Źródło: Tablica 14 (ćwiczenie 1).

2 Dowód można znaleźć w książce W. Sadowskiego [16], str. 79, podobnie jak częstościową interpretację funkcji gęstości zmiennej losowej ciągłej.

3 W przypadku zmiennej losowej dyskretnej można mówić o rozkładzie „masy prawdopodobieństwa”. W przeciwieństwie do tego, w przypadku ciągłego rozkładu zmiennej losowej „masa prawdopodobieństwa” rozłożona jest z określoną gęstością ciągłym pasmem wzdłuż całej osi x lub wzdłuż pewnych jej fragmentów.

7

Page 8: Systemy     ćwiczenie 7-8-9

Histogram przedstawiony na rys. 3 jest sporządzony w ten sposób, że na osi odciętych zaznaczono odcinki o długości h = 10, natomiast na osi rzędnych odmierzono częstości względne przyjmując taką skalę, aby pole każdego prostokąta było równe częstości względnej (ni : n), w odpowiednim przedziale. Jeżeli na osi rzędnych zostaną odmierzone częstości względne, to pole

prostokąta miałoby powierzchnię . Przyjmując natomiast za jednostkę h

1 , otrzyma się częstość

względną , a tym samym pole odpowiadającego jej prostokąta wyniesie:

Rys. 3. Histogram częstości względnych.Źródło: na podstawie tablicy 3.

Poprzez zwiększenie liczby obserwacji do 500 otrzymano wyniki pokazane w tablicy 4, w której ze względu na większą liczbę pomiarów można było utworzyć więcej przedziałów.

Jak poprzednio na osi rzędnych za jednostkę przyjętoh

1, z tym że długość podziału h równa się 5.

8

Page 9: Systemy     ćwiczenie 7-8-9

Tablica 4Etylina pobrana na stacji paliw

Wyniki pomiarów Liczba pomiarów Częstości względne 0 – 5

5 – 1010 – 1515 – 2020 – 2525 – 3030 – 3535 – 4040 – 4545 – 5050 – 5555 – 60

743728896

104421812864

0,0140,0860,1440,1780,1920,2080,0840,0360,0240,0160,0120,008

Ogółem 500 1,000

Źródło: na podstawie tablicy 3.

Rys. 4. Histogram częstości względnych.

Źródło: na podstawie tablicy 4.

9

Page 10: Systemy     ćwiczenie 7-8-9

Histogramy z rysunków 3 i 4 zostały skonstruowane w ten sposób, że pole całkowite takiego histogramu równa się jedności. Suma pól poszczególnych prostokątów może być interpretowana jako częstość względna zdarzenia, które jest sumą zdarzeń odpowiadających rozpatrywanym prostokątom. Można sobie wyobrazić dalsze zwiększenie liczby obserwacji i przedstawienie wyników na histogramie uwzględniąjąc większą liczbę przedziałów. Otrzymane w wyniku ustawicznego zwiększania liczby obserwacji i ilości przedziałów prostokąty staną się tak wąskie, że schodkowa linia górnych ich podstaw może być zastąpiona odpowiednią krzywą ciągłą. Krzywa ta, będąca obrazem funkcji f(x), może być uważana za funkcję gęstości prawdopodobieństwa zmiennej losowej ciągłej, jeżeli spełnia następujące warunki:

(3)

(4)

oraz funkcja jest ciągła z wyjątkiem co najwyżej skończonej ilości punktów nieciągłości. Ponadto funkcja gęstości ma następującą interpretację:

(5)

gdzie: f(x) - jest funkcją gęstości zmiennej Xc,dx - pochodną tej funkcji.

Statystycznie funkcja f(x) jest interpretowana jako średnia liczba prawdopodobieństwa przypadająca na jednostkę długości przedziału (x; x + x), przy założeniu że rozpiętość tego przedziału dąży do zera.

Czym różni się zmienna losowa skokowa od zmiennej losowej ciągłej wyjaśnia J. Węgierski [20] w następujący sposób: „Istotna różnica [...] polega na tym, że o ile każdej wartości zmiennej losowej skokowej z realnego zakresu tych wartości jest przyporządkowane prawdopodobieństwo realizacji wartości, to prawdopodobieństwo tego, że zmienna losowa ciągła przyjmie dokładnie konkretną wartość, jest równe zeru, ponieważ w przedziale realnych wartości tej zmiennej istnieje nieskończenie wiele takich wartości”.

Rozkładem zmiennej losowej ciągłej Xc nazywany jest zbiór prawdopodobieństw pi, dla i = 0, 1, 2, ...k, k +1, że zmienna ta przybiera wartości liczb z przedziałów klasowych: (-; x01), (x01, x11), ... (x0k; xki), (x0k+1; +), co zapisano w tablicy 5.

10

Page 11: Systemy     ćwiczenie 7-8-9

Tablica 5Schemat rozkładu zmiennej losowej ciągłej

x0i<Xc<x1i - : x01 x01 : x11 ... x0k : x1k x0k+1; + OgółemP(x0i<Xc<x1i) p0 p1 ... pk pk+1 1

Źródło: [9].

Schemat rozkładu zmiennej losowej ciągłej wyjaśnia poniższy przykład.

Tablica 6Przykładowy rozkład prawdopodobieństw realizacji

zmiennej losowej ciągłej

Źródło: zadania własne.

Oszacowano prawdopodobieństwa realizacji zakupu ilości paliwa przez pewną zbiorowość kierowców na stacji benzynowej, przy czym dla sześciu przedziałów klasowych tych ilości (zmienna losowa ciągła Xc) otrzymano rozkład pokazany w tabl. 6.

Przedstawiony ciąg prawdopodobieństw jest rozkładem gęstości prawdopodobieństwa dla zmiennej losowej ciągłej, którą jest ilość paliwa. Na przykład prawdopodobieństwo 0,2345 oznacza szansę wylosowania kierowcy, który kupuje benzynę w ilościach od 10 do 20 dm3.

11

Page 12: Systemy     ćwiczenie 7-8-9

2. 2. 3. Dystrybuanta zmiennej losowej

Dystrybuanta zmiennej losowej w statystyce stanowi odpowiednik poznanej wcześniej dystrybuanty empirycznej4. Dystrybuantę zmiennej losowej wyznaczoną przez rozkład prawdopodobieństwa P(x) oznacza się symbolem F(x) lub - gdy wiadomo, z jaką zmienną ma się do czynienia - symbolem Fo. Jest to niemalejąca funkcja dana wzorem:

(6)

Dystrybuanta określona wzorem (6) jest prawdopodobieństwem tego, że zmienna losowa nie przekroczy poziomu realizacji równego x. Funkcja F(x) przyjmuje wartości z przedziału od 0 do 1, co można ogólnie:

dla każdego (7)

(8)

oraz

(9)

Prawdopodobieństwo P(a X < b) przyjęcia przez zmienną losową X wartości z przedziału <a, b) jest równe przyrostowi dystrybuanty F między punktami a, b:

(10)

Znając funkcję gęstości f(x), można dla każdego przedziału nierzeczywistych wartości (x0i, x1i) określić prawdopodobieństwo, że zmienna losowa ciągła przyjmie dowolną wartość z przedziału, a mianowicie:

(11)

Tablica 7Dystrybuanty liczby wypadków samochodów osobowych

4 Własności dystrybuanty zmiennej losowej opisano w [7] str. 49 oraz [13] str. 43

12

Page 13: Systemy     ćwiczenie 7-8-9

Źródło: Tablica 2.

Dystrybuanta F(Xs = 2) = 0, 3742 + 0, 2851 = 0,6593 oznacza prawdopodobieństwo tego, że liczba wypadków drogowych jednego samochodu będzie równa 1 lub 0.

Dystrybuanta F(Xc = 0,8377) jest prawdopodobieństwem tego, że wylosowany kierowca pobrał nie więcej niż 40 litrów benzyny na stacji paliw.

Tablica 8Dystrybuanty ilości kupionego paliwa

na stacji benzynowej

Źródło:Tablica 6.

W teorii masowej obsługi często stosuje się dopełnienie dystrybuanty (oznaczone symbolem A(x) nazywane negatywną dystrybuantą zmiennej losowej) wyrażające prawdopodobieństwo, że zmienna losowa X przybierze wartości większe lub równe x.

(12)

13

Page 14: Systemy     ćwiczenie 7-8-9

Na rysunkach 5 i 6 pokazano dystrybuanty rozkładu zmiennej losowej skokowej i ciągłej.

Rys. 5. Dystrybuanta rozkiadu liczby wypadkówŹródło: Tablica 7.

Rys. 6. Dystrybuanta rozkładu ilości paliwaŹródło: Tablica 8.

14

Page 15: Systemy     ćwiczenie 7-8-9

W przypadku prób losowych o dużej liczebności dystrybuanty teoretyczne i empiryczne mało różnią się od siebie5 :

(13)

gdzie: G(x) = w(X<x) - dystrybuanta empiryczna,F(x) - dystrybuanta teoretyczna.

2. 2. 4. Charakterystyki liczbowe zmiennej losowej

W celu precyzyjnego określenia zmiennej losowej przyporządkowuje się jej pewne liczby charakteryzujące ją pod względem wartości najbardziej prawdopodobnej rozrzutu jej wartości, kształtu histogramu lub krzywej gęstości. Liczby te nazywane są charakterystykami liczbowymi zmiennej losowej lub jej rozkładem prawdopodobieństwa. Charakterystyki te są parametrami danego rozkładu, przy czym ich definicje ogólne zależą od rodzaju zmiennej losowej. Najważniejszymi z nich są: wartość oczekiwana zmiennej losowej, wariancja i odchylenie standardowe.

Wartość oczekiwana zmiennej losowej stanowi jedną z podstawowych miar położenia. Jest to wartość, której należy oczekiwać jako średniej z wyników wielu badań lub obserwacji. Jeśli wartości prawdopodobieństw można uważać za masy, to średnią wartość zmiennej losowej otrzymuje się jako odciętą środka tych mas.

Analogicznie do definicji wariancji z próby losowej określana jest wariancja zmiennej losowej skokowej w jej rozkładzie teoretycznym.

O ile wartość oczekiwaną można przedstawić jako odciętą „mas” prawdopodobieństw p(x), to wariancję można przyrównać do momentów bezwładności tych mas względem osi pokrywającej się z rzędną ich środka ciężkości. Wariancja nie jest interpretowana w sensie merytorycznym, służy jednak do wyznaczania odchylenia standardowego i konstrukcji metod statystycznych.

5 Twierdzenie W. J. Gliwienki [3], [9].

15

Page 16: Systemy     ćwiczenie 7-8-9

2.3. Rozkłady i funkcje gęstości prawdopodobieństwa zmiennych losowych, które często opisują zjawiska transportowe

2. 3. 1. Rozkład dwumianowy (Binomial)

Mówi się, że zmienna losowa K (lub XS) typu skokowego ma rozkład dwumianowy (rozkład Bernoulliego) z parametrami (n,p), n N, 0 < p <1, jeżeli jej funkcja prawdopodobieństwa pk=P(k, n, p) = P (K = k) jest postaci:

(28)

gdzie: q = 1- pPrzyjmuje ona n+1 wartości: 0, 1,..., n, wśród których najbardziej prawdopodobne są:

- (29)

gdy jest liczbą całkowitą,

- (30)

gdy nie jest liczbą całkowitą, gdzie [x] ze wzoru (30) oznacza największą liczbę całkowitą nie przekraczającą liczby x, np.

[] = 3.Gdy n = 1, wtedy zmienna losowa K staje się zmienną losową o rozkładzie zero-jedynkowym; jeżeli n > 1, to zmienna losowa K o rozkładzie dwumianowym z parametrami (n, p) jest sumą n niezależnych zmiennych losowych Xi o tym samym rozkładzie zero-jedynkowym z parametrem p:

(31)

Wartość przeciętna i wariancja zmiennej losowej K o rozkładzie dwumianowym z parametrami (n‚ p) wyrażają się wzorami

(32)

Rozkład dwumianowy powstaje w wyniku schematu powtarzających się niezależnych prób, mogących mieć jeden z dwu możliwych wyników, każdy o stałym prawdopodobieństwie ich wydarzenia.

W miarę zwiększania n rozkład ten zbliża się do rozkładu normalnego. Zależność pomiędzy rozkładem dwumianowym a rozkładem Poissona szeroko omawia J. Węgierski w [20]. Rozkład ten ma ważne zastosowanie w badaniu, które pochodzą ze zbiorowości zawierających dwie kategorie elementów. Jeżeli na przykład w ogólnej liczbie N części Np części jest uszkodzonych i N(1-p) części dobrych, to zastosowanie rozkładu dwumianowego umożliwia ustalenie rozkładu części uszkodzonych w próbce zawierających serię n części pobranych losowo.

16

Page 17: Systemy     ćwiczenie 7-8-9

Dla określenia prawdopodobieństwa pojawienia się dokładnie k zgłoszeń samochodów na parkingu w przedziale czasu t przy ogólnej liczbie n zgłoszeń w okresie T (np. 1 doba) wzór (28) przyjmuje następującą postać:

dla k = 0, 1, ..., n, (33)

gdzie: jest znanym w inżynierii ruchu parametrem - intensywnością strumienia zgłoszeń.

2. 3. 2. Rozkład Poissona (Poisson)

Wprawdzie rozkład dwumianowy prawidłowo opisuje niektóre zjawiska transportowe (np. procesy ruchu), jest jednak niewygodny w stosowaniu jako rozkład dwuparametrowy, a więc wymagający obszernych tablic. Z tych przyczyn korzysta się często w praktyce z możliwości zastępowania rozkładu dwumianowego innym rozkładem zmiennej losowej skokowej - rozkładem Poissona.

Jeżeli k1,..., kn jest ciągiem zmiennych losowych o rozkładzie dwumianowym z parametrami (1,p1),...,(n,pn),... oraz npn, >0, gdy n, to ciąg rozkładów dwumianowych jest zbieżny do rozkładu Poissona z parametrem .

Dla dużych n wynika stąd przybliżenie Poissona rozkładu dwumianowego:

(34)

Rozkład występujący po prawej stronie wzoru (34) jest rozkładem Poissona6

Wartość oczekiwana i wariancja są równe parametrowi

(35)

6 W literaturze, np. [2], [10], rozkład Poisona przedstawia się wzorem , gdzie a jest stałą dodatnią.

17

Page 18: Systemy     ćwiczenie 7-8-9

2. 3. 3. Rozkład wykładniczy (Exponential)

W rozkładzie Poissona odstępy czasu między kolejnymi zdarzeniami mają rozkład wykładniczy.Zmienna losowa Xc ma rozkład wykładniczy o parametrze > 0, jeżeli jej gęstość f(x)7 jest

postaci

(36)

(37)

Całkując gęstość (36), otrzymuje się dystrybuantę tego rozkładu:

(38)

Rozkłady wykładnicze często występują w zagadnieniach ruchu telefonicznego, w problemach czasu obsługi i czasu oczekiwania na obsługę, w problemach czasu eksploatacji elementów i ich niezawodności, czyli prawdopodobieństwa bezawaryjnej pracy. Dobrą aproksymacją niezawodności N jest

(39)

gdzie F(t) jest dystrybuantą w punkcie t zmiennej losowej T (czas bezawaryjnej pracy) o rozkładzie wykładniczym. Własność zmiennej T wyrażona wzorem (39) nazywana jest wykładniczym prawem niezawodności. Własność rozkładu wykładniczego zwana „brakiem pamięci” oznacza, że dalszy czas pracy urządzenia nie zależy od „przeszłości” i ma taki sam rozkład jak całkowity czas pracy elementu.

Inną własność rozkładu wykładniczego można sformułować następująco: suma n niezależnych zmiennych losowych o rozkładzie wykładniczym ma rozkład Erlanga.

7 Parametr z poniższych wzorów jest przedstawiany w literaturze często: lub w zależności od tego, jakie

procesy charakteryzuje (por. [3], [20], [21] oraz wzory (41), (42), (43), (44).

18

Page 19: Systemy     ćwiczenie 7-8-9

Rozkład wykładniczy nie wymaga opracowania specjalnych tablic, wystarczą tu tablice funkcji wykładniczej .

W procesach transportowych zdarza się, że odstępy między zdarzeniami maja pewną dolną granicę, której nie można przekroczyć. Na przykład odstęp między zakończeniem obsługi jednego zgłoszenia a zakończeniem obsługi kolejnego zgłoszenia nie może przekroczyć pewnego minimum (czas postoju samochodu na stanowisku naprawczym, czas sprzedaży biletu, zachowana bezpieczna odległość pomiedzy pojazdami na jednym pasie ruchu). Jeżeli oznaczyć czas minimalny tmin, to prawdopodobieństwo

(40)

Odstępy pomiędzy kolejnymi zdarzeniami mają tzw. przesunięty rozkład wykładniczy, którego dystrybuanta (negatywna) i funkcja gęstości mają postać:

(41)

(42)

Wartość oczekiwana

(43)

a wariancja

(44)

19

Page 20: Systemy     ćwiczenie 7-8-9

2. 3. 4. Rozkład normalny (Normal)

Zmienna losowa Xc ma rozkład normalny o parametrach , 8, jeśli gęstość prawdopodobieństwa jest określona wzorem

(60)

gdzie , są odpowiednio parametrami przesunięcia i skali tego rozkładu. Rozkład ten oznaczony jest symbolem N(, ). Wykresem gęstości rozkładu normalnego jest krzywa Gaussa.

Ponieważ jest to rozkład symetryczny względem prostej x = , zachodzą zależności

(61)

oraz

(62)

Współczynnik skupienia dla rozkładu normalnego o dowolnych parametrach i jest równy 3. Od parametru zależy wartość maksymalna funkcji gęstości.

Jeżeli przyjąć, że zamiast obserwowanej zmiennej losowej ciągłej, co do której założono normalność rozkładu, wprowadzi się tzw. zmienną standaryzowaną U 9, której realizacje (u) są definiowane jako:

(63)

to zmienna losowa standaryzowana U ma również rozkład normalny z parametrami N(0;1). Podstawiając (63) do funkcji gęstości (60) otrzymuje się postać funkcji gęstości zmiennej standaryzowanej U

(64)

przy czym wartości liczbowe funkcji f(u), podobnie jak i wartości dystrybuanty tego rozkładu są podane w specjalnych tablicach statystycznych.

8 Parametr jest często oznaczony symbolem m.9 Zmienna standaryzowana nazywana jest również zmienną unormowaną lub znormalizowaną.

20

Page 21: Systemy     ćwiczenie 7-8-9

Wśród własności funkcji gęstości rozkładu normalnego zmiennej standaryzowanej najbardziej charakterystyczne są 10:- właściwość symetryczności

(65)

- właściwość określoności

(66)

- właściwość jednomodalności

(67)

- właściwość zbieżności

(68)

- właściwość zmienności, wiążąca się z tzw. regułą trzech odchyleń standardowych (trzech sigm) w rozkładzie normalnym

oraz (69)

gdzie (u1, u2) punkty przegięcia, odpowiadają końcówkom przedziału klasowego: x1 = m - oraz x2= m + ,

Regułę trzech sigm wyjaśnić można najprościej następująco: realizacje zmiennej losowej ciągłej o rozkładzie normalnym nie będą się różniły od wartości oczekiwanej E(Xc) = m więcej niż o trzy odchylenia standardowe. Realizacje bardzo wysokie lub bardzo niskie mogą występować z prawdopodobieństwem P = 0,0027. Znaczenie tej reguły przy podejmowaniu decyzji w warunkach niepewności, tj. w metodach wnioskowania statystycznego, jest bezsporne.

Rozkład normalny jest w statystyce uznawany za rozkład podstawowy, przede wszystkim z dwóch powodów:

- jest rozkładem granicznym, do postaci którego, przy założeniu nieograniczonego wzrostu liczby jednostek obserwacji, zmierzają wszystkie inne znane rozkłady teoretyczne zmiennych losowych skokowych i ciągłych,

- w trakcie wnioskowania statystycznego, tzn. w procesie przenoszenia wyników obserwacji z prób losowych na zbiorowości generalne, popełniane są błędy o charakterze losowym, tzw. „błędy pokrycia”; błędy losowe mają rozkład normalny o średniej zero i o odchyleniu standardowym zwanym średnim błędem oceny 11. Poniżej podano trzy podstawowe poziomy prawdopodobieństw realizacji zmiennej losowej standaryzowanej

(70)

10 A. Luszniewicz [9].11 Klasycznych przykładów zastosowań rozkładu normalnego dostarcza toeria błędów obserwacji [4], [5], [6], [11], [13],

[17], [22].

21

Page 22: Systemy     ćwiczenie 7-8-9

2.4. Testy zgodności

2.4.1. Test zgodności chi-kwadrat Pearsona

Test 2 pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu, tj. określoną postać funkcyjną dystrybuanty. Może to być typ rozkładu skokowego lub ciągłego. Mając wyspecyfikowany rozkład populacji generalnej przez hipotezę H: F(x) = Fo(x) można podzielić oś x-ów na r rozłącznych przedziałów pokrywających całą oś. Otrzymano w ten sposób r przedziałów [ai, ai+l], gdzie i = 1, 2,..., r. W szczególnym przypadku a1 = - oraz ar+1 = + .

Przez pi oznaczono prawdopodobieństwo, że zmienna X przyjmie wartości z przedziału [ai, ai+1], tzn.:

(74)

Liczba npi jest oczekiwaną liczbą obserwacji n-elementowej próbki, które przy prawdziwości wysuniętej hipotezy powinny znaleźć się w przedziale [ai, ai+1].

Służąca za miarę zgodności rozkładu zaobserwowanego w próbce z rozkładem hipotetycznym statystyka

(75)

ma, gdy n , rozkład chi-kwadrat = r - 1 stopniach swobody 12 lub = r - 1 - m stopniami swobody, gdy z próby szacuje się m parametrów rozkładu metodą największej wiarygodności 13

Ze statystyką 2 wiążą się następujące spostrzeżenia [13]:

- nie zależy ona od tego, jaka jest postać dystrybuanty cechy X elementów populacji,- ważną rolę odgrywają prawdopodobieństwa pi ; ten sam układ prawdopodobieństw p1, p2,..., pr może

odpowiadać różnym rozkładom,- za pomocą testu 2 można weryfikować hipotezę dotyczącą układu prawdopodobieństw p1, p2,..., pr,

a nie postaci rozkładu cechy X populacji,- za hipotezę zwaną Ho uważa się klasę wszystkich rozkładów, dla których

(76)

- hipotezą alternatywną jest klasa tych wszystkich rozkładów, dla których przynajmniej dla jednego przedziału zachodzi

(77)

- przy danej próbie statystyka 2 będzie mieć tę samą wartość dla wielu rozkładów,- przyjęcie hipotezy zerowej jest równoznaczne stwierdzeniu, że każdy rozkład należący do niej może

służyć do opisu badanego zjawiska.

12 Dowód Pearsona.13 Twierdzenie Fishera.

22

Page 23: Systemy     ćwiczenie 7-8-9

Ponieważ wystarczy wybrać jeden z rozkładów należących do hipotezy zerowej, można dla uproszczenia przyjąć, że cecha X elementów populacji ma rozkład o dystrybuancie F(x).

Najprostszą metodą prowadzącą do uzyskania wstępnych informacji o postaci rozkładu badanej cechy jest wykreślenie histogramu rozkładu zaobserwowanego w próbie, co pozwoli na zorientowanie się, jakie ewentualne rozkłady mogą być brane pod uwagę. Następny (poczyniony już krok) stanowi przyjęcie statystyki służącej za test do weryfikacji hipotezy zerowej.

Trzecim krokiem jest przyjęcie poziomu istotności testu oraz określenie obszaru krytycznego budowanego w tym teście prawostronnie (rys. 7). Z tablicy rozkładu 2 dla r-1 lub r-m-1 stopni swobody oraz dla ustalonego poziomu istotności odczytuje się taką samą wartość krytyczną

2, aby zachodziło

(78)

Obliczoną według wzoru (75) wartość 2 porównuje się z wartością krytyczną 2 i jeśli

zachodzi nierówność 2 2 , to hipotezę Ho należy odrzucić.

Rys.7. Wartość graniczna 2 przy stopniach swobody i poziomie istotności Źródło: Opracowanie własne

23

Page 24: Systemy     ćwiczenie 7-8-9

W przeciwnym przypadku tzn. gdy 2 < 2 , nie ma podstaw do odrzucania hipotezy Ho, że

rozkład populacji jest typu . Nie oznacza to jednak, że można ją przyjąć, lecz test 2 jest tak zbudowany, że im bliższa zeru jest wartość 2, tym hipoteza Ho jest bardziej wiarygodna.

Odrzucając hipotezę Ho ponosi się ryzyko podjęcia błędnej decyzji (błąd pierwszego rodzaju), którego prawdopodobieństwo nosi nazwę poziomu istotności. Nie uwzględnia się natomiast konsekwencji popełnienia błędu drugiego (por. tablica 9).

Tablica 9Błędy pierwszego i drugiego rodzajuprzy weryfikacji hipotez zerowych

DecyzjaZałożenia dotyczące hipotezy zerowej

jest prawdziwa jest fałszywaPrzyjęcie weryfikowanej

hipotezy Hodecyzja trafna

błąd drugiego rodzaju(P = ) 14

odrzucenie weryfikowanej hipotezy Ho

błąd pierwszego rodzaju(P = )

decyzja trafna

Źródło: Opracowanie własne.

prawdopodobieństwo pierwszego rodzaju przyjmowane jest zwykle z przedziału <0,001; 0,01>, przy czym w zagadnieniach transportowych najczęściej przyjmuje się = 0,01 lub = 0,05.

Odrzucenie lub przyjęcie hipotezy nie oznacza więc całkowitego przekonania o nieprawidłowości czy prawdziwości hipotezy zerowej.

2.4.2. Test zgodności-lambda Kołmogorowa

W teście Kołmogorowa dla zweryfikowania hipotezy, że populacja ma określony typ rozkładu, porównuje się dystrybuanty empiryczną i teoretyczną – inaczej więc niż w teście 2 , gdzie rozpatruje się i porównuje liczebność szeregów.

Punktem wyjścia w teście jest analizowanie bezwzględnych wartości różnic między tymi dwoma dystrybuantami, zakładając, że jeśli populacja ma rozkład zgodny z hipotezą, to wartości dystrybuanty hipotetycznej i empirycznej powinny być we wszystkich badanych punktach zbliżone.

jako test do weryfikacji hipotezy Ho można wykorzystać statystykę

(80)

gdzie Fn jest dystrybuantą empiryczną.Rozkład graniczny ststystyki prezentuje twierdzenie Kołmogorowa 15.

14 (1-) nazywane jest mocą testu weryfikującego hipotezę zerową15 Twierdzenie 5.5, str. 161 [13].

24

Page 25: Systemy     ćwiczenie 7-8-9

Zbiorem krytycznym jest zbiór

(81)

gdzie jest liczbą spełniającą warunek.

(82)

jest wartością krytyczną parametru , natomiast jest tak dobranym poziomem istotności, że zdarzenia, których prawdopodobieństwa realizacji nie przekraczają , mogą być praktycznie niemożliwe.

Hipotezę Ho, że cecha X ma dystrybuantę F(x), należy odrzucić, gdy

W przeciwnym przypadku pobrana próbka nie przeczy hipotezie weryfikowanej na poziomie . Wartości kwantyli dla kilku wartości podano w tablicy 10.Granica prawdopodobieństwa P z prawej strony wzoru (82) oznaczana jest często symbolem Q

(83a)

lub(83b)

Dla przyjętego znane jest Q(), a z tablicy rozkładu granicznego Dn odczytuje się wartość .

Tablica 10Kwantyle granicznego (n)

rozkładu Kołmogorowa

1 - 0,90 0,95 0,99

(1 - ) 1,224 1,354 1,626

Źródło: Opracowanie własne

25

Page 26: Systemy     ćwiczenie 7-8-9

Gdy cecha X typu ciągłego ma dystrybuantę Fo(x) całkowicie określoną jako ststystykę testową, przyjął Kołmogorow

(84)

Statystyka Dn w przypadku prawdziwości hipotezy ma rozkład niezależny od przyjętej hipotezy. Na podstawie tego rozkładu sporządza się tablice kwantyli dn (1 - ) statystyki Dn, które spełniają równość

(85)

Sposób postępowania jest następujący:a) porządkowanie wyników pomiarów według wielkości

b) obliczenie wszystkich różnic

dla i = 1, ..., n

i największą z ich wartości bezwzględnych oznacza się przez dn+

(86a)

c) obliczanie wszystkich różnic

i największą z ich wartości bezwzględnych oznacza się przez dn-

(86b)

d) dokonanie wyboru większej z liczb dn+, dn

-

(86c)

e) przy danym poziomie istotności oraz n odczytuje się z tablic statystycznych taką krytyczną wartość dn (1 - ) ststystyki Kołmogorowa Dn, która spełnia równość

26

Page 27: Systemy     ćwiczenie 7-8-9

Obszarem krytycznym jest przedział

(87)

Jeżeli , to weryfikowaną hipotezę należy odrzucić na przyjętym poziomie istotności; w przeciwnym przypadku próbka nie przeczy weryfikowanej hipotezie. Przykłady zastosowania statystyki testowej Dn przedstawiono w p. 3.2.5.

Stosowanie testu Kołmogorowa 16 jest możliwe wtedy, gdy dystrybuanta hipotetyczna jest ciągła, w związku z czym wyników pobranych z próby nie powinno się grupować. Drugim ograniczeniem korzystania z testu jest znajomość parametrów hipotetycznych rozkładu; jednak przy dużej próbie (rzędu kilkuset) można je szacować z próby, jak również grupować w wąskie klasy przyjmując wyniki testowania z rezerwą.

2.4.3. Praktyczne uwagi dotyczące stosowania testów 2 i Kołmogorowa 17

A. Podział na klasy jednakowej długości:- w ćwiczeniu 1 podano liczbę klas szeregu rozdzielczego, która nie powinna przekraczać 30,

przy czym zaleca się między innymi zależność przedstawioną w tablicy 11;

Tablica 11Liczba klas zalecana przy stosowaniu testu 2

Liczba pomiarów n Liczba klas k30 – 60 6 – 8

60 – 100 7 – 10100 – 200 9 – 12200 – 500 11 – 17500 – 1500 16 – 25

Źródło: [8].

- przy ustalonej liczebności próbki n rozkład statystyki 2 jest zależny – przy ustalonym k – od doboru granic w sposób niezbadany dotąd dokładnie, dlatego liczebność próbki n 5;

- hipotetycznie liczebności w poszczególnych klasach npi 10 oraz np1, npk 5;- w rozkładach jednomodalnych w klasach skrajnych, gdy liczba stopni swobody wynosi nie

mniej niż 6, dopuszcza się, aby liczebności hipotetyczne nawet w dwóch klasach były mniejsze od 5, nie mniej jednak od 1, przy poziomach istotności = 0, 05 i = 0, 01;

- często weryfikuje się hipotezę dotyczącą zgodności wyników doświadczalnych z rozkładem N (m, ) o nieznanych obu parametrach. Dla określenia granic klas, np. k = 12 można przyjąć następujący podział: , , ,

, , 4 następne kolejne klasy o długości 0,5s, a ostatnią jest ;

16 Czytelnik zechce odróżnić test Kołmogorowa od testu Kołmogorowa-Smirnowa, który służy do weryfikacji hipotezy, że dwie próby pochodzą z populacji o jednakowej dystrybuancie lub że pochodzą z tej samej populacji.

17 Opracowano n apodstawie [8].

27

Page 28: Systemy     ćwiczenie 7-8-9

- gdy liczebności klas nie spełniają podanych warunków, należy sąsiednie klasy połączyć; zmieniają się wtedy granice klas , s, ni, npi oraz 2

obl, co może doprowadzić do innej końcowej decyzji.

B. Podział na klasy o jednakowym prawdopodobieństwie pi w przedziałach klasowych

- sposób ten polega na takim doborze liczby k klas, aby zachodziło

i = 1, ...,k (89)

- granice klas przy takim sposobie są wyznaczone jednoznacznie: prawą granicę g1 pierwszej klasy poszukuje się jako wartość argumentu, dla której wartość F(g1) dystrybuanty jest równa 1/k. Kolejne prawe granice odczytuje się z tablic dystrybuanty (albo kwantyli) spełniające równości

i = 1, ..., k – 1 (90)

W tym przypadku liczebności hipotetyczne npi we wszystkich klasach są równe n/k;- gdy liczebności próbki n wynoszą co najmniej 200, wtedy liczbę k klas należy wyznaczyć w

przybliżeniu zgodnie z tablicą 12;- moc testu przy zastosowaniu powyższego sposobu podziału na klasy jest na ogół większa

względem hipotez alternatywnych w porównaniu ze sposobem pierwszym;

28

Page 29: Systemy     ćwiczenie 7-8-9

Tablica 12Liczba klas dla liczebności próbki n 200

Liczba obserwacji Liczba klas k

200 – 400 15 – 20

400 – 600 20 – 24

600 – 800 24 – 27

800 – 1000 27 – 30

1000 – 1500 30 – 35

1500 – 2000 35 – 40

- gdy liczebność próbki wzrasta 5,6 razy, wtedy liczbę klas podwaja się; statystyka 2

przyjmuje postać

(91)

- podział obserwacji na klasy o jednakowych prawdopodobieństwach jest pożądany, jeżeli weryfikowana jest hipoteza dotycząca rozkładu, którego wartości są stablizowane;

- przy weryfikacji hipotezy złożonej, a więc gdy estymuje się parametry na podstawie próbki - powinno się przestrzegać warunku, aby było co najmniej 20 klas, w których liczebności spełniają podane wyżej warunki;

- jeżeli hipotetyczny rozkład jednomodalny typu ciągłego zależy tylko od parametru skali lub przesunięcia (np. rozkład normalny, gamma z nieznanym parametrem skali itp.), to w przypadku weryfikacji hipotezy prostej testem 2 jest pożądane wcześniejsze zastosowanie testu serii do znaków kolejnych różnic ni – npi dla i = 1, .. , k. Jeżeli hipoteza o losowości tych znaków nie będzie odrzucona, można stosować 2, przy odrzuceniu hipotezy o losowości znaków należy liczbę serii zwiększyć. W przypadku hipotezy złożonej testu serii nie stosuje się;

- w przypadku podziału na klasy o jednakowych prawdopodobieństwach przy zastosowaniu obu testów (odpowiednia liczność próbki, cecha ciągła) test Kołmogorowa, w porównaniu do testu 2, wymaga mniej licznej próby, przy tej samej mocy względem tej samej hipotezy alternatywnej i przy tym samym poziomie istotności;

- test Kołmogorowa jest jedynym spośród testów zgodności, przy stosowaniu którego można wyznaczyć łącznie dla wszystkich x granice ufności dla nieznanej, ale całkowicie określonej dystrybuanty F(x) na danym poziomie ufności 1 - ;

- test Kołmogorowa, jak zauważono wcześniej, może być stosowany wyłącznie dla rozkładów typu ciągłego, chociaż podejmowane są próby zastosowania tego testu do rozkładów skokowych;

- test Kołmogorowa jest znacznie czulszy od testu 2

- bardzo mała wartość 2 może być wynikiem tego, że duża liczba parametrów ocenianych z materiału doświadczalnego w sztuczny sposób powoduje przesadnie dobrą zgodność danych pomiarowych z teoretycznymi.

29

Page 30: Systemy     ćwiczenie 7-8-9

3. SPOSÓB WYKONANIA ĆWICZENIA

3.1. Zakres ćwiczenia

Grupa ćwicząca zweryfikuje hipotezę o zgodności rozkładu empirycznego z rozkładem teoretycznym wykorzystując do tego celu test 2 oraz test lambda-Kołmogorowa sposobem rachunkowym na podstawie danych źródłowych dostarczonych przez prowadzącego ćwiczenie. Pamiętając o wskazówkach zawartych w punktach (2.4.1), (2.4.2) i (2.4.3) należy:a) pogrupować dane,b) sporządzić histogram rozkładu i na jego podstawie określić klasę rozkładów, które mogą być brane

pod uwagę oraz określić hipotezę zerową Ho,c) przyjąć statystykę służącą za test,d) przyjąć poziom istotności ,e) obliczyć nieznane parametry rozkładu.

Przy weryfikowaniu hipotezy testem 2 dalszy tok postępowania jest następujący:- obliczenie prawdopodobieństwa pi trafienia wartości zmiennej losowej X w i-ty przedział,- obliczenie funkcji testowej 2,- obliczenie liczby stopni swobody,

- odczytanie z tablicy rozkładu 2 wartości krytycznej 2,

- porównanie wartości 2 z wartością 2 oraz sformułowanie wniosków.

Na kolejne czynności przy weryfikowaniu hipotezy o kształcie rozkładu cechy w populacji za pomocą testu Kołmogorowa składają się:- wyznaczenie wartości empirycznej dystrybuanty Fn(x) dla każdego xi według wzoru

gdzie: (liczebność skumulowana)

- wyznaczenie wartości teoretycznej dystrybuanty F(x) dla każdego xi,- obliczenie różnicy Fn(x) - F(x), - obliczenie wartości statystyki

30

Page 31: Systemy     ćwiczenie 7-8-9

- obliczenie statystyki , która przy prawdziwości hipotezy Ho ma rozkład Kołmogorowa,- odczytanie z tablicy 10 granicznego rozkładu wartości krytycznej (1 - ), spełniającej warunek P ( (1 - )) = ,- porównanie obliczone z (1 - a) i sformułowanie wniosków.

Przedstawiony wyżej tryb postępowania przy stosowaniu obu testów zgodności uzupełniono kilkoma przykładami.

3.2. Technika wykonania ćwiczenia

3. 2. 1. Sprawdzenie hipotezy złożonej o zgodności rozkładu empirycznego z rozkładem Poissona za pomoca testu 2 - przykład 1

Zbadano 300 losowo wybranych 5-sekundowych przedziałów czasowych pracy pewnej centrali telefonicznej i otrzymano następujący empiryczny rozkład zgłoszeń (kolumna 1 i 2, tabl. 13).

Na poziomie istotności = 0,05 należy zweryfikować hipotery, że rozkład liczby zgłoszeń w tej centrali jest rozkładem Poissona.

Z treści zadania wynika, że nie jest sprecyzowany parametr rozkładu Poissona. Postawiono hipotezę Ho : F(x) , gdzie F(x) jest dystrybuantą rozkładu zgłoszeń, a klasą wszystkich rozkładów Poissona. Parametr oszacowano z próby za pomocą jego estymatora, którym jest średnia z próby . Otrzymano = 1,7. Przyjmując za tę wartość, z tablicy rozkładu Poissona należy odczytać prawdopodobieństwa pi dla każdej kolejnej liczby zgłoszeń i przeprowadzić tabelarycznie dalsze obliczenia.

Tablica 13 Obliczenia dla przykładu 1

Liczba zgłoszeń xi

Liczebność empiryczna ni

pi

Liczebność teoretyczna

npi

1 2 3 4 5 6

012345

5010080402010

0,1830,3110,2640,1500,0640,028

54,993,379,245,019,28,4

24,0144,890,64

25,000,642,56

0,440,480,010,550,030,30

300 1,000 300,0 X 1,81

Źródło: [5].

31

Page 32: Systemy     ćwiczenie 7-8-9

Z obliczeń otrzymano wartość statystyki 2 = 1,81, a dla przyjętego poziomu istotności = 0,05 i dla 6 - 1 - 1 = 4 stopnie swobody odczytane z tablicy rozkładu 2 krytyczna wartość wynosi

2 = 9,488. Ponieważ

obl2 = 1,81 < 9,488 =

2

więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali jest rozkładem Poissona.

3.2.2. Weryfikacja hipotezy o rozkładzie wykładniczym testem 2 wszystkie przedziały klasowe mają jednakową długość - przykład 2

Dokonano 280 pomiarów czasu sprzedaży biletów w kasie. Należy zweryfikować hipotezę, że czas obstugi klienta ma rozkład wykładniczy, przyjmując poziom istotności = 0,05. Ponieważ parametr rozkładu nie jest znany, postawiono hipotezę Ho : F(x) , gdzie F(x) jest dystrybuantą rozkładu czasu sprzedaży biletów, a klasą wszystkich rozkładów wykładniczych. parametr

oszacowano z próby, którym jest .

Dystrybuanta rozkładu wykładniczego, wyrażająca prawdopodobieństwo wystąpienia czasu większego niż dowolnie przyjęty czas t wyrażona jest wzorem

Ponieważ , wykładnik potęgowy zastąpiono wyrażeniem , co ułatwi korzystanie z tablic

dystrybuanty (negatywnej) rozkładu wykładniczego . Średni czas obsługi

32

Page 33: Systemy     ćwiczenie 7-8-9

Tablica 14Obliczenia dla przykładu 2

iKlasa

sekund

Granice

dokładne

Liczebność teoretyczna

npi

Liczebność empiryczna

ni

1 2 3 4 5 6 7 8 9 10

1

2

3

4

5

6

7

8

9

10

11

12

0 – 9

10 – 19

20 – 29

30 – 39

40 – 49

50 – 59

60 – 69

70 – 79

80 – 89

90 – 99

100 – 109

110 – 139

0

9,5

19,5

29,5

39,5

49,5

59,5

69,5

79,5

89,5

99,5

109,5

0

0,317

0,650

0,995

1,317

1,650

1,995

2,317

2,650

2,995

3,317

3,650

1,00

0,7283

0,5220

0,3698

0,2677

0,1920

0,1360

0,0986

0,0706

0,0500

0,0363

0,0259

280

204

146

107

75

54

38

28

20

14

10

7

76

58

39

32

21

16

10

8

6

4

3

7

66

56

45

35

24

15

11

6

7

5

2

8

-10

-2

+6

+3

+3

-1

+1

-2

+1

+1

-1

+1

1,3150

0,0690

0,9230

0,2815

0,4290

0,0626

0

0,5000

0,6650

0,2500

0,3333

0,1430x x x x x x 280 280 0 5,0714

Żródło: [21].

W kolumnie 5 tablicy 14 wpisano odczytane z tablic rozkładu wykładniczego odpowiednie wartości e-a. W następnej kolumnie zapisano kolejne wyniki mnożenia n = 280 e-a. Po wykonaniu tych czynności możliwe jest obliczenie kolejnych dystrybuant i zapisanie ich w kolumnie 7. Zawartość kolejnych kolumn nie wymaga wyjaśniania.

Liczba stopni swobody = 12 – 1 – 1 = 10. Z tablic rozkładu 2 odczytano 2(10; 0,05) = 18,307,

brak jest podstaw do odrzucenia hipotezy o rozkładzie wykładniczym czasu sprzedaży biletów w badanej kasie.

33

Page 34: Systemy     ćwiczenie 7-8-9

3.2.3. Weryfikacja hipotezy o rozkładzie normalnym za pomocą testu 2 – przykład 3

Losowa próba n = 151 niezależnych pomiarów chwilowej prędkości pojazdów dała rozkład (zob. lolumny 1 i 2 w tabl. 15).Średnia wartość , a odchylenie standardowe .

Tablica 15Obliczenia do przykładu 3

Prawa granica

przedziału klasowego

xi

Liczebność empiryczna

ni

Wartość standaryzo

wana

Wartość dystrybu

anty rozkładu normaln

egoF(ui)

Prawdopodobieństwo trafienia do i-tej klasy

pi

Liczebność teoretyczna

klasynpi

1 2 3 4 5 6 7 855606570758085110

9162425272516

9

-1,44-0,97-0,50-0,03+0,44+0,92+1,39

-

0,0750,1660,3080,4880,6700,8210,918

-

0,0750,0910,1420,1800,1820,1510,0970,082

11,313,721,427,227,522,814,712,4

-2,3+2,3+2,6-2,2-0,5+2,2+1,3-3,4

0,470,390,320,180,010,210,110,93

Ogółem 151 X X 1,000 151 0 2,62

Źródło: [15].

Wartość w kolumnie 4 odczytuje się z tablic. Prawdopodobieństwa w kolumnie 5 są przyrostami dystrybuanty, tzn. pi = F (ui+1) – F (ui). Prawdopodobieństwo dla ostatniego przedziału wyznacza się jako 1 – F(ur-1). Odczytane z tablicy rozkładu 2 dla 5 stopni swobody i dla przyjętego poziomu istotności = 0,05 wartość krytyczna

2 = 11,07. Ponieważ obl2 <

2, nie ma podstaw do odrzucenia hipotezy, że rozpatrywany rozkład jest normalny.

3.2.4. Test zgodności Kołmogorowa – przykład 4

Na składowisko przywożono piasek o określonej wadze. Losowa próba n = 200 dni dała następujący rozkład masy piaski [t].

Na poziomie istotności = 0,05 zweryfikować za pomocą testu Kołmogorowa hipotezę, że rozkład masy piasku jest normalny.Weryfikujemy hipotezę Ho : F(x) = Fo(x), gdzie Fo(x) jest dydtrybuantą rozkładu N(m, ). Z próby obliczona oszacowanie obu parametrów rozkładu normalnego, otrzymując = 32,9 oraz s = 1,4. Ze względu na dużą próbę można te wartości za m i . W celu uzyskania wartości empirycznej i

34

Page 35: Systemy     ćwiczenie 7-8-9

teoretycznej dystrybuanty dla końców przedziałów, standaryzując je przedtem, dalsze obliczenia przeprowadzono tabelarycznie

Tablica 16Rozkład badanej cechy X

Masa [t] Liczba dni29,5 – 30,530,5 – 31,531,5 – 32,532,5 – 33,533,5 – 34,534,5 – 35,535,5 – 36,5

1223356244186

Źródło: [5].

Tablica 17Obliczenia dla przykładu 4

Prawne geanice

przedziałuxi

ui F(ui) = F(x) ni nsk Fn(x)

30,531,532,533,534,535,536,5

-1,71-1,00-0,29+0,43

1,141,862,57

0,0440,1590,3840,6660,8730,9690,995

1223356244186

123570

132176194200

0,0600,1750,3500,6600,8800,9701,000

0,0160,0160,0360,0060,0070,0010,005

Źródło : [5].

Ponieważ , wartość empiryczna statystyki Kołmogorowa wynosi zatem dla D = 0,036

= 0,036 . 14,14 = 0,509

Z tablicy 10 rozkładu Kołmogorowa (granicznego) odczytano dla przyjętego poziomu istotności = 0,05 krytyczną wartość (1 - ) = 1,358. Ponieważ obl = 0,509 < 1,358, więc nie ma podstaw do odrzucenia hipotezy Ho, że typ rozkładu masy przywożonego piasku jest normalny.

35

Page 36: Systemy     ćwiczenie 7-8-9

3.2.4. Test Kołmogorowa – przykład 5 [8]

Wynikami pięcioelementowej próby są: 0.18, 0.56, 0.87, 1.37, 2.46. Na poziomie istotności = 0,05 zweryfikować testem Kołmogorowa hipotezę, że próbka została pobrana z populacji, w której dystrybuantą badanej cechy X jest F(x) = 1 – e-x dla x > 0, tzn. że rozkładem jest rozkład wykładniczy o parametrze = 1.

Wartości dystrybuanty hipotetycznej F(xi) dla i = 1, 2, ..., 5 ustalono z tablicy wartości funkcji wykładniczej. Dalsze obliczenia przedstawia poniższa tablica.

Tablica 22Obliczenia dla przykładu 5

i xi

1 0,18 0,2 1,1647 0 0,0353 0,16472 0,56 0,4 0,4288 0,2 0,0288 0,22883 0,87 0,6 0,5810 0,4 0,0190 0,18104 1,37 0,8 0,7456 0,6 0,0544 0,14565 2,46 1,0 0,9145 0,8 0,0855 0,1145

Źródło: [8].

Z tablicy odczytano d5+ = 0,0855; d5

- = 0,2288, skąd d5 = 0,2280. Wartość tę należy porównać z odczytaną z tablicy kwantyli dn (i - ) statystyki Kolmogorowa d5(0,95) = 0.563. Ponienważ d5 < d(0,95), można wnioskować, że próbka nie przeczy hipotezie przy = 0,95.

4. SPRAWOZDANIE Z ĆWICZENIA

Powinno składać się z trzech części. Pierwsza zakończona wyborem hipotezy zerowej, powinna stanowić rozległą analizę danych pod kątem ich przydatności dla celów ćwiczenia. Pomocne w tym mogą być wskazówki zawarte w podrozdziale 2.4.3 oraz podana na końcu ćwiczenia literatura.

W części drugiej, po uzasadnieniu przyjęcia statystyki testowej i odpowiedniego poziomu istotności, należy przeprowadzić testowanie wybranego rozkładu uwzględniając etapy wyszczególnione w punkcie 3.1. Istotnym zagadnieniem w tej części sprawozdania jest dobór granic przedziałów klasowych, łączenie sąsiednich klas, czego można uniknąć stosując podział, w którym granice jednoznacznie określa stałe prawdopodobieństwo we wszystkich klasach. Należy zwrócić uwagę na prawidłowe obliczenie stopni swobody, na sposób oceny nieznanych parametrów oraz liczność próby, o której zwykle się mówi, że powinna być duża. W przypadku małych prób - jak wiadomo - stosuje się wyłącznie test Kołmogorowa. Duża liczba wąskich przedziałów wpływa na pracochłonność badania. Wszystkie z wymienionych czynników powinny być szczegółowo analizowane w trakcie wydawania sądu o wynikach testowania.

36

Page 37: Systemy     ćwiczenie 7-8-9

Ocena wyników stanowi trzecią część sprawozdania, podczas opracowywania której trzeba pamiętać na przykład o tym, że przy danej próbie statystyka 2 może mieć tę samą wartość dla wielu rozkładów. Mala wartość 2 nie zawsze daje dobrą zgodność danych z teorią.

Interpretacja wyników powinna również zawierać dyskusję na temat parametrów rozkładu. Jak wiadomo, ich wartości określają kształt rozkładu i przesunięcia, przybieranie charakteru innej zmiennej. Interpretacja wyników może przekonać o znajomości przedmiotu, co ważne w sytuacji kontynuowania ćwiczeń na laboratoryjnych stanowiskach komputerowych.

Spis literatury do ćwiczenia 7,8,9

1. Bobrowski D.: Elementy teorii prawdopodobieństwa. Wyd. Politechniki Poznańskiej, Poznań 1980.

2. Dąbkowski J.: Statgraphics‚ KOW „Help”, Warszawa 1992.3. Freund J.E.: Podstawy nowoczesnej statystyki. PWE, Warszawa 1968.4. Gmurman W.J. : Zbiór zadań z rachunku prawdopodobieństwa i statystyki matematycznej. WNT,

Warszawa 1973.5. Greń J.: Statystyka matematyczna, modele i zadania, PWN, Warszawa 1974.6. Hellwig Z.: Elementy rachunku prawdopodobieństwa i statystyki matematycznej. PWN,

Warszawa 1978.7. Krzysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. : Rachunek

prawdopodobieństwa i statystyka matematyczna w zadaniach. Część I. PWN, Warszawa 1986.8. Krzysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. : Rachunek

prawdopodobieństwa i statystyka matematyczna w zadaniach. Część II. PWN. Warszawa 1986.9. Luszniewicz A.: Statystyka nie jest trudna. Cz.II — Metody wnioskowania statystycznego. PWE,

Warszawa 1986.10. Muller J.: Wprowadzenie do nauki organizacji i badań operacyjnych. PWE‚ Warszawa 1971.11. Oktaba W. : Metody statystyki matematycznej w doświadczalnictwie. PWN, Warszawa 1980.12. Oktaba W. : Elementy statystyki matematycznej i metodyka doświadczalnictwa. PWN,

Warszawa 1977.13. Plucińska A., Pluciński E.: Elementy probabilistyki. PWN, Warszawa 1979.

37