teorijske_distribucije

15
Teorijske distribucije -distribucije koje su formirane grupiranjem opažanja ili elemenata skupa prema nekom obilježju-nazivaju se originalne(empirijske) distribucije – razmatrane u poglavljima do sada -distribucije koje se mogu očekivati u skladu sa našim iskustvom ili na temelju nekih teorijskih postavki – nazivaju se teorijskim distribucijama - njih pretpostavljamo u nekom statističkom modelu ili ih postavljamo kao hipotezu koju treba ispitati - zadane su analitički, te su za njih unaprijed poznate karakteristike : sredine, mod, medijan, - javljaju se u ulozi distibucije vjerojatnosti - do sada smo se bavili vjerojatnošću a priori vjerojatnost kod koje možemo izračunati broj ukupno mogućih ishoda i broj povoljnih ishoda - u statističkom istraživanju najčešće nisu unaprijed poznati elementi za izračunavanje vjerojatnosti a priori, pa se eksperimentiranjem dolazi do potrebnog znanja za izračunavanje vjerojatnosti, tj. naknadno, a posteriori zato se takva vjerojatnost naziva empirijska ili statistička vjerojatnost Empirijska vjerojatnost ili a posteriori je granična vrijednost relativne frekvencije povoljnog ishoda događaja A ako broj pokušaja raste u beskonačnost, tj. P(A) = ; m- broj povoljnih ishoda u pokušaima, n- ukupan broj pokušaja - funkcija distribucije slučajne varijable X , označava se F(X) , i to je funkcija koja daje vjerojatnost da će X poprimiti vrijednost jednaku ili manju od nekog realnog broja x tj. F( , gdje zbrajanje obuhvaća sve vrijednosti koje ne prelaze x . Funkcija F(X) je općeg oblika :

Upload: edisa-sljivo

Post on 19-Dec-2015

7 views

Category:

Documents


1 download

DESCRIPTION

distribucije

TRANSCRIPT

Page 1: Teorijske_distribucije

Teorijske distribucije

-distribucije koje su formirane grupiranjem opažanja ili elemenata skupa prema nekom obilježju-nazivaju se originalne(empirijske) distribucije – razmatrane u poglavljima do sada

-distribucije koje se mogu očekivati u skladu sa našim iskustvom ili na temelju nekih teorijskih postavki – nazivaju se teorijskim distribucijama

- njih pretpostavljamo u nekom statističkom modelu ili ih postavljamo kao hipotezu koju treba ispitati

- zadane su analitički, te su za njih unaprijed poznate karakteristike : sredine, mod, medijan,

- javljaju se u ulozi distibucije vjerojatnosti - do sada smo se bavili vjerojatnošću a priori – vjerojatnost kod koje možemo izračunati broj ukupno mogućih ishoda i broj povoljnih ishoda- u statističkom istraživanju najčešće nisu unaprijed poznati elementi za izračunavanje vjerojatnosti a priori, pa se eksperimentiranjem dolazi do potrebnog znanja za izračunavanje vjerojatnosti, tj. naknadno, a posteriori – zato se takva vjerojatnost naziva empirijska ili statistička vjerojatnost

Empirijska vjerojatnost ili a posteriori je granična vrijednost relativne frekvencije povoljnog ishoda događaja A ako broj pokušaja raste u beskonačnost, tj.

P(A) = ; m- broj povoljnih ishoda u

pokušaima, n- ukupan broj pokušaja

- funkcija distribucije slučajne varijable X , označava se F(X) , i to je funkcija koja daje vjerojatnost da će X poprimiti vrijednost jednaku ili manju od nekog realnog

broja x tj. F( , gdje zbrajanje obuhvaća sve vrijednosti

koje ne prelaze x .

Funkcija F(X) je općeg oblika :

, a parametri distribucije vjerojatnosti

karakteriziraju tu distribuciju.Najznačajniji parametri jesu : očekivana vrijednost (aritmetička sredina) i varijanca.Ako je X diskretna slučajna varijabla koja može poprimiti vrijednosti s

odgovarajućim vjerojatnostima čiji zbroj mora biti jedan, aritmetička je sredina ili očekivana vrijednost od X :

.

Za kontinuiranu slučajnu varijablu ovaj izraz prelazi u :

, - .

Page 2: Teorijske_distribucije

Varijanca diskretne slučajne varijable glasi :

odnosno

.

Varijanca kontinuirane slučajne varijable glasi :

.

Teorijske distribucije za diskretnu varijablu jesu : binomna i Poissonova.Teorrijske distribucije za kontinuiranu varijablu jesu : normalna (Gaussova), Studentova, F-distribucija, -distribucija.

Binomna distribucija

Binomna distribucija je najjednostavnija teorijska distribucija za alternativna obilježja. Binomna distribucija je u svezi s Bernoullijevim pokusima. Bernoullijev pokus je slučajni pokus ovih obilježja:

1. Pokus ima dva ishoda ( uspjeh, neuspjeh ) 2. U svakom ponavljanju pokusa vjerojatnost ishoda ˝uspjeh˝ jednaka je p i ne

mijenja se od pokušaja do pokušaja. Vjerojatnost ishoda ˝neuspjeh˝jednaka q= 1 – p

3. Pokušaji su neovisni.

Ako je n broj ponavljanja Bernoullijevog pokusa, p vjerojatnost ishoda ˝uspjeh˝ ( ista u svakom ponavljanju ), a X ( slučajni ) broj ishoda ˝uspjeh˝, varijabla X je binomna slučajna varijabla, a pripadajuća distribucija vjerojatnosti naziva se Binomnom distribucijom. Binomna distribucija se skraćeno označuje ovako: B(n,p). Vrijednosti binomne distribucije ili kumulativne funkcije su tabelirane, a svaki statistički paket sadrži program koji generira vrijednosti te funkcije.

Binomnu distribuciju protumačiti ćemo na primjeru sa kutijom, u kojoj se nalaze bijele i crne kuglice. Ako nakon svakog izvlačenja jedne kuglice tu kuglicu opet vratimo u kutiju, pa kutiju dobro promiješamo, opet izvučemo jednu kuglicu, i to neprestano ponavljamo, tada nam se sadržaj kutije čini neiscrpnim.

Izvući ćemo najprije jednu kuglicu, tj. n = 1 ; u tom slučaju postoje dvije mogućnosti ishoda: da je kuglica bijela ( B ) ili crna ( C ), a pripadajuće vjerojatnosti za ta dva slučaja su: p i q.

Ako izvučemo dvije kuglice, tj. n = 2 tada postoje ove mogućnosti ishoda:

BB BC CB CC s vjerojatnostima:

Page 3: Teorijske_distribucije

Prema multiplikativnom teoremu, vjerojatnost da će kuglica u prvom i drugom izvlačenju biti bijela iznosi:

Analogno vrijedi i za vjerojatnost ostalih triju ishoda.Prema aditivnom teoremu, vjerojatnost da će biti izvučena jedna bijela i jedna

crna kuglica, bez obzira na to u kojem od dva izvlačenja, jednaka je:

Ako izvučemo tri kuglice, tj. ako je n = 3, tada postoje ove mogućnosti ishoda: BBB CBB BCC CCC BCB CBC BBC CCB

s vjerojatnostima: p qpp pqq q pqp 3p q qpq 3pq ppq qqp

Na osnovi toga možemo doći do odgovora na općenito postavljeno pitanje koje nas zanima: kolika je vjerojatnost da se u nizu izvlačenja izvuče od n kuglica x bijelih ?

Da se bijela kuglica od tri izvlačenja izvuče 0 puta ili 1 put ili 2 puta ili 3 puta jednaka je, prema aditivnom teoremu, sigurnosti, jer je:

Vjerojatnosti predstavljaju članove razvijenog binoma ( q + p )n

Općeniti odgovor na postavljeno pitanje glasi: vjerojatnost da se u nizu izvlačenja od n kuglica izvuče x bijelih je :

, x= 0,1,2,…,n

Prethodni izraz je diskretna funkcija vjerojatnosti ili binomna distribucija.Binomna distribucija zove se i Bernoullieva po Jamesu Bernoulliu, koji ju je otkrio potkraj 17. stoljeća.Aritmetička sredina (očekivana vrijednost) binomne distribucije glasi:

E[X] =

Varijanca i standardna devijacija binomne distribucije glasi:

Page 4: Teorijske_distribucije

;

dok je:

;

Binomnu distribuciju možemo podijeliti u 4 vrste u smislu vjerojatnosti ishoda i to :

simetrična ; ukoliko vrijedi p=q=0.5(primjer ispita sa 9 pitanja te mogućim DA ili NE odgovorom …)

asimetrična; ukoliko p q(primjer mogućnosti "izlaska" broja 4 prilikom n bacanja kocke; p=1/6 q=5/6)

a priori; ukoliko nam je očito znana vjerojatnost p i q(prethodno spomenuta 2 primjera)

a posteriori; ukoliko moramo prethodno empirijski utvrditi p i q (primjer sa slobodnim gađanjima košarkaša, 300x2 gađanjaprimjećujemo da su očekivane frekvencije dobivene pomoću empirijski utvrđenih p i q vrlo slične onima iz pokusa što upućuju na to da bi one bile još sličnije ako povećamo n)

Zadatak:

Računovodstvena služba poduzeća je utvrdila da zbog visoke inflacije, 40% kupaca ne plaća račun na vrijeme. Ako se na slučajan način iz skupa računa izabere njih 6, kolika je vjerojatnost:

1. da su svi kupci na koje se odnose računi podmirili na vrijeme 2. da ih je preko ¾ podmirilo račune 3. da 50% nije platilo račune na vrijeme

p=60%=0,6 (plaća na vrijeme)q=40%=0,4 (ne plaća na vrijeme)n=6

Page 5: Teorijske_distribucije

1. to znači da je svih 6 izvučenih računa podmireno na vrijeme odnosno da je x=n=6 pa iz gornje tablice vidimo da je p(6)=4,67%

2. ¾ od 6 je 4,5 pa obzirom da je pitanje "preko 3/4 " za nas je mjerodavan podatak koji odgovara x=5 jer je to prvi cijeli broj veći od 4,5 i podatak koji odgovara x=6. Čitamo, stoga, u tablici vrijednost p(5)= 18,66% i p(6)= 4,67% te na osnovi aditivnog teorema, iste zbrajamo pa je konačan rezultat 23,33%.

3. 50% odnosno ½ od 6 je 3 pa slijedi p(3) je vjerojatnost da JE više od 50% izvučenih računa plaćeno na vrijeme, a kako bismo dobili kolika je vjerojatnost da je više od 50% izvučenih računa plaćeno sa zakašnjenjem je

odnosno 72,35%

Poissonova distribucija

Ako je p veoma malen, tj. ako je p , a n , tada se binomne vjerojatnosti mogu izračunati aproksimativno pomoću funkcije koju je otkrio Poisson:

, gdje je

Ta teorijska distribucija zove se Poissonovom distribucijom i ona je granični slučaj binomne distribucije.Očekivana vrijednost, varijanca i standardna devijacija Poissonove distribucije glase:

=

, .

x p(x) f(x)0 0,004096 0,0040961 0,036864 0,0409602 0,138245 0,1792053 0,276480 0,4556854 0,311040 0,7667255 0,186624 0,9533496 0,046656 1,000000

Page 6: Teorijske_distribucije

Ako se u konkretnom slučaju ne može odrediti vjerojatnost a priori, onda se eksperimentiranjem može saznati aritmetička sredina empirijske distribucije frekvencija. Dovoljno je izračunati samo aritmetičku sredinu da bi se odredila Poissonova distribucija. U tom slučaja formula Poissonove distribucije prelazi u :

, a računanje je jednostavnije pomoću

logaritamskog oblika :

Za velike brojčane vrijednosti x jednostavnije se može odrediti x! Pomoću Stirlingove aproksimacije : x! ~ odnosno :

.

Primjer :Ispravnost rada stroja koji automatski proizvodi neki proizvod kontrolirat

ćemo tako da u određenim vremenskim razmacinma izuzmemo seriju od 200 proizvoda i prebrojimo koliko je komada škarta u toj seriji. U tom je primjeru n=200, a varijabla je diskretna(broj škartiranih proizvoda). Ne znamo proporciju škarta p, ali pretpostavljamo da je ispod 0.1. Zabilježen je broj škartiranih proizvoda u 100 serija po 200 proizvoda, te je dobivena empirijska distribucija frekvencija prikazanih u tablici :

Broj kom. škarta

Broj serija

Prilagođene apsolutne frek.

-

0 10 0 0 1 0 1.111794

0.0773

7.7

1 21 21 0.40824

1 0 0.703554

0.1979

19.8

2 24 48 0.8164 2 0.30103 0.59634 0.253 25.3

Page 7: Teorijske_distribucije

8 4 33 18 54 1.2247

26 0.77815

10.665225

0.2161

21.6

4 13 52 1.63296

24 1.380211

0.859045

0.1383

13.8

5 7 35 2.04120

120 2.079181

1.149775

0.0708

7.1

6 4 24 2.44944

720 2.857332

1.519686

0.0302

3.0

7 2 14 2.85768

5040 3.702431

1.956545

0.0111

1.1

8 1 8 3.26592

40320 4.605521

2.451395

0.0035

0.4

9 0 0 3.67416

362880

5.559787

2.997421

0.0010

0.1

Ukupno

100 256 - - - - 0.9995

99.9

Normalna ( Gaussova ) distibucija

Ako se razvije binom i ako nema razlike između p i q, te ako se n povećava u beskonačnost, stupnjeviti grafički prikaz binomne distribucije ima sve uže i uže baze stupca, postoje sve ''glađi'' I prelazi u kontinuiranu krivulju koja se približava grafičkom prikazu normalne distribucije kao graničnoj vrijednosti.Normalna krivulja : ima oblik zvona, unimodalna je, proteže se od do , simetrična je, pa joj je , aritmetička sredina jednaka je modu i medijanu, mjera zakrivljenosti joj je .Njezina je formula :

; standardna devijacija,

aritmetička sredina.Budući su i konstante, oblik krivulje ovisi jedino o i . Za veće vrijednosti standardne devijacije normalna krivulja je više razvučena i šira, a za manje vrijednosti uža. Mijenja li se aritmetička sredina krivulja se pomiče po apcisnoj osi.Svaka se normalna distribucija može svesti na standardiziranu ako se obilježje X linearno transformira u X = , pa se umjesto varijable X dobiva standardizirana varijabla (obilježje) z :

, a znamo da je .

Ovom relacijom dobivamo :

.

Page 8: Teorijske_distribucije

Vjerojatnost da se vrijednost kontinuirane slučajne varijable z nalazi u intervalu jednaka je razlici vrijednosti funkcije distribucije u mjestima i tj.

.

Površine ispod standardizirane normalne krivulje između dviju ordinata podignutim na bilo kojim mjestima apcise i nalaze se u tablici , a to je ujedno i vjerojatnost da se slučajna varijabla Z nađe između vrijedosti i .

Studentova t-distribucija

- otkrio ju je 1908. W.S.Gosset , ali ju je objavio pod pseudonimom '' Student'' te je zbog toga nazvana Studentova t-distribucija

- Otkrio ju je proučavajući i rješavajući probleme metode uzoraka ( reprezentativne metode)

Funkciju vjerojatnosti za t prikazao je :

, gdje je

beta-funkcija s parametrima , a n broj elemenata

- pomoću funkcije f(t) može se izračunati vjerojatnost da t bude premašen, a vjerojatnosti se nalaze u posebnim tablicama

- oblik joj ovisi o veličini broja n, a u formuli izraz (n-1) predstavlja broj stupnjeva slobode i označava se slovom (ni)

- broj stupnjeva slobode jednog pokazatelja definira se kao broj neovisnih opažanja n umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj :

- Studentova je distribucija razvučenija od normalne- Za velike vrijednost n (veće od 30 ) ova se distribucija približava

standardiziranoj normalnoj

Hi-kvadrat distribucija

- primjenjuje se u slučajevima kada treba donijeti odluku o signifikantnosti razlika stvarnih (opaženih) i teorijskih (očekivanih ) frekvencija, odnosno vrijednosti varijabla (obilježja)

- obilježava se grčkim slovom hi , definira se kao zbroj odnosa razlika između opaženih i očekivanih vrijednosti prema očekivanim vrijednostima, tj.

; - opažena frekvencija, -

očekivana ( teorijska ) frekvencija

Page 9: Teorijske_distribucije

- ova distribucija može zauzeti vrijednosti od 0 do , vrijednosti su uvijek pozitivne, ovisi o broju stupnjeva slobode, pa je za svaki broj stupnjeva slobode hi-kvadrat distribucija različita

- vjerojatnosti distribucije dane su u tabeli- u tablici su dati podaci do 30 stupnjeva slobode, a ako se radi o više od 30

stupnjeva slobode R.A.Fisher sugerira da se uzme izraz :

koji je približno normalno distribuiran, pa se za taj slučaj mogu primijeniti tablice površina ispod normalne krivulje

- aritmetička sredina hi-kvadrat distribucije jednaka je broju stupnjeva slobode , mod je na mjestu gdje je = (osim ako je ),

varijanca iznosi , a koeficijent asimetrije

- iz izraza za koeficijent asimetrije slijedi da je ova distribucija vrlo asimetrična za mali broj stupnjeva slobode, a da se sa povećavanjem stupnjeva slobode približava simetričnosti

Zadaci za vježbu :

a) Normalna distribucija

1. Koliki je koeficijent povjerenja za procjenu aritmetičke sredine

osnovnog skupa pomoću velikog uzoraka ako je : a)0.90 , b) 0.80 , c) o.95 ? Skiciraj postupak određivanja koeficijenata.

2. Uz koju se razinu povjerenja provodi postupak procjene aritmetičke sredine populacije ako je koeficijent povjerenja : a) 1.40 , b) 2.17 , c) 3.09 ?

3. Odredite vrijednosti standardne pogreške procjene aritmetičke sredine osnovnog skupa za ove slučajeve :a) procijenjuje se sredina konačnog skupa od 125768 članova pomoću

slučajnog uzorka veličine 1250 članova. Standardna devijacija osnovnog skupa iznosi 64.

b) Procjena je sredine pomoću slučajnog uzorka veličine 600 formiranog izborom svakog 10. člana konačnog osnovnog skupa, a varijanca skupa iznosi 100.

c) Uzorak veličine 36 je izabran iz beskonačne populacije

d) N=35679, n= 2500, =10e) Veličina uzorka je 256 i čini 2 % populacije, a standardna

devijacija uzorka je 32.4. U slučajnom uzorku izabranom uz frakciju izbora manja je od 5%

zabilježeno je ovo trajanje obrade naloga komitenata preko terminala banke M&N u minutama :

Page 10: Teorijske_distribucije

16.10 11.85 9.37 7.26 10.12 12.53 9.93 12.799.23 10.96 12.69 7.91 2.00 9.87 11.88 8.0711.81 10.86 12.93 12.54 12.70 7.18 9,57 9.8816.20 4.90 7.44 8.05 8.10 9.93 5.60 7.802.00 10.36 12.25 11.89 11.09 2.50 11.72 9.644.00 9.72 15.50 9.88 13.55 10.67 10.84 13.158.44 8.65 9.70 10.42 10.98 11.09 8.03 10.135.30 12.81 8.90 9.08 11.04 6.26 9.54 4.20

Procijeni prosječno trajanje svih obrada jednim brojem. U kojim se granicama može očekivati prosječno trajanje obrade naloga komitenata te banke? Razina povjerenja procjene je 95 %.

b) Studentova distribucija

1. Odredi vrijednosti koeficijenata povjerenja procjene aritmetičke sredine pomoću slučajnog uzorka ako je : a) n=11, b) n=16, c) n=27,

2. Zadane su slučajne tablične vrijednosti koeficijenata povjerenja procjene aritmetičke sredine osnovnog skupa pomoću malog uzorka : a) 1.717 ; b) 3.250 ; c) 2.861 ; d) 2.718 . Na kojoj se razini povjerenja i s kojom veličinom uzorka procjenjuje sredina populacije ?

3. Ispituje se prosječno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market. Trajanje u minutama 10 slučajno odabranih razgovora iz evidencije 8967 razgovora bili je kako slijedi :

2 1 1 2 3 4 2 1 1 3Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom aritmetičkom sredinom i nepoznatom standardnom devijacijom. Odredi granice u kojima se može očekivati da obuhvaćaju prosječno trajanje razgovora za osnovni skup. Pouzdanost procjene je : 95%, 90% .