seminarski statistika.doc

38
Univerzitet u Istočnom Sarajevu Saobraćajni fakultet Doboj MATEMATSKA STATISTIKA -Semininarski rad – Tema: Ocjene na osnovu uzoraka Profesor: Studenti: Prof.dr Steva Stević Samira Delić 371/12

Upload: ermin

Post on 22-Dec-2015

86 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Seminarski statistika.doc

Univerzitet u Istočnom Sarajevu

Saobraćajni fakultetDoboj

MATEMATSKA STATISTIKA-Semininarski rad –

Tema: Ocjene na osnovu uzoraka

Profesor: Studenti:Prof.dr Steva Stević Samira Delić 371/12 Ermina Kamarić 436/12 Anela Džibrić 410/12

Doboj, Mart 2014.

Page 2: Seminarski statistika.doc

SADRŽAJ

1. UVOD…………………………………………………………………………………......2

2. OCIJENE PARAMETARA OSNOVNOG SKUPA NA OSNOVU UZORKA………3

2.1. Statističke ocjene…..................................................................................................3

2.1.1. Karakteristika ocjene....................................................................................3

2.1.2. Nepristrasnost...............................................................................................4

2.1.3. Konzistentne ocjene.....................................................................................5

2.1.4. Efikasnost.....................................................................................................6

2.2. Uzorak…………………………………………………………………………......8

2.3. Procjena aritmetičke sredine osnovnog skupa……………………………………11

2.4. Standardna greška aritmetičke sredine……………………………………………13

2.5. Varijansa ………………………………………………………………………....14

2.6. Normalna raspodijela……………………………………………………………..15

2.7. Distribucija proporcija uzoraka……………………………………..…………….20

2.8. Metod najmanjih kvadrata…………………………….…………….…………….20

2.9. Metod najveće vrijednosti………………………………………………………...21

2.10. Metod momenta…………………………………………………………………..21

2.11. Interval pouzdanosti………………………….…………….……………………..22

2.11.1. Interval pouzdanosti za aritmetičku sredinu….…….……………………22

2.11.2. Interval pouzdanosti za proporciju………………………………………23

2.12. Ocjena statističke značajnosti……...…………………………………………….23

3.ZAKLJUČAK....................................................................................................................26

4.LITERATURA………………………………………………………….………..………26

1

Page 3: Seminarski statistika.doc

1. UVOD

Statistika je grana primijenjene matematike koja se bavi analizom podataka.

Neki primjeri korišćenja statistike:

- ispitivanja glasača prije/u toku izbora

- ispitivanje ljudi uopšteno o bilo kojoj temi

- vođenje statistike u proizvodnji procesora, utvrđivanje postotka ispravnih procesora (yield)

- vođenje statistike u proizvodnji, prije i poslije svake kontrole

- primjenjena statistike na području biomedicinske nauke (biostatistika)

- primjenjena statistike u području geonauke, odnosno prostorna statistika ili geostatistika

Logičke greške pri upotrebi statistike

Najčešća logička greška je nereprezentativan uzorak pri ispitivanju. Samo ispitivanje

može biti sociološki izvedeno savršeno (ispitanici popunjavaju uputnik neometani i

anonimno), matematička analiza je izvedena bez grešaka (zbroj svih izbora daje 100%, ne

manje ili više, što se takođe može dogoditi), no rezultati ipak nemaju previše veze s realnošću.

Rezultati dobijeni ispravnom analizom nereprezentativnog uzorka su neispravni, kao i

oni dobijeni neispravnom analizom reprezentativnog uzorka. Reprezentativan uzorak je onaj

koji dobro reprezentuje populaciju kojoj pripada, a najbolje se postiže slučajnim odabirom

članova.

2

Page 4: Seminarski statistika.doc

2. OCJENE PARAMETARA OSNOVNOG SKUPA NA OSNOVU

UZORKA

2.1. STATISTIČKE OCJENE

2.1.1. Karakteristika ocjene

Nepoznati parametar osnovnog skupa ocenjujemo na osnovu odgovarajuće statistike

uzorka.

Radi lakšeg razumjevanja statističkog ocjenjivanja uvedena je sljedeća simbolika:

pokazatelj osnovnog skupa koga ocjenjujemo obilježavamo grčkim slovom θ,

statistiku uzorka kojom ocjenjujemo nepoznati parametar, odnosno ocjenu parametra

obilježavamo sa , realizovanu vrjednost u izabranom uzorku, odnosno ocjenjenu vrjednost

sa

Ovo je funkcija elemenata uzorka x1, x2,….xn pa se zato koristi neka od narednih oznaka: ô

(x1, x2,….xn)= ô.n =

Funkcija je, statistika koja daje ocjenjenu vrjednost pokazatelja osnovnog skupa, a

pošto joj vrjednost zavisi od elemenata uzorka (znači da se menja od jednog uzorka do

drugog), može se smatrati za slučajnu promenljivu.

U slučaju ocjene konkretne vrjednosti (uz pomoć funkcije ), uzorku pridodajemo

samo jednu numeričku vrjednost i tako zamenjujemo vrjednost parametra osnovnog skupa.

Međutim, u slučaju ocjene intervala određujemo takav interval, koji sa unapred datom

velikom vjerovatnoćom, sadrži nepoznat parametar.

Moguće je napraviti više vrsta funkcija ô za ocjenu jednog pokazatelja osnovnog

skupa. Statistika kao i sve druge aleatorne promenljive, imaju svoj raspored, očekivanu

vrjednost i varijansu.

Koristimo dvije vrste ocjena:

- ocjenu u vidu jedne vrjednosti i

- intervalnu ocjenu.

Ocjena parametra osnovnog skupa je slučajna promenljiva koja zavisi od informacija

iz uzorka i čiju realizovanu vrjednost pripisujemo osnovnom skupu. Realizovanu vrjednost

3

Page 5: Seminarski statistika.doc

slučajne promenljive iz jednog uzorka koju pripisujemo osnovnom skupu nazivamo ocjenom

u vidu jedne vrjednosti ili tačkastom ocjenom.

Ocjene parametra skupa su intervalne ocjene i dobijaju se na osnovu statistike uzorka

i teorije vjerovatnoće.

Intervalnu ocjenu parametra osnovnog skupa odredjujemo (na osnovu informacije iz

uzorka) rangom ili intervalom u kome se verovatno nalazi nepoznati parametar osnovnog

skupa. Odgovarajuću ocjenu nazivano intervalnom ocjenom.

Isti parametar θ možemo ocjeniti primenom više različitih ocjena, a najčešće se

pominju osobine nepristrasnost, konzistentnost (saglasnost) i efikasnost.

2.1.2. Nepristrasnost

Najosnovniji kriterijum, u odnosu na funkcije θ, jeste taj da im se vrjednost koleba oko

pokazatelja osnovnog skupa. Nepristrasnom (ili centralnom) nazivamo funkciju θ ako je

njena očekivana vrjednost jednaka pokazatelju osnovnog skupa koji se želi ocjeniti, tj. ako je

njeno matematičko očekivanje jednako parametru osnovnog skupa:

za n – proizvoljno

Mjeru pristrasnosti obično izražavamo:

Kod odredjenih statistika se dogadja da mjera pristrasnosti zavisi od veličine uzorka.

Ako pri povećavanju veličine uzorka svih granica funkcija postane nepristrasna, to jest:

onda kažemo da je asimptomski nepristrasna, odnosno nepristrasnost ocjene raste sa

povećanjem uzorka. Apsolutna razlika izmedju vrjednosti ocjene i vrjednosti parametra

osnovnog skupa predstavlja grešku ocjene.

Pored aritmetičke sredine, odnosno očekivane vrjednosti, drugi najvažniji pokazatelj

osnovnog skupa je standardna devijacija, odnosno njen kvadrat – varijansa. Iz uzorka

varijansa (v), koju nazivamo empirijskom varijansom, daje pristrasnu ocjenu varijanse

osnovnog skupa. U slučaju sa ponavljanjem mjera pristrasnosti iznosi:

4

Page 6: Seminarski statistika.doc

Ako za ocjenu varijanse osnovnog skupa koristimo

odnosno

onda dobijamo nepristrasnu ocjenu najviše varijanse osnovnog skupa,

E (s2) = ơ2.

U slučaju uzorka bez ponavljanja kvadrat od s treba da pomnožimo sa još jednim

korektivnim faktorom, kako bi dobili nepristrasnu ocjenu.

2.1.3. Konzistentne ocjene

Statistička ocjena je konzistentna to jest saglasna ako u vjerovatnoći konvergira

parametru osnovnog skupa. Tako na primjer, je konzistentna ocjena µ jer za n → ∞

vrjednost u uzorcima teži da se izjednači sa µ .

2.1.4. Efikasnost

Jedna nepristrasna ocjena može da ima tako veliku disperziju da je to učini

neupotrebljivom. Standardna devijacija ocjene može da se smatra za mjerni broj greške

5

Page 7: Seminarski statistika.doc

uzrokovane slučajnim faktorom. Ova standardna devijacija se naziva standardnom greškom

ocjene.

Standardna greška nije jedna obična standardna devijacija odnosno standardna devijacija bilo

kog skupa, već je standardna devijacija distribucija aritmetičkih sredina uzorka. Distribucija

aritmetičkih sredina uzoraka zavisi od razdeobe osnovnog skupa. Ukoliko je osnovni skup

normalno rasporedjen onda su i aritmetičke sredine uzoraka normalno rasporedjene.

Varijansu ocjena izračunatih na osnovu svih mogućih uzoraka zovemo varijansom

distribucije svih mogućih uzoraka i oznaka joj je Var .

Kvadratni koren varijanse je standardna greška ocjene i označava se Se .

Sa tačke gledišta efikasnosti, nepristrasne ocjene uporedjujemo sa njihovim varijansama ili

standardnim devijacijama, statistiku sa manjom varijansom nazivamo efikasnijom.

Ocjene su slučajne promenljive i pored matematičkog očekivanja, imaju i svoju disperziju.

Kriterijum izbora izmedju više ocjena glasi: ocjena je utoliko bolja ukoliko ima manju

disperziju.

Najefikasnija je ona konzistentna i nepristrasna ocjena koja ima najmanju disperziju,

odnosno najmanju varijansu.

Broj stepeni slobode

Aritmetička sredina uzroka nepristrasna ocjena parametra µ je, jer je:

E () = µ

Možemo pokazati da je i medijana uzroka, Me, nepristrasna ocjena aritmetičke sredine skupa,

odnosno:

/E (Me) = µ

Takodje, možemo pokazati da je i proporcija uzorka nepristrasna ocjena proporcije skupa, to

jest:

E (P) =π

Varijansa uzroka, S2, je pristrasna ocjena varijanse skupa ako je izračunavamo po formuli:

∑ (Xi - )2

S2= ––––––––––

n

6

Page 8: Seminarski statistika.doc

jer je E (S2) <ơ2. Ocjena je negativno pristrasna (potcenjuje vrjednost varijanse ơ2).

Ako sumu kvadrata odstupanja podjelimo sa n-1, vrjednost varijansu uzroka povećavamo

tako da važi:

E (S2) = ơ2

Dakle, sumu kvadrata odstupanja ∑ (Xi - )2 delimo sa (n-1) slobodnih posmatranja koje

nazivamo brojem stepeni slobode.

Broj slobodnih posmatranja odredjen je uslovom da je ∑ (Xi - ) = 0 koji mora biti zadovoljen

zbog čega je posle n-1 nezavisnih odstupanja, n – to odstupanje potpuno odredjeno.

Broj nezavisnih vrjednosti odnosno posmatranja u uzorku, umanjen za broj ograničenja koja

su nametnuta ovim vrjednostima je broj stepeni slobode.

Broj stepeni slobode obilježavamo sa v. U slučaju nepristrasne ocjene varijanse skupa broj

stepeni slobode je v=n-1. Broj ograničenja nameće broj slobodnih vrjednosti u uzorku tako

da imamo različit broj stepeni slobode.

Ocjena konkretne vrjednosti

Za ocjenjivanje jednog parametra moguće je da se izradi više različitih statistika. Do sada je

korišćen princip analogije, kada je očekivana vrjednost osnovnog skupa ocjenjena

aritmetičkom sredinom uzorka.

2.2. UZORAK

7

Page 9: Seminarski statistika.doc

Populacija (osnovni skup, univerzum) predstavlja skup svih jedinki (elemenata,

članova) s određenim zajedničkim karakteristikama. Može biti konačna ili beskonačna.

Jedinice posmatranja u populaciji nazivaju se entiteti. Razlikujemo ih prema njihovim

obilježjima, koje još nazivamo i atributi.

Proučavanje cijele populacije najčešće je vrlo skupo, a često je i potpuno nemoguće, kao kad

se radi o hipotičkoj populaciji (npr. pacijenti koji bi mogli u budućnosti biti liječeni na

određeni način). Stoga se najčešće istražuje uzorak pojedinaca koji dobro reprezentuju

populaciju (engl. sample, franc. sondage, njem. die Stichprobe).

Dobijene rezultate posmatranja uzorka treba generalizovati na populaciju, pri čemu koristimo

teoriju uzoraka. Iz svojstava uzoraka procjenjujemo svojstva populacije. Pri tome moramo

procijeniti i veličinu odstupanja rezultata dobijenih na uzorku od tačnih vrijednosti.

populacije (aritmetička sredina, varijanca, relativna frekvencija, proporcija).

Uzorak je podskup osnovnog statističkog skupa, a uzima se u svrhu ispitivanja obilježja

elemenata osnovnog skupa (ili populacije). Uzorak treba biti reprezentativan i slučajan.

Slučajan izbor jedinica osnovnog skupa u uzorak može se postići pomoću tablice slučajnih

brojeva. Jedinice u uzorak se mogu birati sistematski (npr. svaki 10.-ti element osnovnog

skupa).

Tabela 1. Simboli statističkih veličina uzoraka i populacijskih parametara.

UZORAK

statističke

veličine

POPULACIJA

parametri x

X Μ

S Σ

P Π

8

Page 10: Seminarski statistika.doc

Procjena parametara populacije na temelju statističkih veličina uzorka zavisi od

reprezentativnosti uzorka i odabranoj vjerovatnoći.

Reprezentativan uzorak dobro opisuje (reprezentuje populaciju). Na reprezentativnost uzorka

utiču barem: (1) metoda uzorkovanja, tj. odabira uzorka, (2) veličina uzorka i (3)

varijabilnost obilježja.

METODA ODABIRA UZORKA

Kada svaki element populacije ima jednaku šansu da bude izabran i svaki uzorak ima

jednaku šansu da bude izabran uzorak je slučajan, randomiziran (engl. random sample).

Najčešće korišćene metode za odabir slučajnog uzorka su lutrijska metoda, ili odabir uzorka

pomoću

tablice slučajnih brojeva. Danas se za odabir slučajnog uzorka pretežno koriste računari.

Kada se odabir jedinica posmatranja odvija po nekom sistemu (npr. svaki drugi vlasnik

telefona prema telefonskom imeniku) radi se o sistematskom uzorku. Kod sistemskog uzorka

nije moguće izračunati pogrešku vezanu uz zaključivanje o populaciji na temelju uzorka.

VELIČINA UZORKA

Zaključci izvedeni na osnovu uzorka biće što kvalitetniji što je uzorak veći. Ovo

pravilo naziva se “zakog velikih brojeva”.

Veličina uzorka zavisi od: homogenosti populacije s obzirom na ispitivano obilježje, kao i od

učestalosti ispitivanog obilježja u populaciji.

TEORIJA MALIH UZORAKA

Teorija malih uzoraka je matematičko-statistička teorija o malim uzorcima i pravila

vezanih uz standardne statističke postupke kada se koriste mali uzroci.

Statističke vrijednosti dobijene iz malih uzoraka nestabilnije su od vrijednosti do kojih se

dođe na temelju velikih uzoraka i zbog toga je greška koja se dobija vrijednostima

temeljenim na malim uzorcima tim veća što je uzorak manji i obrnuto greške kod

izračunavanja statističke vrijednosti su manje što je uzorak veći.

Odnos nije linearan već je proporcionalan drugom korijenu iz veličine uzorka i stoga je

razlika da bi bila proglašena statistički značajnom mora biti znatno veća kada se radi o malim

uzorcima nego što je slučaj s velikim uzorcima.

EFEKAT VARIJABILNOSTI

9

Page 11: Seminarski statistika.doc

Varijabilnost uzorka istraživaču je često nepoznata.

U slučaju kada poznata velika varijabilnost uzorka ugrožava njegovu reprezentativnost

uzorak bi trebalo povećati.

Frekvencija odabiranja (f) je odnos jedinica u uzorku i broja jedinica u osnovnom skupu:

Korak izbora je recipročna vrijednost frekvencije odabiranja (f1) i upotrebljava se kod

sistemskog izbora jedinica u uzorak.

Broj svih mogućih uzoraka (bez ponavljanja) veličine iz osnovnog skupa veličine jednak je

broju kombinacija bez ponavljanja -tog razreda.

Pomoću uzorka vrši se procjena određenih parametara osnovnog skupa i testiraju se hipoteze

o nepoznatim parametrima osnovnog skupa.

Ako se iz osnovnog skupa veličine izaberu svi mogući uzorci veličine , te se za svaki uzorak

izračuna neki odgovarajući parametar, distribucija tih parametara naziva se sampling

distribucija.

Pristranost je razlika između očekivane vrijednosti nekog parametra iz sampling distribucije i

tog istog parametra iz osnovnog skupa.

Ako između očekivane vrijednosti nekog parametra iz sampling distribucije i tog istog

parametra iz osnovnog skupa ne postoji razlika onda se to svojstvo naziva nepristranost

Standardna devijacija sampling distribucije naziva se standardna greška.

2.3. PROCJENA ARITMETIČKE SREDINE OSNOVNOG SKUPA

10

Page 12: Seminarski statistika.doc

DISTRIBUCIJA ARITMETIČKIH SREDINA UZORAKA

Aritmetička sredina je pojam iz statistike, koji se računa za neki skup brojeva kao količnik

zbira članova i broja članova skupa, u matematičkoj notaciji:

Primjer

S = (1, 3, 6, 7, 18)

Skup S ima 5 članova čiji zbir je 35, a aritmetička sredina je 7

Imamo jedan osnovni skup od N jedinki (članova):

x1, x2, . . ., xn

Iz osnovnog skupa odaberimo niz slučajnih uzoraka od kojih svaki ima n članova:

1. uzorak x11, x12, . . ., x1n,

2. uzorak x21, x22, . . ., x2n,

3. uzorak x31, x32, . . ., x3n,

k. uzorak xk1, xk2, . . ., xkn,

Aritmetičke sredine uzoraka su:

X1, X2, ….., Xk

Aritmetička sredina aritmetičkih sredina svih uzoraka je aritmetička sredina populacije (μ) .

Distribucija aritmetičkih sredina uzoraka iz jedne populacije biće normalna ako je distribucija

vrijednosti posmatranog obilježja u populaciji normalna.

Međutim, po centralnoj graničnoj teoremi distribucija aritmetičkih sredina uzoraka iz jedne

populacije biće normalna i ako distribucija promatranog obilježja u populaciji nije normalna

ukoliko su uzorci dovoljno veliki i ako je varijanca populacije (σ2) konačan broj.

Aritmetičke sredine uzoraka iz iste populacije se grupiraju oko μ. Oočekivana vrijednost

aritmetičke sredine (aritmetička sredina aritmetičkih sredina) jednaka je aritmetičkoj sredini

populacije. E( x) = μ

11

Page 13: Seminarski statistika.doc

Ako veličina uzorka teži prema beskonačno, sampling distribucija aritmetičkih sredina teži

normalnom obliku. Kod malih uzoraka sampling distribucija aritmetičkih sredina ima oblik

Studentove ili t-distribucije.

Procjena aritmetičke sredine može biti tačkasta i intervalna.

2.4. STANDARDNA GREŠKA ARITMETIČKE SREDINE

Standardna devijacija distribucije aritmetičkih sredina uzoraka naziva se standardna

greška aritmetičke sredine (engl. Standard Error of the Mean, SEM).

Standardna devijacija je u statistici apsolutna mera disperzije u osnovnom skupu. Ona nam

govori, koliko u prosjeku elementi skupa odstupaju od aritmetičke sredine skupa. Označava

se grčkim slovom sigma, σ. Formula za njeno izračunavanje je:;

gde je:

N - broj elemenata u skupu

μ - aritmetička sredina skupa

xi - i-ti član skupa (i =1,2,...,N)

Standardna devijacija u uzorku nam govori koliko u prosjeku elementi uzorka odstupaju od

aritmetičke sredine uzorka. Izračunava se po formuli:

;

gdje je:

n - broj elemenata u uzorku

(iks-bar) - aritmetička sredina uzorka

xi - i-ti član uzorka (i =1,2,...,n)

12

Page 14: Seminarski statistika.doc

Mjera je odstupanja aritmetičkih sredina uzorakaiz jedne populacije od aritmetičke sredine

populacije, i kao takva predstavlja grešku kojoj se izlažemo zaključivajući o populaciji na

osnovu uzorka.

Standardnu devijaciju populacije, σ u pravilu ne poznajemo jer imamo samo uzorak. Ako je

uzorak slučajan i dovoljno velik može se pretpostaviti da je standardna devijacija uzorka (s)

dobra procjena standardne devijacije populacije (σ), pa standardnu pogrešku aritmetičke

sredine računamo:

Standardna devijacija opisuje varijabilnost podataka, a standardna pogreška aritmetičke

sredine

opisuje preciznost procjene aritmetičke sredine populacije na temelju aritmetičke sredine

uzorka.

Velika standardna pogreška ukazuje na nepreciznu procjenu, dok mala standardna pogreška

ukazuje na preciznu procjenu populacijskih parametara na temelju uzorka.

Standardna pogreška je to manja što je uzorak veći i što je varijabilnost podataka manja.

Procjena standardne devijacije osnovnog skupa računa se tako da se izračuna pozitivni korjen

iz donje i gornje granice intervalne procjene varijanse osnovnog skupa uz odgovarajući nivo

pouzdanosti procjene.

2.5. VARIJANSA

Varijansa ili disperzija je pojam iz teorije verovatnoće i statistike. Ona predstavlja

matematičko očekivanje odstupanja slučajne promenljive od njene srednje vrednosti.

Na primjer, savršena kocka za igru može da da jedan od 6 ishoda. Očekivana vrednost broja

kojeg će kocka da pokaže je (1 + 2 + 3 + 4 + 5 + 6)/6 = 3,5, očekivana standardna devijacija

je  1.5 (srednja vrednost jednakoverovatnih apsolutnih odstupanja: 3,5 − 1, 3,5 − 2, 3,5 − 3,

4 − 3,5, 5 − 3,5, 6 − 3,5, što daje 2,5, 1,5, 0,5, 0,5, 1,5, 2,5), očekivano kvadratno odstupanje

ili varijansa je  35/12 ≈ 2,9 (srednja vrednost jednakoverovatnih kvadrata odstupanja: 2,52,

1,52, 0,52, 0,52, 1,52, 2,52).

Neka je matematičko očekivanje realnog slučajnog vektora X za koji postoji

integral kvadrata njegovih vrednosti. Tada je varijansa slučajne promenljive:

13

Page 15: Seminarski statistika.doc

Ako je vektor X jednodimenzionalan, uslovi za X mogu da se uproste. Ako je ,

onda važi:

2.6.NORMALNA RASPODIJELA

Gustina vjerovatnoće normalne raspodijele sa različitim parametrima. Zelenom bojom je

predstavljena normalna normirana raspodela.

Normalna raspodijela ili Gausova raspodijela, je važna familija neprekidnih raspodijela

vjerovatnoće, sa primjenama u mnogim poljima. Članovi familije normalne raspodijele su

definisani preko dva parametra, matematičko očekivanje, i varijansa (disperzija) σ2. Normalna

normirana raspodijela je normalna raspodijela sa očekivanjem jednakim nuli, i varijansom

jednakom jedan (zelena kriva na slici desno). Karl Fridrih Gaus se dovodi u vezu sa ovim

skupom raspodijela, jer je pomoću njih analizirao astronomske podatke, i definisao jednačinu

funkcije gustine raspodijele normalne raspodijele.

Važnost normalne raspodijele kao modela kvantitativnih fenomena u prirodnim i društvenim

naukama je posljedica centralne granične teoreme. Mnoga psihološka mjerenja i fizički

fenomeni se mogu dobro aproksimirati normalnom raspodijelom. Iako su mehanizmi koji

leže u osnovi ovih fenomena često nepoznati, upotreba modela normalne raspodele se

14

Page 16: Seminarski statistika.doc

teoretski opravdava pretpostavkom da mnogo malih, nezavisnih uticaja aditivno doprinose

svakoj opservaciji.

Normalna raspodijela se javlja u mnogim oblastima statistike. Na primer, srednja vrijednost

uzorka ima približno normalnu raspodijelu, čak i ako raspodijela vjerovatnoće populacije iz

koje se uzorak uzima nije normalna. Normalna raspodijela je najčešće korišćena familija

raspodijela u statistici, i mnogi statistički testovi su bazirani na pretpostavci normalnosti. U

teoriji verovatnoće, normalne respodele se javljaju kao granične raspodijele više neprekidnih

i slučajnih familija raspodijela.

Pravila za normalno raspodijeljene podatke

Tamno plavo je unutar intervala od plus-minus jedne standardne devijacije od aritmetičke

sredine. Za normalnu raspodijelu, ovo obuhvata 68,27% skupa; plus-minus dvije standardne

devijacije od aritmetičke sredine obuhvataju 95,45 skupa%; plus-minus tri standardne

devijacije obuhvataju 99,73% posto skupa.

U praksi, često se pretpostavlja da su podaci iz približno normalno raspodijeljene populacije.

Ako je ta pretpostavka opravdana, onda se oko 68% vrednosti nalazi u intervalu od plus-

minus jedne standardne devijacije od aritmetičke sredine, oko 95% vrjednosti se nalazi u

intervalu od plus-minus dve standardne devijacije, a oko 99,7% se nalazi unutar plus-minus 3

standardne devijacije. Ovo je poznato kao Pravilo 68-95-99,7, ili empirijsko pravilo.

Intervali povjerenja su sljedeći:

15

Page 17: Seminarski statistika.doc

Za normalnu raspodijelu, dvije tačke na krivoj koje su udaljene jednu standardnu devijaciju

od krive su takođe i prevojne tačke.

Slučajna promjenljiva X sa raspodijelom vjerovatnoće

[2]

ima normalnu raspodijelu sa parametrima μ, σ, što se piše kao ili (μ,σ2),

gde je μ matematičko očekivanje i σ standardna devijacija.

Funkcija raspodijele vjerovatnoće normalne raspodijele data je izrazom:

σ 68,26894921371%

2σ 95,44997361036%

3σ 99,73002039367%

4σ 99,99366575163%

5σ 99,99994266969%

6σ 99,99999980268%

7σ 99,99999999974%

16

Page 18: Seminarski statistika.doc

Funkcija raspodele verovatnoće standardne normalne raspodijele

To je gustina vjerovatnoće za standardnu normalnu raspodijelu ( ). Intervali

na rastojanju 1, 2 i 3 standardne devijacije od matematičkog očekivanja 0 zauzimaju 68 %,

95,5 % i 99,7 % površine ispod zvonaste krive. Isti procenti važe za svaku normalnu

raspodijelu, bez obzira na matematičko očekivanje i standardnu devijaciju. Treba primjetiti

da gustina normalne raspodijele nikada ne dostiže 0, dakle važi f(x) > 0 za sve realne

vrjednosti x.

Normalna raspodijela je granični slučaj centralne granične teoreme koji nikada nije savršen u

praksi. Međutim, konvergencija zbirne vrednosti slučajnih promenljivih raste vrlo brzo sa

povećanjem broja promjenljivih n. Zbir 30 ili 40 nezavisnih slučajnih promjenljivih, koje

pripadaju identičnom i proizvoljnom tipu raspodijele vjerovatnoće, već je veoma blizak

normalnoj raspodijeli.

Graf funkcije normalne raspodijele je zvonasta Gausova kriva, čija visina i

širina zavisi od parametra σ. Kriva je osno simetrična oko ose x = μ. Njena kumulativna

funkcija F ima centralnu simetriju oko tačke P(μ | 0,5).

Maksimum i prevojne tačke funkcije raspodele verovatnoće

Izračunavanjem prvog i drugog izvoda možemo izračunati maksimum i prevojne tačke

funkcije normalne raspodijele. Prvi izvod funkcije raspodijele vjerovatnoće je

Maksimum se nalazi u tački xmax = μ, gdje iznosi

Drugi izvod glasi:

Otuda zaključujemo da se prevojne tačke nalaze na koordinatama .

Normiranje

Ukupna površina ispod Gausove zvonaste krive je tačno 1, što je odraz činjenice da je

vjerovatnoća sigurnog događaja 1. Odatle sljedi da od dvije Gausove krive koje imaju isto μ,

ali različitu vrijednost σ, ona sa većim σ je šira i niža nego ona druga. Dvije Gausove krive sa

17

Page 19: Seminarski statistika.doc

sa jednakim σ i različitim μ imaju grafike koji izgledaju istovjetno, osim što su pomjereni po

x-osi za iznos razlike dvije vrijednosti μ.

Normiranje Gausove krive se izvodi na sledeći način.

Definišimo

Da bi raspodijela F bila normirana, mora važiti A = 1.

Integral ćemo uprostiti korišćenjem linearne supstitucije , a onda važi

Kao što smo i očekivali, vrjednost A je nezavisna od parametara σ i μ.

Izračunavanje

Direktna primjena integrala za izračunavanje površine ispod Gausove krive nije moguća, jer

se ona ne može svesti na elementarne funkcije poznatih integrala. Ranije su se za njeno

izračunavanje koristile tabele. Danas je funkcija za izračunavanje ovog integrala dostupna na

kalkulatorima i računarima. Tabele ovog integrala se ne daju za odabrane vrednost μ- i σ, već

samo za standardnu normalnu raspodijelu sa parametrima μ = 0 i σ = 1 (normirana normalna

raspodijela). Za ostale vrednosti ovih parametara potrebno je preračunavanje.

Tabele takođe daju vrednosti kumulativne funkcije vjerovatnoće Φ, poznate i kao Gausov

integral greške:

Po analogiji, odgovarajuća normirana funkcija gustine verovatnoće f označava se sa φ.

Matematičko očekivanje

Normalna raspodijela ima sledeće matematičko očekivanje

18

Page 20: Seminarski statistika.doc

.

Varijansa i standardna devijacija

Vrjednost varijanse normalne raspodijele je

.

Za vrjednost standardne devijacije dobijamo

2.7. DISTRIBUCIJA PROPORCIJA UZORAKA

Proporcija jedinica u populaciji koje posjeduju određenu karakteristiku takođe se

procijenjuje na temelju uzorka. Pri tome:

P= r/n

n = veličina uzorka

p = procjena proporcije populacije (π)

r = broj jedinki u uzorku koje posjeduju određenu karakteristiku

Distribucija proporcija uzoraka slijedi normalnu distribuciju sa srednjom vrijednosti π.

Standardna pogreška proporcije je zapravo standardna devijacija distribucije proporcija

uzoraka.

Mala standardna pogreška proporcije ukazuje na preciznu procjenu.

2.8. METOD NAJMANJIH KVADRATA

Metod najmanjih kvadrata uvek pretpostavlja postojanje jednog modela, odnosno da je opis

jedne pojave moguć na osnovu nekakve veze. Prednost je u tome, da za primenu nije

potrebno poznavanje rasporeda osnovnog skupa.

19

Page 21: Seminarski statistika.doc

Primjenom metoda najmanjih kvadrata ocjene parametra možemo da izračunamo tako što će

zbir kvadrata odstupanja izmedju vrjednosti dobijenih na osnovu modela i empirijskih

vrjednosti biti minimalan.

Statistiku za ocjenu očekivane vrjednosti osnovnog skupa na osnovu metoda najmanjih

kvadrata odredjujemo na sljedeći način:

potražimo vrjednost μ, za koju važi sljedeća relacija

gdje dobijamo da je:

2.9. METOD NAJVEĆE VRIJEDNOSTI

Maksimum lajklihud metod pretpostavlja poznavanje rasporeda osnovnog skupa i

pogodan je da neki od pokazatelja osnovnog skupa dobije ocjenu. Na osnovu ovog metoda

uzimamo onu vrjednost, čiji parametar lajklihud funkcije ima svoj maksimum, to jest

parametar kod koga je najveća šansa da prilikom uzimanja jedinica u uzorak, dobijemo baš

realizovan uzorak. Ako napišemo vjerovatnoću zajedničkog realizovanja elemenata uzorka,

onda se lajklihud funkcija može izraziti na sljedeći način:

Pomoću maksimum lajklihud metode dobijamo konzistentne ocjene , i u slučaju kada

postoji nepristrasna ocjena sa minimalnom varijansom, metod daje upravo tu ocjenu.

2.10. METOD MOMENTA

Metod momenta možemo da koristimo kod osnovnih skupova sa poznatim

rasporedom. Pomoću ovog metoda možemo dati ocjene parametra rasporeda poznatog tipa.

Inače, pogodan je za ocjenjivanje takvih parametara osnovnog skupa koji se mogu napisati

pomoću momenta. Suština mu je da teorijske momente izjednačava sa odgovarajućim

empirijskim momentima izračunatim na osnovu uzorka, što obično vodi ka lako rešivoj

20

Page 22: Seminarski statistika.doc

jednačini ili sistemu jednačina. Metod momenta, takođe ima za rezultat konzistentnu ocjenu

, ali je manje efikasna u slučaju jako asimetričnih rasporeda.

Normalan raspored ima dva parametra. Oni se mogu zapisati pomoću momenta na sljedeći

čin:

i

Prvi momenat uzorka i drugi centralni momenat su:

Iz ovog slijedi da je:

v - je samo asimptotski nepristrasna ocjena varijanse osnovnog skupa, dakle nije nepristrasna

ocjena:

E (v) ≠ ơ2

S`toga, kod empirijskih analiza ne računamo v, već s2.

2.11. INTERVAL POUZDANOSTI

Na uzorku izračunate statističke veličine pojedinačne su procjene parametara

populacije (“point estimate”).

Na temelju statističke veličine uzorka, koristeći standardnu pogrešku, možemo, uz određenu

vjerojatnost procijeniti interval u kojem se nalazi parametar populacije (“interval estimate”).

Procijenjeni interval u kojem se nalazi parametar populacije (aritmetička sredina ili

proporcija) naziva se interval pouzdanosti (engl. confidence interval, CI).

Za računanje intervala pouzdanosti koristimo teorijske distribucije vjerovatnoće. Interval

pouzdanosti proširuje procjenu parametra populacije na obe strane za nekoliko standardnih

greški. Granice pouzdanosti (engl. confidence limits) definišu interval, navode se između

zagrada, odijeljene zarezom.

2.11.1. Interval pouzdanosti za aritmetičku sredinu

21

Page 23: Seminarski statistika.doc

Računa se

x – z * sx < µ < x + z * sx

Pri čemu:

z = standardiziovana vrijednost normalne raspodjele

Interval pouzdanosti uz 95% vjerovatnosti iznosi:

x – 1,96 * sx < µ < x + 1,96 * sx

Interval pouzdanosti uz 99% vjerovatnosti iznosi:

x – 2,58 * sx < µ < x + 2,58 * sx

2.11.2. Interval pouzdanosti za proporciju

Računa se

p – z * sx < µ < p + z * sx

Pri čemu:

z = standardiziovana vrijednost normalne raspodjele

Interval pouzdanosti uz 95% vjerovatnosti iznosi:

p – 1,96 * sx < µ < p + 1,96 * sx

Interval pouzdanosti uz 99% vjerovatnosti iznosi:

p – 2,58 * sx < µ < p + 2,58 * sx

2.12. OCJENA STATISTIČKE ZNAČAJNOSTI (SIGNIFIKANTNOSTI)

•zasniva se na istraživanju pri kojem se u posebnim(eksperimentalnim) uslovima izazivaju

promjene u određenom svojstvu

•primjer: istraživanje da li dodatak pivskog tropa u hrani ovaca utiče na njihovu mliječnost?

(da li promjena uslova ili tretmana hranjenja utiče na svojstvo mliječnosti)

•provođenje istraživanja: budući da do promjene u svojstvu može doći zbog velikog broja

različitih činitelja (slučajna variranja u uzorku), radi što objektivnijeg zaključivanja,

22

Page 24: Seminarski statistika.doc

istraživanje najčešće provodimo uporedo na dvije skupine od kojih je jedna

EKSPERIMENTALNA, a drugaKONTROLNA!

NEKI UTICAJ (ČINITELJ,TRETMAN) OCJENJUJEMO ZNAČAJNIM ZA SVOJSTVO

UKOLIKO:

•između kontrolne i eksperimentalne skupine utvrdimo razlike za najvažnije statističke

pokazatelje (srednje vrijednosti i pokazatelje varijabilnosti) svojstva

•razlike između kontrolne i eksperimentalne skupine nisu slučajne već se, sa određenom

vjerojatnoćom, mogu vezati za posmatrani uticaj (činitelj, tretman)

•primjer: ovce eksperimentalne skupine (primale su pivski trop u hrani) imale su višu

prosječnu mliječnost u odnosu na kontrolnu skupinu (nisu primale pivski trop u hrani), što se

u “statistički značajnoj” mjeri može pripisati dodatku pivskog tropa u hrani.

OCJENU STATISTIČKE ZNAČAJNOSTI DONOSIMO NA OSNOVU ODREĐENE

PRETPOSTAVKE (NUL -HIPOTEZE)

NUL -HIPOTEZA (HO)

•najčešće značenje:

–nul-hipoteza pretpostavlja da za neko svojstvo “nema razlike” između skupina podvrgnutih

različitom uticaju (činitelju, tretmanu)

–ukoliko“nema razlike” to u stvari i nisu različite skupine već sve pripadaju u istu skupinu –

istu populaciju

Primjer Ho u slučaju provjere da li pivski trop utiče na višu mliječnost ovaca:

•IZMEĐU KONTROLNE I EKSPERIMENTALNE SKUPINE OVACA NEMA RAZLIKE

U MLIJEČNOSTI ( nema razlike između prosječne mliječnosti ovaca kontrolne i

eksperimentalne skupine)

•provjera hipoteze (test) treba dati odgovor da li je razlika između aritmetičkih sredina za

mliječnost statistički značajna ili nije statistički značajna

•kao rezultat provjere nul-hipotezu možemo ODBACITI ILI NE ODBACITI

23

Page 25: Seminarski statistika.doc

(NE)ODBACIVANJE NUL HIPOTEZE

•NUL -HIPOTEZU NEODBACUJEMO ukoliko testiranjem nismo utvrdili statistički

zanačajnu razliku između skupina podvrgnutih različitom uticaju (činitelju, tretmanu)

•NUL -HIPOTEZU ODBACUJEMO ukoliko smo testiranjem utvrdili statistički značajnu

razliku između skupina podvrgnutih različitom uticaju (činitelju, tretmanu)

•statističku značajnost iskazujemo pomoću P-vrijednosti;

P-vrijednost osniva se na teorijskoj distribuciji (najčešće normalnoj distribuciji)

Odlučivanje o nul-hipotezi na osnovi P-vrijednosti

•provjera ili testiranje sprovedeno u uzorku trebaju pokazati da li su podaci u skladu sa nul-

hipotezom

•rezultati testa trebaju dovesti do odluke da li ne odbacujemo ili odbacujemo nul-hipotezu

•ukoliko podaci nisu u skladu s očekivanjima nul-hipoteze smatramo da postoji dokaz za

njeno odbacivanje. Rezultati testa su u tom slučaju STATISTIČKI ZNAČAJNI

( SIGNIFIKANTNI)

•ukoliko su podaci u skladu sa očekivanjima nul-hipoteze smatramo da ne postoji dokaz za

njeno odbacivanje. Nul-hipoteza se tada ne odbacuje, a rezultati testa u tom slučaju NISU

STATISTIČKI ZNAČAJNI (NESIGNIFIKANTNI)

Odlučivanje o nul-hipotezi na osnovu P-vrijednosti

• P-vrijednost omogućuje da odredimo da li imamo dovoljno dokaza za odbacivanje nul-

hipoteze

• ukoliko je P-vrijednost mala tada je mala vjerovatnost da naši podaci potvrđuju nul-

hipotezu kao istinitu, stoga u tom slučaju nul-hipotezu odbacujemo

24

Page 26: Seminarski statistika.doc

• ukoliko je P-vrijednost velika, postoji velika vjerovatnost da su naši podaci u skladu sa

pretpostavkama nul-hipoteze, stoga u tom slučaju nul-hipotezu ne odbacujemo

• prije prikupljanja podataka moramo odlučiti koju P-vrijednost ćemo smatrati statistički

značajnom pri testiranju neke nul-hipoteze

• visina statističke značajnosti zavisi od svojstva koje analiziramo i uslova istraživanja

• najčešća visina značajnosti iznosi 0,05 (5%) pa ukoliko P iznosi manje od 0,05 (P<0,05) nul

hipotezu odbacijemo, a razlike proglašavamo statistički značajnim.

(Suprotno navedenom P≥0,05 nul-hipotezu ne odbacujemo, a razlike proglašavamo statistički

neznačajnim)

ZAKLJUČAK

• NIŽA P-vrijednost ZNAČI VIŠE DOKAZA PROTIV NUL-HIPOTEZE

POSTUPAK TESTIRANJA HIPOTEZE

• postavljanje nul-hipoteze

• prikupljanje podataka (provjera distribucije podataka)

• izbori načina sprovođenja prikladnog testa za provjeru hipoteze

• izbor visine statističke značajnosti testa (P-vrijednost)

• tumačenje rezultata testa i donošenje odluke da se nul-hipoteza odbaci ili ne odbaci

25

Page 27: Seminarski statistika.doc

4. LITERATURA

1. Dr. Aleksa Macanović, “Poslovna statistika“, Banja Luka 2009. godine,

2. I.Šošić i V.Sredar,„Uvod u statistiku“,Školska knjiga Zagreb,1994., Ekonomski fakultet

3. bs.wikipedia.org/wiki/Statistika

4. I.Pavlić,” Statistička teorija i primjena“, Tehnička knjiga, Zagreb 1970.

26