seminarski statistika.doc
TRANSCRIPT
Univerzitet u Istočnom Sarajevu
Saobraćajni fakultetDoboj
MATEMATSKA STATISTIKA-Semininarski rad –
Tema: Ocjene na osnovu uzoraka
Profesor: Studenti:Prof.dr Steva Stević Samira Delić 371/12 Ermina Kamarić 436/12 Anela Džibrić 410/12
Doboj, Mart 2014.
SADRŽAJ
1. UVOD…………………………………………………………………………………......2
2. OCIJENE PARAMETARA OSNOVNOG SKUPA NA OSNOVU UZORKA………3
2.1. Statističke ocjene…..................................................................................................3
2.1.1. Karakteristika ocjene....................................................................................3
2.1.2. Nepristrasnost...............................................................................................4
2.1.3. Konzistentne ocjene.....................................................................................5
2.1.4. Efikasnost.....................................................................................................6
2.2. Uzorak…………………………………………………………………………......8
2.3. Procjena aritmetičke sredine osnovnog skupa……………………………………11
2.4. Standardna greška aritmetičke sredine……………………………………………13
2.5. Varijansa ………………………………………………………………………....14
2.6. Normalna raspodijela……………………………………………………………..15
2.7. Distribucija proporcija uzoraka……………………………………..…………….20
2.8. Metod najmanjih kvadrata…………………………….…………….…………….20
2.9. Metod najveće vrijednosti………………………………………………………...21
2.10. Metod momenta…………………………………………………………………..21
2.11. Interval pouzdanosti………………………….…………….……………………..22
2.11.1. Interval pouzdanosti za aritmetičku sredinu….…….……………………22
2.11.2. Interval pouzdanosti za proporciju………………………………………23
2.12. Ocjena statističke značajnosti……...…………………………………………….23
3.ZAKLJUČAK....................................................................................................................26
4.LITERATURA………………………………………………………….………..………26
1
1. UVOD
Statistika je grana primijenjene matematike koja se bavi analizom podataka.
Neki primjeri korišćenja statistike:
- ispitivanja glasača prije/u toku izbora
- ispitivanje ljudi uopšteno o bilo kojoj temi
- vođenje statistike u proizvodnji procesora, utvrđivanje postotka ispravnih procesora (yield)
- vođenje statistike u proizvodnji, prije i poslije svake kontrole
- primjenjena statistike na području biomedicinske nauke (biostatistika)
- primjenjena statistike u području geonauke, odnosno prostorna statistika ili geostatistika
Logičke greške pri upotrebi statistike
Najčešća logička greška je nereprezentativan uzorak pri ispitivanju. Samo ispitivanje
može biti sociološki izvedeno savršeno (ispitanici popunjavaju uputnik neometani i
anonimno), matematička analiza je izvedena bez grešaka (zbroj svih izbora daje 100%, ne
manje ili više, što se takođe može dogoditi), no rezultati ipak nemaju previše veze s realnošću.
Rezultati dobijeni ispravnom analizom nereprezentativnog uzorka su neispravni, kao i
oni dobijeni neispravnom analizom reprezentativnog uzorka. Reprezentativan uzorak je onaj
koji dobro reprezentuje populaciju kojoj pripada, a najbolje se postiže slučajnim odabirom
članova.
2
2. OCJENE PARAMETARA OSNOVNOG SKUPA NA OSNOVU
UZORKA
2.1. STATISTIČKE OCJENE
2.1.1. Karakteristika ocjene
Nepoznati parametar osnovnog skupa ocenjujemo na osnovu odgovarajuće statistike
uzorka.
Radi lakšeg razumjevanja statističkog ocjenjivanja uvedena je sljedeća simbolika:
pokazatelj osnovnog skupa koga ocjenjujemo obilježavamo grčkim slovom θ,
statistiku uzorka kojom ocjenjujemo nepoznati parametar, odnosno ocjenu parametra
obilježavamo sa , realizovanu vrjednost u izabranom uzorku, odnosno ocjenjenu vrjednost
sa
Ovo je funkcija elemenata uzorka x1, x2,….xn pa se zato koristi neka od narednih oznaka: ô
(x1, x2,….xn)= ô.n =
Funkcija je, statistika koja daje ocjenjenu vrjednost pokazatelja osnovnog skupa, a
pošto joj vrjednost zavisi od elemenata uzorka (znači da se menja od jednog uzorka do
drugog), može se smatrati za slučajnu promenljivu.
U slučaju ocjene konkretne vrjednosti (uz pomoć funkcije ), uzorku pridodajemo
samo jednu numeričku vrjednost i tako zamenjujemo vrjednost parametra osnovnog skupa.
Međutim, u slučaju ocjene intervala određujemo takav interval, koji sa unapred datom
velikom vjerovatnoćom, sadrži nepoznat parametar.
Moguće je napraviti više vrsta funkcija ô za ocjenu jednog pokazatelja osnovnog
skupa. Statistika kao i sve druge aleatorne promenljive, imaju svoj raspored, očekivanu
vrjednost i varijansu.
Koristimo dvije vrste ocjena:
- ocjenu u vidu jedne vrjednosti i
- intervalnu ocjenu.
Ocjena parametra osnovnog skupa je slučajna promenljiva koja zavisi od informacija
iz uzorka i čiju realizovanu vrjednost pripisujemo osnovnom skupu. Realizovanu vrjednost
3
slučajne promenljive iz jednog uzorka koju pripisujemo osnovnom skupu nazivamo ocjenom
u vidu jedne vrjednosti ili tačkastom ocjenom.
Ocjene parametra skupa su intervalne ocjene i dobijaju se na osnovu statistike uzorka
i teorije vjerovatnoće.
Intervalnu ocjenu parametra osnovnog skupa odredjujemo (na osnovu informacije iz
uzorka) rangom ili intervalom u kome se verovatno nalazi nepoznati parametar osnovnog
skupa. Odgovarajuću ocjenu nazivano intervalnom ocjenom.
Isti parametar θ možemo ocjeniti primenom više različitih ocjena, a najčešće se
pominju osobine nepristrasnost, konzistentnost (saglasnost) i efikasnost.
2.1.2. Nepristrasnost
Najosnovniji kriterijum, u odnosu na funkcije θ, jeste taj da im se vrjednost koleba oko
pokazatelja osnovnog skupa. Nepristrasnom (ili centralnom) nazivamo funkciju θ ako je
njena očekivana vrjednost jednaka pokazatelju osnovnog skupa koji se želi ocjeniti, tj. ako je
njeno matematičko očekivanje jednako parametru osnovnog skupa:
za n – proizvoljno
Mjeru pristrasnosti obično izražavamo:
Kod odredjenih statistika se dogadja da mjera pristrasnosti zavisi od veličine uzorka.
Ako pri povećavanju veličine uzorka svih granica funkcija postane nepristrasna, to jest:
onda kažemo da je asimptomski nepristrasna, odnosno nepristrasnost ocjene raste sa
povećanjem uzorka. Apsolutna razlika izmedju vrjednosti ocjene i vrjednosti parametra
osnovnog skupa predstavlja grešku ocjene.
Pored aritmetičke sredine, odnosno očekivane vrjednosti, drugi najvažniji pokazatelj
osnovnog skupa je standardna devijacija, odnosno njen kvadrat – varijansa. Iz uzorka
varijansa (v), koju nazivamo empirijskom varijansom, daje pristrasnu ocjenu varijanse
osnovnog skupa. U slučaju sa ponavljanjem mjera pristrasnosti iznosi:
4
Ako za ocjenu varijanse osnovnog skupa koristimo
odnosno
onda dobijamo nepristrasnu ocjenu najviše varijanse osnovnog skupa,
E (s2) = ơ2.
U slučaju uzorka bez ponavljanja kvadrat od s treba da pomnožimo sa još jednim
korektivnim faktorom, kako bi dobili nepristrasnu ocjenu.
2.1.3. Konzistentne ocjene
Statistička ocjena je konzistentna to jest saglasna ako u vjerovatnoći konvergira
parametru osnovnog skupa. Tako na primjer, je konzistentna ocjena µ jer za n → ∞
vrjednost u uzorcima teži da se izjednači sa µ .
2.1.4. Efikasnost
Jedna nepristrasna ocjena može da ima tako veliku disperziju da je to učini
neupotrebljivom. Standardna devijacija ocjene može da se smatra za mjerni broj greške
5
uzrokovane slučajnim faktorom. Ova standardna devijacija se naziva standardnom greškom
ocjene.
Standardna greška nije jedna obična standardna devijacija odnosno standardna devijacija bilo
kog skupa, već je standardna devijacija distribucija aritmetičkih sredina uzorka. Distribucija
aritmetičkih sredina uzoraka zavisi od razdeobe osnovnog skupa. Ukoliko je osnovni skup
normalno rasporedjen onda su i aritmetičke sredine uzoraka normalno rasporedjene.
Varijansu ocjena izračunatih na osnovu svih mogućih uzoraka zovemo varijansom
distribucije svih mogućih uzoraka i oznaka joj je Var .
Kvadratni koren varijanse je standardna greška ocjene i označava se Se .
Sa tačke gledišta efikasnosti, nepristrasne ocjene uporedjujemo sa njihovim varijansama ili
standardnim devijacijama, statistiku sa manjom varijansom nazivamo efikasnijom.
Ocjene su slučajne promenljive i pored matematičkog očekivanja, imaju i svoju disperziju.
Kriterijum izbora izmedju više ocjena glasi: ocjena je utoliko bolja ukoliko ima manju
disperziju.
Najefikasnija je ona konzistentna i nepristrasna ocjena koja ima najmanju disperziju,
odnosno najmanju varijansu.
Broj stepeni slobode
Aritmetička sredina uzroka nepristrasna ocjena parametra µ je, jer je:
E () = µ
Možemo pokazati da je i medijana uzroka, Me, nepristrasna ocjena aritmetičke sredine skupa,
odnosno:
/E (Me) = µ
Takodje, možemo pokazati da je i proporcija uzorka nepristrasna ocjena proporcije skupa, to
jest:
E (P) =π
Varijansa uzroka, S2, je pristrasna ocjena varijanse skupa ako je izračunavamo po formuli:
∑ (Xi - )2
S2= ––––––––––
n
6
jer je E (S2) <ơ2. Ocjena je negativno pristrasna (potcenjuje vrjednost varijanse ơ2).
Ako sumu kvadrata odstupanja podjelimo sa n-1, vrjednost varijansu uzroka povećavamo
tako da važi:
E (S2) = ơ2
Dakle, sumu kvadrata odstupanja ∑ (Xi - )2 delimo sa (n-1) slobodnih posmatranja koje
nazivamo brojem stepeni slobode.
Broj slobodnih posmatranja odredjen je uslovom da je ∑ (Xi - ) = 0 koji mora biti zadovoljen
zbog čega je posle n-1 nezavisnih odstupanja, n – to odstupanje potpuno odredjeno.
Broj nezavisnih vrjednosti odnosno posmatranja u uzorku, umanjen za broj ograničenja koja
su nametnuta ovim vrjednostima je broj stepeni slobode.
Broj stepeni slobode obilježavamo sa v. U slučaju nepristrasne ocjene varijanse skupa broj
stepeni slobode je v=n-1. Broj ograničenja nameće broj slobodnih vrjednosti u uzorku tako
da imamo različit broj stepeni slobode.
Ocjena konkretne vrjednosti
Za ocjenjivanje jednog parametra moguće je da se izradi više različitih statistika. Do sada je
korišćen princip analogije, kada je očekivana vrjednost osnovnog skupa ocjenjena
aritmetičkom sredinom uzorka.
2.2. UZORAK
7
Populacija (osnovni skup, univerzum) predstavlja skup svih jedinki (elemenata,
članova) s određenim zajedničkim karakteristikama. Može biti konačna ili beskonačna.
Jedinice posmatranja u populaciji nazivaju se entiteti. Razlikujemo ih prema njihovim
obilježjima, koje još nazivamo i atributi.
Proučavanje cijele populacije najčešće je vrlo skupo, a često je i potpuno nemoguće, kao kad
se radi o hipotičkoj populaciji (npr. pacijenti koji bi mogli u budućnosti biti liječeni na
određeni način). Stoga se najčešće istražuje uzorak pojedinaca koji dobro reprezentuju
populaciju (engl. sample, franc. sondage, njem. die Stichprobe).
Dobijene rezultate posmatranja uzorka treba generalizovati na populaciju, pri čemu koristimo
teoriju uzoraka. Iz svojstava uzoraka procjenjujemo svojstva populacije. Pri tome moramo
procijeniti i veličinu odstupanja rezultata dobijenih na uzorku od tačnih vrijednosti.
populacije (aritmetička sredina, varijanca, relativna frekvencija, proporcija).
Uzorak je podskup osnovnog statističkog skupa, a uzima se u svrhu ispitivanja obilježja
elemenata osnovnog skupa (ili populacije). Uzorak treba biti reprezentativan i slučajan.
Slučajan izbor jedinica osnovnog skupa u uzorak može se postići pomoću tablice slučajnih
brojeva. Jedinice u uzorak se mogu birati sistematski (npr. svaki 10.-ti element osnovnog
skupa).
Tabela 1. Simboli statističkih veličina uzoraka i populacijskih parametara.
UZORAK
statističke
veličine
POPULACIJA
parametri x
X Μ
S Σ
P Π
8
Procjena parametara populacije na temelju statističkih veličina uzorka zavisi od
reprezentativnosti uzorka i odabranoj vjerovatnoći.
Reprezentativan uzorak dobro opisuje (reprezentuje populaciju). Na reprezentativnost uzorka
utiču barem: (1) metoda uzorkovanja, tj. odabira uzorka, (2) veličina uzorka i (3)
varijabilnost obilježja.
METODA ODABIRA UZORKA
Kada svaki element populacije ima jednaku šansu da bude izabran i svaki uzorak ima
jednaku šansu da bude izabran uzorak je slučajan, randomiziran (engl. random sample).
Najčešće korišćene metode za odabir slučajnog uzorka su lutrijska metoda, ili odabir uzorka
pomoću
tablice slučajnih brojeva. Danas se za odabir slučajnog uzorka pretežno koriste računari.
Kada se odabir jedinica posmatranja odvija po nekom sistemu (npr. svaki drugi vlasnik
telefona prema telefonskom imeniku) radi se o sistematskom uzorku. Kod sistemskog uzorka
nije moguće izračunati pogrešku vezanu uz zaključivanje o populaciji na temelju uzorka.
VELIČINA UZORKA
Zaključci izvedeni na osnovu uzorka biće što kvalitetniji što je uzorak veći. Ovo
pravilo naziva se “zakog velikih brojeva”.
Veličina uzorka zavisi od: homogenosti populacije s obzirom na ispitivano obilježje, kao i od
učestalosti ispitivanog obilježja u populaciji.
TEORIJA MALIH UZORAKA
Teorija malih uzoraka je matematičko-statistička teorija o malim uzorcima i pravila
vezanih uz standardne statističke postupke kada se koriste mali uzroci.
Statističke vrijednosti dobijene iz malih uzoraka nestabilnije su od vrijednosti do kojih se
dođe na temelju velikih uzoraka i zbog toga je greška koja se dobija vrijednostima
temeljenim na malim uzorcima tim veća što je uzorak manji i obrnuto greške kod
izračunavanja statističke vrijednosti su manje što je uzorak veći.
Odnos nije linearan već je proporcionalan drugom korijenu iz veličine uzorka i stoga je
razlika da bi bila proglašena statistički značajnom mora biti znatno veća kada se radi o malim
uzorcima nego što je slučaj s velikim uzorcima.
EFEKAT VARIJABILNOSTI
9
Varijabilnost uzorka istraživaču je često nepoznata.
U slučaju kada poznata velika varijabilnost uzorka ugrožava njegovu reprezentativnost
uzorak bi trebalo povećati.
Frekvencija odabiranja (f) je odnos jedinica u uzorku i broja jedinica u osnovnom skupu:
Korak izbora je recipročna vrijednost frekvencije odabiranja (f1) i upotrebljava se kod
sistemskog izbora jedinica u uzorak.
Broj svih mogućih uzoraka (bez ponavljanja) veličine iz osnovnog skupa veličine jednak je
broju kombinacija bez ponavljanja -tog razreda.
Pomoću uzorka vrši se procjena određenih parametara osnovnog skupa i testiraju se hipoteze
o nepoznatim parametrima osnovnog skupa.
Ako se iz osnovnog skupa veličine izaberu svi mogući uzorci veličine , te se za svaki uzorak
izračuna neki odgovarajući parametar, distribucija tih parametara naziva se sampling
distribucija.
Pristranost je razlika između očekivane vrijednosti nekog parametra iz sampling distribucije i
tog istog parametra iz osnovnog skupa.
Ako između očekivane vrijednosti nekog parametra iz sampling distribucije i tog istog
parametra iz osnovnog skupa ne postoji razlika onda se to svojstvo naziva nepristranost
Standardna devijacija sampling distribucije naziva se standardna greška.
2.3. PROCJENA ARITMETIČKE SREDINE OSNOVNOG SKUPA
10
DISTRIBUCIJA ARITMETIČKIH SREDINA UZORAKA
Aritmetička sredina je pojam iz statistike, koji se računa za neki skup brojeva kao količnik
zbira članova i broja članova skupa, u matematičkoj notaciji:
Primjer
S = (1, 3, 6, 7, 18)
Skup S ima 5 članova čiji zbir je 35, a aritmetička sredina je 7
Imamo jedan osnovni skup od N jedinki (članova):
x1, x2, . . ., xn
Iz osnovnog skupa odaberimo niz slučajnih uzoraka od kojih svaki ima n članova:
1. uzorak x11, x12, . . ., x1n,
2. uzorak x21, x22, . . ., x2n,
3. uzorak x31, x32, . . ., x3n,
…
k. uzorak xk1, xk2, . . ., xkn,
Aritmetičke sredine uzoraka su:
X1, X2, ….., Xk
Aritmetička sredina aritmetičkih sredina svih uzoraka je aritmetička sredina populacije (μ) .
Distribucija aritmetičkih sredina uzoraka iz jedne populacije biće normalna ako je distribucija
vrijednosti posmatranog obilježja u populaciji normalna.
Međutim, po centralnoj graničnoj teoremi distribucija aritmetičkih sredina uzoraka iz jedne
populacije biće normalna i ako distribucija promatranog obilježja u populaciji nije normalna
ukoliko su uzorci dovoljno veliki i ako je varijanca populacije (σ2) konačan broj.
Aritmetičke sredine uzoraka iz iste populacije se grupiraju oko μ. Oočekivana vrijednost
aritmetičke sredine (aritmetička sredina aritmetičkih sredina) jednaka je aritmetičkoj sredini
populacije. E( x) = μ
11
Ako veličina uzorka teži prema beskonačno, sampling distribucija aritmetičkih sredina teži
normalnom obliku. Kod malih uzoraka sampling distribucija aritmetičkih sredina ima oblik
Studentove ili t-distribucije.
Procjena aritmetičke sredine može biti tačkasta i intervalna.
2.4. STANDARDNA GREŠKA ARITMETIČKE SREDINE
Standardna devijacija distribucije aritmetičkih sredina uzoraka naziva se standardna
greška aritmetičke sredine (engl. Standard Error of the Mean, SEM).
Standardna devijacija je u statistici apsolutna mera disperzije u osnovnom skupu. Ona nam
govori, koliko u prosjeku elementi skupa odstupaju od aritmetičke sredine skupa. Označava
se grčkim slovom sigma, σ. Formula za njeno izračunavanje je:;
gde je:
N - broj elemenata u skupu
μ - aritmetička sredina skupa
xi - i-ti član skupa (i =1,2,...,N)
Standardna devijacija u uzorku nam govori koliko u prosjeku elementi uzorka odstupaju od
aritmetičke sredine uzorka. Izračunava se po formuli:
;
gdje je:
n - broj elemenata u uzorku
(iks-bar) - aritmetička sredina uzorka
xi - i-ti član uzorka (i =1,2,...,n)
12
Mjera je odstupanja aritmetičkih sredina uzorakaiz jedne populacije od aritmetičke sredine
populacije, i kao takva predstavlja grešku kojoj se izlažemo zaključivajući o populaciji na
osnovu uzorka.
Standardnu devijaciju populacije, σ u pravilu ne poznajemo jer imamo samo uzorak. Ako je
uzorak slučajan i dovoljno velik može se pretpostaviti da je standardna devijacija uzorka (s)
dobra procjena standardne devijacije populacije (σ), pa standardnu pogrešku aritmetičke
sredine računamo:
Standardna devijacija opisuje varijabilnost podataka, a standardna pogreška aritmetičke
sredine
opisuje preciznost procjene aritmetičke sredine populacije na temelju aritmetičke sredine
uzorka.
Velika standardna pogreška ukazuje na nepreciznu procjenu, dok mala standardna pogreška
ukazuje na preciznu procjenu populacijskih parametara na temelju uzorka.
Standardna pogreška je to manja što je uzorak veći i što je varijabilnost podataka manja.
Procjena standardne devijacije osnovnog skupa računa se tako da se izračuna pozitivni korjen
iz donje i gornje granice intervalne procjene varijanse osnovnog skupa uz odgovarajući nivo
pouzdanosti procjene.
2.5. VARIJANSA
Varijansa ili disperzija je pojam iz teorije verovatnoće i statistike. Ona predstavlja
matematičko očekivanje odstupanja slučajne promenljive od njene srednje vrednosti.
Na primjer, savršena kocka za igru može da da jedan od 6 ishoda. Očekivana vrednost broja
kojeg će kocka da pokaže je (1 + 2 + 3 + 4 + 5 + 6)/6 = 3,5, očekivana standardna devijacija
je 1.5 (srednja vrednost jednakoverovatnih apsolutnih odstupanja: 3,5 − 1, 3,5 − 2, 3,5 − 3,
4 − 3,5, 5 − 3,5, 6 − 3,5, što daje 2,5, 1,5, 0,5, 0,5, 1,5, 2,5), očekivano kvadratno odstupanje
ili varijansa je 35/12 ≈ 2,9 (srednja vrednost jednakoverovatnih kvadrata odstupanja: 2,52,
1,52, 0,52, 0,52, 1,52, 2,52).
Neka je matematičko očekivanje realnog slučajnog vektora X za koji postoji
integral kvadrata njegovih vrednosti. Tada je varijansa slučajne promenljive:
13
Ako je vektor X jednodimenzionalan, uslovi za X mogu da se uproste. Ako je ,
onda važi:
2.6.NORMALNA RASPODIJELA
Gustina vjerovatnoće normalne raspodijele sa različitim parametrima. Zelenom bojom je
predstavljena normalna normirana raspodela.
Normalna raspodijela ili Gausova raspodijela, je važna familija neprekidnih raspodijela
vjerovatnoće, sa primjenama u mnogim poljima. Članovi familije normalne raspodijele su
definisani preko dva parametra, matematičko očekivanje, i varijansa (disperzija) σ2. Normalna
normirana raspodijela je normalna raspodijela sa očekivanjem jednakim nuli, i varijansom
jednakom jedan (zelena kriva na slici desno). Karl Fridrih Gaus se dovodi u vezu sa ovim
skupom raspodijela, jer je pomoću njih analizirao astronomske podatke, i definisao jednačinu
funkcije gustine raspodijele normalne raspodijele.
Važnost normalne raspodijele kao modela kvantitativnih fenomena u prirodnim i društvenim
naukama je posljedica centralne granične teoreme. Mnoga psihološka mjerenja i fizički
fenomeni se mogu dobro aproksimirati normalnom raspodijelom. Iako su mehanizmi koji
leže u osnovi ovih fenomena često nepoznati, upotreba modela normalne raspodele se
14
teoretski opravdava pretpostavkom da mnogo malih, nezavisnih uticaja aditivno doprinose
svakoj opservaciji.
Normalna raspodijela se javlja u mnogim oblastima statistike. Na primer, srednja vrijednost
uzorka ima približno normalnu raspodijelu, čak i ako raspodijela vjerovatnoće populacije iz
koje se uzorak uzima nije normalna. Normalna raspodijela je najčešće korišćena familija
raspodijela u statistici, i mnogi statistički testovi su bazirani na pretpostavci normalnosti. U
teoriji verovatnoće, normalne respodele se javljaju kao granične raspodijele više neprekidnih
i slučajnih familija raspodijela.
Pravila za normalno raspodijeljene podatke
Tamno plavo je unutar intervala od plus-minus jedne standardne devijacije od aritmetičke
sredine. Za normalnu raspodijelu, ovo obuhvata 68,27% skupa; plus-minus dvije standardne
devijacije od aritmetičke sredine obuhvataju 95,45 skupa%; plus-minus tri standardne
devijacije obuhvataju 99,73% posto skupa.
U praksi, često se pretpostavlja da su podaci iz približno normalno raspodijeljene populacije.
Ako je ta pretpostavka opravdana, onda se oko 68% vrednosti nalazi u intervalu od plus-
minus jedne standardne devijacije od aritmetičke sredine, oko 95% vrjednosti se nalazi u
intervalu od plus-minus dve standardne devijacije, a oko 99,7% se nalazi unutar plus-minus 3
standardne devijacije. Ovo je poznato kao Pravilo 68-95-99,7, ili empirijsko pravilo.
Intervali povjerenja su sljedeći:
15
Za normalnu raspodijelu, dvije tačke na krivoj koje su udaljene jednu standardnu devijaciju
od krive su takođe i prevojne tačke.
Slučajna promjenljiva X sa raspodijelom vjerovatnoće
[2]
ima normalnu raspodijelu sa parametrima μ, σ, što se piše kao ili (μ,σ2),
gde je μ matematičko očekivanje i σ standardna devijacija.
Funkcija raspodijele vjerovatnoće normalne raspodijele data je izrazom:
σ 68,26894921371%
2σ 95,44997361036%
3σ 99,73002039367%
4σ 99,99366575163%
5σ 99,99994266969%
6σ 99,99999980268%
7σ 99,99999999974%
16
Funkcija raspodele verovatnoće standardne normalne raspodijele
To je gustina vjerovatnoće za standardnu normalnu raspodijelu ( ). Intervali
na rastojanju 1, 2 i 3 standardne devijacije od matematičkog očekivanja 0 zauzimaju 68 %,
95,5 % i 99,7 % površine ispod zvonaste krive. Isti procenti važe za svaku normalnu
raspodijelu, bez obzira na matematičko očekivanje i standardnu devijaciju. Treba primjetiti
da gustina normalne raspodijele nikada ne dostiže 0, dakle važi f(x) > 0 za sve realne
vrjednosti x.
Normalna raspodijela je granični slučaj centralne granične teoreme koji nikada nije savršen u
praksi. Međutim, konvergencija zbirne vrednosti slučajnih promenljivih raste vrlo brzo sa
povećanjem broja promjenljivih n. Zbir 30 ili 40 nezavisnih slučajnih promjenljivih, koje
pripadaju identičnom i proizvoljnom tipu raspodijele vjerovatnoće, već je veoma blizak
normalnoj raspodijeli.
Graf funkcije normalne raspodijele je zvonasta Gausova kriva, čija visina i
širina zavisi od parametra σ. Kriva je osno simetrična oko ose x = μ. Njena kumulativna
funkcija F ima centralnu simetriju oko tačke P(μ | 0,5).
Maksimum i prevojne tačke funkcije raspodele verovatnoće
Izračunavanjem prvog i drugog izvoda možemo izračunati maksimum i prevojne tačke
funkcije normalne raspodijele. Prvi izvod funkcije raspodijele vjerovatnoće je
Maksimum se nalazi u tački xmax = μ, gdje iznosi
Drugi izvod glasi:
Otuda zaključujemo da se prevojne tačke nalaze na koordinatama .
Normiranje
Ukupna površina ispod Gausove zvonaste krive je tačno 1, što je odraz činjenice da je
vjerovatnoća sigurnog događaja 1. Odatle sljedi da od dvije Gausove krive koje imaju isto μ,
ali različitu vrijednost σ, ona sa većim σ je šira i niža nego ona druga. Dvije Gausove krive sa
17
sa jednakim σ i različitim μ imaju grafike koji izgledaju istovjetno, osim što su pomjereni po
x-osi za iznos razlike dvije vrijednosti μ.
Normiranje Gausove krive se izvodi na sledeći način.
Definišimo
Da bi raspodijela F bila normirana, mora važiti A = 1.
Integral ćemo uprostiti korišćenjem linearne supstitucije , a onda važi
Kao što smo i očekivali, vrjednost A je nezavisna od parametara σ i μ.
Izračunavanje
Direktna primjena integrala za izračunavanje površine ispod Gausove krive nije moguća, jer
se ona ne može svesti na elementarne funkcije poznatih integrala. Ranije su se za njeno
izračunavanje koristile tabele. Danas je funkcija za izračunavanje ovog integrala dostupna na
kalkulatorima i računarima. Tabele ovog integrala se ne daju za odabrane vrednost μ- i σ, već
samo za standardnu normalnu raspodijelu sa parametrima μ = 0 i σ = 1 (normirana normalna
raspodijela). Za ostale vrednosti ovih parametara potrebno je preračunavanje.
Tabele takođe daju vrednosti kumulativne funkcije vjerovatnoće Φ, poznate i kao Gausov
integral greške:
Po analogiji, odgovarajuća normirana funkcija gustine verovatnoće f označava se sa φ.
Matematičko očekivanje
Normalna raspodijela ima sledeće matematičko očekivanje
18
.
Varijansa i standardna devijacija
Vrjednost varijanse normalne raspodijele je
.
Za vrjednost standardne devijacije dobijamo
2.7. DISTRIBUCIJA PROPORCIJA UZORAKA
Proporcija jedinica u populaciji koje posjeduju određenu karakteristiku takođe se
procijenjuje na temelju uzorka. Pri tome:
P= r/n
n = veličina uzorka
p = procjena proporcije populacije (π)
r = broj jedinki u uzorku koje posjeduju određenu karakteristiku
Distribucija proporcija uzoraka slijedi normalnu distribuciju sa srednjom vrijednosti π.
Standardna pogreška proporcije je zapravo standardna devijacija distribucije proporcija
uzoraka.
Mala standardna pogreška proporcije ukazuje na preciznu procjenu.
2.8. METOD NAJMANJIH KVADRATA
Metod najmanjih kvadrata uvek pretpostavlja postojanje jednog modela, odnosno da je opis
jedne pojave moguć na osnovu nekakve veze. Prednost je u tome, da za primenu nije
potrebno poznavanje rasporeda osnovnog skupa.
19
Primjenom metoda najmanjih kvadrata ocjene parametra možemo da izračunamo tako što će
zbir kvadrata odstupanja izmedju vrjednosti dobijenih na osnovu modela i empirijskih
vrjednosti biti minimalan.
Statistiku za ocjenu očekivane vrjednosti osnovnog skupa na osnovu metoda najmanjih
kvadrata odredjujemo na sljedeći način:
potražimo vrjednost μ, za koju važi sljedeća relacija
gdje dobijamo da je:
2.9. METOD NAJVEĆE VRIJEDNOSTI
Maksimum lajklihud metod pretpostavlja poznavanje rasporeda osnovnog skupa i
pogodan je da neki od pokazatelja osnovnog skupa dobije ocjenu. Na osnovu ovog metoda
uzimamo onu vrjednost, čiji parametar lajklihud funkcije ima svoj maksimum, to jest
parametar kod koga je najveća šansa da prilikom uzimanja jedinica u uzorak, dobijemo baš
realizovan uzorak. Ako napišemo vjerovatnoću zajedničkog realizovanja elemenata uzorka,
onda se lajklihud funkcija može izraziti na sljedeći način:
Pomoću maksimum lajklihud metode dobijamo konzistentne ocjene , i u slučaju kada
postoji nepristrasna ocjena sa minimalnom varijansom, metod daje upravo tu ocjenu.
2.10. METOD MOMENTA
Metod momenta možemo da koristimo kod osnovnih skupova sa poznatim
rasporedom. Pomoću ovog metoda možemo dati ocjene parametra rasporeda poznatog tipa.
Inače, pogodan je za ocjenjivanje takvih parametara osnovnog skupa koji se mogu napisati
pomoću momenta. Suština mu je da teorijske momente izjednačava sa odgovarajućim
empirijskim momentima izračunatim na osnovu uzorka, što obično vodi ka lako rešivoj
20
jednačini ili sistemu jednačina. Metod momenta, takođe ima za rezultat konzistentnu ocjenu
, ali je manje efikasna u slučaju jako asimetričnih rasporeda.
Normalan raspored ima dva parametra. Oni se mogu zapisati pomoću momenta na sljedeći
čin:
i
Prvi momenat uzorka i drugi centralni momenat su:
Iz ovog slijedi da je:
v - je samo asimptotski nepristrasna ocjena varijanse osnovnog skupa, dakle nije nepristrasna
ocjena:
E (v) ≠ ơ2
S`toga, kod empirijskih analiza ne računamo v, već s2.
2.11. INTERVAL POUZDANOSTI
Na uzorku izračunate statističke veličine pojedinačne su procjene parametara
populacije (“point estimate”).
Na temelju statističke veličine uzorka, koristeći standardnu pogrešku, možemo, uz određenu
vjerojatnost procijeniti interval u kojem se nalazi parametar populacije (“interval estimate”).
Procijenjeni interval u kojem se nalazi parametar populacije (aritmetička sredina ili
proporcija) naziva se interval pouzdanosti (engl. confidence interval, CI).
Za računanje intervala pouzdanosti koristimo teorijske distribucije vjerovatnoće. Interval
pouzdanosti proširuje procjenu parametra populacije na obe strane za nekoliko standardnih
greški. Granice pouzdanosti (engl. confidence limits) definišu interval, navode se između
zagrada, odijeljene zarezom.
2.11.1. Interval pouzdanosti za aritmetičku sredinu
21
Računa se
x – z * sx < µ < x + z * sx
Pri čemu:
z = standardiziovana vrijednost normalne raspodjele
Interval pouzdanosti uz 95% vjerovatnosti iznosi:
x – 1,96 * sx < µ < x + 1,96 * sx
Interval pouzdanosti uz 99% vjerovatnosti iznosi:
x – 2,58 * sx < µ < x + 2,58 * sx
2.11.2. Interval pouzdanosti za proporciju
Računa se
p – z * sx < µ < p + z * sx
Pri čemu:
z = standardiziovana vrijednost normalne raspodjele
Interval pouzdanosti uz 95% vjerovatnosti iznosi:
p – 1,96 * sx < µ < p + 1,96 * sx
Interval pouzdanosti uz 99% vjerovatnosti iznosi:
p – 2,58 * sx < µ < p + 2,58 * sx
2.12. OCJENA STATISTIČKE ZNAČAJNOSTI (SIGNIFIKANTNOSTI)
•zasniva se na istraživanju pri kojem se u posebnim(eksperimentalnim) uslovima izazivaju
promjene u određenom svojstvu
•primjer: istraživanje da li dodatak pivskog tropa u hrani ovaca utiče na njihovu mliječnost?
(da li promjena uslova ili tretmana hranjenja utiče na svojstvo mliječnosti)
•provođenje istraživanja: budući da do promjene u svojstvu može doći zbog velikog broja
različitih činitelja (slučajna variranja u uzorku), radi što objektivnijeg zaključivanja,
22
istraživanje najčešće provodimo uporedo na dvije skupine od kojih je jedna
EKSPERIMENTALNA, a drugaKONTROLNA!
NEKI UTICAJ (ČINITELJ,TRETMAN) OCJENJUJEMO ZNAČAJNIM ZA SVOJSTVO
UKOLIKO:
•između kontrolne i eksperimentalne skupine utvrdimo razlike za najvažnije statističke
pokazatelje (srednje vrijednosti i pokazatelje varijabilnosti) svojstva
•razlike između kontrolne i eksperimentalne skupine nisu slučajne već se, sa određenom
vjerojatnoćom, mogu vezati za posmatrani uticaj (činitelj, tretman)
•primjer: ovce eksperimentalne skupine (primale su pivski trop u hrani) imale su višu
prosječnu mliječnost u odnosu na kontrolnu skupinu (nisu primale pivski trop u hrani), što se
u “statistički značajnoj” mjeri može pripisati dodatku pivskog tropa u hrani.
OCJENU STATISTIČKE ZNAČAJNOSTI DONOSIMO NA OSNOVU ODREĐENE
PRETPOSTAVKE (NUL -HIPOTEZE)
NUL -HIPOTEZA (HO)
•najčešće značenje:
–nul-hipoteza pretpostavlja da za neko svojstvo “nema razlike” između skupina podvrgnutih
različitom uticaju (činitelju, tretmanu)
–ukoliko“nema razlike” to u stvari i nisu različite skupine već sve pripadaju u istu skupinu –
istu populaciju
Primjer Ho u slučaju provjere da li pivski trop utiče na višu mliječnost ovaca:
•IZMEĐU KONTROLNE I EKSPERIMENTALNE SKUPINE OVACA NEMA RAZLIKE
U MLIJEČNOSTI ( nema razlike između prosječne mliječnosti ovaca kontrolne i
eksperimentalne skupine)
•provjera hipoteze (test) treba dati odgovor da li je razlika između aritmetičkih sredina za
mliječnost statistički značajna ili nije statistički značajna
•kao rezultat provjere nul-hipotezu možemo ODBACITI ILI NE ODBACITI
23
(NE)ODBACIVANJE NUL HIPOTEZE
•NUL -HIPOTEZU NEODBACUJEMO ukoliko testiranjem nismo utvrdili statistički
zanačajnu razliku između skupina podvrgnutih različitom uticaju (činitelju, tretmanu)
•NUL -HIPOTEZU ODBACUJEMO ukoliko smo testiranjem utvrdili statistički značajnu
razliku između skupina podvrgnutih različitom uticaju (činitelju, tretmanu)
•statističku značajnost iskazujemo pomoću P-vrijednosti;
P-vrijednost osniva se na teorijskoj distribuciji (najčešće normalnoj distribuciji)
Odlučivanje o nul-hipotezi na osnovi P-vrijednosti
•provjera ili testiranje sprovedeno u uzorku trebaju pokazati da li su podaci u skladu sa nul-
hipotezom
•rezultati testa trebaju dovesti do odluke da li ne odbacujemo ili odbacujemo nul-hipotezu
•ukoliko podaci nisu u skladu s očekivanjima nul-hipoteze smatramo da postoji dokaz za
njeno odbacivanje. Rezultati testa su u tom slučaju STATISTIČKI ZNAČAJNI
( SIGNIFIKANTNI)
•ukoliko su podaci u skladu sa očekivanjima nul-hipoteze smatramo da ne postoji dokaz za
njeno odbacivanje. Nul-hipoteza se tada ne odbacuje, a rezultati testa u tom slučaju NISU
STATISTIČKI ZNAČAJNI (NESIGNIFIKANTNI)
Odlučivanje o nul-hipotezi na osnovu P-vrijednosti
• P-vrijednost omogućuje da odredimo da li imamo dovoljno dokaza za odbacivanje nul-
hipoteze
• ukoliko je P-vrijednost mala tada je mala vjerovatnost da naši podaci potvrđuju nul-
hipotezu kao istinitu, stoga u tom slučaju nul-hipotezu odbacujemo
24
• ukoliko je P-vrijednost velika, postoji velika vjerovatnost da su naši podaci u skladu sa
pretpostavkama nul-hipoteze, stoga u tom slučaju nul-hipotezu ne odbacujemo
• prije prikupljanja podataka moramo odlučiti koju P-vrijednost ćemo smatrati statistički
značajnom pri testiranju neke nul-hipoteze
• visina statističke značajnosti zavisi od svojstva koje analiziramo i uslova istraživanja
• najčešća visina značajnosti iznosi 0,05 (5%) pa ukoliko P iznosi manje od 0,05 (P<0,05) nul
hipotezu odbacijemo, a razlike proglašavamo statistički značajnim.
(Suprotno navedenom P≥0,05 nul-hipotezu ne odbacujemo, a razlike proglašavamo statistički
neznačajnim)
ZAKLJUČAK
• NIŽA P-vrijednost ZNAČI VIŠE DOKAZA PROTIV NUL-HIPOTEZE
POSTUPAK TESTIRANJA HIPOTEZE
• postavljanje nul-hipoteze
• prikupljanje podataka (provjera distribucije podataka)
• izbori načina sprovođenja prikladnog testa za provjeru hipoteze
• izbor visine statističke značajnosti testa (P-vrijednost)
• tumačenje rezultata testa i donošenje odluke da se nul-hipoteza odbaci ili ne odbaci
25
4. LITERATURA
1. Dr. Aleksa Macanović, “Poslovna statistika“, Banja Luka 2009. godine,
2. I.Šošić i V.Sredar,„Uvod u statistiku“,Školska knjiga Zagreb,1994., Ekonomski fakultet
3. bs.wikipedia.org/wiki/Statistika
4. I.Pavlić,” Statistička teorija i primjena“, Tehnička knjiga, Zagreb 1970.
26