deskriptivna analiza

39
DESKRIPTIVNA ANALIZA Statističko istraživanje obuhvata utvrđivanje metodoloških i organizacionih osnova, prikupljanje, obradu i objavljivanje podataka, kao i statističku analizu o pojavama i procesima od interesa za različite organizacione nivoe, od države do preduzeća, kao i svih drugih zainteresovanih pravnih i fizičkih lica. Statističko istraživanje predstavlja niz postupaka sa određenim ciljem, predmetom, statističkom jedinicom i obeležjima, i podrazumeva primenu metoda i postupaka u različitim aktivnostima ispitivanja određene varijabilne pojave. Metodi koji se koriste u statističkim istraživanjima odnose se na: statističko posmatranje i prikupljanje podataka, sređivanje, grupisanje i obradu podataka, i statističku analizu. Posmatranje i prikupljanje, sređivanje, grupisanje, prikazivanje i obrada podataka spadaju u područje deskriptivne statistike. S druge strane, statistička analiza obuhvata metode čiji je zadatak objašnjavanje posmatranih varijabilnih pojava i statističko zaključivanje o parametrima na osnovu uzorka. Statističko istraživanje može se podeliti u nekoliko faza ili etapa. Najčće se govori o tri sledeće etape: (I) statističko posmatranje i prikupljanja podataka; (II) sređivanje, grupisanje i obrada podataka; (III) statistička analiza. 2. glava CILJEVI POGLAVLJA Nakon čitanja ovog poglavlja bićete u stanju da: 1. shvatite razliku između potpunog i delimičnog posmatranja statističkog skupa 2. shvatite značaj statističkog popisa, izveštaja i uzorka kao metoda prikupljanja podataka 3. grupišete, sredite i prikažete podatke u vidu statističkih serija, tabela i grafikona 4. shvatite značaj deskriptivnih statističkih mera skupa i uzorka 5. izračunate i interpretirate mere centralne tendencije, mere varijacije i mere oblika rasporeda

Upload: trinhtu

Post on 10-Dec-2016

248 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Deskriptivna analiza

DESKRIPTIVNA ANALIZA

Statističko istraživanje obuhvata utvrđivanje metodoloških i organizacionih osnova, prikupljanje, obradu i objavljivanje podataka, kao i statističku analizu o pojavama i procesima od interesa za različite organizacione nivoe, od države do preduzeća, kao i svih drugih zainteresovanih pravnih i fizičkih lica. Statističko istraživanje predstavlja niz postupaka sa određenim ciljem, predmetom, statističkom jedinicom i obeležjima, i podrazumeva primenu metoda i postupaka u različitim aktivnostima ispitivanja određene varijabilne pojave. Metodi koji se koriste u statističkim istraživanjima odnose se na: statističko posmatranje i prikupljanje podataka, sređivanje, grupisanje i obradu podataka, i statističku analizu. Posmatranje i prikupljanje, sređivanje, grupisanje, prikazivanje i obrada podataka spadaju u područje deskriptivne statistike. S druge strane, statistička analiza obuhvata metode čiji je zadatak objašnjavanje posmatranih varijabilnih pojava i statističko zaključivanje o parametrima na osnovu uzorka. Statističko istraživanje može se podeliti u nekoliko faza ili etapa. Najčešće se govori o tri sledeće etape: (I) statističko posmatranje i prikupljanja podataka; (II) sređivanje, grupisanje i obrada podataka; (III) statistička analiza.

2. g

lava

CILJEVI POGLAVLJA

Nakon čitanja ovog poglavlja bićete u stanju da:

1. shvatite razliku između potpunog i delimičnog posmatranja statističkog skupa

2. shvatite značaj statističkog popisa, izveštaja i uzorka kao metoda prikupljanja podataka

3. grupišete, sredite i prikažete podatke u vidu statističkih serija, tabela i grafikona

4. shvatite značaj deskriptivnih statističkih mera skupa i uzorka 5. izračunate i interpretirate mere centralne tendencije, mere varijacije

i mere oblika rasporeda

Page 2: Deskriptivna analiza

24 OSNOVI STATISTIKE 2.1 POSMATRANJE, PRIKUPLJANJE, SREĐIVANJE I OBRADA PODATAKA

Prva faza statističkog istraživanja započinje preciznim postavljanjem cilja i zadatka istraživanja, koji su osnova za rešavanje metodoloških, organizacionih i finansijskih pitanja. Navedene aktivnosti utvrđuju se planom statističkog istraživanja. Planom istraživanja definišu se: predmet istraživanja, statistički skup i njegovi elementi, obeležja jedinica skupa, kao i način grupisanja i obrade prikupljenih podataka. Plan istraživanja može se, po potrebi, razrađivati i u operativne planove, kojima se konkretnije definišu aktivnosti prema sadržini i vremenu sprovođenja. Cilj statističkog posmatranja je da se obezbede kvalitetni podaci o varijabilnoj pojavi. Ma koliko se čak i neka superiorna tehnika statističkog istraživanja primenjuje, ona nema smisla ako su podaci loši.

2.1.1 Metodi posmatranja i prikupljanja podataka

Posmatranje i prikupljanje podataka vrši se na osnovu prethodno postavljenog plana prikupljanja podataka. Plan posmatranja i prikupljanja podataka sadrži sledeće elemente: definisanje cilja posmatranja, određivanje statističkog skupa i jedinica posmatranja, izbor obeležja i definisanje modaliteta obeležja, sastavljanje upitnika za prikupljanje podataka, određivanje načina posmatranja i prikupljanja podataka. Planom statističkog posmatranja definišu se metodi prikupljanja podataka koji će obezbediti kvalitetne statističke podatke o skupu, odnosno varijabilnoj pojavi. Metodi prikupljanja podataka treba da budu efikasni i racionalni, odnosno da uz najniže troškove i za najkraće vreme obezbede kvalitetne i upotrebljive statističke podatke. Prema izvoru podataka koji se koriste u statističkom istraživanju, može se govoriti o primarnim i sekundarnim statističkim podacima. Primarni statistički podaci prikupljaju se postupkom statističkog posmatranja i eksperimenata, dok se sekundarni podaci obezbeđuju iz sekundarnih izvora, kao što su zavodi za statistiku, ili institucije ovlašćene za prikupljanje primarnih podataka (centralna banka, carinska služba, matične službe opština, izveštaji o poslovanju preduzeća i sl.). Statističko istraživanje može se zasnivati na potpunom obuhvatu svih jedinica skupa (potpuno posmatranje), ili samo na jednom delu njegovih jedinica (delimično posmatranje). Potpuno posmatranje, odnosno potpuni obuhvat jedinica skupa može se obezbediti primenom statističkog popisa i statističkog izveštaja (tekuće registracije). Statističkim popisom (eng. census) obuhvataju se sve jedinice skupa u određenom momentu koji se naziva kritični momenat. Osnovne karakteristike popisa su: sveobuhvatnost (posmatranje svih jedinica skupa); istovremenost popisa (pri čemu kraći period popisa obezbeđuje veću tačnost podataka); vreme sprovođenja popisa (kritični momenat, kada je stanje pojave

Page 3: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 25 „normalno“); ponavljanje popisa (ponovo sprovođenje popisa u jednakim vremenskim intervalima obezbeđuje uporedivost podataka); normativno regulisanje popisa (zakonski propisi kojima se regulišu prava i obaveze učesnika u popisu i obezbeđuju normalno odvijanje popisa). Popisom se najčešće prikupljaju podaci o stanovništvu, stanovima, domaćinstvima i poljoprivrednim gazdinstvima. Popisi stanovništva uglavnom se sprovode svake desete godine, a njihovi rezultati omogućavaju uporedivost podataka u vremenu i prostoru. Najčešće se pomoću popisa posmatraju one pojave koje ne pokazuju brze promene tokom vremena. Statistički izveštaj, kao metod potpunog posmatranja, koristi se za prikupljanje podataka o pojavama kod kojih je izražen veći varijabilitet tokom vremena ili prostora. Izveštaji mogu da se odnose na: stanje zaposlenih, ostvarenu proizvodnju, prirodno kretanje stanovništva i sl. Izveštaji mogu da budu tipski i specijalni. S obzirom na vreme obuhvata podataka o pojavi, izveštaji mogu da se podnose u sukcesivnim momentima ili u sukcesivnim vremenskim periodima. Statistički popis i izveštaj daju najsigurnije i najpotpunije podatke o pojavi i omogućavaju njihovo vremensko i prostorno upoređivanje. Međutim, zbog veličine obuhvata jedinica skupa, velikog broja učesnika, velikih troškova sprovođenja statističkih akcija, ovi metodi prikupljanja podataka nisu opravdani i racionalni u svim statističkim istraživanjima. Zbog toga se, u velikom broju statističkih istraživanja, često koristi delimično (nepotpuno) posmatranje zasnovano na statističkom uzorku. Statističko uzorkovanje predstavlja metod po kome se na osnovu posmatranja jednog dela jedinica skupa zaključuje o karakteristikama i ponašanju celog skupa. Uzorak se koristi kao zamena ili kao dopuna popisa, a u novije vreme i kao zamena statističkog izveštaja. Prilikom korišćenja statističkog uzorka potrebno je rešiti pitanja vrste uzorka, načina izbora jedinica u uzorak, kao i veličine uzorka. Zavisno od predmeta i cilja statističkog istraživanja, određuje se vrsta uzorka i način njegovog izbora. Najčešće se koristi slučajan uzorak, ili različite vrste uzorka izabrane na slučajan način. Kao što smo videli u uvodu da bi zaključci na osnovu uzorka bili relevantni za celi skup, potrebno je da uzorak bude reprezentativan. Primena metoda uzorkovanja podrazumeva anketiranje, kao jednoobra-zno prikupljanje podataka, koje se obezbeđuje adekvatnim upitnicima i pripremom anketara i lica koja će ih popunjavati. Priprema upitnika (obrazaca za evidentiranje) predstavlja ozbiljan posao koji nije samo tehničke prirode. Od načina sastavljanja pitanja, jasne definicije obeležja koja se posmatraju, načina davanja odgovora, kao i od obučenosti anketara zavisi i uspeh ankete. Primena metoda uzorka neminovno dovodi do mogućnosti greške u statističkom zaključivanju. Razlog je u tome da uzorak skoro nikada ne može biti savršeno reprezentativan (sem u sledeća dva slučaja: 1) kada je po veličini jednak skupu, i 2) ako bi skup bio apsolutno homogen, odnosno sastavljen od identičnih jedinica posmatranja). Greške mogu da budu slučajne i sistematske. Cilj je smanjenje sistematske greške koja može da utiče na rezultat, dok se slučajna greška smanjuje ili potpuno gubi u velikom broju podataka.

Page 4: Deskriptivna analiza

26 OSNOVI STATISTIKE 2.1.2 Sređivanje, grupisanje i obrada podataka

Sagledavanje karakteristika jedinica posmatranog skupa zasniva se na prikupljenim podacima, koji se prethodno sređuju prema određenim kriterijumima. Zbog toga, nakon posmatranja i prikupljanja podataka sledi njihovo sređivanje, grupisanje i osnovna obrada statističkog materijala. S obzirom na to da rezultat prikupljanja podataka predstavlja veliki broj upitnika, obrazaca i izveštaja, sa mnoštvom „sirovih podataka“, sređivanje i osnovna obrada predstavljaju značajnu fazu statističkog istraživanja. U ovoj fazi statističkog istraživanja prikupljeni statistički materijal pretvara se u brojčane informacije o posmatranom skupu formiranjem statističkih serija i tabela. Sređivanje statističkih podataka predstavlja uređivanje podataka o jedinicama skupa po svakom posmatranom obeležju. U tu svrhu koristi se postupak grupisanja, kao raščlanjavanje statističkog skupa na određeni broj podskupova, koji se međusobno ne preklapaju. Jedinice statističkog skupa razvrstavaju se u grupe, odnosno podskupove, prema odabranom obeležju i njegovim modalitetima. Pri tome je potrebno uvažavati pravilo da se svaki podatak mora razvrstati u grupe, kao i to da jedan podatak može pripadati samo jednoj grupi. S obzirom na to da se grupisanjem podataka gube pojedinačne informacije o obeležjima jedinica statističkog skupa, mora se voditi računa da se grupisanje sprovodi ispravno, poštujući postavljene kriterijume. Postupak sređivanja i grupisanja statističkih podataka određuje se planom sređivanja podataka. Plan sređivanja podataka podrazumeva rešavanje velikog broja organizacionih i tehničkih pitanja u odgovarajućem vremenu.

2.2 PRIKAZIVANJE PODATAKA

Nakon što su statistički podaci sređeni i grupisani po odgovarajućim obeležjima, području, ili vremenu nastajanja, vrši se njihovo prikazivanje. Sređivanjem statističkih podataka dolazimo do statističkih serija.

2.2.1 Statističke serije

Sređivanjem i grupisanjem podataka dobijaju se nizovi statističkih podataka prema jednom ili više obeležja, ili prema vremenu.

Statističke serije predstavljaju nizove podataka sređenih po vrednostima obeležja ili hronologiji.

Statističke serije možemo prikazati na dva načina: (1) tabelarno i (2) grafički. U zavisnosti od načina formiranja i sadržaja, one se dele na dve grupe: serije strukture (ako su uređene po obeležju) i vremenske serije (ako su uređene po hronologiji). U zavisnosti od načina formiranja i sadržaja, one se dele na dve grupe: serije strukture (ako su uređene po obeležju) i vremenske serije (ako su uređene po hronologiji).

Page 5: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 27 Serije strukture (eng. cross section data) pokazuju raspored (strukturu) statističkog skupa ili uzorka prema modalitetima obeležja. Serije strukture se dele isto kao i obeležja, dakle na atributivne i numeričke. One sadrže dva niza informacija: modalitete obeležja i frekvencije, odnosno učestalost jedinica skupa po datom modalitetu obeležja. Vrste statističkih serija su prikazane na Slici 2.1.

Slika 2.1 Vrste statističkih serija

Frekvencija nekog modaliteta pokazuje koliko se puta taj modalitet pojavljuje (ponavlja) unutar posmatrane serije. Naziva se i apsolutnom frekvencijom i nikada ne može biti decimalan broj. Primer serije strukture po atributivnom obeležju dat je u Tabeli 2.1. U tabeli su predstavljeni stavovi mladih o najvećim problemima u Srbiji, na osnovu uzorka od 3111 ispitanika1 u studiji sprovedenoj 2004. godine.

Tabela 2.1 Najveći problemi mladih u Srbiji Najveći problem mladih Broj ispitanika

Alkoholizam 1058 Nezaposlenost 560

Narkomanija 529 Kriminal 249 Loš materijalni položaj 218 Nasilničko ponašanje 187 Nerazumevanje od strane odraslih 124 Ostalo 187

Ukupno 3112 Izvor: Srećko Mihajlović “ Mladi izgubljeni u tranziciji“ Specifičnu vrstu serija strukture po atributivnim obeležjima predstavljaju geografske (prostorne) serije. U ovim serijama modaliteti obeležja su nazivi geografskih područja (teritorija). Geografske serije prikazuju teritorijalni raspored statističkog skupa, odnosno njegovu strukturu, u određenom trenutku, ili datom vremenskom periodu. Primer ove serije strukture dat je u 1 Srećko Mihajlović (ed.) “Mladi izgubljeni u tranziciji“, Beograd 2004., str. 124.

Page 6: Deskriptivna analiza

28 OSNOVI STATISTIKE Tabeli 2.2, koja pokazuje nivo direktnih stranih investicija za nekoliko zemalja.

Tabela 2.2 Direktne strane investicije 2008. (u mil. USD) Država Strane investicije (projekcija)

Albanija 463 Bosna i Hercegovina 1200 Bugarska 8011 Crna Gora 789 Hrvatska 4125 Makedonija 416 Srbija 3100

Izvor: EBRD, Izveštaj o tranziciji 2008. Za razliku od serija strukture po atributivnim obeležjima, kao rezultat sređivanja i grupisanja statističke građe nastaju i serije strukture formirane prema numeričkim (brojčanim) obeležjima. Ove serije nazivaju se numeričkim serijama, odnosno rasporedima frekvencija. Kod ovih serija klasifikuju se brojčane vrednosti modaliteta obeležja. Ona zavisi od toga da li je obeležje prekidno ili neprekidno. Prekidne vrednosti obeležja grupišu se po veličini, od najmanje ka najvećoj vrednosti modaliteta.

Raspored frekvencija

Raspored frekvencija je numerička serija strukture.

U narednoj tabeli dati su podaci o učestalosti izvučenih brojeva u igri loto u 2008. godini (za prvih deset brojeva).

Tabela 2.3 Izvučeni brojevi u igri loto u Srbiji u 2008. godini

Izvučeni broj 1 2 3 4 5 6 7 8 9 10

Broj izvlačenja 5 9 9 9 11 7 9 11 10 10

Izvor: Državna lutrija Srbije

Prilikom formiranja neprekidnog rasporeda frekvencija (ili prekidnih sa velikim brojem modaliteta) problem grupisanja podataka u praksi nije jednostavan. U takvim situacijama postavlja se pitanje broja grupa (intervalnih modaliteta obeležja), kao i pitanje veličine intervala. Prilikom grupisanja podataka potrebno je voditi računa o tome da serija strukture bude pregledna (da ima manje grupa), ali da istovremeno bude i dovoljno informativna (da daje detaljnije informacije o karakteristikama skupa). Da bi se odredila veličina intervala i broj intervalnih modaliteta neprekidnog obeležja može se koristiti tzv. Stardžesovo (Herbert Sturges) pravilo. Po tom pravilu, broj grupa (intervala, klasa) određuje se na osnovu izraza:

K = 1 + 3,3 log N gde je N ukupan broj podataka.

Page 7: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 29 Veličina intervala i određuje se na osnovu razlike najveće i najmanje vrednosti obeležja, primenom sledeće formule:

Kxx

i minmax −=

Ukoliko se posmatra skup od 500 podataka, u kome je najmanja vrednost obeležja 345, a najveća 1.350, broj i veličina intervala, primenom navedenog pravila grupisanja, utvrdili bi se na sledeći način:

K = 1 + 3,3 log 500 = 9,9 ≈ 10

−=

1350 34510

i ≈ 100

Veličina intervala iznosila bi 100, a serija bi imala 10 intervala modaliteta posmatranog obeležja.

Da bi intervali bili uporedivi, potrebno je da oni budu iste veličine. Prilikom grupisanja podataka i formiranja intervalne serije bitno je voditi računa o tome da se za donju granicu prvog intervala uzme vrednost manja od najmanje vrednosti obeležja, a da se za gornju granicu poslednjeg intervala uzme vrednost veća od najveće vrednosti obeležja u skupu. Time se obezbeđuje da sve vrednosti obeležja budu obuhvaćene intervalnim modalitetima u seriji.

Nekada nije moguće ispoštovati zahtev da intervali budu iste veličine, a nekada je, u zavisnosti od izabranog obeležja, prihvatljivije da se odrede različite veličine intervala modaliteta obeležja. To je slučaj kada se javljaju velike razlike među jedinicama skupa u pogledu vrednosti obeležja i kada se u seriji javljaju ekstremne vrednosti (visina mesečnih zarada u različitim oblastima, starost umrlih lica i sl.). Tada se obično započinje sa manjim veličinama intervala, a serija se završava sa većim intervalima modaliteta obeležja. Primer neprekidnog rasporeda frekvencija je dat u Tabeli 2.4.

Tabela 2.4 Sklopljeni brakovi u Srbiji 2006. godine prema godinama starosti neveste

Godine starosti neveste Broj brakova 15 - 19 3535 20 - 24 12422 25 - 29 12251 30 - 34 5642 35 - 39 2097 40 - 49 1934

50 i više 1648 nepoznato 227

Izvor: Statistički godišnjak Srbije, 2008., str. 79 Takođe, nekada se može desiti da prilikom formiranja serija strukture svi intervali ne mogu da budu zatvoreni. Obično je to slučaj sa serijama kod kojih

Page 8: Deskriptivna analiza

30 OSNOVI STATISTIKE su evidentne ekstremno male i ekstremno velike vrednosti obeležja, pa se prvi i poslednji intervali ostavljaju otvoreni. Prvi interval je otvoren sa leve strane, jer nema donju granicu, a poslednji interval je otvoren sa desne strane, jer je teško odrediti njegovu gornju granicu. Veličine ovih intervala teorijski mogu biti beskonačne, ali se u praksi one procenjuju i izjednačavaju sa susednim intervalima, odnosno sa intervalima čija veličina preovlađuje u seriji. Otvoreni intervali su u velikom broju slučajeva posledica nastojanja da budemo praktični i da ne bude preveliki broj intervala sa relativno malim frekvencijama, što seriju može učiniti nezgrapnom i nepreglednom.

Prilikom formiranja neprekidnih rasporeda frekvencija mora se voditi računa o razgraničavanju grupnih intervala, pri čemu jedna brojčana vrednost ne može istovremeno da bude gornja granica jednog i donja granica narednog intervala. Zbog toga se donja granica svakog intervala često obeležava decimalnim, a ne celim brojem. U zavisnosti od predmeta istraživanja i vrste obeležja, nekada se gornje granice intervala modaliteta mogu dati u vidu decimalnih vrednosti, dok se donje granice obeležavaju celim brojevima.

Prilikom obrade ovakvih serija potrebno je intervalne vrednosti modaliteta obeležja prevesti u prekidne vrednosti. Utvrđuju se sredine intervala tako što se sabiraju donje i gornje granice intervala i podele sa dva.

Osnovni nedostatak rasporeda frekvencija je u tome da se zamenom pojedinačnih vrednosti obeležja grupnim intervalima gubi preciznost informacije o karakteristikama određenih jedinica skupa. Posebno se to odnosi na prvi i poslednji interval, ukoliko su dati kao otvoreni. Međutim, i pored toga, rasporedi frekvencija imaju široku upotrebu u statističkim istraživanjima. Njihovom primenom dobija se jasnija slika o karakteristikama cele serije, jer se otkriva koncentracija individualnih vrednosti i priroda njihovog varijabiliteta.

Serije strukture po atributivnim i numeričkim obeležjima, u suštini, pokazuju koliko jedinica skupa ili uzorka ima određenu vrednost modaliteta obeležja, odnosno kako su modaliteti obeležja raspoređeni u skupu. Tu je reč o apsolutnim frekvencijama, koje pokazuju broj jedinica sa odgovarajućom vrednošću obeležja. Nekada se apsolutne frekvencije kumuliraju, pa se umesto pojedinačnih frekvencija za svaki modalitet obeležja koriste njihove kumulante. Kumuliranje frekvencija vrši se tako što se, počevši od najniže vrednosti, frekvencije postupno sabiraju, odnosno sukcesivno dodaju zbiru prethodnih frekvencija. Na taj način dobija se rastuća kumulanta (odnosno kumulanta "ispod"). Rastuća kumulanta pokazuje broj jedinica u skupu čija je vrednost ispod (manja od) gornje granice grupnog intervala. Slično, počevši od prvog modaliteta obeležja, frekvencije se mogu sukcesivno oduzimati od sume svih frekvencija, čime se dobija opadajuća kumulanta (kumulanta „iznad“). Opadajuća kumulanta pokazuje broj jedinica skupa sa vrednošću iznad (većom od) donje granice grupnog intervala. U Tabeli 2.5 date su kumulirane frekvencije za radnike jednog preduzeća raspoređene prema godinama radnog staža.

Page 9: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 31

Tabela 2.5 Kumulirane frekvencije radnika preduzeća prema godinama radnog staža

Godine radnog staža

Broj radnika

Rastuća kumulanta

Opadajuća kumulanta

do 5 29 29 174 5 - 9 56 85 145

10 - 19 47 132 89 20 – 29 31 163 42

30 i više 11 174 11 Ukupno 174 - -

Izvor: Dokumentacija preduzeća

Strukturu skupa ili uzorka nije uvek lako uočiti na osnovu apsolutnih frekvencija, naročito kada je broj modaliteta obeležja veliki. Mnogo je jasnije strukturu iskazati pomoću tzv. relativnih frekvencija. Dobijamo ih deljenjem pojedinačne frekvencije svakog modaliteta (fi) sa ukupnom sumom svih frekvencija (Σfi), tj. veličinom skupa ili uzorka.

= Apsolutna frekvencija modaliteta

Suma svih frekvencija = i

i

ff∑

Relativna frekvencija se još naziva i učešće i najčešće se iskazuje u procentima. Zbir svih relativnih frekvencija uvek je jednak 1, odnosno, 100%. Zaključujemo da relativna frekvencija nekog modaliteta može uzeti bilo koju vrednost iz intervala od 0 do 1. U Tabeli 2.6 u trećoj koloni izračunate su relativne frekvencije za mišljenje mladih o najvećim problemima u Srbiji (date u Tabeli 2.1). Sada se daleko jasnije vidi da čak 34% mladih smatra da je najveći njihov problem alkoholizam.

Tabela 2.6 Najveći problemi mladih u Srbiji

Najveći problem mladih Broj ispitanika Učešće (u %) Alkoholizam 1058 34 Nezaposlenost 560 18

Narkomanija 529 17 Kriminal 249 8 Loš materijalni položaj 218 7 Nasilničko ponašanje 187 6 Nerazumevanje od strane odraslih 124 4 Ostalo 187 6

Ukupno 3112 100% Izvor: Srećko Mihajlović “ Mladi izgubljeni u tranziciji“ Vremenske serije predstavljaju nizove statističkih podataka koji su složeni hronološkim redosledom. Zbog toga se nazivaju i hronološkim

Relativna frekvencija modaliteta

Page 10: Deskriptivna analiza

32 OSNOVI STATISTIKE serijama. Ove serije pokazuju varijabilitet pojava tokom vremena. Vremenske serije se sastoje iz dva niza podataka, od kojih se jedan odnosi na vreme, a drugi na nivo (veličinu) pojave. U zavisnosti od prirode podataka o pojavi, vremenske serije mogu da budu momentne i intervalne. Momentne vremenske serije pokazuju nivo pojave u tačno određenim uzastopnim vremenskim momentima (npr. stanje zaliha određenog dana, broj zaposlenih krajem meseca). Momentne serije dobijaju se kao rezultat obrade rezultata više uzastopnih popisa ili statističkih izveštaja o stanju pojave. Primer momentne serije dat je u Tabeli 2.7. Intervalne vremenske serije pokazuju kretanje pojave u uzastopnim vremenskim intervalima. Njima se najčešće prikazuje kretanje proizvodnje, plata, troškova života i sl. po godinama, kvartalima ili mesecima. Primer ovakve vremenske serije dat je u Tabeli 2.8.

Tabela 2.7 Broj stanovnika Srbije, procena sredinom godine (u hiljadama)

Godine Broj stanovnika 2003. 7480 2004. 7463 2005. 7440 2006. 7411 2007. 7382

Izvor: Republički zavod za statistiku

Vremenske serije mogu da pokazuju uporedne podatke o dve ili više pojava u istom vremenskom periodu. Vrednosti pojava mogu da budu izražene u različitim jedinicama mere. Pri tome je bitno da se jasno razgraniče momentne i intervalne serije podataka. Razlikovanje je moguće i na osnovu sledećeg pravila: kod momentnih serija sumiranjem vrednosti serije dobija se vrednost koja nema logičnog objašnjenja.

Tabela 2.8 Bruto domaći proizvod Srbije u tekućim cenama (u milionima $)

Godine Bruto domaći proizvod 2002. 10968 2003. 15076 2004. 24516 2005. 26193 2006. 30412

Izvor: Saopštenje br. 073, Republički zavod za statistiku.

2.2.2 Statističke tabele

Statistički podaci koji su sređeni i grupisani u statističkim serijama često se prikazuju u statističkim tabelama. Tabele su prikladna forma prikazivanja podataka koja omogućava jasnije i potpunije sagledavanje i upoređivanje

Page 11: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 33 rezultata statističkog istraživanja. One predstavljaju najracionalniju formu prikazivanja rezultata sređivanja i obrade podataka i omogućavaju kvantitativnu analizu posmatranih pojava. Statističke tabele su jednodimenzionalni i višedimenzionalni prikazi statističkih podataka. Sastavljene su iz većeg broja pravougaonih površina koje nastaju ukrštanjem vertikalnih i horizontalnih linija. Ove površine nazivaju se poljima tabele. Svaka tabela ima zaglavlje i pretkolonu. Zaglavlje tabele je prvi red u koji se upisuju podaci o modalitetima obeležja, vremenskim intervalima ili geografskim područjima i ono služi za pravilno čitanje statističkih podataka datih u kolonama tabele. U pretkolonu se, takođe, upisuju podaci o obeležjima, vremenu i teritoriji, a ona služi za pravilno čitanje statističkih podataka datih u redovima tabele. Svaka statistička tabela ima svoj broj i naslov. Broj i naslov stavljaju se iznad tabele. Naslov tabele treba da precizno i jasno objasni suštinu njenog sadržaja. Podatke o nazivu tabele, obeležjima ili vremenskom periodu na koji se odnosi ne treba skraćivati, kako se ne bi izgubio sadržaj i smisao statističkih podataka koji se navode u tabeli. Ispod tabele upisuju se izvori podataka i odgovarajuće napomene. Sva polja u tabeli moraju biti popunjena. Ukoliko neki podaci ne postoje, tada se stavljaju odgovarajući znaci kojima se objašnjava zašto podaci nisu navedeni. S obzirom na sadržinu, tabele mogu da budu: proste, složene i kombinovane. Proste statističke tabele sadrže podatke o strukturi statističkog skupa prema jednom obeležju, ili, pak, promene jedne pojave u određenom vremenskom periodu. Složene statističke tabele nastaju spajanjem prostih tabela i odnose se na jedno obeležje, ili na jedan vremenski period. Primer složene tabele predstavlja Tabela 2.9.

Tabela 2.9 Broj studenata, nastavnika i saradnika na fakultetima u Srbiji 2006/2007. školska godina

Fakultet Broj fakulteta

Broj studenata

Broj nastavnika

Broj saradnika

Ekonomski 17 26475 357 168 Pravni 9 20802 501 177

Medicinski 7 9288 1114 703 Izvor: Statistički godišnjak Srbije, 2008. Kombinovane tabele nastaju ukrštanjem serija statističkih podataka o dva ili više obeležja. Podaci o obeležjima unose se u zaglavlje i u pretkolonu. Kombinovane tabele imaju veliki analitički značaj u postupku statističkog istraživanja. Posebno se to odnosi na tzv. tabele kontingencije, u kojima se prikazuje raspored jedinica skupa na osnovu dve ili više klasifikacija prema modalitetima atributivnih obeležja. Primer kombinovane tabele može da se predstavi na rezultatima

Page 12: Deskriptivna analiza

34 OSNOVI STATISTIKE sprovedenog anketnog istraživanja o gledanosti jedne sportske TV emisije, datih u Tabeli 2.10.

Tabela 2.10 Rezultati anketnog istraživanja o gledanost sportske TV emisije

Gledanost Pol Stalno Povremeno Nikako Ukupno

Muški 48 36 12 96 Ženski 14 18 36 68

Ukupno 62 54 48 164 Izvor: Dokumentacija sprovedenog anketnog istraživanja

2.2.3 Grafičko prikazivanje statističkih podataka

Statistički podaci prikazuju se grafički u vidu odgovarajućih geometrijskih oblika, oznaka na geografskim kartama ili pomoću slikovito popularnih prikaza (slika i figura). Primena računara i gotovih statističkih programa za grafičko prikazivanje pruža mnoštvo pogodnih načina da se statistički podaci prikažu primenom različitih geometrijskih oblika i u različitim dimenzijama. Na taj način omogućava se sticanje pravih informacija o nivou određenih pojava, njihovoj strukturi ili promenama u vremenu i prostoru.

Grafičko prikazivanje statističkih podataka može se vršiti u koordinatnom sistemu i van koordinatnog sistema. Ukoliko se koristi koordinatni sistem, tada se podaci mogu prikazivati u pravouglom i na polarnom koordinatnom sistemu. Prilikom prikazivanja podataka na pravouglom koordinatnom sistemu može se koristiti aritmetička ili logaritamska merna skala. Ako je na ordinati aritmetička skala, reč je o aritmetičkom dijagramu, a ako ordinata ima logaritamsku skalu, govorimo o polulogaritamskom dijagramu. Polarni dijagram konstruiše se na polarnom koordinatnom sistemu.

2.2.3.1 Grafičko prikazivanje serija strukture

Serije strukture grafički se prikazuju zavisno od vrste obeležja prema kome su grupisane. Ukoliko je reč o serijama strukture po atributivnim obeležjima, one se najčešće prikazuju u obliku stubića, krugova, ili nekih drugih površina. Cilj prikazivanja ovih serija jeste uočavanje obima i strukture pojave. Geografske serije se prikazuju primenom kartograma.

U praksi se najviše koriste strukturni krugovi (“pite“), kojima se prikazuje obim i struktura pojave i njene promene u vremenu i prostoru. Ova vrsta dijagrama sve više je u upotrebi, posebno ako se prilikom njihove konstrukcije koriste programi za računare. Na Slici 2.2 prikazani su strukturni krugovi upotrebe Interneta u Srbiji, pri čemu su korišćeni podaci istraživanja Republičkog zavoda za statistiku, koji su dati u Tabeli 2.11.

Page 13: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 35

Tabela 2.11 Stepen korišćenja Interneta u Srbiji u 2008. godini

Kada je poslednji put koristio Internet Učešće ispitanika u % Nikad nije koristio/koristila 59,2 U poslednja 3 meseca 35,6 Pre više od 3 meseca (manje od 1 godine) 2,8 Pre više od godinu dana 2,4

Slika 2.2 Procenat korišćenja Interneta u Srbiji u 2007. godini na osnovu reprezentativnog uzorka od 2000 domaćinstava

U većini aplikativnih programa (kako statističkih, tako i komercijalnih) koristi se i tzv. 3D efekat, koji uvodi jednu dodatnu veštačku dimenziju (debljinu), pa se krugovi pretvaraju u “pite“, tako da grafički prikaz biva plastičnije dizajniran. Za grafičko prikazivanje serija rasporeda frekvencija koristi se prvi kvadrant pravouglog koordinatnog sistema. Na apscisu se unose vrednosti obeležja, a na ordinatu apsolutne ili relativne frekvencije. Pravilna primena nalaže da tačke, dužine linija ili površine budu srazmerni veličinama koje predstavljaju. Rasporedi frekvencija sa prekidnim vrednostima obeležja najčešće se prikazuju pomoću ordinata. Na Slici 2.3 je pomoću ordinata prikazan prekidni raspored frekvencija dat u Tabeli 2.3. Rasporedi frekvencija sa neprekidnim vrednostima obeležja mogu se prikazati na više načina, pomoću:

• histograma frekvencija • poligona frekvencija • teorijske krive frekvencija i • kumulante (ogive).

Histogram frekvencija se sastoji iz niza povezanih pravougaonika. Ovaj dijagram konstruiše se tako što se na apscisi nanose veličine intervala (koje moraju biti jednake) modaliteta obeležja, a na ordinati vrednosti apsolutnih ili relativnih frekvencija. Osnovu svakog pravougaonika predstavlja veličina intervala modaliteta, a visinu odgovarajuća frekvencija. Histogram frekvencija pokazuje koncentraciju jedinica skupa u svakom grupnom intervalu i

Page 14: Deskriptivna analiza

36 OSNOVI STATISTIKE omogućava da se oceni oblik rasporeda frekvencija.

Slika 2.3 Frekvencija izvučenih brojeva u igri loto u 2008. godini PRIMER 2.1 U cilju poređenja brzine preuzimanja (download-ovanja) fajlova sa Interneta odabran je film “Titanik“ u DVX formatu, i izabrali uzorak od 120 korisnika Interneta sa različitim vidom konekcije (od modema do kablovskog i ADSL). Praćenjem vremena preuzimanja utvrdili smo da je najbrže vreme iznosilo 1 sat i 5 minuta, a najduže 8 sati i 45 minuta. Primenom Stardžesovog pravila odredili smo broj intervala (k=7,86 ≈ 8) i njihovu širinu (i = 57,5 min ≈ 1 sat). Nakon toga smo grupisali podatke u vidu neprekidnog rasporeda frekvencija prebrojavanjem korisnika čije je vreme trajanja preuzimanja filma obuhvaćeno pojedinim intervalima i tako odredili njihove apsolutne frekvencije. Rezultati su prikazani u prve dve kolone Tabele 2.12.

Tabela 2.12 Raspored 120 korisnika Interneta po vremenu trajanja preuzimanja filma “Titanik“

Kumulativ frekvencija Vreme u satima Broj

korisnika “ispod“ “iznad“ 1 – 1,99 2 – 2,99 3 – 3,99 4 – 4,99 5 – 5,99 6 – 6,99 7 – 7,99 8 – 8,99

8 17 38 19 15 9 8 6

8 25 63 82 97 106 114 120

120 112 95 57 38 23 14 6

Ukupno 120

Vidimo da su u Tabeli 2.12 donje granice celi brojevi, a gornje granice intervala decimalni brojevi. Ovakvo označavanje se koristi radi jasnog razgraničavanja granica. Tako, na primer, vreme preuzimanja koje traje, na

Izvučeni broj

Frek

venc

ija

10987654321

12

10

8

6

4

2

0

Page 15: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 37

primer, tačno 5 minuta se nalazi u petoj grupi, dok vrednost neznatno manja od 5 minuta pripada četvrtom intervalu. Analogno, intervale smo mogli razgraničiti na osnovu donjih granica i oni bi glasili: (1,1 - 2), (2,1 – 3), (3,1 – 4), ... , (8,1 – 9). Bitno je shvatiti da se u kasnijoj analizi ovo razgraničavanje ignoriše, tako da je u našem primeru širina intervala jednaka 1, a ne 0,99.

Histogram frekvencija serije u Tabeli 2.12 je prikazan na Slici 2.4.a.

Slika 2.4 Raspored korisnika Interneta po vremenu trajanja u uzorku prikazan (a) histogramom, (b) poligonom i (c) krivom frekvencija

Ukoliko se sredine svih stubića na histogramu frekvencija spoje u jednu liniju i povežu sa apscisom na početku i na kraju (na sredinama nepostojećeg intervala koji prethodi prvom intervalu, odnosno sa sredinom nepostojećeg intervala koji dolazi posle poslednjeg intervala) dobija se poligon frekvencija. Ukoliko su prvi ili poslednji interval otvoreni, linija koja povezuje sredine stubića ne spušta se na apscisu, nego se završava na prvom i na poslednjem pravougaoniku. Poligon frekvencija predstavlja površinu koju pomenuta linija zatvara sa apscisom. Ukupna površina poligona frekvencija predstavlja statistički skup ili uzorak. Slika 2.4.b predstavlja grafički prikaz serije u Tabeli 2.12 u obliku poligona frekvencija. Na konstruisanom histogramu frekvencija, umesto poligona frekvencija, može se ucrtati kriva frekvencija. Kriva frekvencija predstavlja kontinuiranu liniju koja se najbolje prilagođava datom poligonu frekvencija. Na osnovu krive frekvencija mogu se sagledati veličine frekvencija i za sve pojedinačne vrednosti obeležja i oceniti oblik rasporeda frekvencija. Prilikom konstruisanja ove krive pretpostavlja se da je broj grupnih intervala beskonačno veliki, a da su intervali beskrajno mali. Savremeni statistički softveri nude nam veliki broj teorijskih krivih tako da možemo da izaberemo koja se najbolje prilagođava našim podacima. Mogući izgled krive frekvencija u našem primeru prikazan je na Slici 2.12.c. Kumulirane frekvencije prikazuju se grafički pomoću kumulante (ogive). Kumulanta “ispod“ prikazuje kumulirane frekvencije, odnosno broj jedinica skupa čije su vrednosti obeležja ispod gornje granice grupnih intervala; kumulanta “iznad“ prikazuje kumulirane frekvencije kao broj jedinica čije su

Page 16: Deskriptivna analiza

38 OSNOVI STATISTIKE vrednosti obeležja iznad donje granice grupnih intervala. Na Slici 2.5 prikazane su kumulanta “ispod“ i “iznad“ rasporeda frekvencija datog u Tabeli 2.12.

Slika 2.5 Raspored korisnika Interneta po vremenu trajanja u uzorku prikazan

(a) kumulantom “ispod“ i (b) kumulantom “iznad“

Specifična vrsta dijagrama jeste tzv. starosna piramida, kao najznačajniji dijagram u okviru demografske statistike (statistike stanovništva). Ovim dijagramom se istovremeno prati struktura stanovništva po polu i po godinama starosti na osnovu podataka prikupljenih popisom stanovništva.

2.2.3.2 Grafičko prikazivanje vremenskih serija

Podaci o pojavi grupisani u vremenske serije prikazuju se u pravouglom i polarnom koordinatnom sistemu. U pravouglom koordinatnom sistemu podaci se prikazuju primenom vremenskih dijagrama. Primenom ovih dijagrama uočava se apsolutni ili relativni rast pojave, kao i tendencija i oblik u njenom razvoju tokom vremena. Za konstrukciju vremenskog dijagrama u pravouglom koordinatnom sistemu koriste se aritmetički i polulogaritamski dijagram, u zavisnosti od merne skale koju ima ordinata dijagrama. Aritmetički dijagram omogućava sagledavanje apsolutnih promena nivoa pojave tokom vremena. Ovaj dijagram može da se koristi i za uporedno prikazivanje dve i više pojava koje su izražene u istim jedinicama mere pod uslovom da te pojave imaju približno jednake početne vrednosti. Na aritmetičkom dijagramu često se prikazuje kretanje izvoza i uvoza, ponuda i tražnja, prihodi i troškovi, indeksi nominalnih i realnih plata. Primer uporednog grafičkog prikaza dve pojave dat je na Slici 2.6 na osnovu Tabele 2.13.

Page 17: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 39

Tabela 2.13 Bilans robne razmene Srbije s inostranstvom za period 2002.-2007. (u milionima EUR)

Godina Izvoz Uvoz 2002. 2192 5925 2003. 2442 6589 2004. 2832 8623 2005. 3608 8439 2006. 5102 10463 2007. 6432 13507

2.3 DESKRIPTIVNE STATISTIČKE MERE

U ovom odeljku objasnićemo kako se na osnovu originalnih numeričkih podataka ili rasporeda frekvencija mogu formulisati takvi pokazatelji koji će na sintetizovan način opisati posmatrane podatke. Takvi pokazatelji nazivaju se deskriptivne statističke mere. Ukoliko se odnose na rasporede frekvencija nazivaju se još pokazatelji rasporeda frekvencija. Smisao ovih mera je da: a) jednim brojem opišu bitne karakteristike posmatranih podataka, i b) da nam omoguće poređenje između više statističkih serija. Deskriptivne mere klasifikujemo u tri grupe:

1) mere centralne tendencije rasporeda (srednje vrednosti, ili mere lokacije),

godina

Niv

o ra

zmen

e (u

mili

onim

a EU

R)

200720062005200420032002

14000

12000

10000

8000

6000

4000

2000

Spoljnotrgovinska razmena Srbije za period 2002. - 2007.

Uvoz

Izvoz

Slika 2.6 Uporedni prikaz izvoza i uvoza Srbije (u mil. EUR) pomoću aritmetičkog dijagrama

Page 18: Deskriptivna analiza

40 OSNOVI STATISTIKE

2) mere disperzije (varijabiliteta ili raspršenosti), i 3) mere oblika rasporeda.

Deskriptivne statističke mere opisuju originalne numeričke podatke ili statističke serije (odnosno rasporede frekvencija), kako na nivou skupa, tako i na nivou uzorka. Dakle, deskriptivne mere pripisuju se statističkom skupu ili uzorku, u zavisnosti od toga da li se analiziraju podaci skupa ili uzorka. Za razliku od deskriptivnih mera koje se izračunavaju na osnovu svih podataka skupa i nazivaju, kao što smo videli, parametri skupa, deskriptivne mere koje se odnose na uzorak nazivaju se statistikama uzorka. Napomenimo da se u skoro svim statističkim softverima umesto izraza "statistike uzorka" koristi izraz deskriptivne statistike. Ideja iza deskriptivnih mera je da se serija podataka zameni samo jednim brojem koji bi pružio informacije i opisao skup (ili uzorak) i reprezentovao ga. Ako nam taj broj pokazuje gde je lociran centar svih podataka, ili koji se podatak može smatrati tipičnim, on se naziva srednja vrednost. Međutim, sama srednja vrednost nije u stanju da u potpunosti okarakteriše celu seriju, jer srednja vrednost može da bude ista za dve potpuno različite rasporede frekvencija. Zbog toga se utvrđuju i mere varijacije ili disperzije rasporeda frekvencija. Takođe, rasporedi frekvencija skupa ili uzorka mogu imati istu srednju vrednost i istu meru disperzije, ali da se znatno razlikuju po svome obliku.

2.3.1 Mere centralne tendencije (srednje vrednosti)

Statističke serije čine polaznu osnovu za istraživanje pravilnosti i zakonitosti ponašanja skupova. Osnovni zahtev statističke obrade rasporeda frekvencija jeste da se sa što manje numeričkih karakteristika dobije što potpunija informacija o karakteristikama jedinica posmatranog skupa ili uzorka. Ovaj zahtev se ispunjava korišćenjem mera centralne tendencije, odnosno srednjih vrednosti, kao grupe važnih mera deskriptivne statistike. Mere centralne tendencije predstavljaju sintezu vrednosti numeričkih obeležja čijom se upotrebom omogućava statistička analiza sa manjim brojem pokazatelja koji opisuju bitne karakteristike jedinica statističkih skupova. Mere centralne tendencije (srednje vrednosti) mogu grubo da se podele u dve grupe: izračunate i pozicione. Izračunate se dobijaju računskim putem na osnovu određene formule. Sa druge strane, pozicione srednje vrednosti se određuju prema položaju koji data srednja vrednost ima unutar originalnih podataka. Naveli smo da je data klasifikacija gruba, jer, u slučaju da raspolažemo rasporedom frekvencija dobijenim na osnovu neprekidnog obeležja, i za pozicione

Page 19: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 41 srednje vrednosti moramo koristiti formule. Najčešće korišćene izračunate srednje vrednosti su: aritmetička, geometrijska i harmonijska sredina, dok u pozicione srednje vrednosti ubrajamo modus i medijanu. Mera centralne tendencije je reprezentativna vrednost koja zamenjuje sve podatke posmatrane serije, bez obzira da li se radi o skupu ili uzorku. Zbog toga svaka mera centralne tendencije treba da ima određena svojstva koja je čine adekvatnom u istraživanju karakteristika posmatranih jedinica.

2.3.1.1 Izračunate srednje vrednosti

Aritmetička sredina

Aritmetička sredina (eng. arithmetic mean, ili mean) je u praksi najčešće korišćena srednja vrednost. Popularno se još naziva prosek. Ona se izračunava tako što se zbir vrednosti posmatranog obeležja podeli njihovim brojem. Posmatrajmo originalne, negrupisane, podatke nekog statističkog skupa i označimo ih sa 1 2, ,..., Nx x x . Drugačije rečeno, posmatrajmo sve vrednosti nekog obeležja u skupu. Prosta aritmetička sredina (obeležena grčkim slovom μ - čita se mi) skupa (ili posmatranog obeležja) izračunava se na sledeći način:

μ = + + + +1 2 3 ... Nx x x xN

= =∑

1

1 N

ii

xN

,

gde je Σ (čitaj sigma, ili suma) univerzalni znak za sabiranje. Prostije, može se

napisati da je μ = ∑xN

. Ako je u pitanju uzorak veličine n, aritmetička sredina

(koju ćemo obeležiti sa x , čita se iks bar) iz negrupisanih podataka izračunava se na sledeći način:

=

+ + += = ∑1 2

1 1

... 1 nn

ix x xx x

n n

ili, jednostavnije: = ∑xx

n.

PRIMER 2.2 Odredite aritmetičku sredinu na osnovu podataka o broju za-poslenih u 8 organizacionih jedinica jednog preduzeća datih u Tabeli 2.14.

Tabela 2.14 Broj zaposlenih u preduzeću po organizacionim jedinicama

Organizaciona jedinica 1. 2. 3. 4. 5. 6. 7. 8.

Broj zaposlenih 25 15 18 33 20 25 30 28

Aritmetička sredina, koja pokazuje prosečan broj zaposlenih u svim organizacionim jedinicama, izračunava se jednostavno na sledeći način:

(2.1)

Page 20: Deskriptivna analiza

42 OSNOVI STATISTIKE

μ = ∑ ixN

= + + + + + + +25 15 18 33 20 25 30 288

=194

8 = 24,25.

Na osnovu navedenih podataka izračunata je aritmetička sredina koja iznosi 24,25. To znači da je u svakoj organizacionoj jedinici, u proseku, 24,25 zaposlenih, bez obzira na varijacije od 15 do 33 zaposlenih.

U navedenom primeru, aritmetička sredina izračunata je na osnovu negrupisanih (sirovih) podataka. Tako izračunata aritmetička sredina naziva se, kao što smo rekli, prosta aritmetička sredina. Međutim, ukoliko raspolažemo grupisanim podacima datim u vidu rasporeda frekvencija, prosečna vrednost obeležja za sve jedinice skupa se određuje drugačije. Ukoliko su date vrednosti obeležja 1 2, , ..., kx x x , sa frekvencijama

1 2, ,..., kf f f , tada će se ponderisana aritmetička sredina skupa izračunati na sledeći način:

μ = + + +1 1 2 2 ... k kx f x f x f

N =

=∑

1

1 k

i ii

x fN

odnosno, jednostavnije,

μ = ∑xfN

gde je = + + +1 2 ... kN f f f ==∑

1

k

ii

f , odnosno veličina skupa.

Na analogan način postupamo sa podacima uzorka. Dakle, ukoliko su podaci uzorka veličine n grupisani u raspored frekvencija, ponderisana aritmetička sredina uzorka biće:

= ∑1i ix x f

n

gde je n = + + +1 2 ... kf f f = =∑

1

k

ii

f . U oba posmatrana slučaja vrednosti obeležja

se javljaju sa različitom frekvencijom i zbog toga svakoj od njih moramo dati odgovarajući značaj. To se upravo postiže preko ponderisane aritmetičke sredine, gde ulogu pondera imaju frekvencije.

PRIMER 2.3 Posmatrano je svih 90 studenata prve godine ekonomskog fakulteta, koji su na jednom ispitnom roku izašli na pismeni ispit iz Statistike. Kod svakog studenta izmereno je vreme (u minutima) potrebno da uradi zadatak iz deskriptivne statistike. Podaci su zatim grupisani, a dobijeni raspored frekvencija je prikazan u Tabeli 2.15.

Da bi se na osnovu navedenih podataka izračunalo prosečno vreme izrade zadatka za sve studente prve godine ovog fakulteta, potrebno je izračunati aritmetičku sredinu skupa. Zašto? Zato što posmatramo sve studente prve godine na tom fakultetu koji su izašli na ispit.

(2.2)

Page 21: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 43

Tabela 2.15 Raspored studenata prema vremenu izrade zadatka

Vreme (u minutima) do 4,0 4,1 – 6,0 6,1 – 8,0 8,1 – 10,0 10,1 –12,0 preko 12,0

Broj studenata 12 13 15 17 20 13

Kakva statistička serija je prikazana u Tabeli 2.15? To je raspored frekvencija, i to po neprekidnom numeričkom obeležju. Postavlja se logično pitanje, kako izračunati aritmetičku sredinu na osnovu izraza (2.2), kada u njemu za svaku frekvenciju figuriše samo po jedna vrednost obeležja, a nama su dati intervali? Odgovor je: aritmetičku sredinu možemo izračunati samo aproksimativno (približno), tako što ćemo umesto svakog intervala uzeti po jedan broj da ga reprezentuje. Logično je da to bude prosek tog intervala, odnosno sredina grupnog intervala. U tu svrhu neophodno je formirati radnu tabelu u kojoj će se utvrditi sredine intervala modaliteta obeležja, koje će se zatim ponderisati odgovarajućim frekvencijama.

Tabela 2.16 Radna tabela sa elementima za izračunavanje aritmetičke sredine

Dužina izrade zadatka (u minutima)

Broj studenata ( if )

Sredine grupnih intervala ( ix ) ( i if x )

do 4,0 12 3,0 36 4,1 – 6,0 13 5,0 65 6,1 – 8,0 15 7,0 105

8,1 – 10,0 17 9,0 153 10.1 – 12,0 20 11,0 220 preko 12,0 13 13,0 169 Ukupno 90 - 748

Prosečno vreme izrade zadatka za sve studente izračunato je na osnovu obrasca za ponderisanu aritmetičku sredinu, na sledeći način:

μ = =∑

1

1 k

i ii

x fN

=1

90 748 = 8,31.

Zaključujemo da prosečno vreme izrade ispitnog zadatka iz deskriptivne statistike za svih 90 studenata iznosi 8,31 minut.

Osobine aritmetičke sredine

Aritmetička sredina, kao prosečna vrednost obeležja svih jedinica skupa, izravnava apsolutne razlike između podataka posmatrane serije. Nju karakterišu sledeće osobine. 1. Aritmetička sredina je srednja vrednost, sa osobinom da je veća od

najmanje i manja od najveće vrednosti obeležja. Drugačije rečeno, ako su

Page 22: Deskriptivna analiza

44 OSNOVI STATISTIKE

vrednosti obeležja poređane po veličini, tj: 1x < 2x <...< Nx , može se lako pokazati da je

1x < μ < Nx

2. Ako su sve vrednosti obeležja međusobno jednake, tj:

= = = =1 2 ... Nx x x a

tada je i aritmetička sredina jednaka vrednosti a, odnosno μ = a. 3. Zbir odstupanja svih vrednosti obeležja od njihove aritmetičke sredine

jednak je nuli, tj. ( )μ− =∑ 0ix , odnosno u slučaju grupisanih podataka:

( )μ=

− =∑1

0k

i ii

x f .

4. Zbir kvadrata odstupanja svih vrednosti obeležja od aritmetičke sredine je minimalan, tj. manji je od zbira kvadrata odstupanja svih vrednosti obeležja od bilo koje druge proizvoljno odabrane vrednosti:

( )μ− =∑ 2 min .ix

tj. u slučaju grupisanih podataka

( )μ=

− =∑ 2

1min .

k

i ii

x f

Drugačije rečeno, ako bismo umesto aritmetičke sredine uzeli bilo koji drugi broj (označimo ga sa B) i potražili sumu kvadrata odstupanja svih podataka u odnosu na taj broj, rezultirajuća suma kvadrata bila bi veća u odnosu na sumu kvadrata odstupanja u odnosu na aritmetičku sredinu:

( ) ( )μ− > −∑ ∑2 2i ix B x

Navedena i prethodna osobina aritmetičke sredine imaju poseban značaj prilikom izračunavanja i tumačenja mera disperzije, kao i kod metoda najmanjih kvadrata u regresionoj analizi.

5. Ako su vrednosti dva obeležja povezane nekom linearnom funkcijom (vezom), tada su i njihove aritmetičke sredine povezane istom tom linearnom funkcijom (vezom). Na primer, ako su vrednosti obeležja X i Y vezane linearnom funkcijom oblika:

Y = +aX b tada su i njihove aritmetičke sredine vezane istom funkcijom, odnosno:

μ μ= +Y Xa b .

Geometrijska sredina

Geometrijska sredina predstavlja meru centralne tendencije koja izravnava proporcionalne promene između podataka posmatrane serije. Izračunava se tako što se vrednosti obeležja međusobno pomnože, a zatim se iz tog proizvoda

Page 23: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 45 pronađe koren sa izložiocem koji je jednak broju posmatranih jedinica. Ako se posmatra obeležje X, sa vrednostima 1 2, ,..., Nx x x , geometrijska sredina će se izračunati na sledeći način:

G = ⋅ ⋅ ⋅1 2 ....NNx x x =

=∏

1

NN i

ix

Na ovaj način, iz negrupisanih podataka, izračunava se prosta geometrijska sredina. Izračunavanje ove srednje vrednosti ima smisla samo ukoliko su vrednosti obeležja veće od nule. Polazeći od navedenog uslova, geometrijska sredina se jednostavnije izračunava logaritmovanjem prethodnog izraza, tako da dobijamo:

Log G = + + +1 2log log ... log Nx x x

N=

=∑

1

1 logN

ii

xN

Iz toga je geometrijska sredina jednaka vrednosti antilogaritma:

G = antilog. ( =∑

1

1 logN

ii

xN

)

2.3.1.2 Pozicione srednje vrednosti

Modus Za razliku od izračunatih mera centralne tendencije, pozicione srednje vrednosti se određuju na osnovu njihovog mesta, odnosno lokacije u seriji. Kao što ćemo videti, na njihovu veličinu ne utiču ekstremne vrednosti obeležja.

Modus Modus je vrednost obeležja koja se najčešće javlja u seriji, odnosno vrednost obeležja sa najvećom frekvencijom.

Ukoliko je data negrupisana serija podataka o pojavi u kojoj svaka vrednost obeležja ima istu frekvenciju jednaku 1, modus ne postoji. Međutim, ako u negrupisanoj seriji postoje vrednosti obeležja sa različitim frekvencijama, onda se modus utvrđuje pronalaženjem vrednosti obeležja koja se najčešće javlja. Kod serija sa atributivnim obeležjima modus se određuje na isti način kao i kod rasporeda frekvencija sa prekidnim vrednostima numeričkih obeležja. U oba slučaja on se određuje kao vrednost obeležja koja ima najveću frekvenciju.

PRIMER 2.4 Izračunati modus za svaku od sledeće tri serije negrupisanih podataka.

a) 5 20 125 150 450 b) 5 20 20 150 450 c) 5 5 80 80 180

(2.3)

Page 24: Deskriptivna analiza

46 OSNOVI STATISTIKE REŠENJE:

Kod serije a) modus ne postoji, jer se sve vrednosti javljaju samo jedan put. Ovo je ujedno i jedan od nedostataka modusa kao srednje vrednosti: postoje serije koje nemaju modus. U slučaju serije b) modus je jednoznačno definisan i iznosi 20. Konačno, serija c) ima dva modusa: 5 i 80. Ovakve serije nazivaju se bimodalne serije. Ovo je još jedan nedostatak modusa, jer ne znamo za koju od navedene dve vrednosti da se opredelimo. Generalno, ako neka serija ima više modusa naziva se multimodalna serija.

Kod rasporeda frekvencija sa neprekidnim vrednostima obeležja koje su raspoređene u vidu intervalnih modaliteta obeležja, koristimo posebnu formulu za izračunavanje modusa. Međutim, tako dobijena vrednost modusa je samo približna, pa ovakvo izračunavanje nećemo prikazati. Prilikom izračunavanja i tumačenja modusa potrebno je voditi računa o tome da na njegovu veličinu utiče način grupisanja podataka. Promenom veličine grupnih intervala ili njihovih granica pri istim intervalima mogu se dobiti različite vrednosti modusa. Ovo je treći nedostatak modusa.

Medijana

Medijana čitav skup deli na dva jednaka dela, odnosno polovina jedinica skupa ima vrednost obeležja manju, a polovina jedinica vrednost obeležja veću od medijane. Na medijanu ne utiču ekstremne vrednosti obeležja. Zbog toga, kad su u seriji prisutne jedinice skupa sa ekstremnim malim ili ekstremno velikim vrednostima obeležja, medijana, kao mera centralne tendencije, realnije opisuje celi skup nego aritmetička sredina.

Medijana

Medijana je vrednost obeležja koja se nalazi u sredini serije čiji su podaci sređeni po veličini.

Da bi se izračunala medijana iz serije podataka, potrebno ih je najpre urediti po veličini od najmanjeg ka najvećem, odnosno kao niz:

1 2, ,..., Nx x x

Tada će medijana biti ona vrednost obeležja koja se nalazi u sredini formiranog niza. Prilikom određivanja medijane bitno je voditi računa o tome da li je broj

podataka serije paran ili neparan. Mesto medijane određuje se kao + 12

N

podatak u seriji. Ukoliko je neparan broj podataka serije, medijana će biti vrednost obeležja koja predstavlja središnji član posmatranog niza. Međutim, ako se posmatra serija sa parnim brojem podataka, medijana se određuje kao prosek dve vrednosti obeležja koje predstavljaju središnje članove serije.

Page 25: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 47

PRIMER 2.5 Dati su podaci o količini preuzetog materijala sa Interneta (u megabajtima) u januaru 2009. godine za 12 zaposlenih u firmi koja se bavi Internet marketingom:

28,5 17,4 15,3 12,3 19,0 22,1 19,2 20,1 15,7 20,9 22,5 25,6 Da bi se odredila medijana za navedene podatke, najpre ih je potrebno urediti po veličini.

Koristeći navedeno pravilo, mesto medijane biće + +=

1 12 12 2

N = 6,5, što

znači da će medijanu određivati dve vrednosti obeležja koje se nalaze u sredini serije. Zbog toga će se medijana izračunati kao prosek 6. i 7. vrednosti obeležja, odnosno:

+19, 2 20,12

= 19,65.

To se može prikazati i na sledeći način: 12,3 15,3 15,7 17,4 19,0 19,2 20,1 20,9 22,1 22,5 25,6 28,5

Medijana = 19,65

Dakle polovina zaposlenih je preuzela manje, a polovina više od 19,65 megabajta.

Ukoliko su podaci grupisani u rasporede frekvencija sa intervalnim modalitetima obeležja, tada se medijana, kao i modus, može odrediti na osnovu posebne, aproksimativne formule, ali se na njoj nećemo zadržavati.

Kvartili

Dok je medijana vrednost obeležja koja deli seriju podataka na dva jednaka dela (50% jedinica su prema vrednosti obeležja manje, a 50% veće od medijane), kvartili su mere koje dele seriju podataka na četiri jednaka dela. Ako se ukupan broj članova serije podeli na četiri jednaka dela, vrednosti obeležja koje ih dele nazivaju se kvartilima: prvi kvartil Q1, drugi kvartil Q2 i treći kvartil Q3. Medijana, dakle, predstavlja drugi kvartil. Kvartile ćemo koristiti radi opisivanja svojstava serija numeričkih podataka, kao i kod izračunavanja interkvartilne razlike.

Prvi kvartil Q1

Prvi kvartil (Q1) je vrednost obeležja od koje je 25% jedinica manje, a 75% veće.

Mesto Q1: 1

4N +

, za seriju podataka uređenih po veličini.

Page 26: Deskriptivna analiza

48 OSNOVI STATISTIKE

Treći kvartil Q3

Treći kvartil (Q3) je vrednost obeležja od koje je 75% jedinica manje, a 25% jedinica veće.

Mesto Q3: +3( 1)

4N , za podatke uređene po veličini.

Iako je određivanja kvartila bitno, jer se na osnovu njih formuliše jedna važna mera disperzije (interkvartilna razlika), naglasimo da u statističkoj literaturi ne postoji usaglašenost o tome kako se oni konkretno izračunavaju. Štaviše, razni statistički softveri daju različite izračunate vrednosti za kvartile. Sa povećavanjem broja podataka razlike između izračunatih kvartila postaju zanemarljive. Ako se broj članova serije podeli na 10 ili na 100 jednakih delova, dobiće se decili, odnosno percentili. Ovi pokazatelji izračunavaju se na sličan način kao i medijana, odnosno kvartili.

2.3.2 Mere disperzije (varijacije)

Mere centralne tendencije nisu dovoljne da u potpunosti opišu raspored jedinica statističkog skupa (ili uzorka) prema vrednosti obeležja. Može se desiti da izračunata srednja vrednost bude potpuno ista za različite serije podataka, tako da ona ne može biti dovoljna karakteristika svih posmatranih jedinica sa stanovišta njihovog varijabiliteta. Na sledećoj slici, pomoću posebnog tačkastog dijagrama (koji se naziva dotplot) prikazane su dve serije koje imaju jednake aritmetičke sredine ( = 3x ), ali različite varijacije.

Koji uzorak ima veću disperziju (ili, što je isto, koji podaci su manje skoncentrisani)? Sigurni smo da ste se opredelili za uzorak A. Kada bismo u statistici koristili samo srednje vrednosti da opišemo neki raspored, tada bi zaključak bio da oba uzorka imaju identične rasporede jer imaju jednake prosečne vrednosti. Zbog toga je neophodno utvrditi i odgovarajuću meru disperzije (ili varijacije ili varijabiliteta ili raspršenosti. Ove mere opisuju u kom stepenu se vrednosti u posmatranoj seriji među sobom razlikuju. Mere disperzije najčešće svrstavamo u dve grupe po sledećim

Page 27: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 49 kriterijumima: (a) jedinici mere u kojoj ih izražavamo, i (b) načinu na koji ih izračunavamo. Prema jedinici mere u kojoj ih izražavamo, razlikujemo: apsolutne mere, koje iskazujemo u istim mernim jedinicama u kojima su

dati modaliteti posmatranog obeležja (na primer, u evrima, kilogramima i sl.), i

relativne mere, koje izražavamo u procentima ili nekim relativnim jedinicama.

Prema načinu na koji ih izračunavamo, razlikujemo: pozicione mere, koje određujemo na osnovu položaja u skupu ili uzorku, i izračunate mere disperzije, koje dobijamo na osnovu svih vrednosti u skupu

ili uzorku, korišćenjem odgovarajućih formula. U literaturi je formulisan veliki broj pokazatelja disperzije. Mi ćemo se ovde zadržati samo na najviše korišćenim merama. koje su prikazane na Slici 2.7

Slika 2.7 Mere disperzije

2.3.2.1 Apsolutne mere varijacije

Interval (razmak) varijacije

Prva ideja koja se nameće kada merimo varijacije u nekoj seriji jeste da izmerimo odstojanje od minimuma do maksimuma. Tako dolazimo do mere koja se naziva interval ili razmak varijacije. Dakle, ova mera se utvrđuje kao razlika između najveće i najmanje vrednosti obeležja posmatranih podataka:

= max min-I X X (2.4)

Page 28: Deskriptivna analiza

50 OSNOVI STATISTIKE Interval varijacije je najjednostavniji pokazatelj varijabiliteta. Međutim, on daje samo približnu informaciju o disperziji posmatrane serije, jer na njegovu veličinu utiču samo dve krajnje vrednosti obeležja. Ukoliko su te dve vrednosti ujedno i ekstremne u seriji, ova mera će biti nerealno velika i na pogrešan način odslikavati varijacije svih podataka u seriji. Takođe, interval varijacije nije osetljiv na veličinu serije podataka, što je njegov drugi nedostatak. Zbog toga se ova mera retko koristi u statistici, bez obzira na njenu prednost što se brzo izračunava.

Interval varijacije

Interval varijacije je jednak razlici najveće i najmanje vrednosti obeležja. Može se izračunati samo za konačne skupove podataka.

PRIMER 2.6 Koristeći seriju podataka o količini preuzetog materijala sa Interneta (u megabajtima), datu u Primeru 2.5, interval varijacije izračunava se na sledeći način:

12,3 15,3 15,7 17,4 19,0 19,2 20,1 20,9 22,1 22,5 25,6 28,5

= max min-I X X = 28,5 – 12,3 = 16,2 megabajta

To znači da je interval (razmak) između najveće i najmanje vrednosti obeležja 16,2 megabajta.

Interkvartilna razlika

Postavlja se pitanje, da li na neki način možemo eliminisati krajnje vrednosti u seriji i nakon toga primeniti istu ideju kao kod intervala varijacije, odnosno potražiti razmak između novodobijenih krajnjih vrednosti? Tako dobijena mera bi imala prednost, jer ne bi zavisila od potencijalnih ekstremnih vrednosti u seriji. To se postiže pomoću mere koja se naziva interkvartilna razlika. Interkvartilna razlika je raspon između prvog i trećeg kvartila:

= −3 1IQR Q Q

Budući da ova mera u obzir uzima samo raspon centralnih 50% podataka serije, jasno je da ne zavisi od ekstremnih vrednosti. Za izračunavanje interkvartilne razlike koristićemo statistički softver. Da sumiramo: kvartili, pa samim tim i interkvartilna razlika, ne mogu biti pod uticajem ekstremnih vrednosti, jer se jedinice sa vrednostima obeležja manjim od prvog kvartila ili većim od trećeg kvartila ne uzimaju u obzir. Statističke mere kao što su medijana, kvartili i interkvartilna razlika, na koje ne utiču ekstremne vrednosti, nazivaju se rezistentnim ili robustnim merama.

(2.5)

Page 29: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 51 Varijansa

Interkvartilna razlika je daleko bolja mera disperzije od intervala varijacije. Međutim, ona ne uzima u obzir odstupanja svih podataka u seriji; njena vrednost zavisi samo od dva broja (prvog i trećeg kvartila). Postavlja se pitanje: na koji način formulisati takvu meru disperzije koja bi bila pod uticajem svih vrednosti u seriji? Drugačije rečeno, da li bismo mogli da uzmemo neku konkretnu vrednost i potražimo odstupanja svih članova serije od te vrednosti? Logično je da za tu vrednost uzmemo neku meru centralne tendencije, pa da pogledamo koliko podaci odstupaju od centra. U statistici se u tu svrhu najčešće uzima aritmetička sredina. Pošto je zbir odstupanja svih podataka od njihove aritmetičke sredine jednak nuli, odnosno Σ( ix – μ) = 0, jasno je da sâm zbir odstupanja ne možemo uzeti kao meru disperzije. Naime, tako formulisana mera bila bi jednaka nuli kod svih serija i kao takva beskorisna. Na koji način ovo da prevaziđemo, kako da eliminišemo negativna odstupanja? Kao prva ideja javlja se uzimanje apsolutnih vrednosti svih odstupanja, odnosno Σ| ix –μ|. Takva mera, međutim, ima dva nedostatka: (1) iskazana je u apsolutnim vrednostima koje su nepogodne za dalju obradu i (2) automatski bi se povećavala sa povećavanjem broja podataka. Da bismo oba ova nedostatka prevazišli uzećemo kvadrate odstupana i dobijenu sumu tih kvadrata podeliti sa brojem podataka. Tako dobijena mera disperzije pokazuje, stoga, prosek sume kvadrata odstupanja svih podataka od njihove aritmetičke sredine i naziva se varijansa ili srednje kvadratno odstupanje. Ukoliko podaci nisu grupisani, odnosno ako su date vrednosti obeležja X: x1, x2, x3,..., xN, varijansa skupa se izračunava na sledeći način:

σ μ=

= −∑2 2

1

1 ( )N

ii

xN

a za podatke grupisane u vidu rasporeda frekvencija:

( )σ μ=

= −∑ 22

1

1 k

i ii

f xN

jer odstupanja moramo ponderisati njihovim frekvencijama. Varijansa se može izračunati i na jednostavniji način, koristeći tzv. radni obrazac:

σ μ== −∑ 2

2 21

k

i ii

x f

N

Na ovaj način varijansa se izračunava neposredno iz samih vrednosti posmatranog obeležja, a ne preko odstupanja podataka od aritmetičke sredine. Ovo pojednostavljuje računski postupak; naravno, kada se obrada vrši ručno. Varijansa uzorka predstavlja prosek zbira kvadrata odstupanja svih vrednosti obeležja jedinica u uzorku od aritmetičke sredine uzorka. Kod negrupisanih podataka izračunava se na sledeći način:

(2.6)

(2.7)

Page 30: Deskriptivna analiza

52 OSNOVI STATISTIKE

−=

−∑ 2

2 ( )1

ix xs

n

Primetimo da se zbir kvadrata odstupanja kod varijanse uzorka deli sa n − 1, a ne sa N, kao kod varijanse skupa. Zbog čega? Kasnije ćemo ovo detaljnije objasniti; za sada, kažimo samo to da se varijansa skupa u praksi najčešće ne može izračunati jer ne raspolažemo podacima popisa. Jedino što nam preostaje je to da nađemo njen najbolji "supstitut" na osnovu uzorka. Kao što ćemo kasnije videti, takav pokazatelj se naziva ocena. U teorijskoj statistici je pokazano da se preciznija ocena varijanse skupa dobija ako se suma kvadrata odstupanja podeli sa n −1, a ne sa n.

Varijansa

Varijansa pokazuje prosek kvadrata odstupanja svih podataka od njihove aritmetičke sredine.

Standardna devijacija

Iako varijansa, kao apsolutna mera varijacije, ima široku primenu u statističkim istraživanjima, ona ima i jedan značajan nedostatak. Naime, radi se o kvadriranju odstupanja podataka od aritmetičke sredine, pa je ona iskazana u kvadratima mernih jedinica (kao, npr. evrima2, godine starosti na kvadrat i sl.). Takođe, time se znatno povećava veličina izračunate mere varijabiliteta. Da bi se taj nedostatak otklonio, izračunava se kvadratni koren iz varijanse i dobija se najčešće korišćena mera apsolutnog varijabiliteta poznata kao standardna devijacija. Standardna devijacija se može izračunati direktno iz varijanse, odnosno kao pozitivna vrednost kvadratnog korena varijanse, tj:

σ σ= + 2 za skup, ili = + 2s s za uzorak.

Standardna devijacija se može izračunati direktno na osnovu podataka o odstupanjima od aritmetičke sredine, na sledeći način:

σ μ=

= −∑ 2

1

1 ( )N

ii

xN

ili direktno iz podataka,

σ μ=

= −∑ 2 2

1

1 N

ii

xN

Standardna devijacija skupa na osnovu grupisanih podataka u vidu rasporeda frekvencija izračunava se na sledeći način:

( )σ μ=

= −∑ 2

1

1 k

i ii

f xN

(2.8)

(2.9)

(2.10)

Page 31: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 53 Kao i varijansa, standardna devijacija podataka skupa datih u vidu rasporeda frekvencija se može odrediti i direktno iz podataka,

σ μ== −∑ 2

21

k

i ii

x f

N

Kada raspolažemo rasporedom frekvencija uzorka, standardna devijacija uzorka se može izračunati jednostavnije, pomoću "radne formule":

−=

−∑ 2 2

1i if x nx

sn

Pokažimo sada kako se konkretno izračunavaju varijansa i standardna devijacija. U tu svrhu uzmimo podatke o rasporedu studenata prema vremenu izrade ispitnog zadatka iz deskriptivne statistike (na osnovu podataka datih u Tabeli 2.15 Primera 2.3). Međurezultati su prikazani u radnoj tabeli 2.18. Varijansa će biti

( )σ μ=

= −∑ 22

1

1 k

i ii

f xN

= =1 945,288 10, 50

90.

To znači da srednje kvadratno odstupanje vremena izrade zadatka svih studenata od prosečnog vremena iznosi 10,50 minuta na kvadrat.

Tabela 2.18 Radna tabela sa elementima za izračunavanje mera varijacije

Sredine intervala obeležja ( ix )

Frekvencije ( if ) ( ix – μ) ( ix – μ)² if ( ix – μ)²

3,0 12 - 5,31 28,196 338,353 5,0 13 - 3,31 10,956 142,429 7,0 15 - 1,31 1,716 25,741 9,0 17 0,69 0,476 8,094

11,0 20 2,69 7,236 144,722 13,0 13 4,69 21,996 285,949

Ukupno 90 - - 945,288

Kvadratni koren iz navedene vrednosti predstavljaće standardnu devijaciju.

σ σ= = =2 10, 50 3, 24

Standardna devijacija pokazuje da prosečno odstupanje vremena izrade zadatka svih studenata od prosečnog vremena iznosi 3,24 minuta.

(2.11)

Page 32: Deskriptivna analiza

54 OSNOVI STATISTIKE

Standardna devijacija Standardna devijacija predstavlja prosečno odstupanje svih pojedi-načnih podataka od njihove aritmetičke sredine.

Da sumiramo: iako varijansa poseduje korisna matematička svojstva, njena vrednost je uvek iskazana u mernim jedinicama na kvadrat. To je razlog što je standardna devijacija najčešće korišćena mera disperzije, budući da je njena vrednost izražena u originalnim jedinicama mere obeležja.

Razumevanje varijabiliteta podataka u seriji 1. Što su podaci u posmatranoj seriji više raspršeni , veći će biti interval

varijacije, interkvartilna razlika, varijansa i standardna devijacija. 2. Što su podaci više skoncentrisani, ili homogeni, biće manji interval

varijacije, interkvartilna razlika, varijansa i standardna devijacija. 3. Ako su sve jedinice serije među sobom jednake neće biti ni varijacije

među podacima, pa će sve mere varijacije biti jednake nuli. 4. Apsolutne mere varijacije ne mogu imati negativnu vrednost.

2.3.2.2 Relativne mere varijacije

Za razliku od mera varijacije koje su izražene u apsolutnim jedinicama vrednosti obeležja, relativne mere izražene su u procentima ili u relativnim jedinicama. Ove mere omogućavaju da se upoređuje varijabilitet numeričkih serija podataka koji su izraženi u različitim jedinicama mere, ili serija čija su obeležja izražena istim jedinicama, ali sa različitim aritmetičkim sredinama. Najčešće korišćene relativne mere varijacije su: koeficijent varijacije i standardizovano odstupanje. Koeficijent varijacije predstavlja relativni odnos standardne devijacije i aritmetičke sredine. Izračunava se na sledeći način:

V = σμ

Koeficijent varijacije se često izražava u procentima i pokazuje koliko procentualno iznosi standardna devijacija od aritmetičke sredine. Njegove velike vrednosti ukazuju na relativno veliki stepen varijabilnosti podataka u seriji, i suprotno, male na relativno malu disperziju u skupu ili uzorku. U ranijem primeru, sa podacima o rasporedu studenata prema vremenu izrade ispitnog zadatka, u kome je aritmetička sredina iznosila 8,31 minut, a standardna devijacija 3,24 minuta, koeficijent varijacije biće:

(2.12)

Page 33: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 55

σμ

= = = =3,24.100 .100 0,3899 38,998,31

V %

PREPORUKA: Prilikom poređenja disperzije dve ili više serija podataka koristite isključivo koeficijent varijacije.

Standardizovano odstupanje predstavlja meru odstupanja nekog pojedinačnog podatka od aritmetičke sredine izraženu u jedinicama standardne devijacije. Izračunava se na sledeći način:

Z = μσ−iX

Standardizovano odstupanje omogućava poređenje varijabiliteta individualnih podataka više pojava, zbog toga što se odstupanja podataka od aritmetičke sredine ne izražavaju u apsolutnim jedinicama mere obeležja. Ako bismo, na osnovu podataka iz Tabele 2.15 utvrđivali standardizovano odstupanje za studenta kome je trebalo 5,5 minuta da uradi ispitni zadatak, primenom prethodnog izraza dobili bismo da je:

− −= = =

5,5 8, 31 2,813, 24 3,24

Z - 0,8673.

To znači da njegovo odstupanje u odnosu na prosečno vreme izrade zadatka svih studenata iznosi -0,8673 standardnih devijacija. Predznak minus (-) označava da se navedena individualna vrednost obeležja nalazi levo od aritmetičke sredine, jer ima manju vrednost od prosečnog vremena izrade zadatka svih studenata. Moglo bi se reći da je ovaj student bio "brži" za 0,8673 standardnih devijacija od "prosečnog studenta".

2.3.3 Mere oblika rasporeda

Rasporedi frekvencija imaju različite oblike u pogledu načina rasporeda članova serije. Navedene razlike se uglavnom odnose na simetričnost i zaobljenost (ili, suprotno, izduženost) rasporeda frekvencija. Za merenje oblika rasporeda frekvencija prema osi simetrije ili u pogledu zaobljenosti najčešće se koriste tzv. centralni momenti. Centralni momenti sukcesivno mere prosečna odstupanja podataka, nultog, prvog, drugog ili n-tog stepena, u odnosu na aritmetičku sredinu. Centralni statistički moment r-tog reda definisan je na sledeći način:

( )μ=

= −∑1

1 kr

r i ii

M f xN

Centralni moment nultog reda uvek je jednak 1. Centralni moment prvog reda jednak je nuli (on pokazuje da je prosek odstupanja svih podataka od

(2.13)

(2.14)

Page 34: Deskriptivna analiza

56 OSNOVI STATISTIKE aritmetičke sredine jednak nuli), pa se, kao i nulti moment, ne može upotrebiti za merenje oblika rasporeda. Lako je shvatiti da je centralni moment drugog reda, u stvari, varijansa. Za merenje oblika rasporeda ostaju nam, dakle, centralni momenti viših redova od drugog. Za merenje simetričnosti koristi se treći centralni momenat. On pokazuje prosek odstupanja svih podataka od aritmetičke sredine podignut na treći stepen. Za merenje oblika rasporeda u pogledu zaobljenosti koristi se četvrti centralni momenat, kao prosek odstupanja svih podataka serije od aritmetičke sredine podignut na četvrti stepen.

2.3.3.1 Mere asimetrije

Za simetričan raspored karakteristično je da svakom odstupanju vrednosti obeležja od aritmetičke sredine negativnog predznaka odgovara isto toliko odstupanje pozitivnog predznaka. Ako je raspored pozitivno asimetričan, pozitivna i negativna odstupanja neće se izravnati nego će preovladati odstupanja sa pozitivnim predznakom. Suprotno, kod negativno asimetričnih rasporeda preovladaće odstupanja sa negativnim predznakom. Na Slici 2.8 grafički su prikazane ove tri mogućnosti.

Slika 2.8 Grafički prikaz oblika rasporeda prema simetričnosti

Treći centralni momenat za negrupisane podatke dat je sledećim izrazom:

( )μ=

= −∑31

1 N

ii

M xN

3

dok se, za rasporede frekvencija, treći centralni momenat izračunava na sledeći način:

a) Simetričan raspored

b) Raspored asimetričan udesno (pozitivno asimetričan)

c) Raspored asimetričan ulevo (negativno asimetričan)

Modus = Medijanaμ =

Page 35: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 57

( )μ=

= −∑ 33

1

1 k

i ii

M f xN

Ukoliko je raspored frekvencija simetričan, prethodni izraz biće jednak nuli, jer neparan eksponent ne menja predznak odstupanja. Za pozitivno asimetrične rasporede treći centralni momenat je veći od nule, dok je za negativno asimetrične rasporede manji od nule. Zbog navedenih osobina, treći centralni momenat se može koristiti za utvrđivanje asimetrije rasporeda. Međutim, pošto vrednost trećeg centralnog momenta zavisi od jedinice mere obeležja X, zaključivanje o asimetriji rasporeda nije moguće samo na osnovu njegove apsolutne veličine. Usled toga, za meru asimetrije se koristi količnik trećeg centralnog momenta i standardne devijacije dignute na treći stepen, koji se obeležava sa α 3 (čita se alfa tri). Na taj način se dobija relativna mera, jer se merne jedinice potiru. Pokazatelj asimetrije, dakle, dat je sledećim izrazom:

ασ

= 33 3

M

Iz navedenog obrasca zaključuje se da je pokazatelj asimetrije relativna mera stepena i smera asimetrije, koja je za egzaktno simetrične rasporede jednaka nuli. Što je veća apsolutna vrednost ovog koeficijenta, veća je i asimetrija posmatranog rasporeda. Smatraćemo da je raspored umereno asimetričan ako se vrednost 3α nađe u intervalu -0,5 do +0,5. U suprotnom, kazaćemo da je raspored znatno asimetričan. Različita tumačenja asimetričnosti s obzirom na vrednost 3α prikazana su na Slici 2.9.

Slika 2.9 Interpretacija stepena asimetrije s obzirom na vrednost 3α

2.3.3.2 Pokazatelji zaobljenosti rasporeda

Zaobljenost, odnosno spljoštenost rasporeda je druga komponenta oblika rasporeda frekvencija. Zaobljenost u okolini modalnog maksimuma krive distribucije frekvencija meri se koeficijentom zaobljenosti (izduženosti), koji se zasniva na četvrtom centralnom momentu.

0 0,5 -0,5

Umereno asimetričan

Znatno negativno asimetričan

Znatno pozitivno asimetričan

Simetričan

(2.15)

Page 36: Deskriptivna analiza

58 OSNOVI STATISTIKE Četvrti centralni momenat za podatke date u vidu rasporeda frekvencija dat je sledećim izrazom:

( )μ=

= −∑ 44

1

1 k

i ii

M f xN

Stavljanjem u odnos navedenog centralnog momenta i standardne devijacije na četvrti stepen, dobija se relativna mera zaobljenosti rasporeda. Radi jednostavnijeg tumačenja najčešće se od navedenog količnika oduzima 3 jer je pokazano da u tom slučaju kod tzv. Normalnog rasporeda njena vrednost iznosi 0. Označava se sa 4α :

= −44 4 3M

ασ

Prilikom tumačenja relativne mere zaobljenosti, dobijenu vrednost upoređujemo sa teorijskom zaobljenošću tzv. normalnog rasporeda frekvencija, koja iznosi 0. Ako je koeficijent zaobljenosti veći od 0, tada je raspored više izdužen u odnosu na normalan raspored, a ako je vrednost koeficijenta manja od 0, tada je serija više spljoštena u odnosu na normalan raspored. Grafički, to se može prikazati kao na Slici 2.14.

Slika 2.10 Oblici rasporeda u pogledu zaobljenosti

Koeficijente asimetrije i zaobljenosti izračunavaćemo samo uz pomoć nekog statističkog softvera.

Normalna zaobljenost =4 0α

Zaobljenost manja od one kod normalnog rasporeda

>4 0α

Zaobljenost veća od one kod normalnog rasporeda

<4 0α

(2.16)

(2.17)

Page 37: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 59 R E Z I M E

Cilj statističkog posmatranja je da se obezbede kvalitetni podaci o varijabilnoj pojavi. Statističko istraživanje može se zasnivati na obuhvatanju svih jedinica posmatranja (ovde spadaju popis i izveštaj) i na delimičnom obuhvatanju na osnovu uzorka. Na osnovu sređivanja i grupisanja podataka dolazi se do statističkih serija. One predstavljaju nizove uređenih podataka po vrednostima obeležja ili po hronologiji i, shodno tome, dele se na serije strukture i vremenske serije. Statističke serije možemo prikazati na dva načina: u vidu tabela i grafički. Deskriptivne mere su numeričke karakteristike koje pružaju jezgrovit i jasan prikaz svakog skupa podataka (osnovnog skupa ili uzorka), reprezentuju ga i omogućavaju njegovo poređenje sa drugim skupovima. Razlikujemo tri grupe deskriptivnih mera: mere centralne tendencije (srednje vrednosti, ili mere lokacije), mere disperzije (varijabiliteta, raspršenosti), mere oblika rasporeda (asimetrije i zaobljenosti),

Unutar svake grupe mera postoji veći broj pokazatelja sa sličnom namenom ali sa različitim vrednostima i interpretacijom. U okviru srednjih vrednosti najbolji pokazatelj je aritmetička sredina (prosek), osim ako u seriji nema izraženih ekstremnih vrednosti; u tom slučaju je bolje koristiti medijanu. Slično, najbolja mera disperzije je standardna devijacija. Ona pokazuje prosek odstupanja podataka od njihove aritmetičke sredine. Međutim, ako podatke karakterišu ekstremne vrednosti preporučuje se upotreba interkvartilne razlike, koja predstavlja razliku između trećeg i prvog kvartila.

KLJUČNI NOVI POJMOVI

Popis Statističke serije Serije strukture Vremenske serije Frekvencija Relativna frekvencija Raspored frekvencija Aritmetička sredina (prosek) Modus Medijana

Kvartil Mere disperzije Interval varijacije Interkvartilna razlika Varijansa Standardna devijacija Koeficijent varijacije Standardizovano odstupanje Mera asimetrije Mera zaobljenosti

Page 38: Deskriptivna analiza

60 OSNOVI STATISTIKE KONTROLNA PITANJA I ZADACI 1. Objasnite razliku između popisa, izveštajnog metoda i uzorka. 2. Statistička serija, pojam, vrste i njihove osobine. 3. Frekvencija, relativna frekvencija i kumulativi. 4. U uzorku od 30 slučajno izabranih studenata, broj položenih ispita u

januarskom roku je: 1, 2, 3, 0, 0, 1, 2, 3, 2, 2, 1, 1, 1, 3, 0, 0, 0, 1, 3, 2, 1, 1, 2, 2, 1, 0, 3, 2, 3, 0.

Formirajte raspored studenata po broju položenih ispita, izračunajte relativne frekvencije, kumulativ „ispod“ i kumulativ „iznad“, a zatim izračunajte: a) učešće studenata koji su položili sva tri ispita, b) broj i učešće studenata koji su položili najviše jedan ispit; c) broj i učešće studenata koji su položili najmanje jedan ispit.

5. Od 35 učenika jednog razreda 5 učenika je dobilo ocenu 5, 8 učenika je dobilo ocenu 4, 9 je dobilo ocenu 3 i 6 učenika je dobilo ocenu 2. Ostali su dobili slabu ocenu (1). Formirajte raspored frekvencija (raspored učenika po uspehu) i prikažite ga grafički.

6. Na osnov sledećih podataka izvršite grupisanje studenata prema visini, primenom odgovarajućeg pravila, ako je visina studenata data u cm.

155 167 177 174 168 186 172 166 161 175 188 192 164 182 167 190 Dobijenu seriju prikažite u vidu (a) histograma, (b) poligona i (c) kumulantom "ispod" 7. Navedite različite grupe deskriptivnih mera i objasnite njihovo osnovno

značenje i primenu. 8. Navedite i objasnite osobine aritmetičke sredine, njene prednosti i nedostatke. 9. Izaberite tačan odgovor: Pri izračunavanju ponderisane aritmetičke sredine

ponderi su: a) modaliteti obeležja; b) frekvencije modaliteta obeležja; c) sredine grupnih intervala; d) širine grupnih intervala; e) suma svih frekvencija.

10. Izaberite tačan odgovor: Vrednost svih pokazatelja disperzije je jednaka 0: a) ako su vrednosti simetrične u odnosu na aritmetičku sredinu; b) ako su sve vrednosti među sobom jednake; c) samo ako su sve vrednosti u seriji jednake 0; d) ako je raspored simetričan, a μ=0.

11. Izaberite tačan odgovor (jedan ili više): Standardna devijacija je: a) relativna mera disperzije serije, b) prosek sume apsolutnih odstupanja vrednosti obeležja od aritmetičke sredine, c) pozitivan kvadratni koren iz varijanse, d) apsolutna mera disperzije , e) c i d.

12. Izaberite tačan odgovor: Ako je standardizovano odstupanje z= 1,5 to znači: a) da je relativna disperzija u skupu umereno pozitivna, b) da je vrednost obeležja veća od μ za 1,5%; c) da je vrednost obeležja veća od μ za 1,5 puta; d) da je vrednost obeležja veća od μ za 1,5 standardnih devijacija.

13. Izaberite tačan odgovor: U opštem slučaju, jedna serija ima veću disperziju od druge ako je njen: a) koeficijent varijacije veći; b) interval varijacije veći; c) standardna devijacija veća; d) interkvartilna razlika veća.

Page 39: Deskriptivna analiza

POGLAVLJE 2 – Deskriptivna analiza 61 14. Aritmetička sredina u skupu A iznosi 100, a u skupu B je jednaka 50. Ako je

relativna mera disperzije u oba skupa jednaka 0,20 (tj. 20%), u kojem skupu je veća apsolutna mera disperzije? Izaberite tačan odgovor i upišite odgovarajuću vrednost: a) jednake su; b) veća je u skupu A i iznosi ........... c) veća je u skupu B i iznosi .........; d) ne možemo ih izračunati na osnovu raspoloživih informacija. Odgovor: b) veća je u skupu A i iznosi σ=20;

15. Nedeljna kupovina voća (u kg.) 8 četvoročlanih domaćinstava je iznosila: 3, 3, 5, 4, 5, 3, 2, 7. Izračunajte: a) prosečnu i tipičnu kupovinu voća ovih 8 domaćinstava; b) interval varijacije i relativnu meru disperzije. Odgovor: a) prosečna potrošnja je 4 kg, a tipična 3 kg; b) interval varijacije je 5 kg, a koeficijent varijacije je 0,375, tj. 37,5%

16. Izaberite tačan odgovor: Proporcija može uzeti vrednosti iz intervala: a) od -1 do 1; b) samo cele brojeve; c) od 0 do + ∞; d) od 0 do 1 (odnosno, od 0 do 100%); e) - ∞ do + ∞.

17. U cilju analize dužine radnog staža zaposlenih turističke agencije "Zlatna obala", slučajno je izabran uzorak od 8 zaposlenih sa srednjom stručnom spremom. Tom prilikom zabeleženi su sledeći podaci o dužini njihovog radnog staža u mesecima:

9 18 12 36 48 22 22 15

1) Odrediti (a) srednje vrednosti i (b) mere disperzije. Standardizovano odstupanje odrediti za zaposlene sa najkraćim i najdužim radnim stažom.

2) Istovremeno, slučajno je izabran uzorak od 15 zaposlenih sa srednjom stručnom spremom u turističkoj agenciji "Salaš". Na osnovu podataka o dužini njihovog radnog staža u mesecima izračunato je sledeće: prosečan radni staž je 15 meseci, a prosek kvadrata odstupanja podataka od aritmetičke sredine je 144 meseca na kvadrat. Koji uzorak pokazuje veću disperziju?

18. Raspolaže se sa podacima o vremenu (u minutima) opsluživanja slučajno odabranih klijenata (bankarska usluga "uplate-isplate") na jednom šalteru Credy banke:

4,3 4,8 5,3 6,4 6,6 6,7 6,6

Izračunati (ili odrediti) mere centralne tendencije i mere disperzije. Dobijene rezultate prokomentarisati

19. Dat je raspored slučajno odabranih automobila u jednom auto-kampu prema broju prijavljenih turista:

Broj turista 1 2 3 4 5 Broj automobila 50 140 194 386 200

a) Izračunati prosečan broj prijavljenih turista. b) Odrediti tipičan broj prijavljenih turista, a zatim i medijanu. c) Izračunati relativne mere disperzije. Meru disperzije koja se izražava u

standardnim devijacijama, izračunati za automobil sa pet prijavljenih turista. (Srednje kvadratno odstupanje od aritmetičke sredine je 1,26 turista na kvadrat.).