predavanpredavanje1_deskriptivna_statistika-2012.pdfje1 deskriptivna statistika-2012
DESCRIPTION
Predavanje1_DESKRIPTIVNA_STATISTIKA-2012.pdfPredavanje1_DESKRIPTIVNA_STATISTIKA-2012.pdfPredavanje1_DESKRIPTIVNA_STATISTIKA-2012.pdfPredavanje1_DESKRIPTIVNA_STATISTIKA-2012.pdfTRANSCRIPT
Izv. prof. Nelida Črnjarić-Žic
DESKRIPTIVNA STATISTIKA
Što nam pada na pamet kad čujemo pojam statistika?
razni numerički podaci: broj nezaposlenih, stopa kriminala, mjesečni dohodak, rezultati mjerenja, proračuna i sl.
obrađeni podaci – uređeni, tabelirani, prikazani grafički, te “neke numeričke vrijednosti” (koje?) dobivene na osnovi tih podataka
statistički zaključci dobiveni na osnovu nekakvih dosadašnjih pokazatelja: pad BDP-a u sljedećoj godini, pad/porast vrijednosti dionica, procjena rasta nezaposlenosti itd.
Statistika je znanstvena disciplina koja se bavi skupljanjem, razvrstavanjem, uređivanjem podataka, donošenjem određenih zaključaka o podacima, te nadalje, predviđanjem na osnovi dobivenih zaključaka.
Deskriptivna statistika se bavi razvrstavanjem, uređivanjem i
određivanjem numeričkih pokazatelja u statističkom skupu
Metode statističkog zaključivanja bave se drugim dijelom, tj. donošenjem određenih zaključaka o podacima, te predviđanjem na osnovi dobivenih zaključaka.
TERMINOLOGIJA
populacija – skup svih elemenata za koje nas zanima promatrano obilježje (npr. svi proizvedeni elementi, svi građani RH, ...)
uzorak i reprezentativni uzorak – odabrani podskup populacije na osnovu kojeg se obično donose zaključci o cijeloj populaciji
Matematička osnova statistike je vjerojatnostni račun. Osnovni pojmovi koji se pojavljuju: slučaj, događaj, vjerojatnost
Deterministički podaci vs. statistički podaci
Dani tijekom tjedna? – nema vanjskih utjecaja na odgovor – DETERMINISTIČKI PODATAK
Rezultati mjerenja – ovise o slučajnim faktorima – STATISTIČKI PODACI
ATRIBUTIVNI: opisne vrijednosti • dobar-loš proizvod
• boja očiju • krvna grupa
KVANTITATIVNI: numerički
diskretni • broj bodova na ispitu • broj studenata koji su položili kolegij • broj ispravnih proizvoda
kontinuirani • temperatura zraka • dimenzija nekog proizvoda (težina, duljina i sl.) • potrošnja goriva (automobil, kuća i sl.)
• STATISTIČKO OBILJEŽJE – podaci koje promatramo
0 0 1 1 2 2 0 1 0 1 1 0 1 0 2 0 3 1 1 1
3 1 2 0 1 1 3 2 0 1 3 2 3 0 2 0 1 0 1 1
1 2 0 1 0 2 1 1 1 0 0 1
36,3 41,0 36,9 37,1 44,9 36,8 42,1 35,6 30,0 37,4
32,7 37,3 41,2 36,6 32,9 36,5 37,5 38,8 33,2 37,7
40,5 36,5 37,6 33,9 40,2 36,4 40,0 38,4 37,7 35,7
36,2 37,9 36,0 37,9 35,9 38,2 39,0 38,1 38,3 34,4
38,5 39,0 35,5 34,8 38,6 39,4 36,7 36,7 35,3 38,2
36,3 36,8 32,5 36,4 40,5 36,6 34,8 33,6 36,1 38,7
41,0 31,8 37,3 33,1 37,0 37,6 34,2 39,3 37,0 35,6
37,0 37,2 40,7 37,4 37,1 37,8 35,1 35,8 35,9 35,2
37,1 40,3 36,7 37,0 33,9 40,1 39,7 34,5 38,0 35,0
39,9 36,9 32,9 33,8 39,8 34,0 39,5 36,9 36,8 37,2
Primjer 1 (diskretno statističko obilježje)
Promatrajući tjedni broj kvarova na strojevima nekog industrijskog pogona tijekom
jedne godine, dobiveni su sljedeći podaci:
Primjer 2 (kontinuirano statističko obilježje)
U brodogradilištu je vršena analiza škarta koji nastane u proizvodnom procesu. U
tu svrhu mjereni su dijelovi ostataka cijevi (u cm) koje preostanu nakon rezanja
odgovarajućih dijelova te se ne mogu dalje iskoristiti:
TABELIRANJE PODATAKA – distribucija frekvencija
DISKRETNO
OBILJEŽJE NEPREKIDNO OBILJEŽJE
statističko obilježje intervalni razredi koji predstavljaju vrijednost statističkog obilježja
frekvencija
RELATIVNE I KUMULATIVNE FREKVENCIJE
Relativna frekvencija Relativna kumulativna
frekvencija
Kumulativna frekvencija
GRAFIČKI PRIKAZ PODATAKA - poligon
Poligon frekvencija
1
5
9
14
33
18
12
6
1 10
5
10
15
20
25
30
35
(29,95-
31,45]
(31,45-
32,95]
(32,95-
34,45]
(34,45-
35,95]
(35,95-
37,45]
(37,45-
38,95]
(38,95-
40,45]
(40,45-
41,95]
(41,95-
43,45]
(43,45-
44,95]
Poligon kumulativnih frekvencija
0
20
40
60
80
100
(29,95-
31,45]
(31,45-
32,95]
(32,95-
34,45]
(34,45-
35,95]
(35,95-
37,45]
(37,45-
38,95]
(38,95-
40,45]
(40,45-
41,95]
(41,95-
43,45]
(43,45-
44,95]
GRAFIČKI PRIKAZ PODATAKA - histogram
GRAFIČKI PRIKAZ PODATAKA Razdioba komunalnog otpada po vrstama Grafički prikaz – pita (eng. pie chart)
Histogram s prikazom udijela materijala koji se može reciklirati
NUMERIČKE KARAKTERISTIKE
STATISTIČKOG SKUPA
• Aritmetička sredina
• Mod
• Medijan
POKAZATELJI CENTRALNE TENDENCIJE
• Raspon podataka
• Interkvartilni raspon, koeficijent kvartilne devijacije
• Varijanca, standardna devijacija, koeficijent varijacije
POKAZATELJI RASAPA
• Asimetrija (eng. skewness)
• Spljoštenost (eng. kutrosis)
POKAZATELJI OBLIKA
POKAZATELJI CENTRALNE TENDENCIJE
MOD – tjemena vrijednost, najčešći podatak
MEDIJAN – poziciona srednja vrijednost
N
Svojstva aritmetičke sredine: Zbroj odstupanja podataka statističkog skupa od aritmetičke
sredine jednak je 0 Zbroj kvadrata odstupanja podataka statističkog skupa od
aritmetičke sredine je manje od zbroja kvadrata odstupanja podataka od bilo kojeg drugog broja
Ako se svaka vrijednost statističkog skupa pomnoži s konstantom a, onda je aritmetička sredina dobivenih podataka jednaka
Neka su A i B statistički skupovi koji mjere isto obilježje.
Pretpostavimo da skup A ima m elemenata i aritmetičku sredinu , a skup B n elemenata i aritmetičku sredinu .
Onda je aritmetička sredina unije tih dvaju skupova jednaka
POKAZATELJI RASAPA
KVARTILI:
1. kvartil 𝑄1– podatak od kojeg je manje 25% podataka
2. kvartil 𝑄2= medijan – podatak od kojeg je manje 50% podataka
3. kvartil 𝑄3– podatak od kojeg je manje 75% podataka
INTERKVARTILNI RASPON = pokazatelj rasapa oko medijana = razlika između 3. i 1. kvartila=𝑄3 − 𝑄1
RELATIVNE MJERE RASAPA PODATAKA Relativne mjere rasapa podataka služe za procjenu reprezentativnosti
pokazatelja centralne tendencije
Koeficijent varijacije (relativna mjera rasapa oko aritmetičke sredine):
𝑉 =𝜎
𝑥
- pokazatelj reprezentativnosti aritmetičke sredine
Koeficijent kvartilne devijacije (relativna mjera rasapa oko medijana)
𝑉𝑞 =𝑄3 − 𝑄1𝑄3 + 𝑄1
- pokazatelj reprezentativnosti medijana
U praksi možemo reći da je neki pokazatelj reprezentativan ako je pripadna relativna mjera rasapa manja od 0.3
Box-plot
Objedinjuje 5 karakteristika statističkog skupa:
Minimum, maksimum
Prvi kvartil, drugi kvartil (=medijan) i treći kvartil
Utjecaj standardne devijacije
Grafički prikaz podataka za vrijeme čekanja u redu za dva različita sustava: sustav A –
čekanje u odabranom redu, sustav B – čekanje u jednom redu
POKAZATELJI OBLIKA Koeficijent asimetrije (eng. skewness)
Koeficijent spljoštenosti (eng. kurtosis)
Razmatra se asimetrija u odnosu na aritmetičku sredinu i
spljoštenost u odnosu na normalan graf
Odnos između aritmetičke sredine (eng. mean, average) i medijana u slučaju simetrične,
odnosno asimetrične razdiobe
Obrada statističkih podataka
Analiza vremenskih nizova
U slučaju kada vrijednosti pojave (podataka) imaju neko vremensko značenje,
govorimo o vremenskom nizu podataka
Pretpostavit ćemo da se vrijednosti pojave odnose na jednake vremenske
intervale
Cilj analize vremenskih nizova je opisivanje razvoja pojave u vremenu
Kao pokazatelji dinamike vremenskog niza najčešće se koriste verižni i bazni
indeksi
VERIŽNI INDEKS je relativni broj kojim se mjeri relativna promjena pojave u
tekućem razdoblju u odnosu na prethodno razdoblje i računa se po formuli
𝑣𝑖 =𝑎𝑖𝑎𝑖−1
⋅ 100
BAZNI INDEKS je relativni broj kojim se mjeri relativna promjena pojave u
tekućem razdoblju u odnosu na neko bazno razdoblje (najčešće početak ili
sredinu) i računa se po formuli
𝐼𝑖 =𝑎𝑖𝑎𝑏
⋅ 100
pri čemu 𝑎𝑏 označava vrijednost pojave u baznom trenutku