statistika 2. predavanjefkbv.um.si/images/stories/matematika/2pred-stat1.pdf · 2012. 3. 27. ·...
TRANSCRIPT
STATISTIKA
2. predavanje
Doc.dr. Tadeja Kraner Šumenjak
FREKVENČNE PORAZDELITVE
Frekvenčna porazdelitev je tabela, ki jo določajo
urejene vrednosti spremenljivke in pripadajoče
frekvence.
Spremenljivka X, ki določa frekvenčno
porazdelitev, je opisna ali številska.
Njene vrednosti v frekvenčni porazdelitvi imenujemo:
Skupine, če je X opisna.
Razredi, če je X številska.
Frekvenčno porazdelitev lahko
prikažemo s tabelo ali grafično
(histogram, poligon, strukturni
stolpci, krogi).
Idealna frekvenčna porazdelitev je
normalna porazdelitev.
Primer (X je opisna)
Frekvenčna porazdelitev
po spolu:
Spol Število
Moški 542
Ženske 405
Študenti po spolu
0%
50%
100%
ženske
moški
FREKVENČNA PORAZDELITEV ZA
ŠTEVILSKE SPREMENLJIVKE
Kot primer statistične množice si izberimo število
zaposlenih v podjetjih prehrambene panoge na
nekem področju.
328 17 66 437 51 41 58 320 96 141
7 8 66 303 85 146 147 267 129 68
193 85 370 276 119 225 160 89 131 116
258 36 436 208 3 22 44 275 99 26
129 44 23 135 28 107 62 74 92 14
344 49 156 159 64 61 66 54 47 458
60 56 100 167 171 65 251 148 162 48
Posamezne vrednosti razvrstimo v razrede. S tako
predstavitvijo pridobimo na preglednosti, vendar pa
istočasno zmanjšamo točnost podatkov.
Frekvenčno porazdelitev dopolnimo s
karakteristikami razredov. Denimo, da imamo p
razredov.
xk,min spodnjo mejo k-tega razreda
xk,max zgornjo mejo k-tega razreda
Pri tem velja:
xk,max= xk+1,min, k=1,2,…,p-1
xx x
k
k k,min ,max
2
fk frekvenco k-tega razreda
xk sredina razreda
ik širina razreda
ik = xk,max - xk,min
Pri razvrstitvi v razrede moramo predvsem paziti na:
b) Razredov ne sme biti preveč, saj se z večanjem števila razredov zmanjšuje preglednost. Običajno vzamemo 6-12 razredov (število podatkov nad 100).
c) Meje razredov morajo biti točno določene. Nikoli ne smemo biti v dvomih v kateri razred bomo razporedili kakšen podatek, katerega vrednost leži na meji med dvema razredoma.
Glede na postavitev meja ločimo predstavitve z
a) zveznimi mejami
b) nezveznimi mejami
V primeru, da imamo opravka z zveznimi
numeričnimi spremenljivkami, morajo biti tudi
meje zvezne. Običajno podamo v takih primerih
meje v obliki:
nad 10 do 12
nad 12 do 14 itd.
Kadar imamo opravka s količinami, ki zavzamejo le diskretne vrednosti, kot so število glav živine in podobno, lahko meje postavimo nezvezno na naslednji način:
1 do 5
6 do 10
11 do 15 itd.
S takimi mejami je enolično določeno kam sodi
vsaka vrednost spremenljivke.
Glede na širino razredov ločimo frekvenčne
porazdelitve
a) z enako širokimi razredi
b) z različno širokimi razredi
Vrednosti se pojavljajo
po celotnem območju
oz. se vrednosti
najpogosteje pojavljajo
v sredini območja.
Različno široke
razrede pa bomo
uporabili predvsem
tedaj, ko se vrednosti
v prvih (ali v zadnjih)
razredih pojavljajo z
večjo frekvenco kot v
ostalih razredih.
ENAKO ŠIROKI RAZLIČNO ŠIROKI
Število
zaposlenih
Število podjetij
do 100 37
nad 100 do 200 18
nad 200 do 300 7
nad 300 do 400 5
nad 400 do 500 3
Skupaj 70
Denimo da razvrstimo vrednosti gornje numerične
spremenljivke v pet enako širokih razredov. Ker je
najmanjše število zaposlenih 3 in največje 458, lahko
določimo meje razredov takole:
Število
zaposlenih
Število
podjetij
od 1 do 15 4
od 16 do 30 5
od 31 do 60 12
od 61 do 125 19
od 126 do 250 17
od 251 do 500 13
Skupaj 70
Iz prejšnje preglednice je razvidno, da je največje
število enot v prvih dveh razredih. Zato bomo dobili
boljšo sliko o razporeditvi, če razdelimo frekvenčno
porazdelitev v neenako široke razrede, kjer bodo
spodnji razredi ožji, zgornji pa širši. Na ta način
lahko dobimo frekvenčno porazdelitev prikazano
spodaj:
GRAFIČNO PRIKAZOVANJE FREKVENČNIH
PORAZDELITEV
Frekvenčne porazdelitve lahko prikazujemo na
dva načina in sicer s
a) histogrami
b) poligoni
Ob tem moramo najprej ugotoviti ali imamo
opravka s porazdelitvijo, ki ima enako ali
različno široke razrede. Prav tako je
potrebno paziti v primeru, ko imamo nezvezne
meje (naredimo popravek, da so meje zvezne).
HISTOGRAM je grafikon frekvenčne
porazdelitve intervalne ali razmernostne
spremenljivke v pravokotnem koordinatnem
sistemu s pravokotniki, ki se dotikajo drug
drugega. Širina pravokotnika je določena s
širino razreda. Višina pravokotnika pa je
določena na več načinov. Najlažje, kar s
frekvenco razreda. Toda to lahko storimo le v
primeru, ko imamo enako široke razrede. Če
so razredi različno široki je višina določena z
gostoto frekvence.
POLIGON je lomljena črta v pravokotnem
koordinatnem sistemu, kjer so točke lomljenja
določene s sredinami razredov (na abcisni osi) in
frekvencami ali gostotami frekvenc (na ordinatni
osi).
PRIKAZOVANJE FREKVENČNIH
PORAZDELITEV Z ENAKO ŠIROKIMI RAZREDI
Pred začetkom risanja moramo določiti meje
razredov. Kadar so meje določene tako, da je
zgornja meja predhodnega razreda enaka spodnji
meji naslednjega razreda ni težav.
Število
zaposlenih
Število podjetij -
fk
xk,min xk,max
do 100 37 0 100
nad 100 do 200 18 100 200
nad 200 do 300 7 200 300
nad 300 do 400 5 300 400
nad 400 do 500 3 400 500
Skupaj 70
0 100 200 300 400 5000
5
10
15
20
25
30
35
40
število zaposlenih
šte
vilo
podje
tij
HISTOGRAM FREKVENČNE
PORAZDELITVE
Število
zaposlenih
Število podjetij –
fk
xk,min xk,max xk
do 100 37 0 100 50
nad 100 do 200 18 100 200 150
nad 200 do 300 7 200 300 250
nad 300 do 400 5 300 400 350
nad 400 do 500 3 400 500 450
Skupaj 70
0 100 200 300 400 5000
5
10
15
20
25
30
35
40
število zaposlenih
šte
vilo
podje
tij
POLIGON FREKVENČNE
PORAZDELITVE
PRIKAZOVANJE FREKVENČNIH PORAZDELITEV Z
RAZLIČNO ŠIROKIMI RAZREDI
Število
zaposlenih
Število
podjetij fk
xk,min xk,max
od 1 do 15 4 0,5 15,5
od 16 do 30 5 15,5 30,5
od 31 do 60 12 30,5 60,5
od 61 do 125 19 60,5 125,5
od 126 do 250 17 125,5 250,5
od 251 do 500 13 250,5 500,5
Skupaj 70
Mejo med dvema sosednjima razredoma bomo
postavili na sredino njunega presledka. Spodnjo
mejo prvega razreda moramo zmanjšati za
polovični razmik, prav tako pa moramo zgornjo
mejo zadnjega razreda povečati za polovični
razmik.
Že na prvi pogled je očitno, da so enote v prvem
razredu "gosteje" porazdeljene, kot denimo v zadnjem
razredu. Res je, da je v zadnjem razredu približno
trikrat več enot, toda zadnji razred je več kot
desetkrat širši. Zato vpeljimo pojem gostote
frekvence gk. Ta je podana z obrazcem:
.kk
k
fg
i
Število
zaposlenih
Število podjetij -
fk
xk,min xk,max ik gk
od 1 do 15 4 0,5 15,5 15 0,267
od 16 do 30 5 15,5 30,5 15 0,330
od 31 do 60 12 30,5 60,5 30 0,400
od 61 do 125 19 60,5 125,5 65 0,290
od 126 do 250 17 125,5 250,5 125 0,140
od 251 do 500 13 250,5 500,5 250 0,050
Skupaj 70
0 100 200 300 400 5000
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
število zaposlenih
gosto
ta fre
kve
nce
0 100 200 300 400 5000
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
število zaposlenih
gosto
ta fre
kve
nce
Povejmo še, da bi tudi pri enako širokih razredih
lahko na ordinatno os nanašali gostoto frekvence
g. Brez težav ugotovimo, da ostane slika enaka
kot tedaj, ko nanašamo na ordinatno os
frekvence. Spremenijo se le oznake in merilo na y
osi.
KOMULATIVNE FREKVENČNE PORAZDELITVE
Včasih nas zanima, koliko enot ima vrednost pod
spodnjo mejo danega razreda. To dobimo tako, da
poiščemo ustrezno kumulativno frekvenco, ki
jo bomo označevali z oznako Fk. To dobimo tako,
da seštejemo vse frekvence do danega razreda.
Očitno dobimo kumulativno frekvenco tako, da
frekvence postopoma seštevamo. Prvi člen
(kumulativna frekvenca prvega razreda) je enaka
nič, ostale člene pa dobimo s pomočjo obrazca:
Fk+1 = Fk + fk
KOMULATIVNA FREKVENČNA PORAZDELITEV
Število zaposlenih Število podjetij Fk
od 1 do 15 4 0
od 16 do 30 5 4
od 31 do 60 12 9
od 61 do 125 19 21
od 126 do 250 17 40
od 251 do 500 13 57
Skupaj 70 70
Število 70 ni zapisano s krepkimi črkami, saj to število ni vsota
vrednosti v posameznih razredih. To število nam pove, koliko enot
ima manjšo vrednost spremenljivke od zgornje meje zadnjega
razreda.
PRIKAŽIMO SEDAJ KOMULATIVNO FREKVENČNO PORAZDELITEV
GRAFIČNO
Ogiva je lomljena črta v pravokotnem koordinatnem sistemu, ki se uporablja za prikazovanje komulativnih frekvenc. Abcise točk lomljenja so meje razredov, pripadajoče ordinate pa so komulative pripadajočega razreda.
0 100 200 300 400 5000
10
20
30
40
50
60
70
število zaposlenih
F
Primer
Na opazovanem območju je bila na dan 31.12. taka opremljenost s traktorji:
moč v kW št. Traktorjev
nad 21 do 25 362
nad 25 do 35 252
nad 35 do 55 674
nad 55 do 85 69
nad 85 do 150 76
Narišite:
a) histogram
b) poligon
c) ogivo
KVANTILI
Spremenljivka X je številska spremenljivka.
Njene vrednosti uredimo od najmanjše do
največje. Tako urejeno zaporedje imenujemo
ranžirna vrsta. Rang R je zaporedno mesto
vrednosti v ranžirni vrsti. Vsaki vrednosti v
ranžirni vrsti priredimo njen rang. Rang izrazimo
tudi relativno, navadno ga izrazimo v deležih.
Relativni rang označimo s P. Običajno se
uporablja formula:
PR
N
0 5,1
1
N
RP Nekateri,
uporabljajo to
formulo
Torej je
R = NP + 0,5.
Za tako izračunani relativni rang velja 0<P<1.
Popravek 0,5 se uporablja, ker je rang diskretna
količina, relativni rang pa ne. Če je število enot
veliko, je popravek zanemarljiv.
Kvantil razdeli ranžirno vrsto na dva dela. Glede
na to, na kolikšne dele razdeli kvantil ranžirno
vrsto, ločimo mediano, kvartile, decile, centile.
Kvartili (Q1, Q2 in Q3 ) delijo populacijo na štiri enake dele. V vsakem delu je četrtina populacije urejene po velikosti. Tako je denimo v prvem delu prva četrtina populacije z najmanjšo vrednostjo spremenljivke. Omenimo še, da je drugi kvartil enak mediani.
Kvartilni razmik je razlika med tretjim in prvim kvartilom Qr.
Mediana (Me) deli populacijo na dva enaka dela. V prvem je polovica populacije, ki ima vrednost spremenljivke manjšo od mediane, v drugem pa polovica populacije, ki ima vrednost večjo od mediane. Relativni rang za mediano je P=0,5.
Denimo, da smo zbrali podatke o povprečnem
pridelku desetih kultivarjev krompirja na
poskusnih poljih in dobili naslednje rezultate (v
tonah/ha):
Če te podatke uredimo po velikosti dobimo:
xk 28 17 33 26 41 37 28 25 18 22
xk 17 18 22 25 26 28 28 33 37 41
R 1 2 3 4 5 6 7 8 9 10
IZRAČUNAJTE Q1, Q2 IN Q3 , KVARTILNI RAZMIK….
75,0)(
50,0)(
35,025,0)R( 25,0)(
3
2
111
QP
QP
QnQQP
Včasih nas zanima, kako bi se neka nova
vrednost uvrstila v dano ranžirno vrsto. Recimo
na katero mesto bi se uvrstil pridelek 30 ton/ha.
Zanima nas pripadajoči relativni rang.
V takih primerih si pomagamo z linearno
interpolacijo:
00
11
1
0
01
01
0
0
vrednostirang
vrednostirang
vrednostirang
za takojje ki vrste,ranžirne izt vrednos
pred je ki vrste,ranžirne izt vrednos
zanima nas rang katere st, vredno
xR
xR
xR
xx
xx
x
RR
xx
RR
xx
x
x
Iz prejšnje enačbe izrazimo:
Nato uporabimo formulo
01
00
xx
xxRRx
N
RP x
x
5,0
Problem lahko tudi obrnemo. Denimo, da
poznamo rang in nas zanima, kateri vrednosti
pripada:
Denimo rang je 8,5. Izračunajmo vrednost.
))(( 0100 xxRRxx x
Grafično določanje kvantilov za
grupirane podatke:
0 100 200 300 400 5000
10
20
30
40
50
60
70
število zaposlenih
F
0
0
0
1
P
Me
OPREDELITEV OKVIRJA Z ROČAJI ( angl. box plot)
Osamelci so vrednosti spremenljivke, ki so zunaj
intervala (Q 1-1,5Qr, Q 3+1,5Qr), pri tem je Qr=Q3-Q1.
Spodnji ročaj določata vrednosti pogojni Min in Q1,
zgornji ročaj določata vrednosti Q3 in pogojni Max.
Pogojni Min in Max dobimo tako, da poiščemo najmanjšo
in največjo od vrednosti spremenljivke, ki niso osamelci.
Okvir določata kvartila Q1 in Q3, njegovo prečko pa
mediana Q2.
Okvir z ročaji zelo nazorno prikaže obliko porazdelitve
spremenljivke, njene kvartile, variacijski razmik in
kvartilni razmik, ki ga odčitamo v dolžini okvira. Širina
okvira nima nobenega pomena.
Okvir z ročaji je zelo ilustrativen grafični prikaz,
njegovo uporabo priporočamo. Še posebej je
koristen v primeru, ko grafično predstavimo
porazdelitev iste spremenljivke v različnih
skupinah, torej ko primerjamo več okvirjev na
isti sliki. Dobimo globalno sliko o vplivu skupine
na porazdelitev spremenljivke.
Študenti univerzitetnega študija so na kolokviju
iz matematike dosegli naslednje rezultate:
55, 30, 10, 45, 60, 50, 50, 42, 50, 55.
Narišite okvir z ročaji.