základy popisné statistikyfusekmi/esmat/prednaska08.pdf · 2018. 9. 10. · základy...
TRANSCRIPT
Základy popisné statistiky
Michal Fusek
Ústav matematiky FEKT VUT, [email protected]
8. prednáška z ESMAT
Michal Fusek ([email protected]) 1 / 26
Obsah
1 Základy statistického zpracování dat
2 Rozdelení cetností
3 Charakteristiky souboru
Michal Fusek ([email protected]) 2 / 26
Základy statistického zpracování dat
Popisná statistika
Popisná statistika se zabývá shromažd’ováním, trídením apopisem souboru dat.
Predmetem statistiky je také hledání zákonitostí v techto datecha predpoved’ budoucího vývoje.
Pri statistickém šetrení zkoumáme vlastnosti (statistické znaky)urcité skupiny objektu:
zamestnanci (výkonnost, plat, znalost anglictiny)pokusné myši (reakce na podanou látku)výrobky (kvalita)
Statistická jednotka - zkoumaný objekt
Statistický soubor - množina všech statistických jednotek
Michal Fusek ([email protected]) 3 / 26
Základy statistického zpracování dat
Cíl statistického zkoumání - získat poznatky o vlastnostech celéhostatistického souboru.
PríkladStatistický soubor:
množina všech obcanu CR.množina všech studentu na VUT.
Chci zjistit, jaká cást obyvatel (studentu VUT) sleduje seriál Ulice.
Prakticky nemožné - omezíme se pouze na vybranou podmnožinusouboru.
Podle rozsahu rozlišujeme dva typy statistických souboru:Základní soubor (populace) - obsahuje všechny vymezenéjednotky.Výberový soubor (výber) - obsahuje pouze nekteré jednotky.
Michal Fusek ([email protected]) 4 / 26
Základy statistického zpracování dat
Príklad
Provádíme volební pruzkum v CR:Základní soubor - množina všech oprávnených volicu v CR (>8,3milionu, 2018).Výberový soubor - vybraná skupina volicu v pruzkumu (napr. 1000volicu).
Vlastnosti výberového souboru se snažíme zobecnit pro celýzákladní soubor.
Výber musí být reprezentativní! (tzv. náhodný výber)
Pokud se budeme ptát pouze bohatých lidí, volební modelnedopadne dobre pro levicové strany se sociálním programem= nereprezentativní vzorek.
Michal Fusek ([email protected]) 5 / 26
Základy statistického zpracování dat
Statistické znaky delíme na:Kvantitativní - jsou popsané císelnou hodnotou:
Spojité - mohou nabývat hodnot z urcitého intervalu (spotrebaelektriny).
Diskrétní - mohou nabývat pouze hodnot z urcité konecné nebospocetné množiny (pocet detí v rodine).
Kvalitativní - jsou popsány slovne.
Podle poctu sledovaných statistických znaku získáme soubor:jednorozmerný (plat zamestnance)dvourozmerný (výška a váha dítete)vícerozmerný (obyvatel CR: bydlište, datum a místo narození,zamestnání, vzdelání, pohlaví, náboženství,...)
Michal Fusek ([email protected]) 6 / 26
Rozdelení cetností
Rozdelení cetností - diskrétní znaky
Predpokládejme, že v souboru o rozsahu n muže sledovaný znak xnabývat k ruzných hodnot (variant) x1, x2, . . . , xk .Cetnost varianty xi je pocet výskytu této hodnoty ve sledovanémsouboru a oznacíme ji ni , i = 1, . . . , k . Pak platí
n1 + n2 + · · ·+ nk = n.
PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou
2,5,3,2,1,1,2,4,1,3.
ni ...cetnost výskytu známky i , i = 1,2,3,4,5
n1 = 3, n2 = 3, n3 = 2, n4 = 1, n5 = 1
Michal Fusek ([email protected]) 7 / 26
Rozdelení cetností
Co když chceme porovnat rozdelení cetností znaku dvou souboru oruzném rozsahu?
Relativní cetnost varianty xi oznacíme jako
fi =ni
n.
Pro relativní cetnosti platí
f1 + · · ·+ fk =n1
n+ · · · nk
n=
n1 + · · ·+ nk
n= 1.
PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou
2,5,3,2,1,1,2,4,1,3.
fi ...relativní cetnost výskytu známky i , i = 1,2,3,4,5
f1 = 0,3, n2 = 0,3, n3 = 0,2, n4 = 0,1, n5 = 0,1Michal Fusek ([email protected]) 8 / 26
Rozdelení cetností
Kumulativní cetnosti (absolutní nebo relativní) - udávají, kolikjednotek má hodnotu znaku menší nebo rovnou vybrané variante xi .
Varianta znakuCetnost Kumulativní cetnost
absolutní relativní absolutní relativní
x1 n1 f1 n1 f1x2 n2 f2 n1 + n2 f1 + f2...
......
......
xk nk fk n1 + · · ·+ nk = n f1 + · · ·+ fk = 1
Michal Fusek ([email protected]) 9 / 26
Rozdelení cetností
PríkladVe tríde je 10 žáku, jejichž známky z matematiky na vysvedcení jsou
2,5,3,2,1,1,2,4,1,3.
Varianta znakuCetnost Kumulativní cetnost
absolutní relativní absolutní relativní
x1 n1 = 3 f1 = 0,3 3 0,3x2 n2 = 3 f2 = 0,3 6 0,6x3 n3 = 2 f3 = 0,2 8 0,8x4 n4 = 1 f4 = 0,1 9 0,9x5 n5 = 1 f5 = 0,1 10 1
Michal Fusek ([email protected]) 10 / 26
Rozdelení cetností
PríkladZkoumáme vek 70 studentu nastupujících do 1. rocníku vysoké školy.Vek nabývá hodnot z množiny {18,19,20,21,22,23}.
Vek Pocet Relativní Kumulativní Kumulativnístudenta studentu cetnost absolutní relativní
xi ni fi cetnost cetnost
18 1 0,014 1 0,01419 44 0,629 45 0,64320 19 0,271 64 0,91421 3 0,043 67 0,95722 2 0,029 69 0,98623 1 0,014 70 1,000
Michal Fusek ([email protected]) 11 / 26
Rozdelení cetností
Jak data zobrazit?
Spojnicový graf Sloupcový graf
Co když diskrétní znak nabývá príliš mnoha ruzných hodnot?
⇒ Hodnoty seskupíme do intervalu (viz spojité znaky).
Michal Fusek ([email protected]) 12 / 26
Rozdelení cetností
Rozdelení cetností - spojité znaky
Spojité znaky mohou nabývat jakékoli hodnoty z urcitého intervalu.
Hodnoty roztrídíme do intervalu - sestavíme intervalové rozdelenícetností.
Kolik intervalu mám zvolit?
Sturgesovo pravidlo
k .= 1 + log2 n .
= 1 + 3,3 log n.
PríkladZkoumáním prumerné spotreby benzinu u 80 automobilu urcité znackyjsme získali hodnoty (v litrech na 100 km) v rozmezí 6,23 až 10,49.
k = 1 + 3,3 log 80 .= 7
Michal Fusek ([email protected]) 13 / 26
Rozdelení cetností
Príklad
Pocet Relativní Kumulativní KumulativníInterval aut cetnost absolutní relativní
ni fi cetnost cetnost
〈6; 6,5) 3 0,0375 3 0,0375〈6,5; 7) 12 0,1500 15 0,1875〈7; 7,5) 19 0,2375 34 0,4250〈7,5; 8) 15 0,1875 49 0,6125〈8; 8,5) 19 0,2375 68 0,8500〈8,5; 9) 7 0,0875 75 0,9375〈9; 9,5) 3 0,0375 78 0,9750〈9,5; 10) 1 0,0125 79 0,9875〈10; 10,5) 1 0,0125 80 1,0000
Michal Fusek ([email protected]) 14 / 26
Rozdelení cetností
Jak data zobrazit?
Histogram cetností Normovaný histogram
Normovaný histogram vznikne tak, že se relativní cetnosti vydelídélkou dílcího intervalu.
Michal Fusek ([email protected]) 15 / 26
Charakteristiky souboru
Charakteristiky polohyPopisují, kolem jakých hodnot se zkoumaný znak zhruba pohybuje.
Máme-li soubor rozsahu n a zjištené hodnoty znaku jsou x1, . . . , xn,pak jejich aritmetický prumer je
x =x1 + · · ·+ xn
n=
1n
n∑i=1
xi .
Aritmetický prumer znaku, který nabývá hodnot x1, x2, . . . , xk scetnostmi ni a relativními cetnostmi fi , i = 1, . . . , k , lze vypocítat jako
x =1n
k∑i=1
xi · ni =k∑
i=1
xi · fi .
Michal Fusek ([email protected]) 16 / 26
Charakteristiky souboru
Co když zkoumáme spojitý znak a známe pouze rozloženíintervalových cetností?
Mužeme spocítat aritmetický prumer a za hodnoty znaku vzít stredyintervalu (aritmetický prumer však nedostaneme úplne presne).
PríkladVypocítáme prumernou spotrebu benzínu pro hodnoty z predchozíhopríkladu.
Využijeme-li intervalové rozložení cetností a jako reprezentantakaždého intervalu vezmeme jeho stred:
x .=
180
(6,25 · 3 + 6,75 · 12 + · · ·+ 9,75 · 1 + 10,25 · 1) .= 7,74.
Použijeme-li puvodní hodnoty:
x =180
(6,23 + 6,38 + 6,48 + · · · ) .= 7,78.
Michal Fusek ([email protected]) 17 / 26
Charakteristiky souboru
Aritmetický prumer není vždy ideálníObcas nemusí dát dobrou predstavu o typické úrovni hodnot souboru.
PríkladVe firme pracuje 10 radových pracovníku s platem 15 000 Kc, zatímcoreditel má 100 000 Kc. Prumerný plat je pak približne 22 727 Kc.
...zkuste to ríct tem „dole“.
Modus statistického znaku znacíme x a je to hodnota, která se vsouboru vyskytuje nejcasteji.
U spojitých znaku (známe-li intervalové rozdelení cetností)stanovujeme tzv. modální interval.
Michal Fusek ([email protected]) 18 / 26
Charakteristiky souboru
Medián
Medián statistického znaku znacíme x nebo též x0,5. Je to prostredníhodnota ze souboru usporádaného podle velikosti.
Oznacíme-li prvky usporádané podle velikosti jako x(1), x(2), . . . , x(n) apocet prvku n je liché císlo, pak je medián prímo prostrední hodnota, tj.
x = x( n+12 ) .
Je-li rozsah souboru n sudé císlo, je medián prumer ze dvouprostredních prvku, tj.
x =12
(x( n
2)+ x( n
2+1)
).
Michal Fusek ([email protected]) 19 / 26
Charakteristiky souboru
PríkladUrcete medián, jestliže zjištené hodnoty zkoumaného znaku jsou
4,7,3,5,2,4,8,6,3,4,7,2,4,5,5.
Rešení:
Setrídením podle velikosti dostaneme
2,2,3,3,4,4,4,4,5,5,5,6,7,7,8.
Hodnot je celkem 15, medián tedy bude osmá (prostrední) z nich, tj.x = 4.
Michal Fusek ([email protected]) 20 / 26
Charakteristiky souboru
Kvantily
Pro p ∈ (0,1) je p-kvantil xp takové císlo, které oddeluje nejmenšíchp · 100 % hodnot statistického znaku od nejvetších (1− p) · 100 %hodnot.
Speciální prípady kvantilu:Medián x0,5 – delí soubor serazený podle velikosti zkoumanéhoznaku na poloviny.Kvartily x0,25, x0,5, x0,75 – delí soubor na ctvrtiny. Hodnotu x0,25nazýváme první kvartil, druhý kvartil splývá s mediánem ahodnotu x0,75 nazýváme tretí kvartil.Decily x0,1, . . . , x0,9 – delí soubor na desetiny. Mluvíme o prvním,druhém, až devátém decilu.Percentily x0,01, . . . , x0,99 – delí soubor na setiny.
Michal Fusek ([email protected]) 21 / 26
Charakteristiky souboru
Charakteristiky variabilityPopisují rozptýlenost hodnot.
Variacní rozpetí je rozdíl nejvetší a nejmenší hodnoty znaku, tedy
R = xmax − xmin.
Nejjednodušší, ale i nejhrubší míra variability.
Nevýhodou je vliv extrémních hodnot (naprostá vetšina hodnotmuže ležet v intervalu daleko užším).
Mezikvartilové rozpetí je rozdíl tretího a prvního kvartilu:
x0,75 − x0,25.
Michal Fusek ([email protected]) 22 / 26
Charakteristiky souboru
Rozptyl
Rozptyl (populacní, empirický) statistického znaku oznacíme s2n a
definujeme jej jako
s2n =
1n
n∑i=1
(xi − x)2 =
(1n
n∑i=1
x2i
)− x2,
prípadne
s2n =
k∑i=1
(xi − x)2 · fi =
(k∑
i=1
x2i · fi
)− x2,
když znak nabývá hodnot x1, . . . , xk s relativními cetnostmi fi ,i = 1, . . . , k .
Aritmetický prumer ctvercu odchylek jednotlivých hodnot znaku odaritmetického prumeru.Výsledek je ve ctvercích použité merné jednotky (ztežujeinterpretaci).
Michal Fusek ([email protected]) 23 / 26
Charakteristiky souboru
Dva statistické znaky se stejným prumerem a ruznými rozptyly:
Relativní cetnosti pro znaks prumerem x .
= 9 a rozptylems2
n.= 1
Relativní cetnosti pro znaks prumerem x .
= 9 a rozptylems2
n.= 7
Michal Fusek ([email protected]) 24 / 26
Charakteristiky souboru
Dríve predstavený (populacní) rozptyl podhodnocuje skutecný rozptylcelé populace - vychýlený odhad.
Proto se zavádí výberový rozptyl (duležitejší než populacní rozptyl) s2n.
Výberový rozptyl znacíme s2 a je definován jako
s2 =1
n − 1
n∑i=1
(xi − x)2 =
(1
n − 1
n∑i=1
x2i
)− n
n − 1x2,
tedy mezi populacním a výberovým rozptylem je vztah
s2 =n
n − 1s2
n,
Michal Fusek ([email protected]) 25 / 26
Charakteristiky souboru
Smerodatná odchylka
Smerodatná odchylka sn je odmocnina z rozptylu, tedy
sn =
√s2
n =
√√√√1n
n∑i=1
(xi − x)2.
Výberová smerodatná odchylka s je odmocnina z výberovéhorozptylu, tedy
s =√
s2 =
√√√√ 1n − 1
n∑i=1
(xi − x)2.
Je ve stejných jednotkách jako sledovaný znak (lepší interpretacenež rozpyl).
Michal Fusek ([email protected]) 26 / 26