statistika - fsetest.ujep.czfsetest.ujep.cz/img/upload/files/statistika_pruvodce_kurzem.pdf · 5...
TRANSCRIPT
Fakulta sociálně ekonomická
Univerzita J.E.Purkyně v Ústí n.L.
2015
STATISTIKA
Průvodce kurzem
Marta Žambochová
2
Obsah 1 Náhodná veličina ................................................................................................................. 5
1.1 Statistický soubor ........................................................................................................ 6
1.2 Statistické šetření ......................................................................................................... 8
1.3 Četnosti ........................................................................................................................ 9
Kontrolní otázky: .................................................................................................................. 10
Literatura ke kapitole............................................................................................................ 10
2 Kvantily ............................................................................................................................. 10
2.1 Kumulované četnosti ................................................................................................. 11
2.2 Distribuční funkce ..................................................................................................... 12
2.3 Kvantily ..................................................................................................................... 13
Kontrolní otázky: .................................................................................................................. 15
Literatura ke kapitole............................................................................................................ 15
3 Deskriptivní charakteristiky kvantitativních veličin, obecné momenty ............................ 16
3.1 Obecné momenty ....................................................................................................... 16
3.2 Chování aritmetického průměru při aditivní a multiplikativní transformaci ............. 19
3.3 Ostatní průměry ......................................................................................................... 19
Kontrolní otázky: .................................................................................................................. 21
Literatura ke kapitole............................................................................................................ 22
4 Centrované momenty......................................................................................................... 23
4.1 Centrované momenty................................................................................................. 23
4.2 Chování rozptylu při aditivní a multiplikativní transformaci .................................... 25
4.3 Ostatní míry variability.............................................................................................. 26
Kontrolní otázky: .................................................................................................................. 26
Literatura ke kapitole............................................................................................................ 27
5 Základy teorie pravděpodobnosti ...................................................................................... 28
5.1 Náhodný pokus, náhodný jev .................................................................................... 28
5.2 Pravděpodobnost ....................................................................................................... 30
5.3 Operace s jevy ........................................................................................................... 31
3
5.4 Nezávislost jevů......................................................................................................... 34
5.5 Příklady na výpočet pravděpodobnosti...................................................................... 35
Kontrolní otázky: .................................................................................................................. 41
Literatura ke kapitole............................................................................................................ 42
6 Pravděpodobnostní rozdělení náhodné veličiny, diskrétní typy rozdělení ........................ 43
6.1 Základní pojmy .......................................................................................................... 43
6.2 Typy příkladů s využitím teorie o diskrétních rozděleních ....................................... 45
Kontrolní otázky: .................................................................................................................. 49
Literatura ke kapitole............................................................................................................ 49
7 Spojité typy rozdělení ........................................................................................................ 51
7.1 Základní pojmy .......................................................................................................... 51
7.2 Typy příkladů s využitím teorie o normálním rozdělení ........................................... 53
Kontrolní otázky: .................................................................................................................. 54
Literatura ke kapitole............................................................................................................ 54
8 Úvod do teorie odhadů ...................................................................................................... 56
8.1 Teoretický úvod ......................................................................................................... 56
8.2 Vzorové příklady ....................................................................................................... 57
Kontrolní otázky: .................................................................................................................. 59
Literatura ke kapitole............................................................................................................ 60
9 Princip testování hypotéz .................................................................................................. 61
9.1 Princip testování hypotéz .......................................................................................... 61
9.2 Typy testování hypotéz.............................................................................................. 63
9.3 Parametrické testy ..................................................................................................... 63
9.4 Párový t-test ............................................................................................................... 65
9.5 Vzorové příklady ....................................................................................................... 65
Kontrolní otázky: .................................................................................................................. 67
Literatura ke kapitole............................................................................................................ 68
10 Analýza rozptylu ANOVA ............................................................................................ 69
10.1 Úvod do problematiky ........................................................................................... 69
4
10.2 Popis použití testu .................................................................................................. 70
10.3 Vzorový příklad ..................................................................................................... 71
Kontrolní otázky: .................................................................................................................. 73
Literatura ke kapitole............................................................................................................ 73
11 Testy 2 .......................................................................................................................... 74
11.1 Úvod do problematiky ........................................................................................... 74
11.2 2 test dobré shody ................................................................................................ 75
11.3 2 test nezávislosti ................................................................................................. 77
Kontrolní otázky: .................................................................................................................. 79
Literatura ke kapitole............................................................................................................ 79
12 Závislost mezi spojitými veličinami .............................................................................. 80
12.1 Úvod do problematiky ........................................................................................... 80
12.2 Lineární regrese ..................................................................................................... 81
12.3 Kvalita regresních modelů ..................................................................................... 82
Kontrolní otázky: .................................................................................................................. 84
Literatura ke kapitole............................................................................................................ 84
13 Časové řady ................................................................................................................... 86
13.1 Úvod do problematiky ........................................................................................... 86
13.2 Základní charakteristiky časových řad .................................................................. 88
13.3 Modely časových řad ............................................................................................. 90
Kontrolní otázky: .................................................................................................................. 91
Literatura ke kapitole............................................................................................................ 91
Seznam literatury ...................................................................................................................... 92
Příloha 1 – Normální normované rozdělení ............................................................................. 93
Příloha 2 – t- rozdělení ............................................................................................................. 94
Příloha 3 – 2- rozdělení ........................................................................................................... 95
Příloha 4 – F- rozdělení ............................................................................................................ 96
5
Průvodce kurzem Statistika
Statistika je vědní obor, který zkoumá reálná data a s pomocí teorie pravděpodobnosti se tato
data snaží popisovat. Statistiky bývá zařazena jako součást teorie rozhodování. Již ve svých
začátcích sloužila statistika státníkům při řízení státu. Její název byl odvozen z latinského
STATUS = stát.
V následujícím materiálu se seznámíme se základy statistiky a teorie pravděpodobnosti,
speciálně s aparátem a metodami, které se používají při aplikaci poznatků z odborných
předmětů. Budou popsány základní početní postupy při řešení běžných statistických
problémů, tak, abychom byli schopni rozeznat, v jakých konkrétních případech dané metody
použít a zjištěné výsledky interpretovat a převést do praxe.
Materiál je zaměřen na:
• deskriptivní statistiku,
• pravděpodobnostní modely,
• základní metody statistické indukce,
• a jejich uplatnění při analýze společenských jevů.
Po úspěšném absolvování kurzu budete schopni používat základní početní postupy při řešení
běžných statistických problémů, budete schopni rozeznat, v jakých konkrétních případech
dané metody použít a budete schopni zjištěné výsledky interpretovat a převést do praxe.
Kurz je zakončen zápočtem a písemnou zkouškou.
1 Náhodná veličina
Cílem této kapitoly je přiblížení a vysvětlení podstaty základního předmětu zkoumání
statistiky.
Po prostudování této kapitoly byste měli být schopni:
• pochopit problematiku statistických dat,
• definovat a určit druhy dat v daném konkrétním praktickém případě,
• určit způsob získání potřebných dat,
• vytvořit tabulku četností pro vhodné statistické znaky,
• určit modální hodnotu těchto znaků.
6
Kapitola je členěna do těchto dílčích témat
• Statistický soubor
• Statistické šetření
• Četnosti
1.1 Statistický soubor
V následujícím textu se budeme setkávat s pojmem statistický znak. Zjednodušeně jej
můžeme chápat jako údaj, který nás zajímá, který zpracováváme. Obdobně můžeme, opět
zjednodušeně, chápat i pojem náhodná veličina. Tento pojem je jistým zobecněním
předchozího pojmu. Pojem náhodná veličina je obecnější a mnohem více abstraktní. Pro účely
tohoto základního kurzu nebude příliš vadit, pokud se nám tyto dva pojmy budou překrývat.
Musíme mít ovšem na paměti toto zjednodušení. V dalším textu vždy zdůrazníme, pokud
bude potřeba jejich odlišení.
Statistická jednotka – objekt statistického zkoumání, nutno přesně a jednoznačně vymezit
na počátku každého statistického zkoumání.
Statistickou jednotku je nutno jednoznačně definovat, a to: věcně
místně
časově
Například můžeme definovat, že naší statistickou jednotkou bude fyzická osoba, která byla
k půlnoci 1. ledna 20015 občanem ČR.
Pozor, tato definice musí být opravdu jednoznačná, např. pojem „byt“ není zcela jednoznačný
(některé byty se nevyužívají k bydlení, a někdy se bydlí v nebytových prostorách), dle situace
by bylo nutno upřesnit.
Nepřesnost ale může nastat i třeba při časovém určení. V určitých situacích přesný okamžik
nemusí být zjistitelný nebo rozhodující (například zápis do registru nemovitostí – v tomto
případě by bylo správné jako časové určení zadat pouze přesné datum, v jiných případech
může být správné udat pouze měsíc, nebo dokonce pouze rok).
Statistický soubor – soubor všech sledovaných statistických jednotek.
Známe dva základní typy statistických souborů, a to:
7
základní (populační) – vznikne na základě úplného šetření (příkladem jsou všechny
osoby splňující předchozí definici),
výběrový – vznikne na základě výběrového šetření (příkladem jsou osoby splňující
předchozí definici, které byly osloveny např. při průzkumu volebních preferencí).
Statistický znak (statistická veličina) – co konkrétně na zkoumaných objektech sledujeme.
Statistické znaky dělíme do následujících skupin:
nominální – hodnoty znaku lze pouze porovnávat rovná-nerovná (př. pohlaví, barva
očí, místo narození, telefonní číslo, …)
ordinální – hodnoty znaku lze jednak porovnávat rovná-nerovná, ale navíc je můžeme
uspořádat dle objektivní stupnice ve smyslu méně-více, lepší-horší, starší-mladší,
nižší-vyšší, … (př. vojenská hodnost, vzdělání, výsledek hodnocení zkoušky na VŠ,
úroveň spokojenosti, …)
kardinální – kromě úkonů, které lze vykonávat s hodnotami ordinálních znaků má
smysl s hodnotami kardinálních znaků nějakým způsobem počítat, ať už sčítat, odčítat,
násobit či dělit (př. počet dětí v rodině, čistý měsíční příjem jedince, počet
zaměstnanců ve firmě, věk osoby, tržby prodejny, HDP státu, …). Kardinální znaky se
ještě dělí do dvou významných skupin, a to
diskrétní – nabývají pouze omezeného počtu různých hodnot, tvoří se skupiny
statistických jednotek majících shodnou hodnotu tohoto znaku (př. počet členů
domácnosti, počet místností v bytě, délka studia v letech, …)
spojité – nabývají nekonečně mnoha, nebo aspoň velmi širokého spektra
různých hodnot, netvoří se významně veliké skupiny statistických jednotek
majících stejnou hodnotu tohoto znaku (př. obytná plocha bytu, nájemné, roční
zisk firmy, …)
Kromě tohoto základního dělení ještě za zmínku stojí následující pojmy týkající se typů
statistických znaků.
alternativní – speciální podskupina nominálních znaků. Alternativní znaky nabývají
pouze dvou hodnot, a to např. voják-nevoják, student-nestudent, muž-žena, …
kvalitativní – toto pojmenování používáme pro nominální a ordinální znaky
dohromady. Z názvu je zřejmé, že tyto znaky vyjadřují jistou kvalitu statistické
jednotky.
8
kvantitativní – jiné pojmenování pro kardinální znaky. Z názvu je zřejmé, že tyto
znaky vyjadřují jistou kvantitu statistické jednotky.
kategoriální – jedná se o společné pojmenování nominálních, ordinálních a
kardinálních-diskrétních znaků. Ve statistickém souboru se vytvářejí skupinky =
kategorie, v nich všechny statistické jednotky nabývají stejné hodnoty tohoto znaku.
1.2 Statistické šetření
Statistické šetření nám říká, jak dané informace získáváme, známe dva základní typy, a to
úplné šetření – získáváme informace o všech statistických jednotkách,
výběrové šetření – získáváme informace pouze o některých, speciálním způsobem
vybraných statistických jednotkách.
Výběry provádíme metodami náhodného, nebo metodami záměrného výběru. Výběr by měl
být reprezentativní, tedy měl by mít podobné složení jako celá populace vzhledem ke
sledovaným veličinám.
Jaké jsou nevýhody versus výhody výběru?
neúplnost informace
rychlejší a levnější informace
ČSÚ například jedenkrát za deset let provádí sčítání lidu. V mezidobí sčítání lidu se však
čtvrtletně provádí pouze výběrová šetření.
Známe několik druhů
zcela (prostý) náhodný – musí být zaručeno, aby každý objekt populace měl stejnou
možnost být zařazen do výběru, provádí se např. různými formami losování,
systematický – předem musí být dáno určité uspořádání populace, následně pak
vybíráme například každý desátý objekt populace,
stratifikovaný (oblastní) – populace je předem rozdělena do jistých skupin (např.
regionálních, věkových, vzdělanostních, …), z každé této skupiny je pak vybrán
vzorek metodou náhodného prostého výběru,
skupinový – nevybíráme jednotlivé objekty populace ale celé skupiny,
9
vícestupňový – je založen na jistém hierarchickém uspořádání populace (např. stát –
kraj – okres – obec – ulice – dům – byt – osoba).
1.3 Četnosti
Četnosti má smysl určovat pouze u veličin kategoriálních. Četnosti zaznamenáváme do
tabulky četností. Pokud je to možné, seřadíme jednotlivé kategorie vzestupně podle jejich
hodnot. Hodnoty znaku označujeme malými písmeny z konce abecedy, např xi. Známe dva
základní typy četností, a to:
absolutní četnost – počet výskytů dané hodnoty daného statistického znaku v celém
statistickém souboru, značíme ni
relativní četnost – relativní výskyt dané hodnoty daného statistického znaku v celém
statistickém souboru (tj. jak velkou část z celku tvoří tato hodnota), značíme pi.
Musí platit, že součet všech absolutních četností musí být roven celkovému počtu pozorování,
tedy počtu sledovaných statistických jednotek, který značíme n.
Mezi absolutními a relativními četnostmi platí následující vztah.
Součet všech relativních četností musí pak být roven jedné.
Modus (modální hodnota) – nejvíce se vyskytující hodnota sledovaného statistického
znaku, značíme .
Příklad:
U dvanácti studentů 1. ročníku VŠ byl zjištěn jejich věk, a to 18, 20, 19, 18, 19, 19, 20, 19,
18, 19, 19, 20. Vytvoříme následující tabulku četností.
xi 18 19 20 celkem
ni 3 6 3 12
pi 0,25 0,5 0,25 1
10
Např. hodnotu n1 = 3 můžeme interpretovat slovy: „Mezi sledovanými studenty byli 3
osmnáctiletí.“ a hodnotu p3 = 0,25 můžeme interpretovat slovy: „25 % sledovaných studentů
bylo dvacetiletých.“
Z tabulky vidíme, že modus nabývá hodnoty . Tuto modální hodnotu můžeme
interpretovat slovy: „Mezi sledovanými studenty bylo nejvíce devatenáctiletých.“
Kontrolní otázky:
• Definujte přesně statistickou jednotku v případě Sčítání lidu.
• Určete co nejpřesněji druhy následujících statistických znaků
• příjmení respondenta
• pohlaví
• vzdělání
• počet dětí
• věk
• měsíční příjem
• rodné číslo
• psč
• Vytvořte tabulku četností pro statistický znak pohlaví, pokud máme následující
pozorování: muž, muž, žena, žena, žena, žena, muž, žena, muž, žena, žena.
• Určete modální hodnotu v předchozím případu.
Literatura ke kapitole
• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí
nad Labem 1996, 98 s. ISBN 80-7044-143-7.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Popisná statistika, Masarykova
univerzita, Brno 2007, 48 s., ISBN 978-80-21042-46-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
11
2 Kvantily
Cílem této kapitoly je seznámení s možnostmi základního deskriptivního statistického
zpracování kvantitativních statistických znaků založeného na uspořádání jednotlivých hodnot.
Po prostudování této kapitoly byste měli být schopni:
• vytvořit úplnou tabulku četností pro alespoň ordinální znaky (včetně kumulovaných
četností),
• určit výslednou hodnotu distribuční funkce pro libovolně zvolenou zadanou hodnotu,
• sestrojit graf distribuční funkce,
• určit hodnotu libovolného kvantilu, a to na základě definice kvantilu, na základě
tabulky četností i na základě grafu distribuční funkce,
• vypočítané hodnoty přesně interpretovat.
Kapitola je členěna do těchto dílčích témat
• Kumulované četnosti
• Distribuční funkce
• Kvantily
2.1 Kumulované četnosti
Je-li sledovaná veličina uspořádaná (tedy jakákoliv veličina s výjimkou nominální), oba typy
četností můžeme postupně načítat, nebo-li kumululovat. Takto získáme tzv. kumulované
četnosti.
Kumulovaná absolutní četnost – počet výskytů pozorování s hodnotou, která je menší
nebo rovna hodnotě dané kategorie, značíme ni*.
Kumulovaná relativní četnost – relativní výskyt pozorování s hodnotou, která je menší
nebo rovna hodnotě dané kategorie, značíme pi*.
Pro kumulované četnosti platí následující vztahy:
Poznámka: Sčítat kumulované četnosti nemá smysl, proto součtový sloupec tabulky četností
v těchto řádcích proškrtáváme.
12
Příklad:
V předchozím příkladu můžeme tabulku četností rozšířit o řádky obsahující jednak absolutní a
jednak relativní kumulované četnosti.
xi 18 19 20 celkem
ni 3 6 3 12
pi 0,25 0,5 0,25 1
ni* 3 9 12 x pi* 0,25 0,75 1 x
Například hodnotu n2* = 9 můžeme interpretovat následovně: „Ve sledovaném vzorku bylo 9
studentů, kterým je maximálně 19 let.“
2.2 Distribuční funkce
Distribuční funkce je reálnou funkcí jedné proměnné. Je definována pro všechna reálná čísla.
Značíme ji velkým písmenem F. Jedná se o jakési zobecnění pojmu kumulovaná relativní
četnost. Například pokud pro veličinu počet dětí nabývá distribuční funkce v bodě 2 hodnoty
0,75, znamená to, že 75 % dotazovaných má nejvýše 2 děti. Matematický zápis F(2) = 0,75.
Distribuční funkce – funkce jedné reálné proměnné, slouží k popisu rozdělení (distribuce)
číselných dat, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),
značíme F(x);
Stručně můžeme předpis pro distribuční funkci psát takto: F(x) = p(X ≤ x)
Základní vlastnosti distribuční funkce:
je neklesající
je po částech konstantní
je „schodovitá“
nabývá hodnot od 0 do 1
Příklad:
Na základě údajů z předchozího příkladu vypočítáme a interpretujeme následující hodnoty
distribuční funkce:
F(-258,3) = p(X -258,3) = 0
(nebo-li, není žádný student, jehož věk by byl maximálně roven -258,3)
F(0) = p(X 0) = 0
(nebo-li, není žádný student, jehož věk by byl maximálně roven 0)
F(4) = p(X 4) = 0
13
(nebo-li, není žádný student, jehož věk by byl maximálně roven 4)
F(18) = p(X 18) = 0,25
(nebo-li, ve vzorku je 25 % studentů, jejichž věk je maximálně roven 18)
F(18,3) = p(X 18,3) = 0,25
(nebo-li, ve vzorku je 25 % studentů, jejichž věk je maximálně roven 18,3)
F(19) = p(X 19) = 0,75
(nebo-li, ve vzorku je 75 % studentů, jejichž věk je maximálně roven 19)
F(19,8) = p(X 19,8) = 0,75
(nebo-li, ve vzorku je 75 % studentů, jejichž věk je maximálně roven 19,8)
F(20) = p(X 20) = 1
(nebo-li, ve vzorku je 100 % studentů, jejichž věk je maximálně roven 20)
F(365,9) = p(X 365,9) = 1
(nebo-li, ve vzorku je 100 % studentů, jejichž věk je maximálně roven 365,9)
Distribuční funkce z našeho příkladu má tedy následující graf.
2.3 Kvantily
Kvantily podávají více méně stejnou informaci jako distribuční funkce. Mezi distribuční
funkcí a kvantily je však jakýsi „inverzní“, opačný vztah.
Kvantil – pro číselnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl
pozorování, značíme px~ , kde p je onen podíl (údaj mezi 0 – 1)
14
Některé často používané kvantily mají svá jména, např.:
p = 0,5 … 50% kvantil – medián
(odděluje polovinu nižších od zbytku vyšších pozorování; značen obvykle jen x~ )
p = 0,25 … 25% kvantil – dolní kvartil 25,0~x
p = 0,75 … 75% kvantil – horní kvartil 75,0~x
p = 0,1 … 10% kvantil – dolní decil 1,0~x
p = 0,9 … 90% kvantil – horní decil 9,0~x
Příklad využití kvartilů je vidět v následujícím obrázku, kde jsou znázorněny dva grafy, tzv.
BoxPloty, neboli krabičkové grafy. Výška těchto „krabiček“ představuje tzv. kvartilové
rozpětí, neboli rozdíl horního a dolního kvartilu.
Určení kvantilů pomocí distribuční funkce:
Najdeme bod x, v němž poprvé F(x) dosáhne úroveň p.
Určení přímo pomocí dat
1. Data uspořádáme vzestupně dle velikosti
2. Nalezneme celočíselné z vyhovující nerovnicím:
n·p < z < n·p +1
3. Hledaným kvantilem je hodnota s pořadovým číslem z.
Příklad:
Na základě údajů z předchozího příkladu vypočítáme a interpretujeme následující kvantily:
medián … x~ = 19
(nebo-li, 50 % studentů v našem vzorku dosahuje věku maximálně 19 let)
15
dolní kvartil … 25,0~x = 18
(nebo-li, 25 % studentů v našem vzorku dosahuje věku maximálně 18 let)
horní kvartil … 75,0~x = 19
(nebo-li, 75 % studentů v našem vzorku dosahuje věku maximálně 19 let)
dolní decil … 1,0~x = 18
(nebo-li, 10 % studentů v našem vzorku dosahuje věku maximálně 18 let)
horní decil … 9,0~x = 20
(nebo-li, 90 % studentů v našem vzorku dosahuje věku maximálně 20 let)
60% kvantil … 60,0~x = 19
(nebo-li, 60 % studentů v našem vzorku dosahuje věku maximálně 19 let)
Kontrolní otázky:
• Interpretujte co nejvýstižněji informaci, že pro statistický znak „mzda“ je hodnota
distribuční funkce F(20 000)=0,7.
• Interpretujte co nejvýstižněji informaci, že pro statistický znak „mzda“ je hodnota
horního decilu rovna 50 000.
• Vytvořte úplnou tabulku četností pro statistický znak počet dětí, pokud máme
následující pozorování: 1, 4, 0, 1, 2, 1, 0, 1, 2, 0, 1, 1, 0, 3, 1, 2, 0, 2.
• Určete následující hodnoty distribuční funkce této veličiny: F(-3), F(0), F(2,5), F(4),
F(5,6).
• Sestrojte graf zmíněné distribuční funkce.
• Určete hodnoty následujících kvantilů: dolní decil, horní kvartil, medián, 88% kvantil.
Literatura ke kapitole
• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí
nad Labem 1996, 98 s. ISBN 80-7044-143-7.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
16
3 Deskriptivní charakteristiky kvantitativních veličin, obecné
momenty
Cílem této kapitoly je seznámení s první skupinou momentů, konkrétně
s obecnými momenty. Do této skupiny mimo jiné patří aritmetický průměr. Dále se
seznámíme s dalšími typy průměrů, které je možno použít v případech, kdy je nemožné
využití aritmetického průměru. Zdůrazněme, že průměry a momenty má smysl počítat pouze
pro kardinální typy veličin.
Po prostudování této kapitoly byste měli být schopni:
• rozpoznat, kdy využít který typ průměru,
• vypočítat tři základní typy průměrů (aritmetický, geometrický, harmonický), a to
všemi způsoby výpočtu (prostý, vážený s absolutními četnostmi, vážený s relativními
četnostmi).
Kapitola je členěna do těchto dílčích témat
• Obecné momenty
• Chování aritmetického průměru při aditivní a multiplikativní transformaci
• Ostatní průměry
3.1 Obecné momenty
Nejprve si v krátkosti můžeme přiblížit pojem moment, přesněji řečeno l-tý moment kolem
konstanty a. Na rozdíl od kvantilů kvantitativnıího statistického znaku x, které jsou vždy
určitými konkrétními jednotlivými hodnotami, jsou momenty vždy funkcemi všech hodnot
daného znaku v daném souboru. V momentech jsou sledovány určité odchylky jednotlivých
naměřených hodnot statistického znaku od předem dané konstanty. Toto je znázorněno na
následujícím obrázku.
l-tý moment kolem konstanty a pak je dán následujícím vzorcem.
x1 x2 a
17
Pro a = 0 dostáváme l-tý moment x kolem nuly a takovýto moment nazýváme l-tý obecný
moment x. Nejdůležitějším a nejvíce používaným obecným moment je první, který známe pod
názvem aritmetický průměr
První obecný moment – aritmetický průměr, „těžiště“ dat, používáme v případě, kdy má
smysl sčítat jednotlivé hodnoty statistického znaku, značíme x .
Aritmetický průměr můžeme počítat několika způsoby, a to v závislosti na způsobu zadání
dat. První způsob, tzv. prostý tvar výpočtu, použijeme v případě, že máme zadány všechny
hodnoty souboru výčtem. V případě, že máme data zadaná ve formě tabulky četností,
použijeme tvar vzorce pro využití absolutních, respektive relativních četností.
n
x
x
n
i
i 1 prostý tvar
n
xn
x
k
i
ii
1 za využití absolutních četností
n
i
ii xpx1
za využití relativních četností
Druhý obecný moment - aritmetický průměr druhých mocnin, značíme 2x .
Druhý obecný moment nemá žádný zásadní interpretační význam. Slouží však jako jistý
„polotovar“ k výpočtu některých jiných charakteristik. Obdobně jako u prvního obecného
momentu máme tři formy vzorce pro výpočet.
n
x
x
n
i
i 1
2
2 prostý tvar
n
xn
x
k
i
ii
1
2
2 za využití absolutních četností
n
i
ii xpx1
22 za využití relativních četností
18
Příklad:
Připomeňme data z našeho příkladu.
Sledovali jsme dvanáct studentů,jejichž věky byl 18, 20, 19, 18, 19, 19, 20, 19, 18, 19, 19, 20.
Výpočty prvního a druhého momentu pomocí vzorců v prostém tvaru budou následující:
Tabulka četností byla následující.
xi 18 19 20 celkem
ni 3 6 3 12
pi 0,25 0,5 0,25 1
Výpočty prvního a druhého momentu pomocí vzorců za využití absolutních četností budou
následující:
Výpočty prvního a druhého momentu pomocí vzorců za využití relativních četností budou
následující:
Vidíme, že při výpočtu libovolným způsobem dostáváme shodné výsledky.
19
3.2 Chování aritmetického průměru při aditivní a multiplikativní
transformaci
Chování aritmetického průměru při aditivní transformaci – pokud známe hodnotu
aritmetického průměru nějakého souboru dat. Pokud každé pozorování změníme o konstantu
c (tzn. přičteme konstantu c), pak se hodnota aritmetického průměru změní o stejnou
konstantu.
Chování aritmetického průměru při multiplikativní transformaci – pokud známe hodnotu
aritmetického průměru nějakého souboru dat. Pokud každé pozorování vynásobíme
konstantou c, pak hodnotu aritmetického průměru musíme vynásobit stejnou konstantou.
Příklad:
Víme, že průměrná mzda ve firmě je 24 000 Kč. Každému zaměstnanci firmy zvýšíme plat o
10 %. Jak se změní hodnota průměrné mzdy ve firmě?
Co znamená zvýšení platu o 10%?
X + 10 % z X = X + 0,1X = 1,1X
Každý plat násobíme konstantou 1,1.
Průměrná mzda se tedy změní stejně, bude vynásobena 1,1 krát – tj. zvýší se o 10 %.
24 000 . 1,1 = 26 400 Kč
3.3 Ostatní průměry
Jak jsme v definici aritmetického průměru, nebo-li prvního obecného momentu uvedli, jeho
použití je omezeno pouze na případ, že má smysl sčítat jednotlivé položky souboru. Co však
dělat v případě, že toto sčítání smysl nemá? K tomuto účelu jsou určeny jiné typy průměrů.
V našem materiálu si uvedeme dva nejdůležitější z nich, a to geometrický a harmonický
průměr. Ve vzorcích opět uvedeme prosté tvary i tvary využívající četností.
Geometrický průměr – využívá se v případě, kdy nemá smysl jednotlivé hodnoty sčítat,
ale násobit (např. různé koeficienty či procenta), značíme jej Gx .
k
i
p
in
k
i
n
in
n
i
iGii xxxx
111
20
Harmonický průměr – využívá se v některých případech, kdy hodnoty sledovaného
statistického znaku mají jednotky ve tvaru zlomku (např. rychlost, hustota osídlení),
značíme jej Hx .
k
i i
in
i i
H
x
n
n
x
nx
11
1
Příklad:
V průběhu let proběhlo několikrát zdražení využívané služby. Poprvé na dvojnásobek, poté na
trojnásobek a nakonec na čtyřnásobek. Jaké bylo celkové zdražení? Jaké bylo průměrné
zdražení?
Je celkové zdražení vypočteno následovně?
2 + 3 + 4 = 9 … Celkové zdražení je na devítinásobek?
A je průměrné zdražení vypočteno následovně?
?
Pokud naše služba původně stála 100, pak po prvním zdražení 100 . 2 = 200, po druhém
200 . 3 = 600 a po posledním zdražení 600 . 4 = 2 400.
Celkové zdražení je tedy na 24 násobek.
Pokud tedy nemá smysl celkové zdražení počítat 2 + 3 + 4 = 9, ale 2 . 3 . 4 = 24, je zřejmé,
nemá smysl sčítání, ale násobení.
K výpočtu průměrného zdražení je nutno použít geometrický průměr:
Příklad.
Peníze v bance jsme měli úrokovány v prvním roce 10 %, v druhém 20 % a v třetím 30 % .
Jaká byla průměrná úroková sazba?
Byla ?
Ověření:
V bance jsme měli původně 100, tedy po prvním roce 110, po druhém 132 a po třetím 171,6.
V případě využití průměrné úrokové sazby máme po prvním roce 120, po druhém 144 a po
třetím 172,8.
Tedy výpočet je chybný.
8845,24323 Gx
33
432
203
302010
21
Použijeme k výpočtu geometrický průměr následovně?
Ověření:
Po prvním roce této průměrné sazby máme 118,17, po druhém 139,64 a po třetím 165,01.
Tedy opět špatně.
NUTNO SI UVĚDOMIT, ŽE PŘIČÍTÁNÍ % ZNAMENÁ NÁSOBENÍ KONSTANTOU!!!
Tedy správný výpočet je:
Ověření:
Po prvním roce této úrokové sazby máme 119,72, po druhém 143,33 a po třetím 171,60.
Tedy máme konečně správný výsledek!!!
Příklad:
Na dovolenou jsme jeli nejprve 50km rychlostí 10 km/h a pak 200 km rychlostí 100 km/h.
Jaká byla naše průměrná rychlost?
ALE POZOR!!!
Příklad:
Na dovolenou jsme jeli nejprve 5 hodin rychlostí 10 km/h a pak 2 hodiny rychlostí 100 km/h.
Jaká byla naše průměrná rychlost?
Kontrolní otázky:
• Vypočítejte průměrný počet dětí z údajů uvedených v předchozí kapitole.
• Jaký průměr je správné využít, pokud chceme vypočítat průměrnou úrokovou míru v
případě hypotéky, kterou jsme měli prvních pět let úročenou 5% a následujících 10 let
4%?
• Jaký průměr je správné využít v případu, kdy chceme spočítat průměrnou úrokovou
míru našeho portfolia, pokud ¼ našeho vkladu máme uloženou
17,183020103
1972,13,12,11,13
71,35
100
200
10
50
20050
Hv
71,3525
1002105
v
22
v bance, která nám dává úrok 2% a zbytek peněz máme uložen v jiné bance, kde
máme úrok 1,5%?
• Jakým průměrem vypočítáme průměrnou rychlost, pokud víme, že jsme
10 km jeli rychlostí 50 km/h a 60 km jsme jeli rychlostí 90 km/h?
• Jakým průměrem vypočítáme průměrnou rychlost, pokud víme, že jsme 2,5 hodiny
jeli rychlostí 80km/h a 4 hodiny jsme jeli rychlostí 100km/h?
Literatura ke kapitole
• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí
nad Labem 1996, 98 s. ISBN 80-7044-143-7.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Popisná statistika, Masarykova
univerzita, Brno 2007, 48 s., ISBN 978-80-21042-46-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
23
4 Centrované momenty
Cílem této kapitoly je seznámení s druhou významnou skupinou momentů,
a to centrovanými momenty. Do této skupiny mimo jiné patří rozptyl, který se naučíme
počítat různými způsoby.
Po prostudování této kapitoly byste měli být schopni:
• pochopit smysl rozptylu a jiných měr variability s rozptylem spojených,
• vypočítat všechny probrané charakteristiky různými způsoby,
• vypočítané hodnoty umět interpretovat a využít k dalším účelům.
Kapitola je členěna do těchto dílčích témat
• Centrované momenty
• Chování rozptylu při aditivní a multiplikativní transformaci
• Ostatní míry variability
4.1 Centrované momenty
Centrované momenty rozumíme momenty kolem centra, tzn. kolem prvního obecného
momentu, nebo-li kolem aritmetického průměru.
První centrovaný moment:
0
)(111
1
xxn
x
n
x
n
xx
M
n
i
n
i
i
n
i
iX
První centrovaný moment je vždy roven 0!
Druhý centrovaný moment = ROZPTYL aneb „průměrná čtvercová odchylka od
aritmetického průměru“, značíme XM 2 .
Pomocí této charakteristiky popisujeme variabilitu dat, tedy do jaké míry jsou si sledované
hodnoty vzájemně podobné. Tímto způsobem můžeme například posuzovat stabilitu
ekonomických výsledků nějaké firmy či několika firem vzájemně.
Opět si uvedeme vzorce jak ve tvaru prostém, tak ve tvaru využívajícím četností.
24
n
xx
M
n
i
iX
1
2
2
)(
prostý tvar
n
xxn
M
k
i
iiX
1
2
2
)(
za využití absolutních četností
k
i
ii
X xxpM1
2
2 )( za využití relativních četností
22
2 xxM X výpočetní tvar- na základě obecných momentů
Poznámka:
Vždy musí vyjít M2(x) ≥ 0 (rozptyl je vždy nezáporný)!
Příklad:
Připomeňme data z našeho příkladu.
Sledovali jsme dvanáct studentů,jejichž věky byl 18, 20, 19, 18, 19, 19, 20, 19, 18, 19, 19, 20.
Výpočet centrovaného momentu pomocí vzorce v prostém tvaru bude následující:
Tabulka četností byla následující.
xi 18 19 20 celkem
ni 3 6 3 12
pi 0,25 0,5 0,25 1
Výpočty druhého centrovaného momentu pomocí vzorců za využití absolutních četností
budou následující:
25
Výpočty druhého centrovaného momentu pomocí vzorců za využití relativních četností budou
následující:
Výpočet druhého centrovaného momentu, nebo-li rozptylu pomocí obecných momentů bude
následující:
Vidíme, že při výpočtu libovolným způsobem dostáváme shodné výsledky.
4.2 Chování rozptylu při aditivní a multiplikativní transformaci
Chování rozptylu při aditivní transformaci – pokud známe hodnotu rozptylu nějakého souboru
dat. Pokud každé pozorování změníme o konstantu c (tzn. přičteme konstantu c), pak se
hodnota rozptylu nezmění.
Chování rozptylu při multiplikativní transformaci – pokud známe hodnotu rozptylu nějakého
souboru dat. Pokud každé pozorování vynásobíme konstantou c, pak hodnotu rozptylu
musíme vynásobit konstantou c2.
Příklad:
Ve firmě je průměrná mzda 24 000 Kč a rozptyl mezd je 10 000. Jak se změní rozptyl, pokud
vedení firmy zvýší plat každému zaměstnanci o 10 %?
Co znamená zvýšení platu o 10 %?
X + 10 % z X = X + 0,1X = 1,1X
Každý plat násobíme konstantou 1,1.
Rozptyl se zvýší 1,12 krát, tedy 1,21 krát, tedy se zvýší o 21 %.
Nový rozptyl bude 12 100.
26
4.3 Ostatní míry variability
Je zřejmé, že pokud má sledovaná veličina nějaké jednotky, pak rozptyl vychází v těchto
jednotkách umocněných na druhou (např. Kč … Kč2). Z tohoto důvodu není hodnota rozptylu
přímo interpretovatelná. Proto využíváme i jiné míru variability, a to především směrodatnou
odchylku a variační koeficient.
Směrodatná odchylka se počítá i značí jako druhá odmocnina z rozptylu, tedy XM 2
Směrodatná odchylka má stejné jednotky jako veličina.
Variační koeficient je relativní mírou variability.
Variační koeficient se počítá podle vzorce
x
M X
2
,
je tedy zřejmé, že vychází bez jednotek. Tato vlastnost je důvodem, proč variační koeficient
jako jedinou ze zde uvedených měr variability můžeme použít pro srovnání variability i
jednotkově nesourodých souborů.
Příklad:
Pro data z našeho příkladu vypočítáme směrodatnou odchylku:
a dále i variační koeficient:
Kontrolní otázky:
• Vypočítejte rozptyl, směrodatnou odchylku a variační koeficient veličiny „počet dětí“
z kapitoly 2.
• Co by znamenalo, kdyby vyšla nulová hodnota rozptylu?
27
• Která z následujících firem má stabilnější ekonomické výsledky? V tabulce jsou
uvedeny zisky (v tis. Kč) obou firem ve čtyřech sledovaných obdobích.
1.období 2.období 3.období 4.období
1.firma 20 000 30 300 45 050 25 421
2.firma 55 38 42 10
• Jak se změní hodnota rozptylu 1. firmy, pokud by zisky byly přepočítány na eura
(předpokládejme kurz 1 euro = 20 korun)?
Literatura ke kapitole
• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí
nad Labem 1996, 98 s. ISBN 80-7044-143-7.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Popisná statistika, Masarykova
univerzita, Brno 2007, 48 s., ISBN 978-80-21042-46-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
28
5 Základy teorie pravděpodobnosti
Cílem této kapitoly je zopakování a následné rozšíření znalostí z oblasti pravděpodobnosti
nabytých na střední škole.
Po prostudování této kapitoly byste měli být schopni:
• vypočítat pravděpodobnosti tří základních typových situací,
• ověřit závislost respektive nezávislost dvojice náhodných jevů,
• vypočítat pravděpodobnost jednoho náhodného jevu za předpokladu, že jiný jev již
nastal,
• umět aplikovat základní větu týkající se podmíněných pravděpodobností, a to
Bayesovu větu.
Kapitola je členěna do těchto dílčích témat
• Náhodný pokus, náhodný jev
• Pravděpodobnost
• Operace s jevy
• Nezávislost jevů
• Příklady na výpočet pravděpodobnosti
5.1 Náhodný pokus, náhodný jev
Teorie pravděpodobnosti je část matematiky zabývající se zákonitostí jevů, u kterých není
předem známo, zda nastanou či nikoliv, respektive jevů, u kterých není předem známa jejich
výsledná hodnota.
Teorie pravděpodobnosti společně s kombinatorickými úlohami se začala objevovat zejména
v kontextu s hazardními hrami. Zmínky o pravděpodobnosti se objevují již před několika
tisíci lety, první matematické teorie jsou však známy až ze 17. století a jsou spojovány
především se jmény Pierre de Fermat, Blaise Pascal, či později Thomas Bayes a Pierre Simon
de Laplace. Další výrazný rozvoj pravděpodobnosti se projevuje až ve 20. století a je spjat
například se jmény Andrej Nikolajevič Kolmogorov, Richard Threlkeld Cox, Andrey Markov,
ale i mnoho dalšími. Rozvoj teorie pravděpodobnosti není ukončen ani v dnešní době, zvláště
v souvislosti například s kvantovou fyzikou či teorií chaosu.
V pravděpodobnostní teorii se setkáváme s poněkud jiným významem pokusu, než jak jej
známe například z fyziky. Příkladem fyzikálního pokusu je měření teploty bodu varu vody při
daném tlaku. V tomto případě při stejných podmínkách obdržíme shodný výsledek pokusu.
29
V teorii pravděpodobnosti však u pokusu předem výsledek znát nemůžeme (ani nesmíme) a je
časté, že při stejných podmínkách obdržíme zcela odlišné výsledky pokusu. V tomto případě
mluvíme o náhodném pokusu. Učebnicovým příkladem náhodného pokusu je například hod
kostkou.
Náhodný pokus – pokus, v němž předem neznáme výsledek a jenž můžeme libovolněkrát
opakovat.
Náhodný jev – výsledek náhodného pokusu.
Pro lepší představu v některých fázích výkladu je možná lépe říci, že náhodný jev je
předpověď výsledku. Co může být například tipem na výsledek výše zmíněného náhodného
pokusu hod kostkou?
Někdo by možná řekl: "Padne číslo 6." Jiný třeba řekne: "Padne číslo 2." Jsou ale i opatrní
tipaři a ti mou říci: "Padne sudé číslo." či "Padne číslo větší než 3." Možná existuje někdo,
kdo v životě neviděl kostku a ten může říci: "Padne číslo větší než 10." či naopak "Padne číslo
menší než 8." Toto všechno jsou příklady náhodných jevů. V čem zásadním se tyto jevy od
sebe liší?
Co to znamená "Padne sudé číslo"? Kdo zná, jak vypadá kostka, jistě odpoví: "Padne 2, nebo
padne 4, nebo padne 6." Obdobně bychom mohli rozepsat i jevy "Padne číslo větší než 3." či
"Padne číslo menší než 8."
Jevy "Padne číslo 6." či "Padne číslo 2." však takto rozložit nemůžeme. Takovýmto jevům
říkáme elementární jevy.
Jiným úhlem pohledu můžeme objevit jinou odlišnost. O jevu "Padne číslo větší než 10."
každý řekne, že je to nesmysl, že to nikdy nastat nemůže. Podobným jevům se říká nemožné
jevy. Naopak víme, že jev "Padne číslo menší než 8." musí nastat vždy, jiná možnost totiž
neexistuje. A takovým jevům říkáme jevy jisté. Jevům, které nejsou zmíněnými krajními
případy, říkáme jevy možné.
Vše můžeme shrnout následovně.
Množinu všech možných elementárních výsledků náhodného pokusu značíme Ω,
nazýváme ji množina všech elementárních jevů.
Jednotlivé možné elementární výsledky pokusu značíme , nazýváme elementární jev.
30
Podmnožiny množiny Ω se nazývají náhodné jevy, značíme velkými písmeny převážně
z počátku abecedy.
Poznámka:
Z výše uvedeného je zřejmé, že jev jistý je roven celé množině všech elementárních jevů, a že
jev nemožný je roven prázdné množině.
5.2 Pravděpodobnost
Pravděpodobnost – relativní míra výskytu náhodných jevů.
Existují různé definice pravděpodobnosti. Všechny však mají určité vlastnosti společné.
Pravděpodobnost jevu se vyjadřuje reálným číslem od 0 do 1, může se pro lepší názornost
převézt na procenta (tj. od 0 % do 100 %). Jev, který nemůže nastat, má vždy
pravděpodobnost 0, a naopak jistý jev má pravděpodobnost 1. Dále musí platit, že pokud A je
podmnožinou B pak pravděpodobnost jevu A je menší než pravděpodobnost jevu B.
Jednou z nejčastěji využívaných a nejoblíbenějších definic je klasická definice tak, jak ji
formuloval Laplace. Bývá po něm také někdy nazývána. Je použitelná pouze v případě, kdy je
množina všech elementárních jevů konečná, tj. všech možných výsledků náhodného pokusu je
konečně mnoho.
Klasická definice pravděpodobnosti
Nechť A je náhodný jev, n=Ω značí počet prvků množiny všech elementárních jevů,
m=A značí počet prvků množiny A.
Pravděpodobností jevu A nazveme číslo
.
Je zřejmé, že tato definice splňuje všechny požadované vlastnosti.
Příklad:
Uvažujme náhodný pokus hod kostkou a určíme pravděpodobnosti následujících jevů.
Ω=1,2,…,6
A=6 hození šestky
B=2,4,6 hození sudého čísla
31
C= 1,2,3,4,5,6 hození čísla menšího než 7
D= Ø hození čísla většího než 7
P(A) = 1/6; P(B) = 3/6 = ½; P(C) = 6/6 = 1; P(D) = 0/6 = 0
Ať už pravděpodobnost definujeme jakkoliv, musíme si uvědomit, že pokud posčítáme
pravděpodobnosti všech možných (rozumějme elementárních) jevů, dostaneme výsledek 1 (tj.
100 %). Nejlépe tento fakt pochopíme na příkladu ze života.
Víme-li, že v populaci je 30 % kuřáků (tj. pravděpodobnost, že náhodná osoba je kuřák je
30 %), snad každý správně reaguje, že nekuřáků je 70 % (nebo-li pravděpodobnost toho, že
náhodná osoba je nekuřák je 70 %).
Obdobně, máme-li možnost vylosování jednoho ze tří možných čísel a víme-li, že
pravděpodobnost, že vylosujeme první z těchto tří čísel, je 20 % a pravděpodobnost, že
vylosujeme druhé z těchto tří čísel, je 50 %, pak opět přirozenou cestou vyvodíme, jaká je
pravděpodobnost, že vylosujeme třetí číslo. Pokud obě předchozí možnosti zabraly 70 ze
100 %, pak hledaná pravděpodobnost je 30 %.
Vše, co jsme si tu nyní řekli, můžeme shrnout do následující věty.
Zákon rozdělení pravděpodobností
Mějme náhodný pokus a k němu náležící konečnou množinu všech elementárních jevů Ω.
Pak platí .
Slovy řečeno součet pravděpodobností všech elementárních jevů je roven jedné.
5.3 Operace s jevy
Mnoho operací prováděných s náhodnými jevy nám budou povědomé, setkali jsme se s nimi
již při práci s množinami. Obdobně jako u množin je dobré pro představu si operace znázornit
graficky pomocí tzv. Vennových diagramů. Pravděpodobnost budeme ve většině případů
počítat dle klasické pravděpodobnosti.
Doplněk jevu A, nebo-li jev opačný k jevu A nastává právě tehdy, když nenastává jev A.
Značíme Ā, nebo A'.
32
Graficky znázorněno na následujícím obrázku.
průnik jevů A a B – nastává, pokud nastanou oba jevy zároveň (značíme AB)
Graficky znázorněno na následujícím obrázku.
sjednocení jevů A a B – nastává, pokud nastal alespoň jeden z těchto jevů (značíme AB)
Graficky znázorněno na následujícím obrázku.
33
Někdy se ocitneme v situaci, kdy zkoumáme pravděpodobnost náhodného jevu za nějakých
omezujících podmínek, které mají charakter náhodného jevu, jenž musí před zkoumaným
jevem nastat. Mluvíme pak o podmíněné pravděpodobnosti.
Podmíněná pravděpodobnost – pravděpodobnost jednoho náhodného pokusu za
předpokladu, že druhý pokus již nastal. (označujeme P(A|B) … čteme: pravděpodobnost
jevu A za podmínky, že jev B nastal)
Pro lepší představu si můžeme celou situaci (mírně zjednodušeně) znázornit graficky. Na
následujícím obrázku je ukázáno zúžení náhodného jevu A, podmínkou, že nastal jev B.
Pokud již jev B nastal, pak se vše mimo něj ”ztratí v mlze”, tj. ze všech možností, které mohly
nastat pro daný pokus (prvky množiny všech elementárních jevů Ω), odpadnou všechny, které
neleží v množině náležející jevu B. To znamená, že z celé množiny Ω ”zbyla”pouze množina
B. Pak ale také z množiny A odpadnou prvky, které neleží v množině B, tj. z množiny A
”zůstane”pouze průnik A ∩ B.
Pro výpočet podmíněné pravděpodobnosti platí následující vzorec.
34
5.4 Nezávislost jevů
Při práci s náhodnými jevy se můžeme setkat s pojmy závislost, respektive nezávislost jevů.
Dva jevy jsou závislé, pokud skutečnost, že jeden z jevů nastal, ovlivní pravděpodobnost, že
nastane druhý jev, přesněji můžeme tento fakt formulovat následovně.
Závislost a nezávislost jevů
Mějme jevy A a B, přičemž platí P(A) > 0, P(B) > 0. Říkáme, že náhodné jevy A a B jsou
nezávislé právě tehdy, jestliže pravděpodobnost jevu A není ovlivněna výskytem jevu B a
současně pravděpodobnost jevu B nezávisí na výskytu jevu A,
a tedy platí P(A|B) = P(A) a P(B|A) = P(B).
V opačném případě mluvíme o závislosti jevů.
Důležitou větou v oblasti závislosti, respektive nezávislosti jevů je tzv. nutná a postačující
podmínka nezávislosti – dva jevy jsou nezávislé právě tehdy, když pravděpodobnost průniku
jevů je rovna součinu pravděpodobnosti těchto jevů.
Rozklad na třídy – skupina jevů je rozkladem na třídy, pokud sjednocením všech těchto
jevů obdržíme celou množinu všech elementárních jevů a zároveň libovolná dvojice jevů
z této skupiny má prázdný průnik.
Důležitým vzorcem v oblasti počítání podmíněných pravděpodobností je Bayesův vzorec.
Pokud A1, …, Ak tvoří rozklad na třídy a známe pravděpodobnosti P(A1), … P(Ak) a dále
P(B|A1), … P(B|Ak), pak můžeme pro libovolné i = 1, …, k vypočítat „obrácenou“
podmíněnou pravděpodobnost.
Pokud máme množinu všech elementárních jevů rozdělenou pouze do dvou tříd, a to na jev A
a jeho doplněk Ā , využijeme nejjednodušší tvar vzorce:
35
5.5 Příklady na výpočet pravděpodobnosti
Existují základní 3 typy příkladů na výpočty pravděpodobností:
1. Můžeme vypsat množinu všech elementárních jevů.
2. Nemůžeme vypsat množinu všech elementárních jevů, ale víme, že sledované jevy
jsou nezávislé.
3. Neplatí nic z předchozích dvou bodů.
V rámci všech těchto typů budeme využívat dva základní vzorce, a to vzorec pro výpočet
pravděpodobnosti sjednocení jevů a vzorec pro výpočet podmíněné pravděpodobnosti.
)()()()( BAPBPAPBAP
)(
)()|(
BP
BAPBAP
Příklad:
Házíme dvěma hracími kostkami (červená a modrá), jaká je pravděpodobnost následujících
jevů:
a. Na modré kostce padne sudé číslo.
b. Na jedné z kostek padne sudé číslo.
c. Padne jednička a dvojka.
d. Na modré kostce padne dvojnásobek toho, co padne na červené kostce.
e. Padne součet 8.
V tomto případě můžeme vypsat množinu všech elementárních jevů.
Kolik je všech elementárních jevů, pokud nás zajímá výsledek hodu jednou kostkou?“ – 6.
A kolik je všech elementárních jevů, pokud házíme dvěma kostkami?“ – většinou je
nejčastější odpověď 12, ale správná odpověď je 36.
Názorně si to předvedeme, a to tak, že systematicky vypíšeme tuto množinu (první cifra
dvojčíslí – červená kostka, druhé – modrá)
11 12 13 14 15 16
21 22 23 24 25 26
31 32 33 34 35 36
41 42 43 44 45 46
51 52 53 54 55 56
61 62 63 64 65 66
Nyní už každý vidí, že jich je opravdu 36!
36
Pro jednoduchý výpočet požadovaných pravděpodobností si v tomto výpisu postupně
vyznačíme stavy, které odpovídají danému jevu. Např.
a. U jevu A vyznačíme celý druhý, čtvrtý a šestý řádek … 18 případů … P(A) = 18/36 =
½ = 0,5
b. U jevu B vyznačíme dvojice, kde obě čísla jsou sudá … 9 případů … P(B) = 9/36 = ¼
= 0,25
c. U jevu C vyznačíme dvojice, z nichž je jedna (kterákoliv!) číslice 1 a druhá 2 … 2
případy … P(C) = 2/36 = 1/18 = 0,0556
d. U jevu D vyznačíme dvojice 12, 24, 36 … 3 případy … P(D) = 3/36 = 1/12 = 0,833
e. U jevu E vyznačíme dvojice 26, 35, 44, 53, 62 … 5 případů … P(E) = 5/36 = 0,1389
Vypočítejte dále pravděpodobnosti:
f. P(AE) … vidíme, že obě značení (z a. i e.) mají dvojice 26, 44, 62 … 3 případy …
P(AE) = 3/36 = 1/12 = 0,833
g. P(AE) … vidíme, že aspoň jedno značení (z a. , e.) mají celý druhý, čtvrtý a šestý
řádek a dále dvojice 35, 53 … 20 případů … P(AE) = 20/36 = 5/9 = 0,5556
Můžeme počítat i přes vzorec
P(AE) = P(A) + P(E) - P(AE) = ½ + 5/36 - 1/12 = 20/36 = 5/9 = 0,5556
h. P(A|E) … počítáme přes vzorec
P(A|E) = P(AE)/P(E) = (1/12)/(5/36) = 36/60 = 3/5 = 0,6
Zjistěte, zda jsou jevy B a D závislé či nezávislé. … K tomuto můžeme například využít
„Nutné a postačující podmínky nezávislosti“ = Dva jevy jsou nezávislé právě tehdy, když
P(AB) = P(A).P(B)
Spočítáme tedy všechny potřebné pravděpodobnosti. Už máme P(B) = 1/4, P(D) = 1/12.
Dopočítáme P(BD) = 1/36 … protože obě značení (b. i d.) má pouze dvojice 24.
Nyní vidíme, že 1/36 1/4.1/12 = 1/48 … jevy tedy nejsou nezávislé, jsou závislé.
Příklad:
Na střelnici jsou dva střelci – Adam a Béďa. Pravděpodobnost, že se Adam strefí do terče je
P(A) = 0,9. Pravděpodobnost, že se Béďa strefí do terče je P(B) = 0,7. Jaká je
pravděpodobnost, že
a. se trefí oba střelci?
b. se trefí aspoň jeden ze střelců?
37
c. se trefí právě jeden ze střelců?
d. se trefí nejvýše jeden ze střelců?
e. se trefí pouze Béďa?
V tomto příkladu nelze vypsat množinu všech elementárních jevů. Ale je zřejmé, že výsledky
střelby obou střelců jsou vzájemně nezávislé (otázka- bylo by tomu tak, i kdyby tito střelci
byli rozmazlující otec se synem? Nebo kdyby střelci nestříleli na terč, ale po sobě vzájemně?).
Pokud nastane takováto situace, můžeme při výpočtech mimo jiné využít nutnou a postačující
podmínku nezávislosti.
Dále je dobré využívat ke znázornění počítaných jevů využít Vennových diagramů.
a. Trefí se oba střelci.
Na obrázku vidíme, že se jedná o průnik, jevy jsou nezávislé, využijeme zmíněné podmínky,
a tedy
P(AB) = P(A).P(B) = 0,9.0,7 = 0,63
b. Trefí se aspoň jeden ze střelců?
Na obrázku vidíme, že se jedná o sjednocení, využijeme vzorec
P(AB) = P(A) + P(B) – P(AB) = 0,9 + 0,7 – 0,63 = 0,97
38
c. Trefí se právě jeden ze střelců.
Na základě obrázku vidíme, že výslednou pravděpodobnost dostaneme výpočtem:
[P(A) – P(AB)] + [P(B) – P(AB)] = (0,9 – 0,63) + (0,7 – 0,63) = 0,27 + 0,07 = 0,34
Můžeme ale počítat i jinak – na obrázku si můžeme všimnout, že vyznačenou plochu můžeme
dostat „odstřižením“ průniku od sjednocení. Výpočet pak bude následující:
P(AB) – P(AB) = 0,97 – 0,63 = 0,34
Vidíme, že jsme obdrželi shodný výsledek.
d. Trefí se nejvýše jeden ze střelců.
Na obrázku vidíme, že vyznačenou plochu obdržíme „odstřižením“ (tj. odečtením
pravděpodobnosti) průniku od celého obdélníku, který představuje množinu všech
elementárních jevů, jejíž pravděpodobnost je 1.
Požadovanou pravděpodobnost pak obdržíme výpočtem
1 – P(AB) = 1 – 0,63 = 0,37
39
e. Trefí se pouze Béďa?
Na obrázku vidíme, že vyznačenou plochu obdržíme odstřižením průniku od kolečka B.
Požadovanou pravděpodobnost tedy obdržíme výpočtem
P(B) – P(AB) = 0,7 – 0,63 = 0,07
Příklad:
Na trhu jsou dva výrobky – A a B. Víme, že Výrobek A si koupí 70% zákazníků, výrobek B
si nekoupí 90% zákazníků, nejvýše jeden výrobek si koupí 80% zákazníků. Zjistěte, zda se
jedná o komplementy, či o substituty (Uvědomme si, že platí následující: komplementy –
koupě jednoho zvyšuje pravděpodobnost koupě druhého, substituty – koupě jednoho snižuje
pravděpodobnost druhého).
V tomto příkladu nemůžeme ani vypsat množinu všech elementárních jevů, ani rozhodnout,
zda jsou jevy závislé, či nezávislé.
K výpočtu je opět dobré znázornění pomocí Vennových diagramů.
Nyní dáme dohromady známé údaje o pravděpodobnostech.
Výrobek A si koupí 70% zákazníků … plocha II.+III. … = 0,7
40
výrobek B si nekoupí 90% zákazníků … plocha I.+II.+III. … = 0,9
nejvýše jeden výrobek si koupí 80% zákazníků … plocha I. + II.+ IV. … = 0,7
Dále si musíme uvědomit, že součet všech ploch dává celek, tedy 1.
Při označení I. – a, II. – b, III. – c, IV. – d dostáváme následující soustavu čtyř rovnic o
čtyřech neznámých:
b + c = 0,7
a + b + c = 0,9
a + b + d = 0,7
a + b + c + d = 1
Vyřešením soustavy dostáváme: a = 0,2; b = 0,4; c = 0,3; d = 0,1.
K požadovanému rozhodnutí potřebujeme pravděpodobnosti P(A) a P(A|B), případně P(B) a
P(B|A).
P(A) = b + c = 0,4 + 0,3 = 0,7
P(B) = c + d = 0,3 + 0,1 = 0,4
P(AB) = c = 0,3
P(A|B) = P(AB)/P(B) = 0,3/0,4 = 0,75
P(B|A) = P(AB)/P(A) = 0,3/0,7 = 3/7 = 0,4257
Z vypočítaného je vidět, že pravděpodobnost koupě výrobku A se zvýšila za podmínky, že
zákazník již koupil výrobek B … jedná se o komplementy.
Obdobně je vidět, že pravděpodobnost koupě výrobku B se zvýšila za podmínky, že zákazník
již koupil výrobek A … jedná se o komplementy.
Příklad:
Sledovanou nemocí trpí 10% populace. Máme test, který je pro 80 % nemocných pozitivní a
pro 95 % zdravých lidí negativní. Jaká je pravděpodobnost, že když mi test vyjde pozitivní, že
jsem skutečně nemocná?
Můžeme počítat například pouze na základě logiky:
Pravděpodobnost se dle klasické definice počítá jako podíl „toho, co mne zajímá“ děleno
„vše“.
„vše“ je počet všech lidí (z celé populace), kterým vyšel test pozitivní.
41
My víme, že test jednak vyšel pozitivně v 80% nemocných lidí, kterých je 10 % populace.
Tedy víme, že 0,8*0,1= 0,08 … 8 % populace tvoří nemocní lidé mající pozitivní test.
Dále víme, že test vyšel pozitivní u 5 % zdravých lidí (protože u 95 % těchto lidí vyšel
negativně), kterých je 90 % celé populace. Tedy víme, že 0,05*0,9 = 0,045 … 4,5 % populace
tvoří zdraví lidé mající pozitivní test.
Celkem tedy test vyšel pozitivně u 0,08 + 0,045 = 0,125 … 12,5% populace.
Nás zajímá pravděpodobnost toho, že je někdo s pozitivním testem nemocný. Nemocní
s pozitivním testem tvoří 8 % (viz výše).
Požadovanou pravděpodobnost tedy vypočítáme jako podíl 0,08/0,125 = 0,64 … 64 %.
Pokud tedy vyjde test pozitivní je 64 % pravděpodobnost, že jsme opravdu nemocní.
Počítat také můžeme pomocí Bayesovy věty.
Musíme si nejdříve uvědomit, co bude jev A a co bude jev B ze vzorce přímo v našem zadání.
To se nejlépe pozná podle podmíněných pravděpodobností.
Hledáme tedy v zadání nějakou podmíněnou pravděpodobnost – vyjadřuje ji často nějaká
podmíněná věta (tedy typu „pokud …“ „jestliže …“ apod.)
V našem zadání je to věta „pro 80 % nemocných vychází test pozitivně“ … jinými slovy
„pokud je někdo nemocný, je 80 % pravděpodobnost, že má pozitivní test“.
Podmínkou je tu tedy nemocnost … toto tedy bude náš jev A.
Jevem B potom musí být pozitivní výsledek testu.
Nyní shrneme a symbolicky zapíšeme všechny zadané pravděpodobnosti:
P(A) = 0,1 P(Ā) = 0,9 P(B|A) = 0,8 P(B|Ā) = 0,05
Nyní už stačí dosadit do vzorce:
Vidíme, že nám vyšel stejný výsledek jako při předchozím způsobu výpočtu.
Kontrolní otázky:
• Vypočítejte pravděpodobnost, že při hodu dvěma kostkami padne na jedné kostce o 3
více než na kostce druhé?
• Musí platit, že pravděpodobnost průniku dvou jevů musí být menší než
pravděpodobnost jejich sjednocení? Odpověď odůvodněte.
• Jak se liší podmíněná pravděpodobnost P(A|B) od pravděpodobnosti P(A) v případě, že
se jedná o dva nezávislé jevy.
42
• Na trhu jsou dva výrobky – A a B, my sledujeme pravděpodobnost, že si náhodný
zákazník koupí daný výrobek. Víme, že platí P(A|B ) > P(A). Jedná se o komplementy
nebo substituty?
Literatura ke kapitole
• MOC, O., ŠIMSOVÁ, J., ŽAMBOCHOVÁ, M. Matematika pro ekonomy, 1. vyd.
Ústí nad Labem, UJEP 2013, 608 s. ISBN-9788074145995.
• KAHOUNOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl II., skripta FSE
Ústí nad Labem 2001, 116 s. ISBN 80-7044-151-8.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
43
6 Pravděpodobnostní rozdělení náhodné veličiny, diskrétní typy
rozdělení
Cílem této kapitoly je seznámení s diskrétními náhodnými veličinami, jejich základními
charakteristikami a s vybranými typy diskrétních rozdělení.
Po prostudování této kapitoly byste měli být schopni:
• rozeznat kategoriální náhodnou veličinu,
• vypočítat její střední hodnotu, rozptyl, určit hodnotu kvantilů, hodnotu distribuční
funkce,
• rozeznat případy, kdy můžeme použít vybraná diskrétní rozdělení,
• na základě příslušných vzorců spočítat pravděpodobnosti týkající se těchto rozdělení.
Kapitola je členěna do těchto dílčích témat
• Základní pojmy
• Typy příkladů s využitím teorie o diskrétních rozděleních
6.1 Základní pojmy
Diskrétní náhodná veličina – veličina, která nabývá konečně mnoha různých hodnot, navíc
pro každou z těchto hodnot je dána pravděpodobnost, že veličina právě této hodnoty nabývá.
Píšeme: P(X = x), čteme: pravděpodobnost, že náhodná veličina X nabývá hodnoty x.
Zákon rozdělení pravděpodobností – součet všech pravděpodobností hodnot, kterých
nabývá daná diskrétní náhodná veličina, je roven 1.
Pro náhodnou veličinu, která nabývá k různých hodnot x1, …, xk tedy platí:
Střední hodnota – nebo-li očekávaná hodnota (z anglického Expected Value) - 1. obecný
moment. Značíme EX.
44
Pravděpodobnostní funkce – funkce jedné reálné proměnné, značí hodnotu
pravděpodobnosti, že daná náhodná veličina nabude právě daného reálného čísla. Tato funkce
je definována pro všechna reálná čísla. Pro většinu reálných čísel tato funkce nabývá nulové
hodnoty. Nenulová je pouze v konečně mnoha případech, a to právě v hodnotách sledované
náhodné veličiny. Značíme P(x).
Distribuční funkce – funkce jedné reálné proměnné, slouží k popisu rozdělení (distribuce)
náhodné veličiny, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),
značíme F(x).
Kvantil – pro náhodnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl
pozorování, pro některé často používané kvantily používáme speciální označení, a to
medián – značí 50% kvantil;
kvartily – dolní kvartil značí 25% kvantil, horní kvartil značí 75% kvantil;
decily – dolní decil značí 10% kvantil, horní decil značí 90% kvantil,
percentily – například 60-tý percentil značí 60% kvantil.
Druhý obecný moment – střední hodnota druhých mocnin náhodné veličiny. Značíme E(X2).
Druhý centrovaný moment – rozptyl, vyjadřuje míru různorodosti náhodné veličiny, není
přímo interpretovatelný. Značíme DX.
Směrodatná odchylka – je druhou odmocninou rozptylu, je již více vhodná k interpretaci.
Alternativní rozdělení – náhodná veličina nabývá pouze dvou hodnot, a to 0 a 1, přičemž
platí P(1) = , P(0) = 1 – , kde je parametr rozdělení (například výsledek vrhu mincí,
přičemž 0 značí padnutí rubu a 1 padnutí líce).
45
Binomické rozdělení – náhodná veličina nabývá n + 1 hodnot, a to 0, …, n, kde n značí počet
nezávislých pokusů, veličina značí počet, kolikrát v těchto n pokusech nastal jistý náhodný
jev, jehož pravděpodobnost značíme (například počet hozených šestek z deseti hodů hrací
kostkou). Vzorec pro výpočet pravděpodobnosti, že během n pokusů nastal jev A právě x krát:
Hypergeometrické rozdělení – obdoba binomického rozdělení, zásadním rozdílem je fakt, že
náhodné pokusy nejsou nezávislé (například počet dívek v náhodně vybrané pětici dětí ze
třídy, kde je 10 chlapců a 15 dívek). Vzorec pro výpočet pravděpodobnosti, že během n
pokusů nastal jev A právě x krát:
Poissonovo rozdělení – obdoba binomického rozdělení, zásadním rozdílem je fakt, že
neznáme přesný počet pokusů (například počet vyklíčených semen z náhodného 1m2 oseté
plochy). Vzorec pro výpočet pravděpodobnosti, že během všech provedených pokusů nastal
jev A právě x krát:
Rovnoměrné diskrétní rozdělení – náhodná veličina nabývá n hodnot, a to
1, …, n, pravděpodobnosti všech těchto hodnot jsou shodné, mají hodnotu 1/n (například číslo
hozené při jednom hodu hrací kostkou).
6.2 Typy příkladů s využitím teorie o diskrétních rozděleních
Rozdíl ve využití tří základních diskrétních rozdělení, a to Hypergeometrického,
Binomického a Poissonova.
Vždy je náhodnou veličinou počet úspěchů při několika pokusech. P(x) pak značí
pravděpodobnost, že nastane přesně x úspěchů.
46
Pokud nemáme zadán počet pokusů, ale množství pokusů je dáno „opisem“ (např. během
nějakého času, na nějaké ploše, objemu, …), pak použijeme Poissonovo rozdělení, jehož
parametrem je , který znamená průměrný počet úspěchů ve sledovaném vzorku.
Pokud máme dán počet pokusů (n), pak musíme rozhodnout, zda jsou jednotlivé po sobě
jdoucí pokusy na sobě závislé či nikoliv. To nejlépe poznáme tak, že sledujeme
pravděpodobnost úspěchu v jednotlivých pokusech. Pokud je pravděpodobnost stále stejná –
jedná se o nezávislé pokusy (použijeme Binomické rozdělení s parametry n a
=pravděpodobnost), pokud se pravděpodobnost mění, pak se jedná o závislé pokusy
(použijeme Hypergeometrické rozdělení s parametry n, N = celkový počet objektů, z kolika
vybíráme, M = počet objektů v celém souboru, které „nás zajímají“).
Příklad:
V osudí máme 4 černé, 4 bílé, 4 modré a 4 zelené kuličky. Vytáhneme z osudí 3 kuličky a
držíme je. Jaká je pravděpodobnost, že máme v ruce právě 2 bílé kuličky?
Úvaha I. Známe počet pokusů? (ať oni odpovědí) … ano známe, n = 3
Takže se určitě nejedná o Poissonovo rozdělení.
Úvaha II. Jsou jednotlivé pokusy na sobě závislé?
Otázka: Tahám první kuličku, jaká je pravděpodobnost, že je bílá? Odpověď: 4/19 = 1/4.
Další otázka: Držím v ruce bílou kuličku, tahám druhou kuličku, jaká je pravděpodobnost, že
je bílá? Odpověď: Jednu bílou už jsme odebrali, v osudí zbývají jen 3, z celkového počtu
kuliček v osudí už zbylo jen 15, tedy pravděpodobnost je 3/15 = 1/5.
Další otázka: Nebo držím v ruce jinou než bílou kuličku, tahám druhou kuličku, jaká je
pravděpodobnost, že je bílá? Odpověď: 4/15
Můžeme pokračovat výpočtem všech pravděpodobností při tahání třetí kuličky.
47
Dobré je znázornit do stromu znázorněného na následujícím obrázku. Znaménko (+)
v obrázku značí, že jev nastal, znaménko (-), že jev nenastal. V obrázku je pak přehledně na
první pohled vidět, jestli se pravděpodobnosti postupem jednotlivých pokusů mění, či nikoliv.
Vidíme, že se pravděpodobnosti mění, jedná se tedy o závislé pokusy, použijeme tedy
Hypergeometrické rozdělení s parametry n = 3, M = 4, N = 16 a x= 2
Příklad:
Je známo, že se rodí 49% holčiček. Jaká je pravděpodobnost, že mezi osmi právě narozenými
dětmi jsou maximálně dva kluci?
Stejné pořadí úvah.
Nejprve si uvědomíme, zda máme dán počet pokusů … ano, n = 8. Dále si musíme uvědomit,
zda jsou pokusy na sobě závislé či nezávislé. Tedy přemýšlíme – jaká je pravděpodobnost, že
když se rodí první dítě, že to bude kluk? … 0,51
Už víme, že se narodil kluk – rodí se druhé dítě, jaká je pravděpodobnost, že je to kluk? …
0,51
A pokud víme, že jako první se narodila holka, jaká je pravděpodobnost, že druhé dítě bude
kluk? … opět 0,51
Vidíme, že pravděpodobnosti se nemění, jsou všechny stejné. Proto zvolíme Binomické
rozdělení s parametry n = 8, = 0,51.
+
+
48
Nyní si musíme uvědomit, že máme počítat pravděpodobnost, že se z 8 dětí narodí maximálně
dva kluci? Co to znamená „maximálně dva kluci“? … žádný, nebo jeden, nebo dva.
Takže musíme spočítat všechny tyto pravděpodobnosti:
Výslednou pravděpodobnost dostaneme jako součet těchto tří vypočtených pravděpodobností:
0,0033 + 0,0277 + 0,1008 = 0,1318 = 13,18%
Příklad:
Benzinová pumpa obslouží během hodiny průměrně 15 zákazníků. Jaká je pravděpodobnost,
že během 4 minut bude na pumpě obsloužen jeden zákazník?
Opět stejná posloupnost úvah.
Máme dán počet pokusů? … Tentokrát nikoliv. Ale tuto informaci máme dánu „opisem“ =
údajem, jak dlouho budeme pokusy provádět.
Jedná se tedy o Poissonovo rozdělení. To má za parametr průměrný počet úspěchů ve
sledovaném čase.
Kolik to je? Prvním nápadem bývá hodnota 15, což je chybná odpověď, protože tato hodnota
se netýká vzorku „naší“ velikosti (tedy doby trvající 4 min), ale jedná se o hodinový údaj,
z něhož musíme teprve požadovanou hodnotu parametru vypočítat, a to např. pomocí
trojčlenky. Výsledná hodnota parametru se vypočítá dle výrazu 15/60 * 4 = 1.
Tedy =1
Nyní už můžeme dosazovat do patřičného vzorce:
A jaká by byla pravděpodobnost, že v průběhu těchto 4 minut budou obslouženi aspoň dva
zákazníci?
49
Co to znamená aspoň dva? … Dva, tři, čtyři, pět, … až do nekonečna (nevíme, kam až).
Museli bychom nejprve spočítat pravděpodobnosti všech těchto možností – ale těch je
nekonečně mnoho, to bychom se nedopočítali.
Co s tím?
„Aspoň dva“ je doplňkem pro méně než dva, tedy žádný, nebo jeden.
Následně tyto dvě hodnoty sečteme. 36,79 + 36,79 = 73,58
Ale toto ještě není naše požadovaná pravděpodobnost. Proč? Výsledek ještě musíme odečíst
od 1 (protože se jedná o doplněk)
Tedy 1 – 0,7358 = 0,2642 = 26,42%
Kontrolní otázky:
• Vypočítejte střední hodnotu, rozptyl, dolní kvartil, horní decil, medián, 67% kvantil,
F(-2), F(3,5) a F(6) pro diskrétní náhodnou veličinu nabývající hodnot 1, 2, 3 a 4 a pro
niž platí: P(1)=0,3; P(2)=0,2; P(3)=0,1.
• Jakým rozdělením se řídí náhodná veličina představující počet pětek při čtyřech
hodech hrací kostkou?
• Jakým rozdělením se řídí náhodná veličina představující počet odbavených vlaků na
nádraží v průběhu jednoho dne?
• Jakým rozdělením se řídí náhodná veličina představující počet chlapců
v pětičlenných skupinách vytvořených z 30 dědí, mezi nimiž je 10 dívek?
• Jakým rozdělením se řídí náhodná veličina představující výsledek hodu jednou hrací
kostkou?
• Jakým rozdělením se řídí náhodná veličina představující výsledek jednoho hodu mincí
(uveďte co nejvíce možností)?
Literatura ke kapitole
• KAHOUNOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl II., skripta FSE
Ústí nad Labem 2001, 116 s. ISBN 80-7044-151-8.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
50
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
51
7 Spojité typy rozdělení
Cílem této kapitoly je seznámení se spojitými náhodnými veličinami, jejich základními
charakteristikami a s vybranými typy spojitých rozdělení.
Po prostudování této kapitoly byste měli být schopni:
• rozeznat spojitou náhodnou veličinu,
• využívat vlastností distribuční funkce a hustoty pro výpočty pravděpodobností,
• rozeznat případy, kdy můžeme použít vybraná spojitá rozdělení,
• na základě příslušných vzorců spočítat pravděpodobnosti týkající se těchto rozdělení,
• určit hodnotu kvantilů, hodnotu distribuční funkce tabulkově zpracovaných rozdělení.
Kapitola je členěna do těchto dílčích témat
• Základní pojmy
• Typy příkladů s využitím teorie o normálním rozdělení
7.1 Základní pojmy
Spojitá náhodná veličina může nabývat nekonečně mnoha různých hodnot. Na rozdíl od
diskrétní náhodné veličiny má spojitou distribuční funkci. Rozdělení spojité náhodné veličiny
nelze popsat pravděpodobnostní funkcí v určitém bodě. Místo pravděpodobností funkce
budeme vedle funkce distribuční využívat speciální funkce zvané hustota.
Hustota – funkce jedné reálné proměnné, slouží k popisu rozložení pravděpodobností spojité
náhodné veličiny. Pomocí této funkce můžeme určit pravděpodobnost, že náhodná veličina
nabývá hodnoty v daném rozmezí. Značíme f(x).
Zákon rozdělení pravděpodobností – plocha pod hustotou je vždy rovna 1.
Distribuční funkce – funkce jedné reálné proměnné, slouží k popisu rozdělení (distribuce)
náhodné veličiny, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),
značíme F(x).
52
Vztah mezi distribuční funkcí spojité náhodné veličiny a její hustotou je následující:
Kvantil – pro náhodnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl
pozorování, pro některé často používané kvantily používáme speciální označení, a to
medián – značí 50% kvantil;
kvartily – dolní kvartil značí 25% kvantil, horní kvartil značí 75% kvantil;
decily – dolní decil značí 10% kvantil, horní decil značí 90% kvantil,
percentily – například 60-tý percentil značí 60% kvantil.
Střední hodnota – nebo-li očekávaná hodnota (z anglického Expected Value) - 1. obecný
moment. Značíme EX.
Druhý obecný moment – střední hodnota druhých mocnin náhodné veličiny. Značíme E(X2).
Druhý centrovaný moment – rozptyl, vyjadřuje míru různorodosti náhodné veličiny, není
přímo interpretovatelný. Značíme DX.
Směrodatná odchylka – je druhou odmocninou rozptylu, je již více vhodná k interpretaci.
Normální rozdělení – tzv. Gaussovo rozdělení, symetrické rozdělení, kde hodnoty
„uprostřed“ jsou nejvíce pravděpodobné, kdežto čím více jsou hodnoty vzdálené od středu,
tím méně jsou pravděpodobné, rozdělení má dva parametry, a to střední hodnotu μ a rozptyl
2, značíme N(μ,
2).
Normální normované rozdělení – speciální případ normálního rozdělení, pro které platí μ=0
a směrodatná odchylka = 1. Značíme N(0, 1).
Exponenciální rozdělení – spojité rozdělení, popisující náhodné veličiny představující např.
čas do určité události. Značíme Exp(), kde značí střední dobu do události.
Distribuční funkce exponenciálního rozdělení má tvar
a hustota má tvar
53
7.2 Typy příkladů s využitím teorie o normálním rozdělení
V ekonomii se setkáme nejčastěji se spojitými veličinami, které se řídí normálním rozdělením
(Kahounová 2001), (Hindls 2007). Proto se zaměříme na výpočty týkající se právě tohoto
rozdělení. Existuje nekonečně mnoho různých normálních rozdělení, které se vzájemně liší
svými parametry, a to střední hodnotou a rozptylem. Přímé výpočty pomocí distribuční
funkce by byly velmi složité. Proto využíváme jednoho základního zástupce, a to normálního
normovaného rozdělení, které je tabulkově zpracované a každé jiné normální rozdělení je na
tohoto zástupce převoditelné. Tomuto převodu se říká normování. V následujících příkladech
si na jednoduchém příkladu názorně předvedeme postup.
Vzorec pro normování:
XU , kde U je veličina řídící se normálním normovaným
rozdělením, X je veličina s normálním rozdělením se střední hodnotou μ a rozptylem 2.
Příklad:
Počet korálků v krabičkách se řídí normálním rozdělením N(250, 2500). Určete
pravděpodobnost, že v náhodně vybrané krabičce je méně než 200 korálků.
Úkolem je zjistit P(X<200). V následujícím postupu nejprve znormujeme hodnotu 200 a poté
v tabulce obsahující hodnoty distribuční funkce normálního normovaného rozdělení
nalezneme požadovanou pravděpodobnost. Výpočet je tedy následující.
15866,084134,01
)1(1)1(1)1()50
250200()200()200(
UPUPUPXPXP
Je 15,87% pravděpodobnost, že v náhodné krabičce je méně než 200 korálků.
Příklad:
Určete hodnotu horního a dolního kvartilu náhodné veličiny z předchozího příkladu.
V tabulkách nalezneme horní kvartil normálního normovaného rozdělení u0,75 = 0,675 (je to
mezi 0,67 a 0,68 – buď uvedeme jednu z těchto hodnot, nebo jejich průměr)
nyní „odnormujeme“ 0,675 . 50 + 250 = 283,75
hodnota spodního kvartilu normálního normovaného rozdělení u0,25 = – u0,75 = – 0,675
54
nyní „odnormujeme“ – 0,675 . 50 + 250 = 216,25
Příklad:
Jaký minimální počet korálků má libovolná krabička patřící mezi 10% nejplnějších krabiček?
Musíme si uvědomit, co znamená uvedená formulace v otázce „10% nejplnějších krabiček“.
O jaký kvantil nám jde? Máme spočítat 90% kvantil.
V tabulkách nalezneme patřičný u-kvantil … u0,9 = 1,285
nyní „odnormujeme“ 1,285 . 50 + 250 = 314,25
Musíme si ale uvědomit, že se ptáme na minimální (tj. nejmenší možný) počet korálků
v krabičce, v krabičce může být pouze celý počet korálků – POZOR! Nemůžeme
zaokrouhlovat „standardně“ na 314 – to by pak nebyla splněna podmínka. Proto musí být
odpověď 315.
Kontrolní otázky:
• Nakreslete graf hustoty náhodné veličiny s více modálními hodnotami.
• Do jednoho obrázku nakreslete graf distribuční funkce nějaké náhodné veličiny řídící
se normálním rozdělením a dále distribuční funkci náhodné veličiny, která z předchozí
vznikne tak, že každou hodnotu zvýšíme o 10%.
• Vypočítejte F(10), F(50) pro náhodnou veličinu řídící se normálním rozdělením N(20,
90).
• Vypočítejte dolní kvartil, horní decil, 93% kvantil pro náhodnou veličinu řídící se
normálním rozdělením N(90, 200).
• Vypočítejte pravděpodobnost, že se nám stroj neporouchá dříve než za 10 dní, pokud
víme, že se čas do poruchy řídí exponenciálním rozdělením a stroj se průměrně
porouchá jedenkrát za 8 dní.
Literatura ke kapitole
• KAHOUNOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl II., skripta FSE
Ústí nad Labem 2001, 116 s. ISBN 80-7044-151-8.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
55
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
56
8 Úvod do teorie odhadů
Cílem této kapitoly je seznámení se základy jedné z oblastí statistické indukce, jejímž cílem je
hledání vhodných pravděpodobnostních modelů, a to odhadováním jednotlivých parametrů
modelových rozdělení.
Po prostudování této kapitoly byste měli být schopni:
• vysvětlit rozdíl mezi bodovým a intervalovým odhadem parametru,
• z popisu situace vybrat vhodné rozdělení a jeho parametr a následně vypočítat bodový
odhad tohoto parametru (speciálně parametry , μ a 2),
• z popisu situace vybrat vhodné rozdělení a jeho parametr a následně vypočítat
oboustranný či jednostranný intervalový odhad tohoto parametru (speciálně parametry
a μ ),
• vypočítané hodnoty přesně interpretovat.
Kapitola je členěna do těchto dílčích témat
• Teoretický úvod
• Vzorové příklady
8.1 Teoretický úvod
Jednotlivá pravděpodobnostní rozdělení jsou jednoznačně dána hodnotami svého parametru
(jednoho či více). V předchozím textu jsme se zmínili o nejčastějších rozděleních a jejich
parametrech, kterými jsou parametry π (pravděpodobnost sledovaného jevu) u binomické
veličiny, μ (střední hodnota) a σ2 (rozptyl) u normální veličiny. Častou úlohou statistiky bývá
odhadnout neznámou hodnotu některého z parametrů na základě dat (Hrach
a kol. 1998). Odhadneme-li tento parametr jediným číslem, hovoříme o bodovém odhadu.
Tyto odhady se počítají na základě tzv. zákonů velkých čísel. Nevýhodou takovýchto odhadů
je fakt, že nevíme, jakou chybou je tento odhad zatížen, tedy nevíme, jak „blízko“ je tento
odhad skutečnosti. Z tohoto důvodu raději používáme odhad intervalový, tzv. interval
spolehlivosti nebo též konfidenční interval. Hodnota spolehlivosti (označujeme 1) udává
pravděpodobnost, s níž skutečná hodnota parametru leží v nalezeném intervalu. Nejčastěji
volíme = 0,95 (95 %).
57
Využíváme jednak tzv. oboustranných intervalů, které jsou konstruovány tak, že bodový
odhad leží uprostřed tohoto intervalu. Odchylka dolní a horní meze od středu se počítá dle
speciálních vzorců. Hranice intervalu spolehlivosti pro parametr μ při známé hodnotě
parametru 2 počítáme dle vzorce
nux
21
stejný parametr při neznámé hodnotě parametru 2 dle vzorce
n
sx 1)(nt
2
α1
, kde
je tzv. výběrový rozptyl.
a pro parametr dle vzorce
1
)1(
2
1
21
n
ppu
np
Někdy však potřebujeme odhadnout pouze horní, resp. dolní hranici. Pak využíváme tzv.
jednostranných intervalů spolehlivosti. Důležité je si uvědomit, že není možné vzít pouze
jednu z hranic oboustranného intervalu, ale musíme tuto hranici vypočítat pomocí speciálně
modifikovaného vzorce.
8.2 Vzorové příklady
Příklad:
Byl proveden průzkum ve 2000 bytových jednotkách. Na základě údajů v tabulce četností
vypočtěte 95% interval spolehlivosti pro průměrný počet pokojů v bytě.
Počet pokojů 0 1 2 3 4
Relativní četnosti 0,1 0,25 0,14 0,05
Nejprve musíme dopočítat chybějící údaj v tabulce četností. Víme, že součet všech relativních
četností musí být roven 1, proto budeme počítat:
p5 = 1 – (0,1 + 0,25 + 0,14 + 0,05) = 1 – 0,54 = 0,46
58
Nyní už budeme moci přistoupit k vlastnímu výpočtu hranic požadovaného intervalu
spolehlivosti. Ze zadání vidíme, že se bude jednat o interval spolehlivosti pro střední hodnotu
(tento závěr jsme udělali na základě požadavku na „průměrný počet pokojů“). V zadání
příkladu není žádná informace o hodnotě rozptylu, proto musíme použít vzorec pro případ
„neznámého parametru 2, a to:
n
sx 1)(nt
2
α1
Nejprve si předpočítáme všechny potřebné údaje.
Dále v tabulkách t-rozdělení nalezneme potřebný kvantil.
Je požadována 95% spolehlivost, to znamená, že 1 – = 0,95 a tedy = 0,05 a /2 = 0,025,
tedy 1 – /2 = 0,975. Budeme tedy hledat 97,5% kvantil. Počet stupňů volnosti je dán
předpisem n – 1 = 1999.
V tabulkách takovýto údaj o stupních volnosti nenalezneme, proto vybereme „nejbližší“ údaj,
kvantil tedy nalezneme v posledním řádku patřičného sloupce.
t0,975(30) = 2,042
Nyní již můžeme dosadit do vzorce pro dolní hranici D a horní hranici H požadovaného
intervalu spolehlivosti.
2,41632000
2,2707042,252,21)(nt
2
α1
n
sxD
2,62372000
2,2707042,252,21)(nt
2
α1
n
sxH
Můžeme tedy říct, že průměrný počet pokojů v bytech se s 95% pravděpodobností pohybuje
v rozmezí od 2,4163 do 2,6237.
Příklad:
Jaké můžeme odhadovat volební preference kandidáta, pokud by jej v průzkumu volilo 140
respondentů z 200 dotázaných? Pracujte se 95% spolehlivostí.
59
Dolní hranici D i horní hranici H budeme počítat podle vzorce pro intervalový odhad
pravděpodobnosti (parametru )
1
)1(
2
1
21
n
ppu
np
Písmeno p ve vzorci značí relativní četnost respondentů, kteří by v průzkumu volili našeho
kandidáta. Vypočítáme tedy následovně:
Písmeno n značí celkový počet oslovených osob, tedy n = 200.
u1-/2 je kvantil normálního normovaného rozdělení, který nalezneme v příslušných tabulkách.
K tomu ale musíme předem určit procentnost kvantilu, tedy hodnotu 1 – /2.
Požadovaná spolehlivost je 95 %, tedy platí 1 – = 0,95.
Z toho víme, že = 0,05 a tedy /2 = 0,025 a tím i 1 – /2 = 0,975.
V tabulkách tedy nalezneme kvantil u0,975 = 1,96.
Nyní už spočítáme obě hranice intervalu, a to:
6338,01200
)7,01(7,096,1
2002
17,0
1
)1(
2
1
21
n
ppu
npD
7662,01200
)7,01(7,096,1
2002
17,0
1
)1(
2
1
21
n
ppu
npH
Můžeme tedy říct, že s 95% pravděpodobností se procento voličů daného kandidáta pohybuje
v rozmezí 63,38 % až 76,62 %..
Kontrolní otázky:
• Vyjmenujte bodové odhady parametrů binomického a normálního rozdělení.
• V čem spočívá nevýhoda bodových odhadů?
• Čím lze ovlivnit šíři intervalového odhadu?
• Vypočítejte 99% interval spolehlivosti pro podíl zmetků ve výrobě, pokud při
průzkumu bylo z 900 testovaných výrobků 15 zmetků?
60
• Jaký je horní odhad průměrné spotřeby aut naší výroby, pokud testovaná auta měla
následující spotřebu: 5,4; 4,8; 6,1; 5,6; 5,9; 4,8; 6,3; 5,0; 6,2; 4,9? Pracujte se
spolehlivostí 90%.
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
61
9 Princip testování hypotéz
Cílem této kapitoly je seznámení se základy testovaní hypotéz, pomocí něhož testujeme
tvrzení o chování náhodných veličin. Poté se v této kapitole zaměříme na jednu základní
skupinu testů, a to parametrické testy hypotéz.
Po prostudování této kapitoly byste měli být schopni:
• vysvětlit princip testování hypotéz,
• popsat postup testování hypotéz,
• vybrat vhodný parametrický test a pomocí něj ověřit tvrzení o hodnotách vybraných
parametrů.
Kapitola je členěna do těchto dílčích témat
• Princip testování hypotéz
• Typy testování hypotéz
• Parametrické testy
• Vzorové příklady
9.1 Princip testování hypotéz
V předchozí kapitole jsme popsali postup v případě, že nemáme žádný předpoklad o populaci
a snažíme se vytvořit nějaký odhad. Mnohdy však nastává situace, kdy máme nějaké
předpoklady, domněnky. Pak bývá úkolem statistiky tyto domněnky buď potvrdit, nebo
naopak vyvrátit. K tomuto účelu využijeme testování hypotéz. Statistika nám nabízí
nepřeberné množství statistických testů. V dané situaci si pak musíme vybrat ten
nejvhodnější. Příklady jsou uvedeny např. ve (Hrach 2006), zpracování pomocí SW ve
(Chajdiak 2005).
V následujícím textu uvedeme základní poznatky a postupy a jen pár nejzákladnějších testů. I
z těchto málo případů však bude zřejmé, že v případě potřeby bychom měli být schopni najít
si i jiný test a ten použít dle vzoru.
Základem statistického testování je dvojice statistických hypotéz, a to hypotézy H0 a H1.
Nulová hypotéza – základní statistická hypotéza testu, má speciální tvar podléhající
pravidlům, značíme H0,
Alternativní hypotéza – doplněk nulové hypotézy, značíme H1.
62
Při rozhodování mohou nastat situace, které popisuje následující tabulka:
Možnosti při testování: Doopravdy platí H0 Doopravdy platí H1
Test označil H0 za pravdivou OK „chyba 2. druhu“
Dle testu zamítnu H0 „chyba 1. druhu“ OK
Chyba 1.druhu – chybné zamítnutí, tj. ve skutečnosti daný fakt platí, ale test označil fakt
za nepravdivý;
Hladina významnosti – pravděpodobnost chyby 1.druhu, značí se a, nejčastější hodnota
bývá 5%.
Postup rozhodování:
1. Určíme hladinu významnosti .
2. Formulujeme dvojici stat. hypotéz H0 a H1 na základě slovních hypotéz.
3. Z dat spočteme hodnotu testového kriteria T (testové statistiky).
4. Pomocí tabulek kritických hodnot určíme při předem zvoleném kritický obor W pro
nulovou hypotézu (jeho doplněk nazýváme obor přijetí H0).
5. Pokud T leží ve W (TW), zamítáme při daném nulovou hypotézu ve prospěch
hypotézy alternativní.
6. Pokud naopak T neleží ve W (TW), nelze při daném zamítnout nulovou hypotézu
ve prospěch hypotézy alternativní.
7. Na základě (ne)zamítnutí H0 formulujeme slovní odpověď.
Testové kritérium – speciální statistika vypočítaná pomocí speciálních vzorců
z testovaných dat, značíme T.
63
Kritický obor – množina kritických hodnot, pokud je testové kritérium součástí této
množiny, jsme kritičtí k nulové hypotéze a zamítáme její platnost, značíme W.
Postup rozhodování při použití statistického SW (i např. Excel) – nelze „ručně“:
1. SW z dat spočte p-hodnotu (je vždy mezi 0-1).
2. Porovnáme p-hodnotu s předem zvolenou :
a. Pokud je p ≤ , zamítáme při daném nulovou hypotézu ve prospěch
hypotézy alternativní.
b. Pokud naopak je p > , nelze při daném zamítnout nulovou hypotézu ve
prospěch hypotézy alternativní.
9.2 Typy testování hypotéz
Parametrické
o pro střední hodnotu/y
o pro pravděpodobnost/i
o pro rozptyl/y (resp. směr.odchylku/y)
Neparametrické
o testy dobré shody
o testy nezávislosti
Jednovýběrový test – test, kdy testujeme hodnotu parametru dat jednoho souboru proti
deklarované hodnotě.
Dvouvýběrový test – test, kdy testujeme proti sobě hodnoty parametru dvou souborů.
9.3 Parametrické testy
Dvojice hypotéz pro střední hodnotu μ :
a) H0: μ=μ0 H1: μ≠μ0 … (oboustranná alternativa)
64
b) H0: μ=μ0 H1: μ>μ0 … (jednostranné alternativy)
c) H0: μ=μ0 H1: μ<μ0
Vždy μ0 je konkrétní testovaná hodnota.
Vzorec testového kritéria a kritické obory pro střední hodnotu μ při známém σ:
nxT )( 0
a) W = (-∞ ; -u1-α/2 u1-α/2 ; ∞)
b) W = u1-α ; ∞)
c) W = (-∞ ; -u1-α
Vzorec testového kritéria a kritické obory pro střední hodnotu μ při neznámém σ:
s
nxT )( 0
a) W = (-∞ ; -t1-α/2 (n-1) t1-α/2 (n-1) ; ∞)
b) W = t1-α (n-1) ; ∞)
c) W = (-∞ ; -t1-α (n-1)
Dvojice hypotéz, vzorec testového kritéria a kritické obory pro pravděpodobnost :
a) H0: = 0 H1: ≠ 0 … (oboustranná alternativa)
b) H0: = 0 H1: > 0 … (jednostranné alternativy)
c) H0: = 0 H1: < 0
Vždy 0 je konkrétní testovaná hodnota.
)1()(
00
0
n
pT
a) W = (-∞ ; -u1-α/2 u1-α/2 ; ∞)
65
b) W = u1-α ; ∞)
c) W = (-∞ ; -u1-α
9.4 Párový t-test
V párovém t-testu jde o zjištění, jak se chová střední hodnota rozdílu dvojic (párů) hodnot,
zjišťovaných u každé statistické jednotky. Příkladem může být zjišťování, zda a o kolik se liší
věk manželky a manžela (statistickou jednotkou je zde manželský pár, statistickými znaky
jsou věk manželky a manžela); zda a o jak velký vliv měla výuka na kurzu u jednotlivých
studentů (statistickou jednotkou je zde student, dvojicí statistických znaků je počet bodů
z kontrolního testu před kampaní a po kurzu); atd. Tato situace se řeší převodem na
jednovýběrový parametrický test pro střední hodnotu.
9.5 Vzorové příklady
Příklad:
V novinách se objevila informace, že průměrný počet pokojů v bytě mladých rodin
sledovaného města je 2. Magistrát ovšem namítl, že mladé rodiny bydlí ve větších bytech. Na
5% hladině významnosti máme ověřit, kdo má pravdu. K tomuto účelu byl proveden průzkum
ve 2000 bytových jednotkách mladých rodin. Výsledky průzkumu jsou shrnuty v následující
tabulce četností.
Počet pokojů 0 1 2 3 4
Relativní četnosti 0,1 0,25 0,14 0,05 0,46
Ze zadání je zřejmé, že naším úkolem je provést jednovýběrový parametrický test pro střední
hodnotu. Testovanou hodnotou bude μ0 = 2. Protože se v textu objevuje varianta, že průměrný
počet pokojů v bytě je větší než tato hodnota, zvolíme jednostrannou alternativní hypotézu.
Dvojice statistických hypotéz tedy bude následující:
H0: μ0 = 2 H1: μ0 > 2
Dále je vidět, že neznáme hodnotu rozptylu, proto musíme testové kritérium počítat dle
vzorce:
66
s
nxT )( 0
Nejdříve si samozřejmě musíme vypočítat všechny potřebné údaje.
Nyní už můžeme dosadit do vzorce testového kritéria:
4324,155069,1
2000)252,2()( 0
s
nxT
Nyní určíme kritický obor W = t1-α (n-1) ; ∞) .
K tomu potřebujeme nalézt hodnotu příslušného kvantilu.
Požadovaná hladina významnosti je 5 %, tedy = 0,05 a tady 1 - = 0,95.
Protože v našich tabulkách nenalezneme počet stupňů volnosti 1999, nalezneme požadovaný
údaj v posledním řádku tabulky.
t0,95 (30) = 1,697
Hledaný kritický obor je tedy interval W = 1,697 ; ∞).
Vidíme, že T W, tedy zamítáme nulovou hypotézu.
Test prokázal (na 5% hladině významnosti), že pravdu měl magistrát města.
Příklad:
Kandidát předpokládá, že ve volbách získá hlasy 80 % voličů. V předběžném průzkumu bylo
zjištěno, že by jej volilo 140 respondentů z 200 dotázaných? Na 5% hladině významnosti
máme ověřit, zda kandidát má správný odhad.
67
Ze zadání je zřejmé, že naším úkolem je provést jednovýběrový parametrický test pro
pravděpodobnost. Testovanou hodnotou bude 0 = 0,8. Zvolíme oboustrannou alternativní
hypotézu.
Dvojice statistických hypotéz tedy bude následující:
H0: 0 = 0,4 H1: 0 ≠ 0,4
Testové kritérium budeme počítat dle vzorce:
)1()(
00
0
n
pT
Písmeno p ve vzorci značí relativní četnost respondentů, kteří by v průzkumu volili našeho
kandidáta. Vypočítáme tedy následovně:
Dosazení do vzorce tedy bude následující:
5355,3)8,01(8,0
200)8,07,0(
)1()(
00
0
n
pT
Nyní určíme kritický obor W = u1-α; ∞) .
K tomu potřebujeme nalézt hodnotu příslušného kvantilu.
Požadovaná hladina významnosti je 5 %, tedy = 0,05 a tady 1 - = 0,95.
u0,95 = 1,64
Hledaný kritický obor je tedy interval W = 1,64 ; ∞).
Vidíme, že T W, tedy zamítáme nulovou hypotézu.
Test prokázal (na 5% hladině významnosti), že kandidát pravdu neměl.
Kontrolní otázky:
• Můžeme s jistotou říci, že pokud testové kritérium neleží v kritickém oboru, nulová
hypotéza platí? A proč?
• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda je
podíl vysokoškoláků alespoň 10 procent?
• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda je
podíl vysokoškoláků větší než 10 procent?
68
• Vyhodnoťte test z předchozí otázky, pokud vyšlo, že testové kritérium leží v kritickém
oboru?
• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda
deklarovaná spotřeba nafty konkurenční firmy není překračovaná?
• Vyhodnoťte test z předchozí otázky, pokud vyšlo, že testové kritérium neleží v
kritickém oboru?
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
69
10 Analýza rozptylu ANOVA
Cílem této kapitoly je seznámení se speciálním parametrickým testem na porovnání středních
hodnot v několika (nezávislých) souborech, neboli jinak řečeno na odhalování vlivu jedné
kategoriální veličiny na druhou spojitou veličinu.
Po prostudování této kapitoly byste měli být schopni:
• rozpoznat situace, ve kterých je vhodné využití testu ANOVA,
• formulovat dvojici hypotéz,
• spočítat testové kritérium pomocí vzorců,
• sestrojit kritický obor pomocí speciálních tabulek,
• sestavit a vyhodnotit speciální tabulku ANOVA, která je mimo jiné výstupem různých
statistických SW,
• získané výsledky interpretovat.
Kapitola je členěna do těchto dílčích témat
• Úvod do problematiky
• Popis použití testu
• Vzorové příklady
10.1 Úvod do problematiky
V testu ANOVA = zkratka z „analysis of variance“ jde o zkoumání závislosti spojité veličiny
(Y) na veličině kategoriální (X). Veličinu X nazýváme faktorem (proto v názvu testu slovo
„jednofaktorová“). Použití testu je omezeno podmínkou splnění dvou důležitých předpokladů,
a to normality veličiny Y a shody (homogenity) rozptylů veličiny Y v jednotlivých
kategoriích určených faktorem X. Normalita se ověřuje např. pomocí Kolmogorova-Smirnova
testu dobré shody, homogenitu lze ověřit např. pomocí tzv. Bartlettova testu. V případě, že
tyto požadavky nejsou plně splněny, pak není výsledek testu zcela přesný. V případě, že
požadavky jsou zcela nesplněny, pak nelze test použít. V tomto případě přistoupíme
k vybranému neparametrickému testu.
70
Pomocí testu ANOVA můžeme například testovat, zda vzdělání ovlivňuje výši platu, zda
ženy mají odlišné IQ než muži, zda výše platu závisí na vzdělání, zda firmy stejného typu
z různých států mají srovnatelné ekonomické ukazatele apod.
10.2 Popis použití testu
Dvojice hypotéz:
H0: μ1 = μ2 = … = μr … nezávislost H1: non H0 … závislost
μi jsou střední hodnoty veličiny Y v jednotlivých kategoriích určených faktorem X.
Vzorec testového kritéria a kritický obor:
rn
Qr
Q
Tv
m
1 , kde
Meziskupinová variabilita – rozptyl průměrů jednotlivých skupin.
i
r
i
im nyyQ
2
1
)( „meziskupinový součet čtverců„
Vnitroskupinová variabilita – rozptyl uvnitř jednotlivých skupin.
r
i
n
j
iijv
i
yyQ1 1
2)( „vnitroskupinový součet čtverců„
Podmíněný průměr – průměr hodnot spojité veličny, které náleží do společné skupiny
vytvořené na základě kategoriální veličiny.
i
n
j
ij
in
y
y
i
1
průměr veličiny Y v i-té skupině
F-Fisherovo rozdělení – spojité rozdělení, podle něhož se chovají testové statistiky testu
ANOVA, má dva údaje o stupních volnosti.
W = F1-α(r-1, n-r) ; ∞)
71
Kvantily F-rozdělení jsou dány jednak procentností, ale také tzv. stupni volnosti. Tento údaj
se uvádí v závorce za označením druhu kvantilu.
Počet stupňů volnosti – degree of freedom (df), počet parametrů systému, který se může
měnit nezávisle na sobě, využívá se při výpočtu testovacího kritéria i tvorbě kritického
oboru.
10.3 Vzorový příklad
Ve firmě jsou čtyři oddělení. Management firmy tvrdí, že mezi těmito odděleními není
významný rozdíl v platech. Platy zaměstnanců (v tis. Kč) v těchto odděleních jsou uvedeny
následující tabulce. Na 5% hladině významnosti chceme ověřit, zda management mluví
pravdu.
I.oddělení 19,3 18,0 21,6 22,4 20,9 20,1 24,0
II.oddělení 23,1 26,5 25,2 25,0 24,3 21,4 26,7
III.oddělení 23,7 20,8 19,8 24,1 22,2 22,6 22,9
IV.oddělení 17,2 16,6 16,9 17,7 21,3 15,2 19,0
Dvojice hypotéz bude následující:
H0: μ1 = μ2 = μ3 = μ4 (nebo-li plat nezávisí na oddělení)
H1: non H0 (nebo-li plat závisí na oddělení; mezi odděleními jsou rozdíly – aspoň jedno
oddělení je platově odlišné)
K výpočtu testového kritéria potřebujeme nejprve spočítat průměrné platy za jednotlivá
oddělení a dále průměr platů v celé firmě.
9,207
3,146
7
0,241,209,204,226,210,183,19
1
1
1
1
n
y
y
in
i
i
6,247
2,172
7
7,264,213,24252,255,261,23
2
1
2
2
2
n
y
y
n
i
i
3,227
1,156
7
9,226,222,221,248,198,207,23
3
1
3
3
3
n
y
y
in
i
i
7,177
9,123
7
192,153,217,179,166,162,17
4
1
4
4
4
n
y
y
n
i
i
375,2128
7,1773,2276,2479,2071
n
yn
y
r
i
ii
72
Dále už můžeme spočítat údaje o jednotlivých součtech čtverců:
Výsledná tabulka ANOVY bude následující:
hodnota součet čtverců Stupně volnosti podíl
mezi-skupinová 174,9125 4–1=3 58,304
vnitro-skupinová 82,240 28-4=24 3,427
celková 257,1525 28–1=27 xxx
Nyní již můžeme vypočítat hodnotu testového kritéria:
01313,17427,3
304,58
428
24,8214
9125,174
1
rn
Qr
Q
Tv
m
Následně stanovíme kritický obor W = F1-α(r-1, n-r) ; ∞)
K tomu účelu musíme nalézt příslušný kvantil.
Požadovanou hladinou významnosti je 5 %, tedy = 0,05 a 1 - = 0,95
Údaje o stupních volnosti jsou v případě F-rozdělení dva, v našem případě se jedná o dvojici
hodnot 3 a 24. Hodnotu pro druhý údaj v tabulce nenalezneme, proto vybereme nejbližší
možnou hodnotu, a to F0,95(3, 25) = 2,99
Naším kritickým oborem bude interval W = 2,99 ; ∞)
Vidíme, že T W, tedy zamítáme nulovou hypotézu.
9125,174
7)375,217,17(7)375,213,22(7)375,216,24(7)375,219,20(
)(
2222
2
1
i
r
i
im nyyQ
240,82
)7,170,19(...)7,172,17()3,229,22(...)3,227,23(
)6,247,26(...)6,241,23()9,200,24(...)9,203,19(
)(
2222
2222
1 1
2
r
i
n
j
iijv
i
yyQ
73
Test na 5% hladině významnosti prokázal, že alespoň jedno z oddělení je platově odlišné od
ostatních, tedy příslušnost k oddělení je faktorem ovlivňujícím výši platu.
Kontrolní otázky:
• Vysvětlete základní princip testu ANOVA.
• Chceme otestovat, zda mají zahraniční firmy srovnatelné hospodářské výsledky s
tuzemskými. V průzkumu jsme získali informace o 50 zahraničních a 83 tuzemských
firmách. Určete meziskupinový, vnitroskupinový i celkový počet stupňů volnosti.
• Vyhodnoťte následující tabulku ANOVA – prokázal test závislost spojité veličiny na
sledovaném faktoru?
Součet
čtverců
Stupně
volnosti Podíl F F krit.
meziskupinový 50384,83 2 25192,41 2,942802 3,354131
vnitroskupinový 231138,6 27 8560,69
celkový 281523,5 29
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
74
11 Testy 2
Cílem této kap je seznámení s dvěma základními testy zabývajícími se kategoriálními
veličinami, a to 2 test dobré shody a
2 test nezávislosti.
Po prostudování této kapitoly byste měli být schopni:
• rozpoznat situace, ve kterých je vhodné využití obou testů,
• v obou případech formulovat dvojici hypotéz,
• spočítat testová kritéria pomocí vzorců,
• sestrojit kritické obory pomocí speciálních tabulek,
• získané výsledky interpretovat.
Kapitola je členěna do těchto dílčích témat
• Úvod do problematiky
• 2 test dobré shody
• 2 test nezávislosti
11.1 Úvod do problematiky
Známe dva testy tohoto typu. Oba testy mají jedno společné, a to týkají se výhradně
kategoriálních veličin. Není důležité, jestli tyto veličiny mají, nebo nemají číselný charakter.
Důležité je, abychom mohli vytvořit skupiny objektů majících stejnou hodnotu této veličiny, a
tím jsme uměli zjistit počet objektů v jednotlivých těchto skupinách.
Pokud bychom je chtěli použít v případě spojitých veličin, mohli bychom data upravit, ovšem
za určité ztráty informace. Proto k tomuto kroku přistupujeme pouze ve výjimečném případě.
Úprava by spočívala v rozdělení oboru spojité veličiny na intervaly, tedy do jedné kategorie
by vždy náležely hodnoty z určitého rozmezí.
Název testů pochází od pravděpodobnostního rozdělení, jímž se řídí testová kritéria.
2 rozdělení – spojité asymetrické rozdělení, podle něhož se chovají testové statistiky
obou 2 testů.
75
Princip obou těchto rozdělení je založen na tzv. očekávaných (teoretických) četnostech.
Pokud jsou skutečné, tj. z dat získané četnosti velmi blízké očekávaným, můžeme říci, že platí
nulová hypotéza, v případě, že skutečné četnosti se významně liší od očekávaných, pak víme,
že nulová hypotéza neplatí. Míru odlišnosti těchto dvou druhů četností vyjadřuje testové
kritérium každého z těchto testů a rozhodnutí, zda je tato míra odlišnosti významná či nikoliv
určujeme za pomocí kvantilů 2 rozdělení.
Očekávané četnosti – četnosti, jaké by měly být, kdyby se to chovalo podle předpokladu.
11.2 2 test dobré shody
V tomto testu jde o zjišťování, zda pro danou kategoriální veličinu vykazují nasbíraná data
shodu s předpokládaným pravděpodobnostním modelem. Jedná se o neparametrický test.
Pomocí tohoto testu můžeme například řešit úlohy:
Jsou muži a ženy zastoupeni rovnoměrně, tedy v poměru 1:1 (50:50 %)?
Jsou výrobky dle jakosti zastoupeny v poměru 3:1:1 (60:20:20 %)?
Je 10% studentů se známkou 1, 20% se známkou 2, 50% se známkou 3 a x% se
známkou 4?
Není kostka falešná?
Chová se hod třemi kostkami podle binomického rozdělení?
Chová se hod mincí podle rovnoměrného rozdělení?
Dvojice hypotéz:
H0: P(x1) = π1 ; P(x2) = π2 ;…; P(xr) = πr nebo H0 : X~rozdělení (parametry)
H1: non H0
kde π1,…,πr jsou konkr. čísla: π1+…+πr = 1
Vzorec testového kritéria a kritický obor:
r
i i
ii
o
onT
1
2)( , kde
no ii … očekávané četnosti
W = 21-α(r-1); ∞)
76
Příklad:
Předpokládalo se, že se při prověrkách zaměstnanci rozdělí do tří výkonnostních kategorií
takto: v první (nejlepší) kategorii bude polovina zaměstnanců, ve druhé 40% a zbytek ve třetí.
Prověrky dopadly tak, jak ukazuje tabulka. Otestujte na 5% hladině významnosti, zda jsou
výsledky prověrek v souladu s předpokladem.
Výkonnostní třída I. II. III.
Počet zaměstnanců 125 60 25
Nejprve stanovíme dvojici hypotéz:
H0: P1 = 0,5; P2 = 0,4; P3 = 0,1
H1: non H0
Nyní vypočítáme potřebné očekávané četnosti, a to na základě znalosti celkového počtu
zaměstnanců (125 + 60 + 25 = 210) a rozložení zaměstnanců do výkonnostních tříd, které je
dáno nulovou hypotézou:
A nyní už můžeme přistoupit k výpočtu testového kritéria:
9048,621
16
84
196
105
400
21
)2125(
84
)8460(
105
)105125()( 222
1
2
r
i i
ii
o
onT
Jako další v pořadí určíme kritický obor W. K tomu potřebujeme najít příslušný kvantil
v tabulce rozdělení 2. Ze zadání víme, že hladina významnosti je 5 %, tedy = 0,05 a tedy
1 – = 0,95. Dále vidíme, že naše kategoriální veličina má 3 kategorie, proto počet stupňů
volnosti bude roven 3 – 1 = 2.
2
0,95(2) = 7,815
W = 7,815; ∞)
Vidíme, že T W, a tedy nelze zamítnout nulovou hypotézu.
Nemůžeme vyloučit, že jednotlivé výkonnostní třídy jsou zastoupeny dle předpokladu.
77
11.3 2 test nezávislosti
V tomto testu jde o zkoumání závislosti mezi dvojicí kategoriálních veličin (X, Y). Označme
r 2 počet kategorií veličiny X a s 2 počet kategorií veličiny Y. Počty statistických jednotek
s kombinací hodnot xi a yj označíme jako pozorované četnosti nij (i =1, ..., r, j =1 ,..., s) a
zaznamenáme je do tzv. kontingenční tabulky (dvourozměrné tabulky četností). Poslední
sloupec, resp. řádek obsahuje součty značené jako n1, n2, ..., nr, resp. n1, n2, ..., ns. Jejich
součtem musí být n (celkový počet statistických jednotek).
Kontingenční tabulka – dvourozměrná tabulka četností.
Jedná se o neparametrický test.
Pomocí tohoto testu můžeme například řešit úlohu … Závisí (nebo nezávisí) vzdělání na
pohlaví?
Jinými slovy … Má pohlaví vliv na vzdělání? Nebo ještě jinými slovyinými slovy … Jsou
nebo nejsou mezi muži a ženami významné rozdíly v zastoupení jednotlivých vzdělanostních
kategorií?
Dvojice hypotéz:
H0: nezávislost
H1: non H0 (tedy závislost)
Vzorec testového kritéria a kritický obor:
r
i ij
ijijs
j o
onT
1
2
1
)( , kde
n
nno
ji
ij
… očekávané četnosti
W = 21-α((r-1).(s-1)); ∞)
Příklad:
Na 5% hladině významnosti ověřte, zda je vzdělanostní struktura mužů a žen srovnatelná. Při
průzkumu byly zjištěny následující údaje.
78
ZŠ SŠ VŠ CELKEM
M 4 9 5 18
Ž 6 9 7 22
CELKEM 10 18 12 40
Jednotlivé mezivýpočty si uložíme do následující přehledné tabulky.
ZŠ SŠ VŠ CELKEM
M
n11 n12 n13 n1.
o11 o12 o13 o1.
(n11-o11)2/o11 (n12-o12)
2/o12 (n13-o13)
2/o13
Ž
n21 n22 n23 n2.
o21 o22 o23 o2.
(n21-o21)2/o21 (n22-o22)
2/o22 (n23-o23)
2/o23
CELKEM
n.1 n.2 n.3 n
o.1 o.2 o.3 o
T
Vyplněná tabulka vypadá následovně:
ZŠ SŠ VŠ CELKEM
M
4 9 5 18
4,5 8,1 5,4 18
0,055556 0,1 0,02963 0,185185
Ž
6 9 7 22
5,5 9,9 6,6 22
0,045455 0,081818 0,024242 0,151515
CELKEM
10 18 12 40
10 18 12 40
0,10101 0,181818 0,053872 0,3367
79
Z tabulky vidíme, že testové kritérium má hodnotu T = 0,3367;
Sestrojíme kritický obor W na základě nalezení příslušného kvantilu v tabulce rozdělení 2.
W = 20,95(3-1).(2-1); ) =
20,95(2); ) = 5,991; )
Vidíme, že T W. Nelze tedy zamítnout H0
Nepotvrdila se závislost vzdělání na pohlaví, tj. muži i ženy mají srovnatelnou strukturu
vzdělání.
Kontrolní otázky:
• Má použití 2 testů nějaké omezení, kdy je nelze použít?
• Pomocí jakého testu byste zjistili, zda je daná hrací kostka falešná?
• Formulujte dvojici hypotéz tohoto testu.
• Jak byste test vyhodnotili, kdyby vám hodnota testového kritéria vyšla 8,35 a patřičný
kvantil nalezený v tabulkách měl hodnotu 11,017?
• Pomocí jakého testu byste zjistili, zda mají muži a ženy srovnatelnou vzdělanostní
strukturu?
• Formulujte dvojici hypotéz tohoto testu.
• Jak byste test vyhodnotili, kdyby vám hodnota testového kritéria vyšla 18,43 a
patřičný kvantil nalezený v tabulkách měl hodnotu 5,991?
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
80
12 Závislost mezi spojitými veličinami
Cílem této kapitoly je seznámení se základy rozvité části statistiky, a to regrese a korelace.
Po prostudování této kapitoly byste měli být schopni:
• rozpoznat situace, ve kterých je vhodné využití regrese, případně korelace,
• vypočítat koeficienty regresní přímku pomocí vhodných vzorců,
• vypočítané hodnoty přesně interpretovat,
• vypočítat pomocí vzorců korelační koeficient, index determinace,
• na základě vypočítaných hodnot rozhodnout o kvalitě regresního modelu a závislosti
sledovaných veličin,
• na základě modelu odhadnout potřebné údaje,
• rozhodnout, do jaké jsou získané odhady relevantní.
Kapitola je členěna do těchto dílčích témat
• Úvod do problematiky
• Lineární regrese
• Kvalita regresních modelů
12.1 Úvod do problematiky
Závislost spojitých veličin se vyšetřuje pomocí dvojice metod, a to regrese a korelace.
Úkolem regrese je najít vhodný funkční model této závislosti, úkolem korelace je změřit
výstižnost nalezeného regresního modelu. Známe dva základní typy regresní analýzy, a to
jednoduchou a vícenásobnou. Více najdeme v (Hrach a kol. 1998) či (Řezanková a Loster
2013).
Cílem jednoduché (simple) regrese je najít model funkční závislosti (spojité) veličiny Y na
jedné (spojité) veličině (na tzv. regresoru) X. Tvar funkce často napoví bodový graf dat.
Příkladem může být zkoumání závislosti mezi platem a výší úspor či mezi výší exportu a výší
HDP.
Cílem vícenásobné (multiple) regrese je najít model funkční závislosti (spojité) veličiny Y na
více (spojitých) veličinách (regresorech). Příkladem může být zkoumání závislosti výše úspor
na platu, výdajích za potraviny, výdajích za spotřební zboží a výdajích za kulturu.
81
Regresní model – matematická funkce, která co nejlépe vystihuje vztah mezi dvěma
spojitými veličinami.
V tomto materiálu se budeme zabývat pouze regresí jednoduchou. Můžeme hledat modely
různých typů. Mezi nejvíce používané patří:
Lineární model: 01 bxby
Kvadratický model: 01
2
2 bxbxby
Mocninný model: 00
n
i
i
i xby
Logaritmický model: 01 ln bxby
12.2 Lineární regrese
Blíže se nyní seznámíme s nejjednodušším a nejčastěji využívaném typu, a to lineárním
modelu, v němž hledáme funkci ve tvaru přímky, viz obrázek.
Snažili jsme se „proložit“ tři body A, B a C regresní přímkou. Hledáme funkci (přímku) ve
tvaru 01 bxby
. Vidíme, že platí 01 bxby nebo-li, že naměřené hodnoty se
„o něco“ liší od vypočítaných hodnot odhadu. Tomuto rozdílu říkáme reziduum, značíme .
Reziduum – odchylka hodnoty vypočítané modelem od skutečné hodnoty.
82
Z důvodu „odstranění“ znaménka nepracujeme s hodnotou rezidua přímo, ale v její druhé
mocnině.
Součet reziduálních čtverců – součet druhých mocnin všech vypočítaných reziduí, slouží
k nalezení nejlepšího modelu daného typu.
Hodnoty b1 a b0 odhadujeme pomocí Metody nejmenších čtverců, která je založena na
principu hledání minima funkce více proměnných pomocí parciálních derivací.
Metoda nejmenších čtverců – metoda, pomocí které se vypočítá regresní model,
pracuje na principu hledání minima funkce několika proměnných, za tuto funkci
uvažujeme právě součet reziduálních čtverců.
Z této metody je možno získat následující vzorce.
221
xx
yxyxb
xbyb 10
Směrnice regresní přímky b1 – lineární koeficient u lineárního regresního modelu, je velmi
důležitá pro interpretaci.
Směrnice přímky odpovídá změně závislé proměnné při nárůstu nezávislé proměnné o
jednu jednotku.
Výpočty regrese pomocí uvedených vzorců jsou poněkud pracné. Proto se většinou v praxi
využívá různých pomocníků. V případě lineárních modelů můžeme výpočty provést na
kalkulačkách, a to pomocí speciálních funkcí. Ještě efektivnější je využití různých SW,
například i velmi rozšířeného Microsoft Excelu.
12.3 Kvalita regresních modelů
Reziduum značí odchylku naměřené hodnoty od hodnoty vypočítané, čili iii yy ˆ .
Ve výpočtech pak z důvodu odstranění znaménka (+, –) pracujeme s druhými mocninami
83
těchto reziduí, nebo-li s reziduálními čtverci 2
i . Metoda nejmenších čtverců hledá minimum
tzv. součtu reziduálních čtverců Qe.
n
i
ieQ1
2
Kvalitu regresního modelu vyhodnocujeme pomocí následujících charakteristik.
Reziduální rozptyl
pn
Qs e
e
2 ,
kde n je počet měření (bodů) a p je počet parametrů modelu (pro lineární model p = 2).
Platí, že 02 es a dále, že čím větší je hodnota 2
es , tím hůře model vystihuje data.
Index determinace
y
e
y
y
Q
Q
Q
QI 1
ˆ2 ,
kde
n
i
iy yxfQ1
2
ˆ ))(( a
n
i
ie yyQ1
2)( .
Platí, že 1;02 I . Hodnotu indexu determinace pro interpretaci převádíme na procenta.
Jeho hodnota nám pak říká, z kolika procent rozptylu vysvětlované proměnné je vysvětleno
modelem. Srozumitelněji a zjednodušeně jinými slovy můžeme říci, z kolika procent model
vystihuje daná data. Je tedy zřejmé, že čím vyšší index determinace, tím lepší model.
Nutno ovšem podotknout, že index determinace závisí na počtu vysvětlujících proměnných a
s růstem jejich počtu narůstá i jeho hodnota. V důsledku toho index determinace zvýhodňuje
složitější modely (tj. modely s více parametry). Toto je nepříjemná vlastnost, která částečně
snižuje jeho kvalitu. Pokud tedy využíváme indexu determinace k porovnání dvou modelů
s různým počtem parametrů, měli bychom jeho vyhodnocení doplnit i vyhodnocením
například pomocí reziduálního rozptylu.
Korelační koeficient
2Ir a )sgn()sgn( 1br
Korelační koeficient má stejné znaménko jako směrnice regresní přímky.
84
Tento přímý výpočet korelačního koeficientu je velmi zdlouhavý, proto se více využívá
následujícího upraveného, „předpočítaného“ vzorce.
)()( 2222 yyxx
yxyxr
Korelační koeficient má smysl počítat pouze pro lineární model. Platí, že 1;1r . Čím
blíže je jeho hodnota blíže ke krajním hodnotám tohoto rozmezí, tím je lepší model. Pro
vyhodnocení hodnot korelačního koeficientu existuje speciální test hypotéz. Zjednodušeně lze
však říci, že pokud je jeho hodnota blízká 1 (většinou se uvádí podmínka větší než 0,8), pak
mluvíme o silné přímé lineární závislosti. Je-li jeho hodnota blízko -1 (menší než -0,8), pak
mluvíme o silné nepřímé lineární závislosti. Pokud je jeho hodnota blízko 0 (v rozmezí od -
0,3 do +0,3), pak říkáme, že není lineární závislost. Slovo lineární v poslední větě je velmi
důležité. Je nutno si uvědomit, že neexistence lineární závislosti nevylučuje existenci funkční
závislosti jiného druhu (kvadratické, logaritmické, …)
Vzorové příklady jsou k dispozici například na http://fse1.ujep.cz/index.php?art=5150.
Kontrolní otázky:
• Co je cílem regresní analýzy?
• Interpretujte hodnotu směrnice regresní přímky rovnou 25, pokud model vyjadřoval
závislost tržeb na nákladech na reklamu (obojí v tis. Kč).
• Jakých hodnot může nabývat korelační koeficient, co které hodnoty znamenají?
• Graficky znázorněte situaci, kdy korelační koeficient vyšel -0,12 a index determinace
kvadratického modelu nad stejnými daty má hodnotu 97%.
• Vyberte vhodnější ze dvou následujících modelů:
lineární – index determinace = 89,2%, reziduální rozptyl = 135,4
kvadratický – index determinace = 90,5%, reziduální rozptyl = 56,1.
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
85
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
86
13 Časové řady
Cílem této kapitoly je seznámení se základy sledování číselné veličiny v čase.
Po prostudování této kapitoly byste měli být schopni:
• určit základní typy časových řad,
• spočítat základní popisné charakteristiky časové řady,
• výsledné hodnoty co nejvýstižněji interpretovat,
• vyhladit časovou řadu pomocí klouzavých průměrů,
• najít lineární model trendu časové řady,
• na základě modelu trendu odhadnout trendovou složku pro požadované období,
• rozhodnout, zda je vypočítaný odhad relevantní.
Kapitola je členěna do těchto dílčích témat
• Úvod do problematiky
• Základní charakteristiky časových řad
• Modely časových řad
13.1 Úvod do problematiky
Patří mezi deskriptivní statistické metody. Pomocí časových řad popisujeme chování spojité
veličiny Y v čase t.
Pracujeme tedy s dvojicemi [t, yt],
kde t = 1, …, T značí jednotlivé časové okamžiky (tj. 1. okamžik, 2. okamžik, … T-tý
okamžik)
Časové řady dělíme z mnoha hledisek. Některá tato hlediska jsou čistě terminologická, jiná
však přináší jiný přístup ke zpracování jednotlivých časových řad.
I. hledisko:
Krátkodobé časové řady (období mezi pozorováními kratší než rok)
Střednědobé časové řady
Dlouhodobé časové řady (období mezi pozorováními delší než rok)
87
II. hledisko:
Ekvidistantní časové řady (rovnoměrná, pravidelná frekvence)
Neekvidistantní časové řady (různé časové úseky během časové řady)
III. hledisko:
Intervalové časové řady (hodnota veličiny Y se nasčítává v průběhu celého období, má
tedy smysl sčítání), příkladem může být počet vyrobených automobilů v daném měsíci
Okamžikové časové řady (nemá smysl sčítat dvě hodnoty veličiny Y), příkladem může
být počet zaměstnanců v daném měsíci
IV. hledisko:
Základní časové řady (údaje získáváme přímo), příkladem může být počet
nezaměstnaných v daném měsíci
Odvozené časové řady (údaje získáváme výpočtem), příkladem může být míra
nezaměstnanosti v daném měsíci
V. hledisko:
Časové řady s trendem, např. rostoucí, klesající
Časové řady bez trendu (hodnoty se pohybují „náhodně“)
Periodické časové řady (vyskytuje se určitá pravidelnost), příkladem mohou být
teploty periodicky se měnící v závislosti na ročním období
Z hlediska zpracování je nutno být pozorní ve zpracování neekvidistantních intervalových
časových řad, kdy jednotlivá období jsou vzájemně neporovnatelná. Pokud v těchto řadách
potřebujeme provádět porovnání, musíme nejprve řadu upravit, přepočítat na řadu
ekvidistantní (např. výdaje v jednotlivých měsících přepočteme tak, jako by v každém měsíci
bylo 30 dní).
Trend časové řady se nejčastěji zjišťuje pomocí regresní analýzy, kterou jsme si popsali
v předchozí kapitole. Nejjednodušším a nejčastěji využívaným typem trendu je přímka, tedy
lineární regresní funkce. Pokud má tato přímka kladnou směrnici, pak mluvíme o rostoucím
trendu, pokud má směrnici zápornou, mluvíme o klesajícím trendu.
88
Dále musíme být pozorní při výpočtech průměrných hodnot v okamžikových časových
řadách. Z důvodu, že v těchto řadách nemá smysl sčítání, není možno využít k průměrování
aritmetický průměr. V tomto případě musíme použít tzv. chronologický průměr, vzorec.
1
2...
212
1
T
yyy
y
x
TT
CH
13.2 Základní charakteristiky časových řad
Průběžné (charakterizují změnu oproti minulému období)
Celkové (charakterizují celkovou změnu)
Průběžné charakteristiky
Průběžné charakteristiky nám ukazují, jak se hodnota časové řady změnila oproti
předchozímu období. Používají se tři charakteristiky.
První diference (absolutní přírůstek) nám říká, o kolik se změnila hodnota oproti
předešlému, značíme dt.
Absolutní přírůstek počítáme podle následujícího vzorce
Ttyyd ttt ,,2;1
Je zřejmé, že výpočet absolutního přírůstku pro první období nemá smysl (pro první období
neexistuje období předchozí).
Koeficient růstu nám říká, kolikrát se změnila hodnota oproti předešlému období.
Jinými slovy můžeme říci, že nám koeficient růstu říká, na kolik procent se změnila hodnota
časové řady oproti předchozímu období. Koeficient růstu má smysl počítat pouze v případech,
že všechny hodnoty časové řady jsou různé od nuly a mají stejná znaménka (všechny jsou
kladné, nebo všechny jsou záporné). Opět jej nemá smysl počítat pro první období.
89
Tty
yk
t
t
t ,,2;1
Relativní přírůstek nám říká, o kolik procent se změnila hodnota oproti předešlému
období.
Uvedeme si jednak základní vzorec, vyjadřující podstatu této charakteristiky – tj. relativizaci
absolutního přírůstku. Jednak si uvedeme i vzorec poukazující na vztah mezi koeficientem
růstu a relativním přírůstkem.
Ttky
dr t
t
t
t ,,2;11
Do následující tabulky můžeme shrnout interpretace hodnot průběžných charakteristik.
Nárůst oproti předešlému období dt > 0 kt > 1 rt > 0
Pokles oproti předchozímu období dt < 0 0 < kt < 1 rt < 0
Celkové charakteristiky
Průměrný absolutní přírůstek nám říká, o kolik se změnila hodnota v průměru mezi
jednotlivými obdobími.
Průměrný absolutní přírůstek se počítá jako aritmetický průměr prvních diferencí. Toto je
možné, protože má smysl sčítat dvě první diference. Součet nám říká, jak se hodnota změnila
za dvě období. Pokud bychom si ve vzorci vyjadřujícím výpočet průměru z 1.diferencí
rozepsali jednotlivé absolutní přírůstky, zjistili bychom, že se většina těchto průměrovaných
hodnot vyruší (ve výpočtu se objeví jednou se znaménkem + a jednou se znaménkem -). Proto
je možno průměrný absolutní přírůstek počítat i rychlejším způsobem, a to pouze na základě
prvního a posledního členu časové řady. Z tohoto vzorce je také velmi názorně vidět, že
hodnota průměrného absolutního přírůstku vůbec nezáleží na chování časové řady v průběhu
celého sledovaného období, ale záleží pouze na počátku a konci tohoto období.
90
11
12
T
yy
T
d
d T
T
i
i
Průměrný relativní (procentuální) přírůstek nám říká, kolikrát se změnila hodnota
v průměru mezi jednotlivými obdobími.
V přepočtu na procenta udává, o kolik procent se změnila hodnota v průměru. Průměrný
procentuální přírůstek se počítá jako geometrický průměr jednotlivých koeficientů růstu. Toto
je z důvodu, že dva koeficienty růstu nemá smysl sčítat (proto nemůžeme použít průměr
aritmetický), ale násobit. Obdobně jako u průměrného absolutního přírůstku i zde uvedeme
dva vzorce. První vyjadřuje podstatu a druhý je rychlejší na výpočet.
1
1
132
TTT
Ty
ykkkk
Bazický index – o kolik % se hodnota liší oproti bazickému (danému) období.
Tty
yb
B
t
t ,,1%;100
13.3 Modely časových řad
Při modelování časových řad předpokládáme, že každá časová řada se skládá z několika
složek, a to trendové složky (T), periodické složky (P) a složky náhodné (E). Každou tuto
složku můžeme modelovat zvlášť.
Výsledný model pak může být buď součtem těchto složek (tzv. aditivní model) nebo jejich
součinem (multiplikativní model).
Trend časové řady – systematické „směřování“.
Trend můžeme vyjádřit buď vhodně vybranou regresní funkcí, nebo pomocí tzv. klouzavých
průměrů.
V případě určení trendu pomocí regrese volíme za veličinu X čas, tj. jednotlivá období, ve
kterých jsme měřili sledovanou veličinu. Z důvodu snadnějších a přehlednějších výpočtů si
91
tato období můžeme očíslovat (první, druhé, … období) a za X pak dosazujeme hodnoty
1, …, T.
Klouzavé průměry – slouží k vyhlazení časové řady, počítají se jako aritmetický
průměr daného počtu po sobě jsoucích pozorování.
Periodické chování vyjadřuje jisté pravidelně se opakující výkyvy. Jedním z možných
periodických chování časových řad je tzv. sezónnost. Sezónnost se vyjadřuje tzv. sezónními
indexy.
Vzorové příklady jsou k dispozici například na http://fse1.ujep.cz/index.php?art=5150.
Kontrolní otázky:
• Určete typ časové řady z nejrůznějších hledisek. Časová řada sleduje vývoj počtu
zaměstnanců vždy k prvnímu v daném měsíci.
• Určete typ časové řady z nejrůznějších hledisek. Časová řada sleduje vývoj tržeb za
předchozí období vždy k poslednímu v daném měsíci.
• Přehledně shrňte pravidla, jak z popisných charakteristik časové řady poznáme, že v
daném období došlo k poklesu oproti předchozímu období.
• Můžeme na základě sledování tržeb v letech 2000 až 2010 odhadnout trendovou
složku tržeb v roce 2050? A proč, případně jak?
• Jakou délku klouzavých průměrů byste použili při vyhlazování časové řady, která po
20 let sleduje čtvrtletní údaje o průměrných výdajích na osobu?
Literatura ke kapitole
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• ARLT, J.: Ekonomické časové řady, Grada, 2007 285 s., ISBN 978-80-24713-19-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
92
Seznam literatury
Seznam povinné literatury
• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí
nad Labem 1996, 98 s. ISBN 80-7044-143-7.
• KAHOUNOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl II., skripta FSE
Ústí nad Labem 2001, 116 s. ISBN 80-7044-151-8.
• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu
pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-
203-4.
• MOC, O., ŠIMSOVÁ, J., ŽAMBOCHOVÁ, M. Matematika pro ekonomy, 1. vyd.
Ústí nad Labem, UJEP 2013, 608 s. ISBN-9788074145995.
• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.
ISBN 80-7044-845-8.
• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.
ISBN 978-80-245-1957-9.
Seznam doporučené literatury
• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.
Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.
• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN
80-85659-39-5.
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Popisná statistika, Masarykova
univerzita, Brno 2007, 48 s., ISBN 978-80-21042-46-9
• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a
matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,
ISBN 978-80-21033-13-9
• ARLT, J.: Ekonomické časové řady, Grada, 2007 285 s., ISBN 978-80-24713-19-9
• http://fse1.ujep.cz/index.php?art=5150
• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html
93
Příloha 1 – Normální normované rozdělení
Hodnoty distribuční funkce normovaného normálního rozdělení, F(u)=P(U<u)
u F(u) u F(u) u F(u) u F(u) u F(u) u F(u)
0,00 0,50000 0,40 0,65542 0,80 0,78814 1,20 0,88493 1,60 0,94520 2,00 0,97725
0,01 0,50399 0,41 0,65910 0,81 0,79103 1,21 0,88686 1,61 0,94630 2,01 0,97778
0,02 0,50798 0,42 0,66276 0,82 0,79389 1,22 0,88877 1,62 0,94738 2,02 0,97831
0,03 0,51197 0,43 0,66640 0,83 0,79673 1,23 0,89065 1,63 0,94845 2,03 0,97882
0,04 0,51595 0,44 0,67003 0,84 0,79955 1,24 0,89251 1,64 0,94950 2,04 0,97932
0,05 0,51994 0,45 0,67364 0,85 0,80234 1,25 0,89435 1,65 0,95053 2,05 0,97982
0,06 0,52392 0,46 0,67724 0,86 0,80511 1,26 0,89617 1,66 0,95154 2,06 0,98030
0,07 0,52790 0,47 0,68082 0,87 0,80785 1,27 0,89796 1,67 0,95254 2,07 0,98077
0,08 0,53188 0,48 0,68439 0,88 0,81057 1,28 0,89973 1,68 0,95352 2,08 0,98124
0,09 0,53586 0,49 0,68793 0,89 0,81327 1,29 0,90147 1,69 0,95449 2,09 0,98169
0,10 0,53983 0,50 0,69146 0,90 0,81594 1,30 0,90320 1,70 0,95543 2,10 0,98214
0,11 0,54380 0,51 0,69497 0,91 0,81859 1,31 0,90490 1,71 0,95637 2,11 0,98257
0,12 0,54776 0,52 0,69847 0,92 0,82121 1,32 0,90658 1,72 0,95728 2,12 0,98300
0,13 0,55172 0,53 0,70194 0,93 0,82381 1,33 0,90824 1,73 0,95818 2,13 0,98341
0,14 0,55567 0,54 0,70540 0,94 0,82639 1,34 0,90988 1,74 0,95907 2,14 0,98382
0,15 0,55962 0,55 0,70884 0,95 0,82894 1,35 0,91149 1,75 0,95994 2,15 0,98422
0,16 0,56356 0,56 0,71226 0,96 0,83147 1,36 0,91308 1,76 0,96080 2,16 0,98461
0,17 0,56749 0,57 0,71566 0,97 0,83398 1,37 0,91466 1,77 0,96164 2,17 0,98500
0,18 0,57142 0,58 0,71904 0,98 0,83646 1,38 0,91621 1,78 0,96246 2,18 0,98537
0,19 0,57535 0,59 0,72240 0,99 0,83891 1,39 0,91774 1,79 0,96327 2,19 0,98574
0,20 0,57926 0,60 0,72575 1,00 0,84134 1,40 0,91924 1,80 0,96407 2,20 0,98610
0,21 0,58317 0,61 0,72907 1,01 0,84375 1,41 0,92073 1,81 0,96485 2,21 0,98645
0,22 0,58706 0,62 0,73237 1,02 0,84614 1,42 0,92220 1,82 0,96562 2,22 0,98679
0,23 0,59095 0,63 0,73565 1,03 0,84849 1,43 0,92364 1,83 0,96638 2,23 0,98713
0,24 0,59483 0,64 0,73891 1,04 0,85083 1,44 0,92507 1,84 0,96712 2,24 0,98745
0,25 0,59871 0,65 0,74215 1,05 0,85314 1,45 0,92647 1,85 0,96784 2,25 0,98778
0,26 0,60257 0,66 0,74537 1,06 0,85543 1,46 0,92785 1,86 0,96856 2,26 0,98809
0,27 0,60642 0,67 0,74857 1,07 0,85769 1,47 0,92922 1,87 0,96926 2,27 0,98840
0,28 0,61026 0,68 0,75175 1,08 0,85993 1,48 0,93056 1,88 0,96995 2,28 0,98870
0,29 0,61409 0,69 0,75490 1,09 0,86214 1,49 0,93189 1,89 0,97062 2,29 0,98899
0,30 0,61791 0,70 0,75804 1,10 0,86433 1,50 0,93319 1,90 0,97128 2,30 0,98928
0,31 0,62172 0,71 0,76115 1,11 0,86650 1,51 0,93448 1,91 0,97193 2,31 0,98956
0,32 0,62552 0,72 0,76424 1,12 0,86864 1,52 0,93574 1,92 0,97257 2,32 0,98983
0,33 0,62930 0,73 0,76730 1,13 0,87076 1,53 0,93699 1,93 0,97320 2,33 0,99010
0,34 0,63307 0,74 0,77035 1,14 0,87286 1,54 0,93822 1,94 0,97381 2,34 0,99036
0,35 0,63683 0,75 0,77337 1,15 0,87493 1,55 0,93943 1,95 0,97441 2,35 0,99061
0,36 0,64058 0,76 0,77637 1,16 0,87698 1,56 0,94062 1,96 0,97500 2,36 0,99086
0,37 0,64431 0,77 0,77935 1,17 0,87900 1,57 0,94179 1,97 0,97558 2,37 0,99111
0,38 0,64803 0,78 0,78230 1,18 0,88100 1,58 0,94295 1,98 0,97615 2,38 0,99134
0,39 0,65173 0,79 0,78524 1,19 0,88298 1,59 0,94408 1,99 0,97670 2,39 0,99158
94
Příloha 2 – t- rozdělení
Kvantily rozdělení t
P
0,90 0,95 0,975 0,99 0,995 0,999
1 3,078 6,314 12,706 31,821 63,656 318,289
2 1,886 2,920 4,303 6,965 9,925 22,328
3 1,638 2,353 3,182 4,541 5,841 10,214
4 1,533 2,132 2,776 3,747 4,604 7,173
5 1,476 2,015 2,571 3,365 4,032 5,894
6 1,440 1,943 2,447 3,143 3,707 5,208
7 1,415 1,895 2,365 2,998 3,499 4,785
8 1,397 1,860 2,306 2,896 3,355 4,501
9 1,383 1,833 2,262 2,821 3,250 4,297
10 1,372 1,812 2,228 2,764 3,169 4,144
11 1,363 1,796 2,201 2,718 3,106 4,025
12 1,356 1,782 2,179 2,681 3,055 3,930
13 1,350 1,771 2,160 2,650 3,012 3,852
14 1,345 1,761 2,145 2,624 2,977 3,787
15 1,341 1,753 2,131 2,602 2,947 3,733
16 1,337 1,746 2,120 2,583 2,921 3,686
17 1,333 1,740 2,110 2,567 2,898 3,646
18 1,330 1,734 2,101 2,552 2,878 3,610
19 1,328 1,729 2,093 2,539 2,861 3,579
20 1,325 1,725 2,086 2,528 2,845 3,552
21 1,323 1,721 2,080 2,518 2,831 3,527
22 1,321 1,717 2,074 2,508 2,819 3,505
23 1,319 1,714 2,069 2,500 2,807 3,485
24 1,318 1,711 2,064 2,492 2,797 3,467
25 1,316 1,708 2,060 2,485 2,787 3,450
26 1,315 1,706 2,056 2,479 2,779 3,435
27 1,314 1,703 2,052 2,473 2,771 3,421
28 1,313 1,701 2,048 2,467 2,763 3,408
29 1,311 1,699 2,045 2,462 2,756 3,396
30 1,310 1,697 2,042 2,457 2,750 3,385
95
Příloha 3 – 2- rozdělení
Kvantily rozdělení 2
P
0,90 0,95 0,975 0,99 0,995 0,999
1 2,706 3,841 5,024 6,635 7,879 10,827
2 4,605 5,991 7,378 9,210 10,597 13,815
3 6,251 7,815 9,348 11,345 12,838 16,266
4 7,779 9,488 11,143 13,277 14,860 18,466
5 9,236 11,070 12,832 15,086 16,750 20,515
6 10,645 12,592 14,449 16,812 18,548 22,457
7 12,017 14,067 16,013 18,475 20,278 24,321
8 13,362 15,507 17,535 20,090 21,955 26,124
9 14,684 16,919 19,023 21,666 23,589 27,877
10 15,987 18,307 20,483 23,209 25,188 29,588
11 17,275 19,675 21,920 24,725 26,757 31,264
12 18,549 21,026 23,337 26,217 28,300 32,909
13 19,812 22,362 24,736 27,688 29,819 34,527
14 21,064 23,685 26,119 29,141 31,319 36,124
15 22,307 24,996 27,488 30,578 32,801 37,698
16 23,542 26,296 28,845 32,000 34,267 39,252
17 24,769 27,587 30,191 33,409 35,718 40,791
18 25,989 28,869 31,526 34,805 37,156 42,312
19 27,204 30,144 32,852 36,191 38,582 43,819
20 28,412 31,410 34,170 37,566 39,997 45,314
21 29,615 32,671 35,479 38,932 41,401 46,796
22 30,813 33,924 36,781 40,289 42,796 48,268
23 32,007 35,172 38,076 41,638 44,181 49,728
24 33,196 36,415 39,364 42,980 45,558 51,179
25 34,382 37,652 40,646 44,314 46,928 52,619
26 35,563 38,885 41,923 45,642 48,290 54,051
27 36,741 40,113 43,195 46,963 49,645 55,475
28 37,916 41,337 44,461 48,278 50,994 56,892
29 39,087 42,557 45,722 49,588 52,335 58,301
30 40,256 43,773 46,979 50,892 53,672 59,702
96
Příloha 4 – F- rozdělení
95% kvantily Fisherova F rozdělení.
D1 počet stupňů volnosti "z čitatele", D2 počet stupňů volnosti "ze jmenovatele".
D1= 1 2 3 4 5 6 7 8 10 12
D2= 1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 241,88 243,90
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,40 19,41
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,93 1,85
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80
3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75
D1= 14 16 20 25 30 40 50 100 200
D2= 1 245,36 246,47 248,02 249,26 250,10 251,14 251,77 253,04 253,68 254,32
2 19,42 19,43 19,45 19,46 19,46 19,47 19,48 19,49 19,49 19,50
3 8,71 8,69 8,66 8,63 8,62 8,59 8,58 8,55 8,54 8,53
4 5,87 5,84 5,80 5,77 5,75 5,72 5,70 5,66 5,65 5,63
5 4,64 4,60 4,56 4,52 4,50 4,46 4,44 4,41 4,39 4,37
6 3,96 3,92 3,87 3,83 3,81 3,77 3,75 3,71 3,69 3,67
7 3,53 3,49 3,44 3,40 3,38 3,34 3,32 3,27 3,25 3,23
8 3,24 3,20 3,15 3,11 3,08 3,04 3,02 2,97 2,95 2,93
10 2,86 2,83 2,77 2,73 2,70 2,66 2,64 2,59 2,56 2,54
12 2,64 2,60 2,54 2,50 2,47 2,43 2,40 2,35 2,32 2,30
14 2,48 2,44 2,39 2,34 2,31 2,27 2,24 2,19 2,16 2,13
16 2,37 2,33 2,28 2,23 2,19 2,15 2,12 2,07 2,04 2,01
20 2,22 2,18 2,12 2,07 2,04 1,99 1,97 1,91 1,88 1,84
25 2,11 2,07 2,01 1,96 1,92 1,87 1,84 1,78 1,75 1,71
30 2,04 1,99 1,93 1,88 1,84 1,79 1,76 1,70 1,66 1,62
40 1,95 1,90 1,84 1,78 1,74 1,69 1,66 1,59 1,55 1,51
50 1,89 1,85 1,78 1,73 1,69 1,63 1,60 1,52 1,48 1,44
100 1,79 1,75 1,68 1,62 1,57 1,52 1,48 1,39 1,34 1,28
200 1,74 1,69 1,62 1,56 1,52 1,46 1,41 1,32 1,26 1,19
1,69 1,64 1,57 1,51 1,46 1,39 1,35 1,24 1,17 1,00