statistika - fsetest.ujep.czfsetest.ujep.cz/img/upload/files/statistika_pruvodce_kurzem.pdf · 5...

Fakulta sociálně ekonomická

Univerzita J.E.Purkyně v Ústí n.L.

2015

STATISTIKA

Průvodce kurzem

Marta Žambochová

2

Obsah 1 Náhodná veličina ................................................................................................................. 5

1.1 Statistický soubor ........................................................................................................ 6

1.2 Statistické šetření ......................................................................................................... 8

1.3 Četnosti ........................................................................................................................ 9

Kontrolní otázky: .................................................................................................................. 10

Literatura ke kapitole............................................................................................................ 10

2 Kvantily ............................................................................................................................. 10

2.1 Kumulované četnosti ................................................................................................. 11

2.2 Distribuční funkce ..................................................................................................... 12

2.3 Kvantily ..................................................................................................................... 13



3 Deskriptivní charakteristiky kvantitativních veličin, obecné momenty ............................ 16

3.1 Obecné momenty ....................................................................................................... 16

3.2 Chování aritmetického průměru při aditivní a multiplikativní transformaci ............. 19

3.3 Ostatní průměry ......................................................................................................... 19



4 Centrované momenty......................................................................................................... 23

4.1 Centrované momenty................................................................................................. 23

4.2 Chování rozptylu při aditivní a multiplikativní transformaci .................................... 25

4.3 Ostatní míry variability.............................................................................................. 26



5 Základy teorie pravděpodobnosti ...................................................................................... 28

5.1 Náhodný pokus, náhodný jev .................................................................................... 28

5.2 Pravděpodobnost ....................................................................................................... 30

5.3 Operace s jevy ........................................................................................................... 31

3

5.4 Nezávislost jevů......................................................................................................... 34

5.5 Příklady na výpočet pravděpodobnosti...................................................................... 35



6 Pravděpodobnostní rozdělení náhodné veličiny, diskrétní typy rozdělení ........................ 43

6.1 Základní pojmy .......................................................................................................... 43

6.2 Typy příkladů s využitím teorie o diskrétních rozděleních ....................................... 45



7 Spojité typy rozdělení ........................................................................................................ 51

7.1 Základní pojmy .......................................................................................................... 51

7.2 Typy příkladů s využitím teorie o normálním rozdělení ........................................... 53



8 Úvod do teorie odhadů ...................................................................................................... 56

8.1 Teoretický úvod ......................................................................................................... 56

8.2 Vzorové příklady ....................................................................................................... 57



9 Princip testování hypotéz .................................................................................................. 61

9.1 Princip testování hypotéz .......................................................................................... 61

9.2 Typy testování hypotéz.............................................................................................. 63

9.3 Parametrické testy ..................................................................................................... 63

9.4 Párový t-test ............................................................................................................... 65

9.5 Vzorové příklady ....................................................................................................... 65



10 Analýza rozptylu ANOVA ............................................................................................ 69

10.1 Úvod do problematiky ........................................................................................... 69

4

10.2 Popis použití testu .................................................................................................. 70

10.3 Vzorový příklad ..................................................................................................... 71



11 Testy 2 .......................................................................................................................... 74


11.2 2 test dobré shody ................................................................................................ 75

11.3 2 test nezávislosti ................................................................................................. 77



12 Závislost mezi spojitými veličinami .............................................................................. 80


12.2 Lineární regrese ..................................................................................................... 81

12.3 Kvalita regresních modelů ..................................................................................... 82



13 Časové řady ................................................................................................................... 86


13.2 Základní charakteristiky časových řad .................................................................. 88

13.3 Modely časových řad ............................................................................................. 90



Seznam literatury ...................................................................................................................... 92

Příloha 1 – Normální normované rozdělení ............................................................................. 93

Příloha 2 – t- rozdělení ............................................................................................................. 94

Příloha 3 – 2- rozdělení ........................................................................................................... 95

Příloha 4 – F- rozdělení ............................................................................................................ 96

5

Průvodce kurzem Statistika

Statistika je vědní obor, který zkoumá reálná data a s pomocí teorie pravděpodobnosti se tato

data snaží popisovat. Statistiky bývá zařazena jako součást teorie rozhodování. Již ve svých

začátcích sloužila statistika státníkům při řízení státu. Její název byl odvozen z latinského

STATUS = stát.

V následujícím materiálu se seznámíme se základy statistiky a teorie pravděpodobnosti,

speciálně s aparátem a metodami, které se používají při aplikaci poznatků z odborných

předmětů. Budou popsány základní početní postupy při řešení běžných statistických

problémů, tak, abychom byli schopni rozeznat, v jakých konkrétních případech dané metody

použít a zjištěné výsledky interpretovat a převést do praxe.

Materiál je zaměřen na:

• deskriptivní statistiku,

• pravděpodobnostní modely,

• základní metody statistické indukce,

• a jejich uplatnění při analýze společenských jevů.

Po úspěšném absolvování kurzu budete schopni používat základní početní postupy při řešení

běžných statistických problémů, budete schopni rozeznat, v jakých konkrétních případech

dané metody použít a budete schopni zjištěné výsledky interpretovat a převést do praxe.

Kurz je zakončen zápočtem a písemnou zkouškou.

1 Náhodná veličina

Cílem této kapitoly je přiblížení a vysvětlení podstaty základního předmětu zkoumání

statistiky.

Po prostudování této kapitoly byste měli být schopni:

• pochopit problematiku statistických dat,

• definovat a určit druhy dat v daném konkrétním praktickém případě,

• určit způsob získání potřebných dat,

• vytvořit tabulku četností pro vhodné statistické znaky,

• určit modální hodnotu těchto znaků.

http://www.matematika.cz/pravdepodobnost

6

Kapitola je členěna do těchto dílčích témat

• Statistický soubor

• Statistické šetření

• Četnosti

1.1 Statistický soubor

V následujícím textu se budeme setkávat s pojmem statistický znak. Zjednodušeně jej

můžeme chápat jako údaj, který nás zajímá, který zpracováváme. Obdobně můžeme, opět

zjednodušeně, chápat i pojem náhodná veličina. Tento pojem je jistým zobecněním

předchozího pojmu. Pojem náhodná veličina je obecnější a mnohem více abstraktní. Pro účely

tohoto základního kurzu nebude příliš vadit, pokud se nám tyto dva pojmy budou překrývat.

Musíme mít ovšem na paměti toto zjednodušení. V dalším textu vždy zdůrazníme, pokud

bude potřeba jejich odlišení.

Statistická jednotka – objekt statistického zkoumání, nutno přesně a jednoznačně vymezit

na počátku každého statistického zkoumání.

Statistickou jednotku je nutno jednoznačně definovat, a to: věcně

místně

časově

Například můžeme definovat, že naší statistickou jednotkou bude fyzická osoba, která byla

k půlnoci 1. ledna 20015 občanem ČR.

Pozor, tato definice musí být opravdu jednoznačná, např. pojem „byt“ není zcela jednoznačný

(některé byty se nevyužívají k bydlení, a někdy se bydlí v nebytových prostorách), dle situace

by bylo nutno upřesnit.

Nepřesnost ale může nastat i třeba při časovém určení. V určitých situacích přesný okamžik

nemusí být zjistitelný nebo rozhodující (například zápis do registru nemovitostí – v tomto

případě by bylo správné jako časové určení zadat pouze přesné datum, v jiných případech

může být správné udat pouze měsíc, nebo dokonce pouze rok).

Statistický soubor – soubor všech sledovaných statistických jednotek.

Známe dva základní typy statistických souborů, a to:

7

základní (populační) – vznikne na základě úplného šetření (příkladem jsou všechny

osoby splňující předchozí definici),

výběrový – vznikne na základě výběrového šetření (příkladem jsou osoby splňující

předchozí definici, které byly osloveny např. při průzkumu volebních preferencí).

Statistický znak (statistická veličina) – co konkrétně na zkoumaných objektech sledujeme.

Statistické znaky dělíme do následujících skupin:

nominální – hodnoty znaku lze pouze porovnávat rovná-nerovná (př. pohlaví, barva

očí, místo narození, telefonní číslo, …)

ordinální – hodnoty znaku lze jednak porovnávat rovná-nerovná, ale navíc je můžeme

uspořádat dle objektivní stupnice ve smyslu méně-více, lepší-horší, starší-mladší,

nižší-vyšší, … (př. vojenská hodnost, vzdělání, výsledek hodnocení zkoušky na VŠ,

úroveň spokojenosti, …)

kardinální – kromě úkonů, které lze vykonávat s hodnotami ordinálních znaků má

smysl s hodnotami kardinálních znaků nějakým způsobem počítat, ať už sčítat, odčítat,

násobit či dělit (př. počet dětí v rodině, čistý měsíční příjem jedince, počet

zaměstnanců ve firmě, věk osoby, tržby prodejny, HDP státu, …). Kardinální znaky se

ještě dělí do dvou významných skupin, a to

diskrétní – nabývají pouze omezeného počtu různých hodnot, tvoří se skupiny

statistických jednotek majících shodnou hodnotu tohoto znaku (př. počet členů

domácnosti, počet místností v bytě, délka studia v letech, …)

spojité – nabývají nekonečně mnoha, nebo aspoň velmi širokého spektra

různých hodnot, netvoří se významně veliké skupiny statistických jednotek

majících stejnou hodnotu tohoto znaku (př. obytná plocha bytu, nájemné, roční

zisk firmy, …)

Kromě tohoto základního dělení ještě za zmínku stojí následující pojmy týkající se typů

statistických znaků.

alternativní – speciální podskupina nominálních znaků. Alternativní znaky nabývají

pouze dvou hodnot, a to např. voják-nevoják, student-nestudent, muž-žena, …

kvalitativní – toto pojmenování používáme pro nominální a ordinální znaky

dohromady. Z názvu je zřejmé, že tyto znaky vyjadřují jistou kvalitu statistické

jednotky.

8

kvantitativní – jiné pojmenování pro kardinální znaky. Z názvu je zřejmé, že tyto

znaky vyjadřují jistou kvantitu statistické jednotky.

kategoriální – jedná se o společné pojmenování nominálních, ordinálních a

kardinálních-diskrétních znaků. Ve statistickém souboru se vytvářejí skupinky =

kategorie, v nich všechny statistické jednotky nabývají stejné hodnoty tohoto znaku.

1.2 Statistické šetření

Statistické šetření nám říká, jak dané informace získáváme, známe dva základní typy, a to

úplné šetření – získáváme informace o všech statistických jednotkách,

výběrové šetření – získáváme informace pouze o některých, speciálním způsobem

vybraných statistických jednotkách.

Výběry provádíme metodami náhodného, nebo metodami záměrného výběru. Výběr by měl

být reprezentativní, tedy měl by mít podobné složení jako celá populace vzhledem ke

sledovaným veličinám.

Jaké jsou nevýhody versus výhody výběru?

neúplnost informace

rychlejší a levnější informace

ČSÚ například jedenkrát za deset let provádí sčítání lidu. V mezidobí sčítání lidu se však

čtvrtletně provádí pouze výběrová šetření.

Známe několik druhů

zcela (prostý) náhodný – musí být zaručeno, aby každý objekt populace měl stejnou

možnost být zařazen do výběru, provádí se např. různými formami losování,

systematický – předem musí být dáno určité uspořádání populace, následně pak

vybíráme například každý desátý objekt populace,

stratifikovaný (oblastní) – populace je předem rozdělena do jistých skupin (např.

regionálních, věkových, vzdělanostních, …), z každé této skupiny je pak vybrán

vzorek metodou náhodného prostého výběru,

skupinový – nevybíráme jednotlivé objekty populace ale celé skupiny,

9

vícestupňový – je založen na jistém hierarchickém uspořádání populace (např. stát –

kraj – okres – obec – ulice – dům – byt – osoba).

1.3 Četnosti

Četnosti má smysl určovat pouze u veličin kategoriálních. Četnosti zaznamenáváme do

tabulky četností. Pokud je to možné, seřadíme jednotlivé kategorie vzestupně podle jejich

hodnot. Hodnoty znaku označujeme malými písmeny z konce abecedy, např xi. Známe dva

základní typy četností, a to:

absolutní četnost – počet výskytů dané hodnoty daného statistického znaku v celém

statistickém souboru, značíme ni

relativní četnost – relativní výskyt dané hodnoty daného statistického znaku v celém

statistickém souboru (tj. jak velkou část z celku tvoří tato hodnota), značíme pi.

Musí platit, že součet všech absolutních četností musí být roven celkovému počtu pozorování,

tedy počtu sledovaných statistických jednotek, který značíme n.

Mezi absolutními a relativními četnostmi platí následující vztah.

Součet všech relativních četností musí pak být roven jedné.

Modus (modální hodnota) – nejvíce se vyskytující hodnota sledovaného statistického

znaku, značíme .

Příklad:

U dvanácti studentů 1. ročníku VŠ byl zjištěn jejich věk, a to 18, 20, 19, 18, 19, 19, 20, 19,

18, 19, 19, 20. Vytvoříme následující tabulku četností.

xi 18 19 20 celkem

ni 3 6 3 12

pi 0,25 0,5 0,25 1

10

Např. hodnotu n1 = 3 můžeme interpretovat slovy: „Mezi sledovanými studenty byli 3

osmnáctiletí.“ a hodnotu p3 = 0,25 můžeme interpretovat slovy: „25 % sledovaných studentů

bylo dvacetiletých.“

Z tabulky vidíme, že modus nabývá hodnoty . Tuto modální hodnotu můžeme

interpretovat slovy: „Mezi sledovanými studenty bylo nejvíce devatenáctiletých.“

Kontrolní otázky:

• Definujte přesně statistickou jednotku v případě Sčítání lidu.

• Určete co nejpřesněji druhy následujících statistických znaků

• příjmení respondenta

• pohlaví

• vzdělání

• počet dětí

• věk

• měsíční příjem

• rodné číslo

• psč

• Vytvořte tabulku četností pro statistický znak pohlaví, pokud máme následující

pozorování: muž, muž, žena, žena, žena, žena, muž, žena, muž, žena, žena.

• Určete modální hodnotu v předchozím případu.

Literatura ke kapitole

• KAŇOKOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl I., skripta FSE Ústí

nad Labem 1996, 98 s. ISBN 80-7044-143-7.

• ŘEZANKOVÁ, H., LOSTER, T.: Úvod do statistiky. Oeconomica. Praha 2013, 96 s.

ISBN 978-80-245-1957-9.

• HRACH, K. Sbírka úloh ze statistiky, Vyd. 1,FSE UJEP, Ústí nad Labem, 2006, 65 s.

ISBN 80-7044-845-8.

• HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy.

Professional Publishing. Praha 2007, 420 s. ISBN 978-80-86946-43-6.

• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Popisná statistika, Masarykova

univerzita, Brno 2007, 48 s., ISBN 978-80-21042-46-9

• http://fse1.ujep.cz/index.php?art=5150

• http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html

http://fse1.ujep.cz/index.php?art=5150

http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html

11

2 Kvantily

Cílem této kapitoly je seznámení s možnostmi základního deskriptivního statistického

zpracování kvantitativních statistických znaků založeného na uspořádání jednotlivých hodnot.


• vytvořit úplnou tabulku četností pro alespoň ordinální znaky (včetně kumulovaných

četností),

• určit výslednou hodnotu distribuční funkce pro libovolně zvolenou zadanou hodnotu,

• sestrojit graf distribuční funkce,

• určit hodnotu libovolného kvantilu, a to na základě definice kvantilu, na základě

tabulky četností i na základě grafu distribuční funkce,

• vypočítané hodnoty přesně interpretovat.


• Kumulované četnosti

• Distribuční funkce

• Kvantily

2.1 Kumulované četnosti

Je-li sledovaná veličina uspořádaná (tedy jakákoliv veličina s výjimkou nominální), oba typy

četností můžeme postupně načítat, nebo-li kumululovat. Takto získáme tzv. kumulované

četnosti.

Kumulovaná absolutní četnost – počet výskytů pozorování s hodnotou, která je menší

nebo rovna hodnotě dané kategorie, značíme ni*.

Kumulovaná relativní četnost – relativní výskyt pozorování s hodnotou, která je menší

nebo rovna hodnotě dané kategorie, značíme pi*.

Pro kumulované četnosti platí následující vztahy:

Poznámka: Sčítat kumulované četnosti nemá smysl, proto součtový sloupec tabulky četností

v těchto řádcích proškrtáváme.

12

Příklad:

V předchozím příkladu můžeme tabulku četností rozšířit o řádky obsahující jednak absolutní a

jednak relativní kumulované četnosti.

xi 18 19 20 celkem

ni 3 6 3 12

pi 0,25 0,5 0,25 1

ni* 3 9 12 x pi* 0,25 0,75 1 x

Například hodnotu n2* = 9 můžeme interpretovat následovně: „Ve sledovaném vzorku bylo 9

studentů, kterým je maximálně 19 let.“

2.2 Distribuční funkce

Distribuční funkce je reálnou funkcí jedné proměnné. Je definována pro všechna reálná čísla.

Značíme ji velkým písmenem F. Jedná se o jakési zobecnění pojmu kumulovaná relativní

četnost. Například pokud pro veličinu počet dětí nabývá distribuční funkce v bodě 2 hodnoty

0,75, znamená to, že 75 % dotazovaných má nejvýše 2 děti. Matematický zápis F(2) = 0,75.

Distribuční funkce – funkce jedné reálné proměnné, slouží k popisu rozdělení (distribuce)

číselných dat, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),

značíme F(x);

Stručně můžeme předpis pro distribuční funkci psát takto: F(x) = p(X ≤ x)

Základní vlastnosti distribuční funkce:

je neklesající

je po částech konstantní

je „schodovitá“

nabývá hodnot od 0 do 1

Příklad:

Na základě údajů z předchozího příkladu vypočítáme a interpretujeme následující hodnoty

distribuční funkce:

F(-258,3) = p(X -258,3) = 0

(nebo-li, není žádný student, jehož věk by byl maximálně roven -258,3)

F(0) = p(X 0) = 0

(nebo-li, není žádný student, jehož věk by byl maximálně roven 0)

F(4) = p(X 4) = 0

13

(nebo-li, není žádný student, jehož věk by byl maximálně roven 4)

F(18) = p(X 18) = 0,25

(nebo-li, ve vzorku je 25 % studentů, jejichž věk je maximálně roven 18)

F(18,3) = p(X 18,3) = 0,25

(nebo-li, ve vzorku je 25 % studentů, jejichž věk je maximálně roven 18,3)

F(19) = p(X 19) = 0,75


F(19,8) = p(X 19,8) = 0,75


F(20) = p(X 20) = 1


F(365,9) = p(X 365,9) = 1


Distribuční funkce z našeho příkladu má tedy následující graf.

2.3 Kvantily

Kvantily podávají více méně stejnou informaci jako distribuční funkce. Mezi distribuční

funkcí a kvantily je však jakýsi „inverzní“, opačný vztah.

Kvantil – pro číselnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl

pozorování, značíme px~ , kde p je onen podíl (údaj mezi 0 – 1)

14

Některé často používané kvantily mají svá jména, např.:

p = 0,5 … 50% kvantil – medián

(odděluje polovinu nižších od zbytku vyšších pozorování; značen obvykle jen x~ )

p = 0,25 … 25% kvantil – dolní kvartil 25,0~x

p = 0,75 … 75% kvantil – horní kvartil 75,0~x

p = 0,1 … 10% kvantil – dolní decil 1,0~x

p = 0,9 … 90% kvantil – horní decil 9,0~x

Příklad využití kvartilů je vidět v následujícím obrázku, kde jsou znázorněny dva grafy, tzv.

BoxPloty, neboli krabičkové grafy. Výška těchto „krabiček“ představuje tzv. kvartilové

rozpětí, neboli rozdíl horního a dolního kvartilu.

Určení kvantilů pomocí distribuční funkce:

Najdeme bod x, v němž poprvé F(x) dosáhne úroveň p.

Určení přímo pomocí dat

1. Data uspořádáme vzestupně dle velikosti

2. Nalezneme celočíselné z vyhovující nerovnicím:

n·p < z < n·p +1

3. Hledaným kvantilem je hodnota s pořadovým číslem z.

Příklad:

Na základě údajů z předchozího příkladu vypočítáme a interpretujeme následující kvantily:

medián … x~ = 19

(nebo-li, 50 % studentů v našem vzorku dosahuje věku maximálně 19 let)

15

dolní kvartil … 25,0~x = 18


horní kvartil … 75,0~x = 19


dolní decil … 1,0~x = 18


horní decil … 9,0~x = 20


60% kvantil … 60,0~x = 19


Kontrolní otázky:

• Interpretujte co nejvýstižněji informaci, že pro statistický znak „mzda“ je hodnota

distribuční funkce F(20 000)=0,7.

• Interpretujte co nejvýstižněji informaci, že pro statistický znak „mzda“ je hodnota

horního decilu rovna 50 000.

• Vytvořte úplnou tabulku četností pro statistický znak počet dětí, pokud máme

následující pozorování: 1, 4, 0, 1, 2, 1, 0, 1, 2, 0, 1, 1, 0, 3, 1, 2, 0, 2.

• Určete následující hodnoty distribuční funkce této veličiny: F(-3), F(0), F(2,5), F(4),

F(5,6).

• Sestrojte graf zmíněné distribuční funkce.

• Určete hodnoty následujících kvantilů: dolní decil, horní kvartil, medián, 88% kvantil.



nad Labem 1996, 98 s. ISBN 80-7044-143-7.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.







16

3 Deskriptivní charakteristiky kvantitativních veličin, obecné

momenty

Cílem této kapitoly je seznámení s první skupinou momentů, konkrétně

s obecnými momenty. Do této skupiny mimo jiné patří aritmetický průměr. Dále se

seznámíme s dalšími typy průměrů, které je možno použít v případech, kdy je nemožné

využití aritmetického průměru. Zdůrazněme, že průměry a momenty má smysl počítat pouze

pro kardinální typy veličin.


• rozpoznat, kdy využít který typ průměru,

• vypočítat tři základní typy průměrů (aritmetický, geometrický, harmonický), a to

všemi způsoby výpočtu (prostý, vážený s absolutními četnostmi, vážený s relativními

četnostmi).


• Obecné momenty

• Chování aritmetického průměru při aditivní a multiplikativní transformaci

• Ostatní průměry

3.1 Obecné momenty

Nejprve si v krátkosti můžeme přiblížit pojem moment, přesněji řečeno l-tý moment kolem

konstanty a. Na rozdíl od kvantilů kvantitativnıího statistického znaku x, které jsou vždy

určitými konkrétními jednotlivými hodnotami, jsou momenty vždy funkcemi všech hodnot

daného znaku v daném souboru. V momentech jsou sledovány určité odchylky jednotlivých

naměřených hodnot statistického znaku od předem dané konstanty. Toto je znázorněno na

následujícím obrázku.

l-tý moment kolem konstanty a pak je dán následujícím vzorcem.

x1 x2 a

17

Pro a = 0 dostáváme l-tý moment x kolem nuly a takovýto moment nazýváme l-tý obecný

moment x. Nejdůležitějším a nejvíce používaným obecným moment je první, který známe pod

názvem aritmetický průměr

První obecný moment – aritmetický průměr, „těžiště“ dat, používáme v případě, kdy má

smysl sčítat jednotlivé hodnoty statistického znaku, značíme x .

Aritmetický průměr můžeme počítat několika způsoby, a to v závislosti na způsobu zadání

dat. První způsob, tzv. prostý tvar výpočtu, použijeme v případě, že máme zadány všechny

hodnoty souboru výčtem. V případě, že máme data zadaná ve formě tabulky četností,

použijeme tvar vzorce pro využití absolutních, respektive relativních četností.

n

x

x

n

i

i 1 prostý tvar

n

xn

x

k

i

ii

1 za využití absolutních četností

n

i

ii xpx1

za využití relativních četností

Druhý obecný moment - aritmetický průměr druhých mocnin, značíme 2x .

Druhý obecný moment nemá žádný zásadní interpretační význam. Slouží však jako jistý

„polotovar“ k výpočtu některých jiných charakteristik. Obdobně jako u prvního obecného

momentu máme tři formy vzorce pro výpočet.

n

x

x

n

i

i 1

2

2 prostý tvar

n

xn

x

k

i

ii

1

2

2 za využití absolutních četností

n

i

ii xpx1

22 za využití relativních četností

18

Příklad:

Připomeňme data z našeho příkladu.

Sledovali jsme dvanáct studentů,jejichž věky byl 18, 20, 19, 18, 19, 19, 20, 19, 18, 19, 19, 20.

Výpočty prvního a druhého momentu pomocí vzorců v prostém tvaru budou následující:

Tabulka četností byla následující.

xi 18 19 20 celkem

ni 3 6 3 12

pi 0,25 0,5 0,25 1

Výpočty prvního a druhého momentu pomocí vzorců za využití absolutních četností budou

následující:

Výpočty prvního a druhého momentu pomocí vzorců za využití relativních četností budou

následující:

Vidíme, že při výpočtu libovolným způsobem dostáváme shodné výsledky.

19

3.2 Chování aritmetického průměru při aditivní a multiplikativní

transformaci

Chování aritmetického průměru při aditivní transformaci – pokud známe hodnotu

aritmetického průměru nějakého souboru dat. Pokud každé pozorování změníme o konstantu

c (tzn. přičteme konstantu c), pak se hodnota aritmetického průměru změní o stejnou

konstantu.

Chování aritmetického průměru při multiplikativní transformaci – pokud známe hodnotu

aritmetického průměru nějakého souboru dat. Pokud každé pozorování vynásobíme

konstantou c, pak hodnotu aritmetického průměru musíme vynásobit stejnou konstantou.

Příklad:

Víme, že průměrná mzda ve firmě je 24 000 Kč. Každému zaměstnanci firmy zvýšíme plat o

10 %. Jak se změní hodnota průměrné mzdy ve firmě?

Co znamená zvýšení platu o 10%?

X + 10 % z X = X + 0,1X = 1,1X

Každý plat násobíme konstantou 1,1.

Průměrná mzda se tedy změní stejně, bude vynásobena 1,1 krát – tj. zvýší se o 10 %.

24 000 . 1,1 = 26 400 Kč

3.3 Ostatní průměry

Jak jsme v definici aritmetického průměru, nebo-li prvního obecného momentu uvedli, jeho

použití je omezeno pouze na případ, že má smysl sčítat jednotlivé položky souboru. Co však

dělat v případě, že toto sčítání smysl nemá? K tomuto účelu jsou určeny jiné typy průměrů.

V našem materiálu si uvedeme dva nejdůležitější z nich, a to geometrický a harmonický

průměr. Ve vzorcích opět uvedeme prosté tvary i tvary využívající četností.

Geometrický průměr – využívá se v případě, kdy nemá smysl jednotlivé hodnoty sčítat,

ale násobit (např. různé koeficienty či procenta), značíme jej Gx .

k

i

p

in

k

i

n

in

n

i

iGii xxxx

111

20

Harmonický průměr – využívá se v některých případech, kdy hodnoty sledovaného

statistického znaku mají jednotky ve tvaru zlomku (např. rychlost, hustota osídlení),

značíme jej Hx .

k

i i

in

i i

H

x

n

n

x

nx

11

1

Příklad:

V průběhu let proběhlo několikrát zdražení využívané služby. Poprvé na dvojnásobek, poté na

trojnásobek a nakonec na čtyřnásobek. Jaké bylo celkové zdražení? Jaké bylo průměrné

zdražení?

Je celkové zdražení vypočteno následovně?

2 + 3 + 4 = 9 … Celkové zdražení je na devítinásobek?

A je průměrné zdražení vypočteno následovně?

?

Pokud naše služba původně stála 100, pak po prvním zdražení 100 . 2 = 200, po druhém

200 . 3 = 600 a po posledním zdražení 600 . 4 = 2 400.

Celkové zdražení je tedy na 24 násobek.

Pokud tedy nemá smysl celkové zdražení počítat 2 + 3 + 4 = 9, ale 2 . 3 . 4 = 24, je zřejmé,

nemá smysl sčítání, ale násobení.

K výpočtu průměrného zdražení je nutno použít geometrický průměr:

Příklad.

Peníze v bance jsme měli úrokovány v prvním roce 10 %, v druhém 20 % a v třetím 30 % .

Jaká byla průměrná úroková sazba?

Byla ?

Ověření:

V bance jsme měli původně 100, tedy po prvním roce 110, po druhém 132 a po třetím 171,6.

V případě využití průměrné úrokové sazby máme po prvním roce 120, po druhém 144 a po

třetím 172,8.

Tedy výpočet je chybný.

8845,24323 Gx

33

432

203

302010

21

Použijeme k výpočtu geometrický průměr následovně?

Ověření:

Po prvním roce této průměrné sazby máme 118,17, po druhém 139,64 a po třetím 165,01.

Tedy opět špatně.

NUTNO SI UVĚDOMIT, ŽE PŘIČÍTÁNÍ % ZNAMENÁ NÁSOBENÍ KONSTANTOU!!!

Tedy správný výpočet je:

Ověření:

Po prvním roce této úrokové sazby máme 119,72, po druhém 143,33 a po třetím 171,60.

Tedy máme konečně správný výsledek!!!

Příklad:

Na dovolenou jsme jeli nejprve 50km rychlostí 10 km/h a pak 200 km rychlostí 100 km/h.

Jaká byla naše průměrná rychlost?

ALE POZOR!!!

Příklad:

Na dovolenou jsme jeli nejprve 5 hodin rychlostí 10 km/h a pak 2 hodiny rychlostí 100 km/h.

Jaká byla naše průměrná rychlost?

Kontrolní otázky:

• Vypočítejte průměrný počet dětí z údajů uvedených v předchozí kapitole.

• Jaký průměr je správné využít, pokud chceme vypočítat průměrnou úrokovou míru v

případě hypotéky, kterou jsme měli prvních pět let úročenou 5% a následujících 10 let

4%?

• Jaký průměr je správné využít v případu, kdy chceme spočítat průměrnou úrokovou

míru našeho portfolia, pokud ¼ našeho vkladu máme uloženou

17,183020103

1972,13,12,11,13

71,35

100

200

10

50

20050

Hv

71,3525

1002105

v

22

v bance, která nám dává úrok 2% a zbytek peněz máme uložen v jiné bance, kde

máme úrok 1,5%?

• Jakým průměrem vypočítáme průměrnou rychlost, pokud víme, že jsme

10 km jeli rychlostí 50 km/h a 60 km jsme jeli rychlostí 90 km/h?

• Jakým průměrem vypočítáme průměrnou rychlost, pokud víme, že jsme 2,5 hodiny

jeli rychlostí 80km/h a 4 hodiny jsme jeli rychlostí 100km/h?



nad Labem 1996, 98 s. ISBN 80-7044-143-7.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.









23

4 Centrované momenty

Cílem této kapitoly je seznámení s druhou významnou skupinou momentů,

a to centrovanými momenty. Do této skupiny mimo jiné patří rozptyl, který se naučíme

počítat různými způsoby.


• pochopit smysl rozptylu a jiných měr variability s rozptylem spojených,

• vypočítat všechny probrané charakteristiky různými způsoby,

• vypočítané hodnoty umět interpretovat a využít k dalším účelům.


• Centrované momenty

• Chování rozptylu při aditivní a multiplikativní transformaci

• Ostatní míry variability

4.1 Centrované momenty

Centrované momenty rozumíme momenty kolem centra, tzn. kolem prvního obecného

momentu, nebo-li kolem aritmetického průměru.

První centrovaný moment:

0

)(111

1

xxn

x

n

x

n

xx

M

n

i

n

i

i

n

i

iX

První centrovaný moment je vždy roven 0!

Druhý centrovaný moment = ROZPTYL aneb „průměrná čtvercová odchylka od

aritmetického průměru“, značíme XM 2 .

Pomocí této charakteristiky popisujeme variabilitu dat, tedy do jaké míry jsou si sledované

hodnoty vzájemně podobné. Tímto způsobem můžeme například posuzovat stabilitu

ekonomických výsledků nějaké firmy či několika firem vzájemně.

Opět si uvedeme vzorce jak ve tvaru prostém, tak ve tvaru využívajícím četností.

24

n

xx

M

n

i

iX

1

2

2

)(

prostý tvar

n

xxn

M

k

i

iiX

1

2

2

)(

za využití absolutních četností

k

i

ii

X xxpM1

2

2 )( za využití relativních četností

22

2 xxM X výpočetní tvar- na základě obecných momentů

Poznámka:

Vždy musí vyjít M2(x) ≥ 0 (rozptyl je vždy nezáporný)!

Příklad:

Připomeňme data z našeho příkladu.

Sledovali jsme dvanáct studentů,jejichž věky byl 18, 20, 19, 18, 19, 19, 20, 19, 18, 19, 19, 20.

Výpočet centrovaného momentu pomocí vzorce v prostém tvaru bude následující:

Tabulka četností byla následující.

xi 18 19 20 celkem

ni 3 6 3 12

pi 0,25 0,5 0,25 1

Výpočty druhého centrovaného momentu pomocí vzorců za využití absolutních četností

budou následující:

25

Výpočty druhého centrovaného momentu pomocí vzorců za využití relativních četností budou

následující:

Výpočet druhého centrovaného momentu, nebo-li rozptylu pomocí obecných momentů bude

následující:

Vidíme, že při výpočtu libovolným způsobem dostáváme shodné výsledky.

4.2 Chování rozptylu při aditivní a multiplikativní transformaci

Chování rozptylu při aditivní transformaci – pokud známe hodnotu rozptylu nějakého souboru

dat. Pokud každé pozorování změníme o konstantu c (tzn. přičteme konstantu c), pak se

hodnota rozptylu nezmění.

Chování rozptylu při multiplikativní transformaci – pokud známe hodnotu rozptylu nějakého

souboru dat. Pokud každé pozorování vynásobíme konstantou c, pak hodnotu rozptylu

musíme vynásobit konstantou c2.

Příklad:

Ve firmě je průměrná mzda 24 000 Kč a rozptyl mezd je 10 000. Jak se změní rozptyl, pokud

vedení firmy zvýší plat každému zaměstnanci o 10 %?

Co znamená zvýšení platu o 10 %?

X + 10 % z X = X + 0,1X = 1,1X

Každý plat násobíme konstantou 1,1.

Rozptyl se zvýší 1,12 krát, tedy 1,21 krát, tedy se zvýší o 21 %.

Nový rozptyl bude 12 100.

26

4.3 Ostatní míry variability

Je zřejmé, že pokud má sledovaná veličina nějaké jednotky, pak rozptyl vychází v těchto

jednotkách umocněných na druhou (např. Kč … Kč2). Z tohoto důvodu není hodnota rozptylu

přímo interpretovatelná. Proto využíváme i jiné míru variability, a to především směrodatnou

odchylku a variační koeficient.

Směrodatná odchylka se počítá i značí jako druhá odmocnina z rozptylu, tedy XM 2

Směrodatná odchylka má stejné jednotky jako veličina.

Variační koeficient je relativní mírou variability.

Variační koeficient se počítá podle vzorce

x

M X

2

,

je tedy zřejmé, že vychází bez jednotek. Tato vlastnost je důvodem, proč variační koeficient

jako jedinou ze zde uvedených měr variability můžeme použít pro srovnání variability i

jednotkově nesourodých souborů.

Příklad:

Pro data z našeho příkladu vypočítáme směrodatnou odchylku:

a dále i variační koeficient:

Kontrolní otázky:

• Vypočítejte rozptyl, směrodatnou odchylku a variační koeficient veličiny „počet dětí“

z kapitoly 2.

• Co by znamenalo, kdyby vyšla nulová hodnota rozptylu?

27

• Která z následujících firem má stabilnější ekonomické výsledky? V tabulce jsou

uvedeny zisky (v tis. Kč) obou firem ve čtyřech sledovaných obdobích.

1.období 2.období 3.období 4.období

1.firma 20 000 30 300 45 050 25 421

2.firma 55 38 42 10

• Jak se změní hodnota rozptylu 1. firmy, pokud by zisky byly přepočítány na eura

(předpokládejme kurz 1 euro = 20 korun)?



nad Labem 1996, 98 s. ISBN 80-7044-143-7.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.









28

5 Základy teorie pravděpodobnosti

Cílem této kapitoly je zopakování a následné rozšíření znalostí z oblasti pravděpodobnosti

nabytých na střední škole.


• vypočítat pravděpodobnosti tří základních typových situací,

• ověřit závislost respektive nezávislost dvojice náhodných jevů,

• vypočítat pravděpodobnost jednoho náhodného jevu za předpokladu, že jiný jev již

nastal,

• umět aplikovat základní větu týkající se podmíněných pravděpodobností, a to

Bayesovu větu.


• Náhodný pokus, náhodný jev

• Pravděpodobnost

• Operace s jevy

• Nezávislost jevů

• Příklady na výpočet pravděpodobnosti

5.1 Náhodný pokus, náhodný jev

Teorie pravděpodobnosti je část matematiky zabývající se zákonitostí jevů, u kterých není

předem známo, zda nastanou či nikoliv, respektive jevů, u kterých není předem známa jejich

výsledná hodnota.

Teorie pravděpodobnosti společně s kombinatorickými úlohami se začala objevovat zejména

v kontextu s hazardními hrami. Zmínky o pravděpodobnosti se objevují již před několika

tisíci lety, první matematické teorie jsou však známy až ze 17. století a jsou spojovány

především se jmény Pierre de Fermat, Blaise Pascal, či později Thomas Bayes a Pierre Simon

de Laplace. Další výrazný rozvoj pravděpodobnosti se projevuje až ve 20. století a je spjat

například se jmény Andrej Nikolajevič Kolmogorov, Richard Threlkeld Cox, Andrey Markov,

ale i mnoho dalšími. Rozvoj teorie pravděpodobnosti není ukončen ani v dnešní době, zvláště

v souvislosti například s kvantovou fyzikou či teorií chaosu.

V pravděpodobnostní teorii se setkáváme s poněkud jiným významem pokusu, než jak jej

známe například z fyziky. Příkladem fyzikálního pokusu je měření teploty bodu varu vody při

daném tlaku. V tomto případě při stejných podmínkách obdržíme shodný výsledek pokusu.

29

V teorii pravděpodobnosti však u pokusu předem výsledek znát nemůžeme (ani nesmíme) a je

časté, že při stejných podmínkách obdržíme zcela odlišné výsledky pokusu. V tomto případě

mluvíme o náhodném pokusu. Učebnicovým příkladem náhodného pokusu je například hod

kostkou.

Náhodný pokus – pokus, v němž předem neznáme výsledek a jenž můžeme libovolněkrát

opakovat.

Náhodný jev – výsledek náhodného pokusu.

Pro lepší představu v některých fázích výkladu je možná lépe říci, že náhodný jev je

předpověď výsledku. Co může být například tipem na výsledek výše zmíněného náhodného

pokusu hod kostkou?

Někdo by možná řekl: "Padne číslo 6." Jiný třeba řekne: "Padne číslo 2." Jsou ale i opatrní

tipaři a ti mou říci: "Padne sudé číslo." či "Padne číslo větší než 3." Možná existuje někdo,

kdo v životě neviděl kostku a ten může říci: "Padne číslo větší než 10." či naopak "Padne číslo

menší než 8." Toto všechno jsou příklady náhodných jevů. V čem zásadním se tyto jevy od

sebe liší?

Co to znamená "Padne sudé číslo"? Kdo zná, jak vypadá kostka, jistě odpoví: "Padne 2, nebo

padne 4, nebo padne 6." Obdobně bychom mohli rozepsat i jevy "Padne číslo větší než 3." či

"Padne číslo menší než 8."

Jevy "Padne číslo 6." či "Padne číslo 2." však takto rozložit nemůžeme. Takovýmto jevům

říkáme elementární jevy.

Jiným úhlem pohledu můžeme objevit jinou odlišnost. O jevu "Padne číslo větší než 10."

každý řekne, že je to nesmysl, že to nikdy nastat nemůže. Podobným jevům se říká nemožné

jevy. Naopak víme, že jev "Padne číslo menší než 8." musí nastat vždy, jiná možnost totiž

neexistuje. A takovým jevům říkáme jevy jisté. Jevům, které nejsou zmíněnými krajními

případy, říkáme jevy možné.

Vše můžeme shrnout následovně.

Množinu všech možných elementárních výsledků náhodného pokusu značíme Ω,

nazýváme ji množina všech elementárních jevů.

Jednotlivé možné elementární výsledky pokusu značíme , nazýváme elementární jev.

30

Podmnožiny množiny Ω se nazývají náhodné jevy, značíme velkými písmeny převážně

z počátku abecedy.

Poznámka:

Z výše uvedeného je zřejmé, že jev jistý je roven celé množině všech elementárních jevů, a že

jev nemožný je roven prázdné množině.

5.2 Pravděpodobnost

Pravděpodobnost – relativní míra výskytu náhodných jevů.

Existují různé definice pravděpodobnosti. Všechny však mají určité vlastnosti společné.

Pravděpodobnost jevu se vyjadřuje reálným číslem od 0 do 1, může se pro lepší názornost

převézt na procenta (tj. od 0 % do 100 %). Jev, který nemůže nastat, má vždy

pravděpodobnost 0, a naopak jistý jev má pravděpodobnost 1. Dále musí platit, že pokud A je

podmnožinou B pak pravděpodobnost jevu A je menší než pravděpodobnost jevu B.

Jednou z nejčastěji využívaných a nejoblíbenějších definic je klasická definice tak, jak ji

formuloval Laplace. Bývá po něm také někdy nazývána. Je použitelná pouze v případě, kdy je

množina všech elementárních jevů konečná, tj. všech možných výsledků náhodného pokusu je

konečně mnoho.

Klasická definice pravděpodobnosti

Nechť A je náhodný jev, n=Ω značí počet prvků množiny všech elementárních jevů,

m=A značí počet prvků množiny A.

Pravděpodobností jevu A nazveme číslo

.

Je zřejmé, že tato definice splňuje všechny požadované vlastnosti.

Příklad:

Uvažujme náhodný pokus hod kostkou a určíme pravděpodobnosti následujících jevů.

Ω=1,2,…,6

A=6 hození šestky

B=2,4,6 hození sudého čísla

31

C= 1,2,3,4,5,6 hození čísla menšího než 7

D= Ø hození čísla většího než 7

P(A) = 1/6; P(B) = 3/6 = ½; P(C) = 6/6 = 1; P(D) = 0/6 = 0

Ať už pravděpodobnost definujeme jakkoliv, musíme si uvědomit, že pokud posčítáme

pravděpodobnosti všech možných (rozumějme elementárních) jevů, dostaneme výsledek 1 (tj.

100 %). Nejlépe tento fakt pochopíme na příkladu ze života.

Víme-li, že v populaci je 30 % kuřáků (tj. pravděpodobnost, že náhodná osoba je kuřák je

30 %), snad každý správně reaguje, že nekuřáků je 70 % (nebo-li pravděpodobnost toho, že

náhodná osoba je nekuřák je 70 %).

Obdobně, máme-li možnost vylosování jednoho ze tří možných čísel a víme-li, že

pravděpodobnost, že vylosujeme první z těchto tří čísel, je 20 % a pravděpodobnost, že

vylosujeme druhé z těchto tří čísel, je 50 %, pak opět přirozenou cestou vyvodíme, jaká je

pravděpodobnost, že vylosujeme třetí číslo. Pokud obě předchozí možnosti zabraly 70 ze

100 %, pak hledaná pravděpodobnost je 30 %.

Vše, co jsme si tu nyní řekli, můžeme shrnout do následující věty.

Zákon rozdělení pravděpodobností

Mějme náhodný pokus a k němu náležící konečnou množinu všech elementárních jevů Ω.

Pak platí .

Slovy řečeno součet pravděpodobností všech elementárních jevů je roven jedné.

5.3 Operace s jevy

Mnoho operací prováděných s náhodnými jevy nám budou povědomé, setkali jsme se s nimi

již při práci s množinami. Obdobně jako u množin je dobré pro představu si operace znázornit

graficky pomocí tzv. Vennových diagramů. Pravděpodobnost budeme ve většině případů

počítat dle klasické pravděpodobnosti.

Doplněk jevu A, nebo-li jev opačný k jevu A nastává právě tehdy, když nenastává jev A.

Značíme Ā, nebo A'.

32

Graficky znázorněno na následujícím obrázku.

průnik jevů A a B – nastává, pokud nastanou oba jevy zároveň (značíme AB)


sjednocení jevů A a B – nastává, pokud nastal alespoň jeden z těchto jevů (značíme AB)


33

Někdy se ocitneme v situaci, kdy zkoumáme pravděpodobnost náhodného jevu za nějakých

omezujících podmínek, které mají charakter náhodného jevu, jenž musí před zkoumaným

jevem nastat. Mluvíme pak o podmíněné pravděpodobnosti.

Podmíněná pravděpodobnost – pravděpodobnost jednoho náhodného pokusu za

předpokladu, že druhý pokus již nastal. (označujeme P(A|B) … čteme: pravděpodobnost

jevu A za podmínky, že jev B nastal)

Pro lepší představu si můžeme celou situaci (mírně zjednodušeně) znázornit graficky. Na

následujícím obrázku je ukázáno zúžení náhodného jevu A, podmínkou, že nastal jev B.

Pokud již jev B nastal, pak se vše mimo něj ”ztratí v mlze”, tj. ze všech možností, které mohly

nastat pro daný pokus (prvky množiny všech elementárních jevů Ω), odpadnou všechny, které

neleží v množině náležející jevu B. To znamená, že z celé množiny Ω ”zbyla”pouze množina

B. Pak ale také z množiny A odpadnou prvky, které neleží v množině B, tj. z množiny A

”zůstane”pouze průnik A ∩ B.

Pro výpočet podmíněné pravděpodobnosti platí následující vzorec.

34

5.4 Nezávislost jevů

Při práci s náhodnými jevy se můžeme setkat s pojmy závislost, respektive nezávislost jevů.

Dva jevy jsou závislé, pokud skutečnost, že jeden z jevů nastal, ovlivní pravděpodobnost, že

nastane druhý jev, přesněji můžeme tento fakt formulovat následovně.

Závislost a nezávislost jevů

Mějme jevy A a B, přičemž platí P(A) > 0, P(B) > 0. Říkáme, že náhodné jevy A a B jsou

nezávislé právě tehdy, jestliže pravděpodobnost jevu A není ovlivněna výskytem jevu B a

současně pravděpodobnost jevu B nezávisí na výskytu jevu A,

a tedy platí P(A|B) = P(A) a P(B|A) = P(B).

V opačném případě mluvíme o závislosti jevů.

Důležitou větou v oblasti závislosti, respektive nezávislosti jevů je tzv. nutná a postačující

podmínka nezávislosti – dva jevy jsou nezávislé právě tehdy, když pravděpodobnost průniku

jevů je rovna součinu pravděpodobnosti těchto jevů.

Rozklad na třídy – skupina jevů je rozkladem na třídy, pokud sjednocením všech těchto

jevů obdržíme celou množinu všech elementárních jevů a zároveň libovolná dvojice jevů

z této skupiny má prázdný průnik.

Důležitým vzorcem v oblasti počítání podmíněných pravděpodobností je Bayesův vzorec.

Pokud A1, …, Ak tvoří rozklad na třídy a známe pravděpodobnosti P(A1), … P(Ak) a dále

P(B|A1), … P(B|Ak), pak můžeme pro libovolné i = 1, …, k vypočítat „obrácenou“

podmíněnou pravděpodobnost.

Pokud máme množinu všech elementárních jevů rozdělenou pouze do dvou tříd, a to na jev A

a jeho doplněk Ā , využijeme nejjednodušší tvar vzorce:

35

5.5 Příklady na výpočet pravděpodobnosti

Existují základní 3 typy příkladů na výpočty pravděpodobností:

1. Můžeme vypsat množinu všech elementárních jevů.

2. Nemůžeme vypsat množinu všech elementárních jevů, ale víme, že sledované jevy

jsou nezávislé.

3. Neplatí nic z předchozích dvou bodů.

V rámci všech těchto typů budeme využívat dva základní vzorce, a to vzorec pro výpočet

pravděpodobnosti sjednocení jevů a vzorec pro výpočet podmíněné pravděpodobnosti.

)()()()( BAPBPAPBAP

)(

)()|(

BP

BAPBAP

Příklad:

Házíme dvěma hracími kostkami (červená a modrá), jaká je pravděpodobnost následujících

jevů:

a. Na modré kostce padne sudé číslo.

b. Na jedné z kostek padne sudé číslo.

c. Padne jednička a dvojka.

d. Na modré kostce padne dvojnásobek toho, co padne na červené kostce.

e. Padne součet 8.

V tomto případě můžeme vypsat množinu všech elementárních jevů.

Kolik je všech elementárních jevů, pokud nás zajímá výsledek hodu jednou kostkou?“ – 6.

A kolik je všech elementárních jevů, pokud házíme dvěma kostkami?“ – většinou je

nejčastější odpověď 12, ale správná odpověď je 36.

Názorně si to předvedeme, a to tak, že systematicky vypíšeme tuto množinu (první cifra

dvojčíslí – červená kostka, druhé – modrá)

11 12 13 14 15 16

21 22 23 24 25 26

31 32 33 34 35 36

41 42 43 44 45 46

51 52 53 54 55 56

61 62 63 64 65 66

Nyní už každý vidí, že jich je opravdu 36!

36

Pro jednoduchý výpočet požadovaných pravděpodobností si v tomto výpisu postupně

vyznačíme stavy, které odpovídají danému jevu. Např.

a. U jevu A vyznačíme celý druhý, čtvrtý a šestý řádek … 18 případů … P(A) = 18/36 =

½ = 0,5

b. U jevu B vyznačíme dvojice, kde obě čísla jsou sudá … 9 případů … P(B) = 9/36 = ¼

= 0,25

c. U jevu C vyznačíme dvojice, z nichž je jedna (kterákoliv!) číslice 1 a druhá 2 … 2

případy … P(C) = 2/36 = 1/18 = 0,0556

d. U jevu D vyznačíme dvojice 12, 24, 36 … 3 případy … P(D) = 3/36 = 1/12 = 0,833

e. U jevu E vyznačíme dvojice 26, 35, 44, 53, 62 … 5 případů … P(E) = 5/36 = 0,1389

Vypočítejte dále pravděpodobnosti:

f. P(AE) … vidíme, že obě značení (z a. i e.) mají dvojice 26, 44, 62 … 3 případy …

P(AE) = 3/36 = 1/12 = 0,833

g. P(AE) … vidíme, že aspoň jedno značení (z a. , e.) mají celý druhý, čtvrtý a šestý

řádek a dále dvojice 35, 53 … 20 případů … P(AE) = 20/36 = 5/9 = 0,5556

Můžeme počítat i přes vzorec

P(AE) = P(A) + P(E) - P(AE) = ½ + 5/36 - 1/12 = 20/36 = 5/9 = 0,5556

h. P(A|E) … počítáme přes vzorec

P(A|E) = P(AE)/P(E) = (1/12)/(5/36) = 36/60 = 3/5 = 0,6

Zjistěte, zda jsou jevy B a D závislé či nezávislé. … K tomuto můžeme například využít

„Nutné a postačující podmínky nezávislosti“ = Dva jevy jsou nezávislé právě tehdy, když

P(AB) = P(A).P(B)

Spočítáme tedy všechny potřebné pravděpodobnosti. Už máme P(B) = 1/4, P(D) = 1/12.

Dopočítáme P(BD) = 1/36 … protože obě značení (b. i d.) má pouze dvojice 24.

Nyní vidíme, že 1/36 1/4.1/12 = 1/48 … jevy tedy nejsou nezávislé, jsou závislé.

Příklad:

Na střelnici jsou dva střelci – Adam a Béďa. Pravděpodobnost, že se Adam strefí do terče je

P(A) = 0,9. Pravděpodobnost, že se Béďa strefí do terče je P(B) = 0,7. Jaká je

pravděpodobnost, že

a. se trefí oba střelci?

b. se trefí aspoň jeden ze střelců?

37

c. se trefí právě jeden ze střelců?

d. se trefí nejvýše jeden ze střelců?

e. se trefí pouze Béďa?

V tomto příkladu nelze vypsat množinu všech elementárních jevů. Ale je zřejmé, že výsledky

střelby obou střelců jsou vzájemně nezávislé (otázka- bylo by tomu tak, i kdyby tito střelci

byli rozmazlující otec se synem? Nebo kdyby střelci nestříleli na terč, ale po sobě vzájemně?).

Pokud nastane takováto situace, můžeme při výpočtech mimo jiné využít nutnou a postačující

podmínku nezávislosti.

Dále je dobré využívat ke znázornění počítaných jevů využít Vennových diagramů.

a. Trefí se oba střelci.

Na obrázku vidíme, že se jedná o průnik, jevy jsou nezávislé, využijeme zmíněné podmínky,

a tedy

P(AB) = P(A).P(B) = 0,9.0,7 = 0,63

b. Trefí se aspoň jeden ze střelců?

Na obrázku vidíme, že se jedná o sjednocení, využijeme vzorec

P(AB) = P(A) + P(B) – P(AB) = 0,9 + 0,7 – 0,63 = 0,97

38

c. Trefí se právě jeden ze střelců.

Na základě obrázku vidíme, že výslednou pravděpodobnost dostaneme výpočtem:

[P(A) – P(AB)] + [P(B) – P(AB)] = (0,9 – 0,63) + (0,7 – 0,63) = 0,27 + 0,07 = 0,34

Můžeme ale počítat i jinak – na obrázku si můžeme všimnout, že vyznačenou plochu můžeme

dostat „odstřižením“ průniku od sjednocení. Výpočet pak bude následující:

P(AB) – P(AB) = 0,97 – 0,63 = 0,34

Vidíme, že jsme obdrželi shodný výsledek.

d. Trefí se nejvýše jeden ze střelců.

Na obrázku vidíme, že vyznačenou plochu obdržíme „odstřižením“ (tj. odečtením

pravděpodobnosti) průniku od celého obdélníku, který představuje množinu všech

elementárních jevů, jejíž pravděpodobnost je 1.

Požadovanou pravděpodobnost pak obdržíme výpočtem

1 – P(AB) = 1 – 0,63 = 0,37

39

e. Trefí se pouze Béďa?

Na obrázku vidíme, že vyznačenou plochu obdržíme odstřižením průniku od kolečka B.

Požadovanou pravděpodobnost tedy obdržíme výpočtem

P(B) – P(AB) = 0,7 – 0,63 = 0,07

Příklad:

Na trhu jsou dva výrobky – A a B. Víme, že Výrobek A si koupí 70% zákazníků, výrobek B

si nekoupí 90% zákazníků, nejvýše jeden výrobek si koupí 80% zákazníků. Zjistěte, zda se

jedná o komplementy, či o substituty (Uvědomme si, že platí následující: komplementy –

koupě jednoho zvyšuje pravděpodobnost koupě druhého, substituty – koupě jednoho snižuje

pravděpodobnost druhého).

V tomto příkladu nemůžeme ani vypsat množinu všech elementárních jevů, ani rozhodnout,

zda jsou jevy závislé, či nezávislé.

K výpočtu je opět dobré znázornění pomocí Vennových diagramů.

Nyní dáme dohromady známé údaje o pravděpodobnostech.

Výrobek A si koupí 70% zákazníků … plocha II.+III. … = 0,7

40

výrobek B si nekoupí 90% zákazníků … plocha I.+II.+III. … = 0,9

nejvýše jeden výrobek si koupí 80% zákazníků … plocha I. + II.+ IV. … = 0,7

Dále si musíme uvědomit, že součet všech ploch dává celek, tedy 1.

Při označení I. – a, II. – b, III. – c, IV. – d dostáváme následující soustavu čtyř rovnic o

čtyřech neznámých:

b + c = 0,7

a + b + c = 0,9

a + b + d = 0,7

a + b + c + d = 1

Vyřešením soustavy dostáváme: a = 0,2; b = 0,4; c = 0,3; d = 0,1.

K požadovanému rozhodnutí potřebujeme pravděpodobnosti P(A) a P(A|B), případně P(B) a

P(B|A).

P(A) = b + c = 0,4 + 0,3 = 0,7

P(B) = c + d = 0,3 + 0,1 = 0,4

P(AB) = c = 0,3

P(A|B) = P(AB)/P(B) = 0,3/0,4 = 0,75

P(B|A) = P(AB)/P(A) = 0,3/0,7 = 3/7 = 0,4257

Z vypočítaného je vidět, že pravděpodobnost koupě výrobku A se zvýšila za podmínky, že

zákazník již koupil výrobek B … jedná se o komplementy.

Obdobně je vidět, že pravděpodobnost koupě výrobku B se zvýšila za podmínky, že zákazník

již koupil výrobek A … jedná se o komplementy.

Příklad:

Sledovanou nemocí trpí 10% populace. Máme test, který je pro 80 % nemocných pozitivní a

pro 95 % zdravých lidí negativní. Jaká je pravděpodobnost, že když mi test vyjde pozitivní, že

jsem skutečně nemocná?

Můžeme počítat například pouze na základě logiky:

Pravděpodobnost se dle klasické definice počítá jako podíl „toho, co mne zajímá“ děleno

„vše“.

„vše“ je počet všech lidí (z celé populace), kterým vyšel test pozitivní.

41

My víme, že test jednak vyšel pozitivně v 80% nemocných lidí, kterých je 10 % populace.

Tedy víme, že 0,8*0,1= 0,08 … 8 % populace tvoří nemocní lidé mající pozitivní test.

Dále víme, že test vyšel pozitivní u 5 % zdravých lidí (protože u 95 % těchto lidí vyšel

negativně), kterých je 90 % celé populace. Tedy víme, že 0,05*0,9 = 0,045 … 4,5 % populace

tvoří zdraví lidé mající pozitivní test.

Celkem tedy test vyšel pozitivně u 0,08 + 0,045 = 0,125 … 12,5% populace.

Nás zajímá pravděpodobnost toho, že je někdo s pozitivním testem nemocný. Nemocní

s pozitivním testem tvoří 8 % (viz výše).

Požadovanou pravděpodobnost tedy vypočítáme jako podíl 0,08/0,125 = 0,64 … 64 %.

Pokud tedy vyjde test pozitivní je 64 % pravděpodobnost, že jsme opravdu nemocní.

Počítat také můžeme pomocí Bayesovy věty.

Musíme si nejdříve uvědomit, co bude jev A a co bude jev B ze vzorce přímo v našem zadání.

To se nejlépe pozná podle podmíněných pravděpodobností.

Hledáme tedy v zadání nějakou podmíněnou pravděpodobnost – vyjadřuje ji často nějaká

podmíněná věta (tedy typu „pokud …“ „jestliže …“ apod.)

V našem zadání je to věta „pro 80 % nemocných vychází test pozitivně“ … jinými slovy

„pokud je někdo nemocný, je 80 % pravděpodobnost, že má pozitivní test“.

Podmínkou je tu tedy nemocnost … toto tedy bude náš jev A.

Jevem B potom musí být pozitivní výsledek testu.

Nyní shrneme a symbolicky zapíšeme všechny zadané pravděpodobnosti:

P(A) = 0,1 P(Ā) = 0,9 P(B|A) = 0,8 P(B|Ā) = 0,05

Nyní už stačí dosadit do vzorce:

Vidíme, že nám vyšel stejný výsledek jako při předchozím způsobu výpočtu.

Kontrolní otázky:

• Vypočítejte pravděpodobnost, že při hodu dvěma kostkami padne na jedné kostce o 3

více než na kostce druhé?

• Musí platit, že pravděpodobnost průniku dvou jevů musí být menší než

pravděpodobnost jejich sjednocení? Odpověď odůvodněte.

• Jak se liší podmíněná pravděpodobnost P(A|B) od pravděpodobnosti P(A) v případě, že

se jedná o dva nezávislé jevy.

42

• Na trhu jsou dva výrobky – A a B, my sledujeme pravděpodobnost, že si náhodný

zákazník koupí daný výrobek. Víme, že platí P(A|B ) > P(A). Jedná se o komplementy

nebo substituty?


• MOC, O., ŠIMSOVÁ, J., ŽAMBOCHOVÁ, M. Matematika pro ekonomy, 1. vyd.

Ústí nad Labem, UJEP 2013, 608 s. ISBN-9788074145995.

• KAHOUNOVÁ, J. Základy statistiky a počtu pravděpodobnosti, díl II., skripta FSE

Ústí nad Labem 2001, 116 s. ISBN 80-7044-151-8.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.

• BUDÍKOVÁ, M., MIKOLÁŠ, Š., OSECKÝ, P.: Teorie pravděpodobnosti a

matematická statistika: sbírka příkladů, Masarykova univerzita, Brno 2004, 116 s.,

ISBN 978-80-21033-13-9







43

6 Pravděpodobnostní rozdělení náhodné veličiny, diskrétní typy

rozdělení

Cílem této kapitoly je seznámení s diskrétními náhodnými veličinami, jejich základními

charakteristikami a s vybranými typy diskrétních rozdělení.


• rozeznat kategoriální náhodnou veličinu,

• vypočítat její střední hodnotu, rozptyl, určit hodnotu kvantilů, hodnotu distribuční

funkce,

• rozeznat případy, kdy můžeme použít vybraná diskrétní rozdělení,

• na základě příslušných vzorců spočítat pravděpodobnosti týkající se těchto rozdělení.


• Základní pojmy

• Typy příkladů s využitím teorie o diskrétních rozděleních

6.1 Základní pojmy

Diskrétní náhodná veličina – veličina, která nabývá konečně mnoha různých hodnot, navíc

pro každou z těchto hodnot je dána pravděpodobnost, že veličina právě této hodnoty nabývá.

Píšeme: P(X = x), čteme: pravděpodobnost, že náhodná veličina X nabývá hodnoty x.

Zákon rozdělení pravděpodobností – součet všech pravděpodobností hodnot, kterých

nabývá daná diskrétní náhodná veličina, je roven 1.

Pro náhodnou veličinu, která nabývá k různých hodnot x1, …, xk tedy platí:

Střední hodnota – nebo-li očekávaná hodnota (z anglického Expected Value) - 1. obecný

moment. Značíme EX.

44

Pravděpodobnostní funkce – funkce jedné reálné proměnné, značí hodnotu

pravděpodobnosti, že daná náhodná veličina nabude právě daného reálného čísla. Tato funkce

je definována pro všechna reálná čísla. Pro většinu reálných čísel tato funkce nabývá nulové

hodnoty. Nenulová je pouze v konečně mnoha případech, a to právě v hodnotách sledované

náhodné veličiny. Značíme P(x).


náhodné veličiny, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),

značíme F(x).

Kvantil – pro náhodnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl

pozorování, pro některé často používané kvantily používáme speciální označení, a to

medián – značí 50% kvantil;

kvartily – dolní kvartil značí 25% kvantil, horní kvartil značí 75% kvantil;

decily – dolní decil značí 10% kvantil, horní decil značí 90% kvantil,

percentily – například 60-tý percentil značí 60% kvantil.

Druhý obecný moment – střední hodnota druhých mocnin náhodné veličiny. Značíme E(X2).

Druhý centrovaný moment – rozptyl, vyjadřuje míru různorodosti náhodné veličiny, není

přímo interpretovatelný. Značíme DX.

Směrodatná odchylka – je druhou odmocninou rozptylu, je již více vhodná k interpretaci.

Alternativní rozdělení – náhodná veličina nabývá pouze dvou hodnot, a to 0 a 1, přičemž

platí P(1) = , P(0) = 1 – , kde je parametr rozdělení (například výsledek vrhu mincí,

přičemž 0 značí padnutí rubu a 1 padnutí líce).

45

Binomické rozdělení – náhodná veličina nabývá n + 1 hodnot, a to 0, …, n, kde n značí počet

nezávislých pokusů, veličina značí počet, kolikrát v těchto n pokusech nastal jistý náhodný

jev, jehož pravděpodobnost značíme (například počet hozených šestek z deseti hodů hrací

kostkou). Vzorec pro výpočet pravděpodobnosti, že během n pokusů nastal jev A právě x krát:

Hypergeometrické rozdělení – obdoba binomického rozdělení, zásadním rozdílem je fakt, že

náhodné pokusy nejsou nezávislé (například počet dívek v náhodně vybrané pětici dětí ze

třídy, kde je 10 chlapců a 15 dívek). Vzorec pro výpočet pravděpodobnosti, že během n

pokusů nastal jev A právě x krát:

Poissonovo rozdělení – obdoba binomického rozdělení, zásadním rozdílem je fakt, že

neznáme přesný počet pokusů (například počet vyklíčených semen z náhodného 1m2 oseté

plochy). Vzorec pro výpočet pravděpodobnosti, že během všech provedených pokusů nastal

jev A právě x krát:

Rovnoměrné diskrétní rozdělení – náhodná veličina nabývá n hodnot, a to

1, …, n, pravděpodobnosti všech těchto hodnot jsou shodné, mají hodnotu 1/n (například číslo

hozené při jednom hodu hrací kostkou).

6.2 Typy příkladů s využitím teorie o diskrétních rozděleních

Rozdíl ve využití tří základních diskrétních rozdělení, a to Hypergeometrického,

Binomického a Poissonova.

Vždy je náhodnou veličinou počet úspěchů při několika pokusech. P(x) pak značí

pravděpodobnost, že nastane přesně x úspěchů.

46

Pokud nemáme zadán počet pokusů, ale množství pokusů je dáno „opisem“ (např. během

nějakého času, na nějaké ploše, objemu, …), pak použijeme Poissonovo rozdělení, jehož

parametrem je , který znamená průměrný počet úspěchů ve sledovaném vzorku.

Pokud máme dán počet pokusů (n), pak musíme rozhodnout, zda jsou jednotlivé po sobě

jdoucí pokusy na sobě závislé či nikoliv. To nejlépe poznáme tak, že sledujeme

pravděpodobnost úspěchu v jednotlivých pokusech. Pokud je pravděpodobnost stále stejná –

jedná se o nezávislé pokusy (použijeme Binomické rozdělení s parametry n a

=pravděpodobnost), pokud se pravděpodobnost mění, pak se jedná o závislé pokusy

(použijeme Hypergeometrické rozdělení s parametry n, N = celkový počet objektů, z kolika

vybíráme, M = počet objektů v celém souboru, které „nás zajímají“).

Příklad:

V osudí máme 4 černé, 4 bílé, 4 modré a 4 zelené kuličky. Vytáhneme z osudí 3 kuličky a

držíme je. Jaká je pravděpodobnost, že máme v ruce právě 2 bílé kuličky?

Úvaha I. Známe počet pokusů? (ať oni odpovědí) … ano známe, n = 3

Takže se určitě nejedná o Poissonovo rozdělení.

Úvaha II. Jsou jednotlivé pokusy na sobě závislé?

Otázka: Tahám první kuličku, jaká je pravděpodobnost, že je bílá? Odpověď: 4/19 = 1/4.

Další otázka: Držím v ruce bílou kuličku, tahám druhou kuličku, jaká je pravděpodobnost, že

je bílá? Odpověď: Jednu bílou už jsme odebrali, v osudí zbývají jen 3, z celkového počtu

kuliček v osudí už zbylo jen 15, tedy pravděpodobnost je 3/15 = 1/5.

Další otázka: Nebo držím v ruce jinou než bílou kuličku, tahám druhou kuličku, jaká je

pravděpodobnost, že je bílá? Odpověď: 4/15

Můžeme pokračovat výpočtem všech pravděpodobností při tahání třetí kuličky.

47

Dobré je znázornit do stromu znázorněného na následujícím obrázku. Znaménko (+)

v obrázku značí, že jev nastal, znaménko (-), že jev nenastal. V obrázku je pak přehledně na

první pohled vidět, jestli se pravděpodobnosti postupem jednotlivých pokusů mění, či nikoliv.

Vidíme, že se pravděpodobnosti mění, jedná se tedy o závislé pokusy, použijeme tedy

Hypergeometrické rozdělení s parametry n = 3, M = 4, N = 16 a x= 2

Příklad:

Je známo, že se rodí 49% holčiček. Jaká je pravděpodobnost, že mezi osmi právě narozenými

dětmi jsou maximálně dva kluci?

Stejné pořadí úvah.

Nejprve si uvědomíme, zda máme dán počet pokusů … ano, n = 8. Dále si musíme uvědomit,

zda jsou pokusy na sobě závislé či nezávislé. Tedy přemýšlíme – jaká je pravděpodobnost, že

když se rodí první dítě, že to bude kluk? … 0,51

Už víme, že se narodil kluk – rodí se druhé dítě, jaká je pravděpodobnost, že je to kluk? …

0,51

A pokud víme, že jako první se narodila holka, jaká je pravděpodobnost, že druhé dítě bude

kluk? … opět 0,51

Vidíme, že pravděpodobnosti se nemění, jsou všechny stejné. Proto zvolíme Binomické

rozdělení s parametry n = 8, = 0,51.

+

+

48

Nyní si musíme uvědomit, že máme počítat pravděpodobnost, že se z 8 dětí narodí maximálně

dva kluci? Co to znamená „maximálně dva kluci“? … žádný, nebo jeden, nebo dva.

Takže musíme spočítat všechny tyto pravděpodobnosti:

Výslednou pravděpodobnost dostaneme jako součet těchto tří vypočtených pravděpodobností:

0,0033 + 0,0277 + 0,1008 = 0,1318 = 13,18%

Příklad:

Benzinová pumpa obslouží během hodiny průměrně 15 zákazníků. Jaká je pravděpodobnost,

že během 4 minut bude na pumpě obsloužen jeden zákazník?

Opět stejná posloupnost úvah.

Máme dán počet pokusů? … Tentokrát nikoliv. Ale tuto informaci máme dánu „opisem“ =

údajem, jak dlouho budeme pokusy provádět.

Jedná se tedy o Poissonovo rozdělení. To má za parametr průměrný počet úspěchů ve

sledovaném čase.

Kolik to je? Prvním nápadem bývá hodnota 15, což je chybná odpověď, protože tato hodnota

se netýká vzorku „naší“ velikosti (tedy doby trvající 4 min), ale jedná se o hodinový údaj,

z něhož musíme teprve požadovanou hodnotu parametru vypočítat, a to např. pomocí

trojčlenky. Výsledná hodnota parametru se vypočítá dle výrazu 15/60 * 4 = 1.

Tedy =1

Nyní už můžeme dosazovat do patřičného vzorce:

A jaká by byla pravděpodobnost, že v průběhu těchto 4 minut budou obslouženi aspoň dva

zákazníci?

49

Co to znamená aspoň dva? … Dva, tři, čtyři, pět, … až do nekonečna (nevíme, kam až).

Museli bychom nejprve spočítat pravděpodobnosti všech těchto možností – ale těch je

nekonečně mnoho, to bychom se nedopočítali.

Co s tím?

„Aspoň dva“ je doplňkem pro méně než dva, tedy žádný, nebo jeden.

Následně tyto dvě hodnoty sečteme. 36,79 + 36,79 = 73,58

Ale toto ještě není naše požadovaná pravděpodobnost. Proč? Výsledek ještě musíme odečíst

od 1 (protože se jedná o doplněk)

Tedy 1 – 0,7358 = 0,2642 = 26,42%

Kontrolní otázky:

• Vypočítejte střední hodnotu, rozptyl, dolní kvartil, horní decil, medián, 67% kvantil,

F(-2), F(3,5) a F(6) pro diskrétní náhodnou veličinu nabývající hodnot 1, 2, 3 a 4 a pro

niž platí: P(1)=0,3; P(2)=0,2; P(3)=0,1.

• Jakým rozdělením se řídí náhodná veličina představující počet pětek při čtyřech

hodech hrací kostkou?

• Jakým rozdělením se řídí náhodná veličina představující počet odbavených vlaků na

nádraží v průběhu jednoho dne?

• Jakým rozdělením se řídí náhodná veličina představující počet chlapců

v pětičlenných skupinách vytvořených z 30 dědí, mezi nimiž je 10 dívek?

• Jakým rozdělením se řídí náhodná veličina představující výsledek hodu jednou hrací

kostkou?

• Jakým rozdělením se řídí náhodná veličina představující výsledek jednoho hodu mincí

(uveďte co nejvíce možností)?





ISBN 978-80-245-1957-9.

50


ISBN 80-7044-845-8.





ISBN 978-80-21033-13-9





51

7 Spojité typy rozdělení

Cílem této kapitoly je seznámení se spojitými náhodnými veličinami, jejich základními

charakteristikami a s vybranými typy spojitých rozdělení.


• rozeznat spojitou náhodnou veličinu,

• využívat vlastností distribuční funkce a hustoty pro výpočty pravděpodobností,

• rozeznat případy, kdy můžeme použít vybraná spojitá rozdělení,

• na základě příslušných vzorců spočítat pravděpodobnosti týkající se těchto rozdělení,

• určit hodnotu kvantilů, hodnotu distribuční funkce tabulkově zpracovaných rozdělení.


• Základní pojmy

• Typy příkladů s využitím teorie o normálním rozdělení

7.1 Základní pojmy

Spojitá náhodná veličina může nabývat nekonečně mnoha různých hodnot. Na rozdíl od

diskrétní náhodné veličiny má spojitou distribuční funkci. Rozdělení spojité náhodné veličiny

nelze popsat pravděpodobnostní funkcí v určitém bodě. Místo pravděpodobností funkce

budeme vedle funkce distribuční využívat speciální funkce zvané hustota.

Hustota – funkce jedné reálné proměnné, slouží k popisu rozložení pravděpodobností spojité

náhodné veličiny. Pomocí této funkce můžeme určit pravděpodobnost, že náhodná veličina

nabývá hodnoty v daném rozmezí. Značíme f(x).

Zákon rozdělení pravděpodobností – plocha pod hustotou je vždy rovna 1.


náhodné veličiny, udává podíl pozorování s hodnotou nejvýše x (libovolné reálné číslo),

značíme F(x).

52

Vztah mezi distribuční funkcí spojité náhodné veličiny a její hustotou je následující:

Kvantil – pro náhodnou veličinu X udává hodnotu x, pod níž leží požadovaný podíl

pozorování, pro některé často používané kvantily používáme speciální označení, a to

medián – značí 50% kvantil;

kvartily – dolní kvartil značí 25% kvantil, horní kvartil značí 75% kvantil;

decily – dolní decil značí 10% kvantil, horní decil značí 90% kvantil,

percentily – například 60-tý percentil značí 60% kvantil.

Střední hodnota – nebo-li očekávaná hodnota (z anglického Expected Value) - 1. obecný

moment. Značíme EX.

Druhý obecný moment – střední hodnota druhých mocnin náhodné veličiny. Značíme E(X2).

Druhý centrovaný moment – rozptyl, vyjadřuje míru různorodosti náhodné veličiny, není

přímo interpretovatelný. Značíme DX.

Směrodatná odchylka – je druhou odmocninou rozptylu, je již více vhodná k interpretaci.

Normální rozdělení – tzv. Gaussovo rozdělení, symetrické rozdělení, kde hodnoty

„uprostřed“ jsou nejvíce pravděpodobné, kdežto čím více jsou hodnoty vzdálené od středu,

tím méně jsou pravděpodobné, rozdělení má dva parametry, a to střední hodnotu μ a rozptyl

2, značíme N(μ,

2).

Normální normované rozdělení – speciální případ normálního rozdělení, pro které platí μ=0

a směrodatná odchylka = 1. Značíme N(0, 1).

Exponenciální rozdělení – spojité rozdělení, popisující náhodné veličiny představující např.

čas do určité události. Značíme Exp(), kde značí střední dobu do události.

Distribuční funkce exponenciálního rozdělení má tvar

a hustota má tvar

53

7.2 Typy příkladů s využitím teorie o normálním rozdělení

V ekonomii se setkáme nejčastěji se spojitými veličinami, které se řídí normálním rozdělením

(Kahounová 2001), (Hindls 2007). Proto se zaměříme na výpočty týkající se právě tohoto

rozdělení. Existuje nekonečně mnoho různých normálních rozdělení, které se vzájemně liší

svými parametry, a to střední hodnotou a rozptylem. Přímé výpočty pomocí distribuční

funkce by byly velmi složité. Proto využíváme jednoho základního zástupce, a to normálního

normovaného rozdělení, které je tabulkově zpracované a každé jiné normální rozdělení je na

tohoto zástupce převoditelné. Tomuto převodu se říká normování. V následujících příkladech

si na jednoduchém příkladu názorně předvedeme postup.

Vzorec pro normování:

XU , kde U je veličina řídící se normálním normovaným

rozdělením, X je veličina s normálním rozdělením se střední hodnotou μ a rozptylem 2.

Příklad:

Počet korálků v krabičkách se řídí normálním rozdělením N(250, 2500). Určete

pravděpodobnost, že v náhodně vybrané krabičce je méně než 200 korálků.

Úkolem je zjistit P(X<200). V následujícím postupu nejprve znormujeme hodnotu 200 a poté

v tabulce obsahující hodnoty distribuční funkce normálního normovaného rozdělení

nalezneme požadovanou pravděpodobnost. Výpočet je tedy následující.

15866,084134,01

)1(1)1(1)1()50

250200()200()200(

UPUPUPXPXP

Je 15,87% pravděpodobnost, že v náhodné krabičce je méně než 200 korálků.

Příklad:

Určete hodnotu horního a dolního kvartilu náhodné veličiny z předchozího příkladu.

V tabulkách nalezneme horní kvartil normálního normovaného rozdělení u0,75 = 0,675 (je to

mezi 0,67 a 0,68 – buď uvedeme jednu z těchto hodnot, nebo jejich průměr)

nyní „odnormujeme“ 0,675 . 50 + 250 = 283,75

hodnota spodního kvartilu normálního normovaného rozdělení u0,25 = – u0,75 = – 0,675

54

nyní „odnormujeme“ – 0,675 . 50 + 250 = 216,25

Příklad:

Jaký minimální počet korálků má libovolná krabička patřící mezi 10% nejplnějších krabiček?

Musíme si uvědomit, co znamená uvedená formulace v otázce „10% nejplnějších krabiček“.

O jaký kvantil nám jde? Máme spočítat 90% kvantil.

V tabulkách nalezneme patřičný u-kvantil … u0,9 = 1,285

nyní „odnormujeme“ 1,285 . 50 + 250 = 314,25

Musíme si ale uvědomit, že se ptáme na minimální (tj. nejmenší možný) počet korálků

v krabičce, v krabičce může být pouze celý počet korálků – POZOR! Nemůžeme

zaokrouhlovat „standardně“ na 314 – to by pak nebyla splněna podmínka. Proto musí být

odpověď 315.

Kontrolní otázky:

• Nakreslete graf hustoty náhodné veličiny s více modálními hodnotami.

• Do jednoho obrázku nakreslete graf distribuční funkce nějaké náhodné veličiny řídící

se normálním rozdělením a dále distribuční funkci náhodné veličiny, která z předchozí

vznikne tak, že každou hodnotu zvýšíme o 10%.

• Vypočítejte F(10), F(50) pro náhodnou veličinu řídící se normálním rozdělením N(20,

90).

• Vypočítejte dolní kvartil, horní decil, 93% kvantil pro náhodnou veličinu řídící se

normálním rozdělením N(90, 200).

• Vypočítejte pravděpodobnost, že se nám stroj neporouchá dříve než za 10 dní, pokud

víme, že se čas do poruchy řídí exponenciálním rozdělením a stroj se průměrně

porouchá jedenkrát za 8 dní.





ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.

55





ISBN 978-80-21033-13-9





56

8 Úvod do teorie odhadů

Cílem této kapitoly je seznámení se základy jedné z oblastí statistické indukce, jejímž cílem je

hledání vhodných pravděpodobnostních modelů, a to odhadováním jednotlivých parametrů

modelových rozdělení.


• vysvětlit rozdíl mezi bodovým a intervalovým odhadem parametru,

• z popisu situace vybrat vhodné rozdělení a jeho parametr a následně vypočítat bodový

odhad tohoto parametru (speciálně parametry , μ a 2),

• z popisu situace vybrat vhodné rozdělení a jeho parametr a následně vypočítat

oboustranný či jednostranný intervalový odhad tohoto parametru (speciálně parametry

a μ ),

• vypočítané hodnoty přesně interpretovat.


• Teoretický úvod

• Vzorové příklady

8.1 Teoretický úvod

Jednotlivá pravděpodobnostní rozdělení jsou jednoznačně dána hodnotami svého parametru

(jednoho či více). V předchozím textu jsme se zmínili o nejčastějších rozděleních a jejich

parametrech, kterými jsou parametry π (pravděpodobnost sledovaného jevu) u binomické

veličiny, μ (střední hodnota) a σ2 (rozptyl) u normální veličiny. Častou úlohou statistiky bývá

odhadnout neznámou hodnotu některého z parametrů na základě dat (Hrach

a kol. 1998). Odhadneme-li tento parametr jediným číslem, hovoříme o bodovém odhadu.

Tyto odhady se počítají na základě tzv. zákonů velkých čísel. Nevýhodou takovýchto odhadů

je fakt, že nevíme, jakou chybou je tento odhad zatížen, tedy nevíme, jak „blízko“ je tento

odhad skutečnosti. Z tohoto důvodu raději používáme odhad intervalový, tzv. interval

spolehlivosti nebo též konfidenční interval. Hodnota spolehlivosti (označujeme 1) udává

pravděpodobnost, s níž skutečná hodnota parametru leží v nalezeném intervalu. Nejčastěji

volíme = 0,95 (95 %).

57

Využíváme jednak tzv. oboustranných intervalů, které jsou konstruovány tak, že bodový

odhad leží uprostřed tohoto intervalu. Odchylka dolní a horní meze od středu se počítá dle

speciálních vzorců. Hranice intervalu spolehlivosti pro parametr μ při známé hodnotě

parametru 2 počítáme dle vzorce

nux

21

stejný parametr při neznámé hodnotě parametru 2 dle vzorce

n

sx 1)(nt

2

α1

, kde

je tzv. výběrový rozptyl.

a pro parametr dle vzorce

1

)1(

2

1

21

n

ppu

np

Někdy však potřebujeme odhadnout pouze horní, resp. dolní hranici. Pak využíváme tzv.

jednostranných intervalů spolehlivosti. Důležité je si uvědomit, že není možné vzít pouze

jednu z hranic oboustranného intervalu, ale musíme tuto hranici vypočítat pomocí speciálně

modifikovaného vzorce.

8.2 Vzorové příklady

Příklad:

Byl proveden průzkum ve 2000 bytových jednotkách. Na základě údajů v tabulce četností

vypočtěte 95% interval spolehlivosti pro průměrný počet pokojů v bytě.

Počet pokojů 0 1 2 3 4

Relativní četnosti 0,1 0,25 0,14 0,05

Nejprve musíme dopočítat chybějící údaj v tabulce četností. Víme, že součet všech relativních

četností musí být roven 1, proto budeme počítat:

p5 = 1 – (0,1 + 0,25 + 0,14 + 0,05) = 1 – 0,54 = 0,46

58

Nyní už budeme moci přistoupit k vlastnímu výpočtu hranic požadovaného intervalu

spolehlivosti. Ze zadání vidíme, že se bude jednat o interval spolehlivosti pro střední hodnotu

(tento závěr jsme udělali na základě požadavku na „průměrný počet pokojů“). V zadání

příkladu není žádná informace o hodnotě rozptylu, proto musíme použít vzorec pro případ

„neznámého parametru 2, a to:

n

sx 1)(nt

2

α1

Nejprve si předpočítáme všechny potřebné údaje.

Dále v tabulkách t-rozdělení nalezneme potřebný kvantil.

Je požadována 95% spolehlivost, to znamená, že 1 – = 0,95 a tedy = 0,05 a /2 = 0,025,

tedy 1 – /2 = 0,975. Budeme tedy hledat 97,5% kvantil. Počet stupňů volnosti je dán

předpisem n – 1 = 1999.

V tabulkách takovýto údaj o stupních volnosti nenalezneme, proto vybereme „nejbližší“ údaj,

kvantil tedy nalezneme v posledním řádku patřičného sloupce.

t0,975(30) = 2,042

Nyní již můžeme dosadit do vzorce pro dolní hranici D a horní hranici H požadovaného

intervalu spolehlivosti.

2,41632000

2,2707042,252,21)(nt

2

α1

n

sxD

2,62372000

2,2707042,252,21)(nt

2

α1

n

sxH

Můžeme tedy říct, že průměrný počet pokojů v bytech se s 95% pravděpodobností pohybuje

v rozmezí od 2,4163 do 2,6237.

Příklad:

Jaké můžeme odhadovat volební preference kandidáta, pokud by jej v průzkumu volilo 140

respondentů z 200 dotázaných? Pracujte se 95% spolehlivostí.

59

Dolní hranici D i horní hranici H budeme počítat podle vzorce pro intervalový odhad

pravděpodobnosti (parametru )

1

)1(

2

1

21

n

ppu

np

Písmeno p ve vzorci značí relativní četnost respondentů, kteří by v průzkumu volili našeho

kandidáta. Vypočítáme tedy následovně:

Písmeno n značí celkový počet oslovených osob, tedy n = 200.

u1-/2 je kvantil normálního normovaného rozdělení, který nalezneme v příslušných tabulkách.

K tomu ale musíme předem určit procentnost kvantilu, tedy hodnotu 1 – /2.

Požadovaná spolehlivost je 95 %, tedy platí 1 – = 0,95.

Z toho víme, že = 0,05 a tedy /2 = 0,025 a tím i 1 – /2 = 0,975.

V tabulkách tedy nalezneme kvantil u0,975 = 1,96.

Nyní už spočítáme obě hranice intervalu, a to:

6338,01200

)7,01(7,096,1

2002

17,0

1

)1(

2

1

21

n

ppu

npD

7662,01200

)7,01(7,096,1

2002

17,0

1

)1(

2

1

21

n

ppu

npH

Můžeme tedy říct, že s 95% pravděpodobností se procento voličů daného kandidáta pohybuje

v rozmezí 63,38 % až 76,62 %..

Kontrolní otázky:

• Vyjmenujte bodové odhady parametrů binomického a normálního rozdělení.

• V čem spočívá nevýhoda bodových odhadů?

• Čím lze ovlivnit šíři intervalového odhadu?

• Vypočítejte 99% interval spolehlivosti pro podíl zmetků ve výrobě, pokud při

průzkumu bylo z 900 testovaných výrobků 15 zmetků?

60

• Jaký je horní odhad průměrné spotřeby aut naší výroby, pokud testovaná auta měla

následující spotřebu: 5,4; 4,8; 6,1; 5,6; 5,9; 4,8; 6,3; 5,0; 6,2; 4,9? Pracujte se

spolehlivostí 90%.


• HRACH, K., KAHOUNOVÁ, J., KAŇOKOVÁ, J. Základy statistiky a počtu

pravděpodobnosti, díl III., skripta FSE Ústí nad Labem 1998, 119 s. ISBN 80-7044-

203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.





ISBN 978-80-21033-13-9

• CHAJDIAK, J. Štatistické úlohy a ich řešenie v Exceli. Statis Bratislava, 2005, ISBN

80-85659-39-5.





61

9 Princip testování hypotéz

Cílem této kapitoly je seznámení se základy testovaní hypotéz, pomocí něhož testujeme

tvrzení o chování náhodných veličin. Poté se v této kapitole zaměříme na jednu základní

skupinu testů, a to parametrické testy hypotéz.


• vysvětlit princip testování hypotéz,

• popsat postup testování hypotéz,

• vybrat vhodný parametrický test a pomocí něj ověřit tvrzení o hodnotách vybraných

parametrů.


• Princip testování hypotéz

• Typy testování hypotéz

• Parametrické testy


9.1 Princip testování hypotéz

V předchozí kapitole jsme popsali postup v případě, že nemáme žádný předpoklad o populaci

a snažíme se vytvořit nějaký odhad. Mnohdy však nastává situace, kdy máme nějaké

předpoklady, domněnky. Pak bývá úkolem statistiky tyto domněnky buď potvrdit, nebo

naopak vyvrátit. K tomuto účelu využijeme testování hypotéz. Statistika nám nabízí

nepřeberné množství statistických testů. V dané situaci si pak musíme vybrat ten

nejvhodnější. Příklady jsou uvedeny např. ve (Hrach 2006), zpracování pomocí SW ve

(Chajdiak 2005).

V následujícím textu uvedeme základní poznatky a postupy a jen pár nejzákladnějších testů. I

z těchto málo případů však bude zřejmé, že v případě potřeby bychom měli být schopni najít

si i jiný test a ten použít dle vzoru.

Základem statistického testování je dvojice statistických hypotéz, a to hypotézy H0 a H1.

Nulová hypotéza – základní statistická hypotéza testu, má speciální tvar podléhající

pravidlům, značíme H0,

Alternativní hypotéza – doplněk nulové hypotézy, značíme H1.

62

Při rozhodování mohou nastat situace, které popisuje následující tabulka:

Možnosti při testování: Doopravdy platí H0 Doopravdy platí H1

Test označil H0 za pravdivou OK „chyba 2. druhu“

Dle testu zamítnu H0 „chyba 1. druhu“ OK

Chyba 1.druhu – chybné zamítnutí, tj. ve skutečnosti daný fakt platí, ale test označil fakt

za nepravdivý;

Hladina významnosti – pravděpodobnost chyby 1.druhu, značí se a, nejčastější hodnota

bývá 5%.

Postup rozhodování:

1. Určíme hladinu významnosti .

2. Formulujeme dvojici stat. hypotéz H0 a H1 na základě slovních hypotéz.

3. Z dat spočteme hodnotu testového kriteria T (testové statistiky).

4. Pomocí tabulek kritických hodnot určíme při předem zvoleném kritický obor W pro

nulovou hypotézu (jeho doplněk nazýváme obor přijetí H0).

5. Pokud T leží ve W (TW), zamítáme při daném nulovou hypotézu ve prospěch

hypotézy alternativní.

6. Pokud naopak T neleží ve W (TW), nelze při daném zamítnout nulovou hypotézu

ve prospěch hypotézy alternativní.

7. Na základě (ne)zamítnutí H0 formulujeme slovní odpověď.

Testové kritérium – speciální statistika vypočítaná pomocí speciálních vzorců

z testovaných dat, značíme T.

63

Kritický obor – množina kritických hodnot, pokud je testové kritérium součástí této

množiny, jsme kritičtí k nulové hypotéze a zamítáme její platnost, značíme W.

Postup rozhodování při použití statistického SW (i např. Excel) – nelze „ručně“:

1. SW z dat spočte p-hodnotu (je vždy mezi 0-1).

2. Porovnáme p-hodnotu s předem zvolenou :

a. Pokud je p ≤ , zamítáme při daném nulovou hypotézu ve prospěch

hypotézy alternativní.

b. Pokud naopak je p > , nelze při daném zamítnout nulovou hypotézu ve

prospěch hypotézy alternativní.

9.2 Typy testování hypotéz

Parametrické

o pro střední hodnotu/y

o pro pravděpodobnost/i

o pro rozptyl/y (resp. směr.odchylku/y)

Neparametrické

o testy dobré shody

o testy nezávislosti

Jednovýběrový test – test, kdy testujeme hodnotu parametru dat jednoho souboru proti

deklarované hodnotě.

Dvouvýběrový test – test, kdy testujeme proti sobě hodnoty parametru dvou souborů.

9.3 Parametrické testy

Dvojice hypotéz pro střední hodnotu μ :

a) H0: μ=μ0 H1: μ≠μ0 … (oboustranná alternativa)

64

b) H0: μ=μ0 H1: μ>μ0 … (jednostranné alternativy)

c) H0: μ=μ0 H1: μ<μ0

Vždy μ0 je konkrétní testovaná hodnota.

Vzorec testového kritéria a kritické obory pro střední hodnotu μ při známém σ:

nxT )( 0

a) W = (-∞ ; -u1-α/2 u1-α/2 ; ∞)

b) W = u1-α ; ∞)

c) W = (-∞ ; -u1-α

Vzorec testového kritéria a kritické obory pro střední hodnotu μ při neznámém σ:

s

nxT )( 0

a) W = (-∞ ; -t1-α/2 (n-1) t1-α/2 (n-1) ; ∞)

b) W = t1-α (n-1) ; ∞)

c) W = (-∞ ; -t1-α (n-1)

Dvojice hypotéz, vzorec testového kritéria a kritické obory pro pravděpodobnost :

a) H0: = 0 H1: ≠ 0 … (oboustranná alternativa)

b) H0: = 0 H1: > 0 … (jednostranné alternativy)

c) H0: = 0 H1: < 0

Vždy 0 je konkrétní testovaná hodnota.

)1()(

00

0

n

pT

a) W = (-∞ ; -u1-α/2 u1-α/2 ; ∞)

65

b) W = u1-α ; ∞)

c) W = (-∞ ; -u1-α

9.4 Párový t-test

V párovém t-testu jde o zjištění, jak se chová střední hodnota rozdílu dvojic (párů) hodnot,

zjišťovaných u každé statistické jednotky. Příkladem může být zjišťování, zda a o kolik se liší

věk manželky a manžela (statistickou jednotkou je zde manželský pár, statistickými znaky

jsou věk manželky a manžela); zda a o jak velký vliv měla výuka na kurzu u jednotlivých

studentů (statistickou jednotkou je zde student, dvojicí statistických znaků je počet bodů

z kontrolního testu před kampaní a po kurzu); atd. Tato situace se řeší převodem na

jednovýběrový parametrický test pro střední hodnotu.

9.5 Vzorové příklady

Příklad:

V novinách se objevila informace, že průměrný počet pokojů v bytě mladých rodin

sledovaného města je 2. Magistrát ovšem namítl, že mladé rodiny bydlí ve větších bytech. Na

5% hladině významnosti máme ověřit, kdo má pravdu. K tomuto účelu byl proveden průzkum

ve 2000 bytových jednotkách mladých rodin. Výsledky průzkumu jsou shrnuty v následující

tabulce četností.

Počet pokojů 0 1 2 3 4

Relativní četnosti 0,1 0,25 0,14 0,05 0,46

Ze zadání je zřejmé, že naším úkolem je provést jednovýběrový parametrický test pro střední

hodnotu. Testovanou hodnotou bude μ0 = 2. Protože se v textu objevuje varianta, že průměrný

počet pokojů v bytě je větší než tato hodnota, zvolíme jednostrannou alternativní hypotézu.

Dvojice statistických hypotéz tedy bude následující:

H0: μ0 = 2 H1: μ0 > 2

Dále je vidět, že neznáme hodnotu rozptylu, proto musíme testové kritérium počítat dle

vzorce:

66

s

nxT )( 0

Nejdříve si samozřejmě musíme vypočítat všechny potřebné údaje.

Nyní už můžeme dosadit do vzorce testového kritéria:

4324,155069,1

2000)252,2()( 0

s

nxT

Nyní určíme kritický obor W = t1-α (n-1) ; ∞) .

K tomu potřebujeme nalézt hodnotu příslušného kvantilu.

Požadovaná hladina významnosti je 5 %, tedy = 0,05 a tady 1 - = 0,95.

Protože v našich tabulkách nenalezneme počet stupňů volnosti 1999, nalezneme požadovaný

údaj v posledním řádku tabulky.

t0,95 (30) = 1,697

Hledaný kritický obor je tedy interval W = 1,697 ; ∞).

Vidíme, že T W, tedy zamítáme nulovou hypotézu.

Test prokázal (na 5% hladině významnosti), že pravdu měl magistrát města.

Příklad:

Kandidát předpokládá, že ve volbách získá hlasy 80 % voličů. V předběžném průzkumu bylo

zjištěno, že by jej volilo 140 respondentů z 200 dotázaných? Na 5% hladině významnosti

máme ověřit, zda kandidát má správný odhad.

67

Ze zadání je zřejmé, že naším úkolem je provést jednovýběrový parametrický test pro

pravděpodobnost. Testovanou hodnotou bude 0 = 0,8. Zvolíme oboustrannou alternativní

hypotézu.

Dvojice statistických hypotéz tedy bude následující:

H0: 0 = 0,4 H1: 0 ≠ 0,4

Testové kritérium budeme počítat dle vzorce:

)1()(

00

0

n

pT

Písmeno p ve vzorci značí relativní četnost respondentů, kteří by v průzkumu volili našeho

kandidáta. Vypočítáme tedy následovně:

Dosazení do vzorce tedy bude následující:

5355,3)8,01(8,0

200)8,07,0(

)1()(

00

0

n

pT

Nyní určíme kritický obor W = u1-α; ∞) .

K tomu potřebujeme nalézt hodnotu příslušného kvantilu.

Požadovaná hladina významnosti je 5 %, tedy = 0,05 a tady 1 - = 0,95.

u0,95 = 1,64

Hledaný kritický obor je tedy interval W = 1,64 ; ∞).


Test prokázal (na 5% hladině významnosti), že kandidát pravdu neměl.

Kontrolní otázky:

• Můžeme s jistotou říci, že pokud testové kritérium neleží v kritickém oboru, nulová

hypotéza platí? A proč?

• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda je

podíl vysokoškoláků alespoň 10 procent?

• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda je

podíl vysokoškoláků větší než 10 procent?

68

• Vyhodnoťte test z předchozí otázky, pokud vyšlo, že testové kritérium leží v kritickém

oboru?

• Formulujte nulovou a alternativní hypotézu v případě, že chceme otestovat, zda

deklarovaná spotřeba nafty konkurenční firmy není překračovaná?

• Vyhodnoťte test z předchozí otázky, pokud vyšlo, že testové kritérium neleží v

kritickém oboru?




203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.




80-85659-39-5.



ISBN 978-80-21033-13-9





69

10 Analýza rozptylu ANOVA

Cílem této kapitoly je seznámení se speciálním parametrickým testem na porovnání středních

hodnot v několika (nezávislých) souborech, neboli jinak řečeno na odhalování vlivu jedné

kategoriální veličiny na druhou spojitou veličinu.


• rozpoznat situace, ve kterých je vhodné využití testu ANOVA,

• formulovat dvojici hypotéz,

• spočítat testové kritérium pomocí vzorců,

• sestrojit kritický obor pomocí speciálních tabulek,

• sestavit a vyhodnotit speciální tabulku ANOVA, která je mimo jiné výstupem různých

statistických SW,

• získané výsledky interpretovat.


• Úvod do problematiky

• Popis použití testu


10.1 Úvod do problematiky

V testu ANOVA = zkratka z „analysis of variance“ jde o zkoumání závislosti spojité veličiny

(Y) na veličině kategoriální (X). Veličinu X nazýváme faktorem (proto v názvu testu slovo

„jednofaktorová“). Použití testu je omezeno podmínkou splnění dvou důležitých předpokladů,

a to normality veličiny Y a shody (homogenity) rozptylů veličiny Y v jednotlivých

kategoriích určených faktorem X. Normalita se ověřuje např. pomocí Kolmogorova-Smirnova

testu dobré shody, homogenitu lze ověřit např. pomocí tzv. Bartlettova testu. V případě, že

tyto požadavky nejsou plně splněny, pak není výsledek testu zcela přesný. V případě, že

požadavky jsou zcela nesplněny, pak nelze test použít. V tomto případě přistoupíme

k vybranému neparametrickému testu.

70

Pomocí testu ANOVA můžeme například testovat, zda vzdělání ovlivňuje výši platu, zda

ženy mají odlišné IQ než muži, zda výše platu závisí na vzdělání, zda firmy stejného typu

z různých států mají srovnatelné ekonomické ukazatele apod.

10.2 Popis použití testu

Dvojice hypotéz:

H0: μ1 = μ2 = … = μr … nezávislost H1: non H0 … závislost

μi jsou střední hodnoty veličiny Y v jednotlivých kategoriích určených faktorem X.

Vzorec testového kritéria a kritický obor:

rn

Qr

Q

Tv

m

1 , kde

Meziskupinová variabilita – rozptyl průměrů jednotlivých skupin.

i

r

i

im nyyQ

2

1

)( „meziskupinový součet čtverců„

Vnitroskupinová variabilita – rozptyl uvnitř jednotlivých skupin.

r

i

n

j

iijv

i

yyQ1 1

2)( „vnitroskupinový součet čtverců„

Podmíněný průměr – průměr hodnot spojité veličny, které náleží do společné skupiny

vytvořené na základě kategoriální veličiny.

i

n

j

ij

in

y

y

i

1

průměr veličiny Y v i-té skupině

F-Fisherovo rozdělení – spojité rozdělení, podle něhož se chovají testové statistiky testu

ANOVA, má dva údaje o stupních volnosti.

W = F1-α(r-1, n-r) ; ∞)

71

Kvantily F-rozdělení jsou dány jednak procentností, ale také tzv. stupni volnosti. Tento údaj

se uvádí v závorce za označením druhu kvantilu.

Počet stupňů volnosti – degree of freedom (df), počet parametrů systému, který se může

měnit nezávisle na sobě, využívá se při výpočtu testovacího kritéria i tvorbě kritického

oboru.

10.3 Vzorový příklad

Ve firmě jsou čtyři oddělení. Management firmy tvrdí, že mezi těmito odděleními není

významný rozdíl v platech. Platy zaměstnanců (v tis. Kč) v těchto odděleních jsou uvedeny

následující tabulce. Na 5% hladině významnosti chceme ověřit, zda management mluví

pravdu.

I.oddělení 19,3 18,0 21,6 22,4 20,9 20,1 24,0

II.oddělení 23,1 26,5 25,2 25,0 24,3 21,4 26,7

III.oddělení 23,7 20,8 19,8 24,1 22,2 22,6 22,9

IV.oddělení 17,2 16,6 16,9 17,7 21,3 15,2 19,0

Dvojice hypotéz bude následující:

H0: μ1 = μ2 = μ3 = μ4 (nebo-li plat nezávisí na oddělení)

H1: non H0 (nebo-li plat závisí na oddělení; mezi odděleními jsou rozdíly – aspoň jedno

oddělení je platově odlišné)

K výpočtu testového kritéria potřebujeme nejprve spočítat průměrné platy za jednotlivá

oddělení a dále průměr platů v celé firmě.

9,207

3,146

7

0,241,209,204,226,210,183,19

1

1

1

1

n

y

y

in

i

i

6,247

2,172

7

7,264,213,24252,255,261,23

2

1

2

2

2

n

y

y

n

i

i

3,227

1,156

7

9,226,222,221,248,198,207,23

3

1

3

3

3

n

y

y

in

i

i

7,177

9,123

7

192,153,217,179,166,162,17

4

1

4

4

4

n

y

y

n

i

i

375,2128

7,1773,2276,2479,2071

n

yn

y

r

i

ii

72

Dále už můžeme spočítat údaje o jednotlivých součtech čtverců:

Výsledná tabulka ANOVY bude následující:

hodnota součet čtverců Stupně volnosti podíl

mezi-skupinová 174,9125 4–1=3 58,304

vnitro-skupinová 82,240 28-4=24 3,427

celková 257,1525 28–1=27 xxx

Nyní již můžeme vypočítat hodnotu testového kritéria:

01313,17427,3

304,58

428

24,8214

9125,174

1

rn

Qr

Q

Tv

m

Následně stanovíme kritický obor W = F1-α(r-1, n-r) ; ∞)

K tomu účelu musíme nalézt příslušný kvantil.

Požadovanou hladinou významnosti je 5 %, tedy = 0,05 a 1 - = 0,95

Údaje o stupních volnosti jsou v případě F-rozdělení dva, v našem případě se jedná o dvojici

hodnot 3 a 24. Hodnotu pro druhý údaj v tabulce nenalezneme, proto vybereme nejbližší

možnou hodnotu, a to F0,95(3, 25) = 2,99

Naším kritickým oborem bude interval W = 2,99 ; ∞)


9125,174

7)375,217,17(7)375,213,22(7)375,216,24(7)375,219,20(

)(

2222

2

1

i

r

i

im nyyQ

240,82

)7,170,19(...)7,172,17()3,229,22(...)3,227,23(

)6,247,26(...)6,241,23()9,200,24(...)9,203,19(

)(

2222

2222

1 1

2

r

i

n

j

iijv

i

yyQ

73

Test na 5% hladině významnosti prokázal, že alespoň jedno z oddělení je platově odlišné od

ostatních, tedy příslušnost k oddělení je faktorem ovlivňujícím výši platu.

Kontrolní otázky:

• Vysvětlete základní princip testu ANOVA.

• Chceme otestovat, zda mají zahraniční firmy srovnatelné hospodářské výsledky s

tuzemskými. V průzkumu jsme získali informace o 50 zahraničních a 83 tuzemských

firmách. Určete meziskupinový, vnitroskupinový i celkový počet stupňů volnosti.

• Vyhodnoťte následující tabulku ANOVA – prokázal test závislost spojité veličiny na

sledovaném faktoru?

Součet

čtverců

Stupně

volnosti Podíl F F krit.

meziskupinový 50384,83 2 25192,41 2,942802 3,354131

vnitroskupinový 231138,6 27 8560,69

celkový 281523,5 29




203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.





ISBN 978-80-21033-13-9


80-85659-39-5.





74

11 Testy 2

Cílem této kap je seznámení s dvěma základními testy zabývajícími se kategoriálními

veličinami, a to 2 test dobré shody a

2 test nezávislosti.


• rozpoznat situace, ve kterých je vhodné využití obou testů,

• v obou případech formulovat dvojici hypotéz,

• spočítat testová kritéria pomocí vzorců,

• sestrojit kritické obory pomocí speciálních tabulek,

• získané výsledky interpretovat.



• 2 test dobré shody

• 2 test nezávislosti


Známe dva testy tohoto typu. Oba testy mají jedno společné, a to týkají se výhradně

kategoriálních veličin. Není důležité, jestli tyto veličiny mají, nebo nemají číselný charakter.

Důležité je, abychom mohli vytvořit skupiny objektů majících stejnou hodnotu této veličiny, a

tím jsme uměli zjistit počet objektů v jednotlivých těchto skupinách.

Pokud bychom je chtěli použít v případě spojitých veličin, mohli bychom data upravit, ovšem

za určité ztráty informace. Proto k tomuto kroku přistupujeme pouze ve výjimečném případě.

Úprava by spočívala v rozdělení oboru spojité veličiny na intervaly, tedy do jedné kategorie

by vždy náležely hodnoty z určitého rozmezí.

Název testů pochází od pravděpodobnostního rozdělení, jímž se řídí testová kritéria.

2 rozdělení – spojité asymetrické rozdělení, podle něhož se chovají testové statistiky

obou 2 testů.

75

Princip obou těchto rozdělení je založen na tzv. očekávaných (teoretických) četnostech.

Pokud jsou skutečné, tj. z dat získané četnosti velmi blízké očekávaným, můžeme říci, že platí

nulová hypotéza, v případě, že skutečné četnosti se významně liší od očekávaných, pak víme,

že nulová hypotéza neplatí. Míru odlišnosti těchto dvou druhů četností vyjadřuje testové

kritérium každého z těchto testů a rozhodnutí, zda je tato míra odlišnosti významná či nikoliv

určujeme za pomocí kvantilů 2 rozdělení.

Očekávané četnosti – četnosti, jaké by měly být, kdyby se to chovalo podle předpokladu.

11.2 2 test dobré shody

V tomto testu jde o zjišťování, zda pro danou kategoriální veličinu vykazují nasbíraná data

shodu s předpokládaným pravděpodobnostním modelem. Jedná se o neparametrický test.

Pomocí tohoto testu můžeme například řešit úlohy:

Jsou muži a ženy zastoupeni rovnoměrně, tedy v poměru 1:1 (50:50 %)?

Jsou výrobky dle jakosti zastoupeny v poměru 3:1:1 (60:20:20 %)?

Je 10% studentů se známkou 1, 20% se známkou 2, 50% se známkou 3 a x% se

známkou 4?

Není kostka falešná?

Chová se hod třemi kostkami podle binomického rozdělení?

Chová se hod mincí podle rovnoměrného rozdělení?

Dvojice hypotéz:

H0: P(x1) = π1 ; P(x2) = π2 ;…; P(xr) = πr nebo H0 : X~rozdělení (parametry)

H1: non H0

kde π1,…,πr jsou konkr. čísla: π1+…+πr = 1


r

i i

ii

o

onT

1

2)( , kde

no ii … očekávané četnosti

W = 21-α(r-1); ∞)

76

Příklad:

Předpokládalo se, že se při prověrkách zaměstnanci rozdělí do tří výkonnostních kategorií

takto: v první (nejlepší) kategorii bude polovina zaměstnanců, ve druhé 40% a zbytek ve třetí.

Prověrky dopadly tak, jak ukazuje tabulka. Otestujte na 5% hladině významnosti, zda jsou

výsledky prověrek v souladu s předpokladem.

Výkonnostní třída I. II. III.

Počet zaměstnanců 125 60 25

Nejprve stanovíme dvojici hypotéz:

H0: P1 = 0,5; P2 = 0,4; P3 = 0,1

H1: non H0

Nyní vypočítáme potřebné očekávané četnosti, a to na základě znalosti celkového počtu

zaměstnanců (125 + 60 + 25 = 210) a rozložení zaměstnanců do výkonnostních tříd, které je

dáno nulovou hypotézou:

A nyní už můžeme přistoupit k výpočtu testového kritéria:

9048,621

16

84

196

105

400

21

)2125(

84

)8460(

105

)105125()( 222

1

2

r

i i

ii

o

onT

Jako další v pořadí určíme kritický obor W. K tomu potřebujeme najít příslušný kvantil

v tabulce rozdělení 2. Ze zadání víme, že hladina významnosti je 5 %, tedy = 0,05 a tedy

1 – = 0,95. Dále vidíme, že naše kategoriální veličina má 3 kategorie, proto počet stupňů

volnosti bude roven 3 – 1 = 2.

2

0,95(2) = 7,815

W = 7,815; ∞)

Vidíme, že T W, a tedy nelze zamítnout nulovou hypotézu.

Nemůžeme vyloučit, že jednotlivé výkonnostní třídy jsou zastoupeny dle předpokladu.

77

11.3 2 test nezávislosti

V tomto testu jde o zkoumání závislosti mezi dvojicí kategoriálních veličin (X, Y). Označme

r 2 počet kategorií veličiny X a s 2 počet kategorií veličiny Y. Počty statistických jednotek

s kombinací hodnot xi a yj označíme jako pozorované četnosti nij (i =1, ..., r, j =1 ,..., s) a

zaznamenáme je do tzv. kontingenční tabulky (dvourozměrné tabulky četností). Poslední

sloupec, resp. řádek obsahuje součty značené jako n1, n2, ..., nr, resp. n1, n2, ..., ns. Jejich

součtem musí být n (celkový počet statistických jednotek).

Kontingenční tabulka – dvourozměrná tabulka četností.

Jedná se o neparametrický test.

Pomocí tohoto testu můžeme například řešit úlohu … Závisí (nebo nezávisí) vzdělání na

pohlaví?

Jinými slovy … Má pohlaví vliv na vzdělání? Nebo ještě jinými slovyinými slovy … Jsou

nebo nejsou mezi muži a ženami významné rozdíly v zastoupení jednotlivých vzdělanostních

kategorií?

Dvojice hypotéz:

H0: nezávislost

H1: non H0 (tedy závislost)


r

i ij

ijijs

j o

onT

1

2

1

)( , kde

n

nno

ji

ij

… očekávané četnosti

W = 21-α((r-1).(s-1)); ∞)

Příklad:

Na 5% hladině významnosti ověřte, zda je vzdělanostní struktura mužů a žen srovnatelná. Při

průzkumu byly zjištěny následující údaje.

78

ZŠ SŠ VŠ CELKEM

M 4 9 5 18

Ž 6 9 7 22

CELKEM 10 18 12 40

Jednotlivé mezivýpočty si uložíme do následující přehledné tabulky.

ZŠ SŠ VŠ CELKEM

M

n11 n12 n13 n1.

o11 o12 o13 o1.

(n11-o11)2/o11 (n12-o12)

2/o12 (n13-o13)

2/o13

Ž

n21 n22 n23 n2.

o21 o22 o23 o2.

(n21-o21)2/o21 (n22-o22)

2/o22 (n23-o23)

2/o23

CELKEM

n.1 n.2 n.3 n

o.1 o.2 o.3 o

T

Vyplněná tabulka vypadá následovně:

ZŠ SŠ VŠ CELKEM

M

4 9 5 18

4,5 8,1 5,4 18

0,055556 0,1 0,02963 0,185185

Ž

6 9 7 22

5,5 9,9 6,6 22

0,045455 0,081818 0,024242 0,151515

CELKEM

10 18 12 40

10 18 12 40

0,10101 0,181818 0,053872 0,3367

79

Z tabulky vidíme, že testové kritérium má hodnotu T = 0,3367;

Sestrojíme kritický obor W na základě nalezení příslušného kvantilu v tabulce rozdělení 2.

W = 20,95(3-1).(2-1); ) =

20,95(2); ) = 5,991; )

Vidíme, že T W. Nelze tedy zamítnout H0

Nepotvrdila se závislost vzdělání na pohlaví, tj. muži i ženy mají srovnatelnou strukturu

vzdělání.

Kontrolní otázky:

• Má použití 2 testů nějaké omezení, kdy je nelze použít?

• Pomocí jakého testu byste zjistili, zda je daná hrací kostka falešná?

• Formulujte dvojici hypotéz tohoto testu.

• Jak byste test vyhodnotili, kdyby vám hodnota testového kritéria vyšla 8,35 a patřičný

kvantil nalezený v tabulkách měl hodnotu 11,017?

• Pomocí jakého testu byste zjistili, zda mají muži a ženy srovnatelnou vzdělanostní

strukturu?

• Formulujte dvojici hypotéz tohoto testu.

• Jak byste test vyhodnotili, kdyby vám hodnota testového kritéria vyšla 18,43 a

patřičný kvantil nalezený v tabulkách měl hodnotu 5,991?




203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.




80-85659-39-5.





80

12 Závislost mezi spojitými veličinami

Cílem této kapitoly je seznámení se základy rozvité části statistiky, a to regrese a korelace.


• rozpoznat situace, ve kterých je vhodné využití regrese, případně korelace,

• vypočítat koeficienty regresní přímku pomocí vhodných vzorců,

• vypočítané hodnoty přesně interpretovat,

• vypočítat pomocí vzorců korelační koeficient, index determinace,

• na základě vypočítaných hodnot rozhodnout o kvalitě regresního modelu a závislosti

sledovaných veličin,

• na základě modelu odhadnout potřebné údaje,

• rozhodnout, do jaké jsou získané odhady relevantní.



• Lineární regrese

• Kvalita regresních modelů


Závislost spojitých veličin se vyšetřuje pomocí dvojice metod, a to regrese a korelace.

Úkolem regrese je najít vhodný funkční model této závislosti, úkolem korelace je změřit

výstižnost nalezeného regresního modelu. Známe dva základní typy regresní analýzy, a to

jednoduchou a vícenásobnou. Více najdeme v (Hrach a kol. 1998) či (Řezanková a Loster

2013).

Cílem jednoduché (simple) regrese je najít model funkční závislosti (spojité) veličiny Y na

jedné (spojité) veličině (na tzv. regresoru) X. Tvar funkce často napoví bodový graf dat.

Příkladem může být zkoumání závislosti mezi platem a výší úspor či mezi výší exportu a výší

HDP.

Cílem vícenásobné (multiple) regrese je najít model funkční závislosti (spojité) veličiny Y na

více (spojitých) veličinách (regresorech). Příkladem může být zkoumání závislosti výše úspor

na platu, výdajích za potraviny, výdajích za spotřební zboží a výdajích za kulturu.

81

Regresní model – matematická funkce, která co nejlépe vystihuje vztah mezi dvěma

spojitými veličinami.

V tomto materiálu se budeme zabývat pouze regresí jednoduchou. Můžeme hledat modely

různých typů. Mezi nejvíce používané patří:

Lineární model: 01 bxby

Kvadratický model: 01

2

2 bxbxby

Mocninný model: 00

n

i

i

i xby

Logaritmický model: 01 ln bxby

12.2 Lineární regrese

Blíže se nyní seznámíme s nejjednodušším a nejčastěji využívaném typu, a to lineárním

modelu, v němž hledáme funkci ve tvaru přímky, viz obrázek.

Snažili jsme se „proložit“ tři body A, B a C regresní přímkou. Hledáme funkci (přímku) ve

tvaru 01 bxby

. Vidíme, že platí 01 bxby nebo-li, že naměřené hodnoty se

„o něco“ liší od vypočítaných hodnot odhadu. Tomuto rozdílu říkáme reziduum, značíme .

Reziduum – odchylka hodnoty vypočítané modelem od skutečné hodnoty.

82

Z důvodu „odstranění“ znaménka nepracujeme s hodnotou rezidua přímo, ale v její druhé

mocnině.

Součet reziduálních čtverců – součet druhých mocnin všech vypočítaných reziduí, slouží

k nalezení nejlepšího modelu daného typu.

Hodnoty b1 a b0 odhadujeme pomocí Metody nejmenších čtverců, která je založena na

principu hledání minima funkce více proměnných pomocí parciálních derivací.

Metoda nejmenších čtverců – metoda, pomocí které se vypočítá regresní model,

pracuje na principu hledání minima funkce několika proměnných, za tuto funkci

uvažujeme právě součet reziduálních čtverců.

Z této metody je možno získat následující vzorce.

221

xx

yxyxb

xbyb 10

Směrnice regresní přímky b1 – lineární koeficient u lineárního regresního modelu, je velmi

důležitá pro interpretaci.

Směrnice přímky odpovídá změně závislé proměnné při nárůstu nezávislé proměnné o

jednu jednotku.

Výpočty regrese pomocí uvedených vzorců jsou poněkud pracné. Proto se většinou v praxi

využívá různých pomocníků. V případě lineárních modelů můžeme výpočty provést na

kalkulačkách, a to pomocí speciálních funkcí. Ještě efektivnější je využití různých SW,

například i velmi rozšířeného Microsoft Excelu.

12.3 Kvalita regresních modelů

Reziduum značí odchylku naměřené hodnoty od hodnoty vypočítané, čili iii yy ˆ .

Ve výpočtech pak z důvodu odstranění znaménka (+, –) pracujeme s druhými mocninami

83

těchto reziduí, nebo-li s reziduálními čtverci 2

i . Metoda nejmenších čtverců hledá minimum

tzv. součtu reziduálních čtverců Qe.

n

i

ieQ1

2

Kvalitu regresního modelu vyhodnocujeme pomocí následujících charakteristik.

Reziduální rozptyl

pn

Qs e

e

2 ,

kde n je počet měření (bodů) a p je počet parametrů modelu (pro lineární model p = 2).

Platí, že 02 es a dále, že čím větší je hodnota 2

es , tím hůře model vystihuje data.

Index determinace

y

e

y

y

Q

Q

Q

QI 1

ˆ2 ,

kde

n

i

iy yxfQ1

2

ˆ ))(( a

n

i

ie yyQ1

2)( .

Platí, že 1;02 I . Hodnotu indexu determinace pro interpretaci převádíme na procenta.

Jeho hodnota nám pak říká, z kolika procent rozptylu vysvětlované proměnné je vysvětleno

modelem. Srozumitelněji a zjednodušeně jinými slovy můžeme říci, z kolika procent model

vystihuje daná data. Je tedy zřejmé, že čím vyšší index determinace, tím lepší model.

Nutno ovšem podotknout, že index determinace závisí na počtu vysvětlujících proměnných a

s růstem jejich počtu narůstá i jeho hodnota. V důsledku toho index determinace zvýhodňuje

složitější modely (tj. modely s více parametry). Toto je nepříjemná vlastnost, která částečně

snižuje jeho kvalitu. Pokud tedy využíváme indexu determinace k porovnání dvou modelů

s různým počtem parametrů, měli bychom jeho vyhodnocení doplnit i vyhodnocením

například pomocí reziduálního rozptylu.

Korelační koeficient

2Ir a )sgn()sgn( 1br

Korelační koeficient má stejné znaménko jako směrnice regresní přímky.

84

Tento přímý výpočet korelačního koeficientu je velmi zdlouhavý, proto se více využívá

následujícího upraveného, „předpočítaného“ vzorce.

)()( 2222 yyxx

yxyxr

Korelační koeficient má smysl počítat pouze pro lineární model. Platí, že 1;1r . Čím

blíže je jeho hodnota blíže ke krajním hodnotám tohoto rozmezí, tím je lepší model. Pro

vyhodnocení hodnot korelačního koeficientu existuje speciální test hypotéz. Zjednodušeně lze

však říci, že pokud je jeho hodnota blízká 1 (většinou se uvádí podmínka větší než 0,8), pak

mluvíme o silné přímé lineární závislosti. Je-li jeho hodnota blízko -1 (menší než -0,8), pak

mluvíme o silné nepřímé lineární závislosti. Pokud je jeho hodnota blízko 0 (v rozmezí od -

0,3 do +0,3), pak říkáme, že není lineární závislost. Slovo lineární v poslední větě je velmi

důležité. Je nutno si uvědomit, že neexistence lineární závislosti nevylučuje existenci funkční

závislosti jiného druhu (kvadratické, logaritmické, …)

Vzorové příklady jsou k dispozici například na http://fse1.ujep.cz/index.php?art=5150.

Kontrolní otázky:

• Co je cílem regresní analýzy?

• Interpretujte hodnotu směrnice regresní přímky rovnou 25, pokud model vyjadřoval

závislost tržeb na nákladech na reklamu (obojí v tis. Kč).

• Jakých hodnot může nabývat korelační koeficient, co které hodnoty znamenají?

• Graficky znázorněte situaci, kdy korelační koeficient vyšel -0,12 a index determinace

kvadratického modelu nad stejnými daty má hodnotu 97%.

• Vyberte vhodnější ze dvou následujících modelů:

lineární – index determinace = 89,2%, reziduální rozptyl = 135,4

kvadratický – index determinace = 90,5%, reziduální rozptyl = 56,1.




203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.


85





ISBN 978-80-21033-13-9


80-85659-39-5.





86

13 Časové řady

Cílem této kapitoly je seznámení se základy sledování číselné veličiny v čase.


• určit základní typy časových řad,

• spočítat základní popisné charakteristiky časové řady,

• výsledné hodnoty co nejvýstižněji interpretovat,

• vyhladit časovou řadu pomocí klouzavých průměrů,

• najít lineární model trendu časové řady,

• na základě modelu trendu odhadnout trendovou složku pro požadované období,

• rozhodnout, zda je vypočítaný odhad relevantní.



• Základní charakteristiky časových řad

• Modely časových řad


Patří mezi deskriptivní statistické metody. Pomocí časových řad popisujeme chování spojité

veličiny Y v čase t.

Pracujeme tedy s dvojicemi [t, yt],

kde t = 1, …, T značí jednotlivé časové okamžiky (tj. 1. okamžik, 2. okamžik, … T-tý

okamžik)

Časové řady dělíme z mnoha hledisek. Některá tato hlediska jsou čistě terminologická, jiná

však přináší jiný přístup ke zpracování jednotlivých časových řad.

I. hledisko:

Krátkodobé časové řady (období mezi pozorováními kratší než rok)

Střednědobé časové řady

Dlouhodobé časové řady (období mezi pozorováními delší než rok)

87

II. hledisko:

Ekvidistantní časové řady (rovnoměrná, pravidelná frekvence)

Neekvidistantní časové řady (různé časové úseky během časové řady)

III. hledisko:

Intervalové časové řady (hodnota veličiny Y se nasčítává v průběhu celého období, má

tedy smysl sčítání), příkladem může být počet vyrobených automobilů v daném měsíci

Okamžikové časové řady (nemá smysl sčítat dvě hodnoty veličiny Y), příkladem může

být počet zaměstnanců v daném měsíci

IV. hledisko:

Základní časové řady (údaje získáváme přímo), příkladem může být počet

nezaměstnaných v daném měsíci

Odvozené časové řady (údaje získáváme výpočtem), příkladem může být míra

nezaměstnanosti v daném měsíci

V. hledisko:

Časové řady s trendem, např. rostoucí, klesající

Časové řady bez trendu (hodnoty se pohybují „náhodně“)

Periodické časové řady (vyskytuje se určitá pravidelnost), příkladem mohou být

teploty periodicky se měnící v závislosti na ročním období

Z hlediska zpracování je nutno být pozorní ve zpracování neekvidistantních intervalových

časových řad, kdy jednotlivá období jsou vzájemně neporovnatelná. Pokud v těchto řadách

potřebujeme provádět porovnání, musíme nejprve řadu upravit, přepočítat na řadu

ekvidistantní (např. výdaje v jednotlivých měsících přepočteme tak, jako by v každém měsíci

bylo 30 dní).

Trend časové řady se nejčastěji zjišťuje pomocí regresní analýzy, kterou jsme si popsali

v předchozí kapitole. Nejjednodušším a nejčastěji využívaným typem trendu je přímka, tedy

lineární regresní funkce. Pokud má tato přímka kladnou směrnici, pak mluvíme o rostoucím

trendu, pokud má směrnici zápornou, mluvíme o klesajícím trendu.

88

Dále musíme být pozorní při výpočtech průměrných hodnot v okamžikových časových

řadách. Z důvodu, že v těchto řadách nemá smysl sčítání, není možno využít k průměrování

aritmetický průměr. V tomto případě musíme použít tzv. chronologický průměr, vzorec.

1

2...

212

1

T

yyy

y

x

TT

CH

13.2 Základní charakteristiky časových řad

Průběžné (charakterizují změnu oproti minulému období)

Celkové (charakterizují celkovou změnu)

Průběžné charakteristiky

Průběžné charakteristiky nám ukazují, jak se hodnota časové řady změnila oproti

předchozímu období. Používají se tři charakteristiky.

První diference (absolutní přírůstek) nám říká, o kolik se změnila hodnota oproti

předešlému, značíme dt.

Absolutní přírůstek počítáme podle následujícího vzorce

Ttyyd ttt ,,2;1

Je zřejmé, že výpočet absolutního přírůstku pro první období nemá smysl (pro první období

neexistuje období předchozí).

Koeficient růstu nám říká, kolikrát se změnila hodnota oproti předešlému období.

Jinými slovy můžeme říci, že nám koeficient růstu říká, na kolik procent se změnila hodnota

časové řady oproti předchozímu období. Koeficient růstu má smysl počítat pouze v případech,

že všechny hodnoty časové řady jsou různé od nuly a mají stejná znaménka (všechny jsou

kladné, nebo všechny jsou záporné). Opět jej nemá smysl počítat pro první období.

89

Tty

yk

t

t

t ,,2;1

Relativní přírůstek nám říká, o kolik procent se změnila hodnota oproti předešlému

období.

Uvedeme si jednak základní vzorec, vyjadřující podstatu této charakteristiky – tj. relativizaci

absolutního přírůstku. Jednak si uvedeme i vzorec poukazující na vztah mezi koeficientem

růstu a relativním přírůstkem.

Ttky

dr t

t

t

t ,,2;11

Do následující tabulky můžeme shrnout interpretace hodnot průběžných charakteristik.

Nárůst oproti předešlému období dt > 0 kt > 1 rt > 0

Pokles oproti předchozímu období dt < 0 0 < kt < 1 rt < 0

Celkové charakteristiky

Průměrný absolutní přírůstek nám říká, o kolik se změnila hodnota v průměru mezi

jednotlivými obdobími.

Průměrný absolutní přírůstek se počítá jako aritmetický průměr prvních diferencí. Toto je

možné, protože má smysl sčítat dvě první diference. Součet nám říká, jak se hodnota změnila

za dvě období. Pokud bychom si ve vzorci vyjadřujícím výpočet průměru z 1.diferencí

rozepsali jednotlivé absolutní přírůstky, zjistili bychom, že se většina těchto průměrovaných

hodnot vyruší (ve výpočtu se objeví jednou se znaménkem + a jednou se znaménkem -). Proto

je možno průměrný absolutní přírůstek počítat i rychlejším způsobem, a to pouze na základě

prvního a posledního členu časové řady. Z tohoto vzorce je také velmi názorně vidět, že

hodnota průměrného absolutního přírůstku vůbec nezáleží na chování časové řady v průběhu

celého sledovaného období, ale záleží pouze na počátku a konci tohoto období.

90

11

12

T

yy

T

d

d T

T

i

i

Průměrný relativní (procentuální) přírůstek nám říká, kolikrát se změnila hodnota

v průměru mezi jednotlivými obdobími.

V přepočtu na procenta udává, o kolik procent se změnila hodnota v průměru. Průměrný

procentuální přírůstek se počítá jako geometrický průměr jednotlivých koeficientů růstu. Toto

je z důvodu, že dva koeficienty růstu nemá smysl sčítat (proto nemůžeme použít průměr

aritmetický), ale násobit. Obdobně jako u průměrného absolutního přírůstku i zde uvedeme

dva vzorce. První vyjadřuje podstatu a druhý je rychlejší na výpočet.

1

1

132

TTT

Ty

ykkkk

Bazický index – o kolik % se hodnota liší oproti bazickému (danému) období.

Tty

yb

B

t

t ,,1%;100

13.3 Modely časových řad

Při modelování časových řad předpokládáme, že každá časová řada se skládá z několika

složek, a to trendové složky (T), periodické složky (P) a složky náhodné (E). Každou tuto

složku můžeme modelovat zvlášť.

Výsledný model pak může být buď součtem těchto složek (tzv. aditivní model) nebo jejich

součinem (multiplikativní model).

Trend časové řady – systematické „směřování“.

Trend můžeme vyjádřit buď vhodně vybranou regresní funkcí, nebo pomocí tzv. klouzavých

průměrů.

V případě určení trendu pomocí regrese volíme za veličinu X čas, tj. jednotlivá období, ve

kterých jsme měřili sledovanou veličinu. Z důvodu snadnějších a přehlednějších výpočtů si

91

tato období můžeme očíslovat (první, druhé, … období) a za X pak dosazujeme hodnoty

1, …, T.

Klouzavé průměry – slouží k vyhlazení časové řady, počítají se jako aritmetický

průměr daného počtu po sobě jsoucích pozorování.

Periodické chování vyjadřuje jisté pravidelně se opakující výkyvy. Jedním z možných

periodických chování časových řad je tzv. sezónnost. Sezónnost se vyjadřuje tzv. sezónními

indexy.

Vzorové příklady jsou k dispozici například na http://fse1.ujep.cz/index.php?art=5150.

Kontrolní otázky:

• Určete typ časové řady z nejrůznějších hledisek. Časová řada sleduje vývoj počtu

zaměstnanců vždy k prvnímu v daném měsíci.

• Určete typ časové řady z nejrůznějších hledisek. Časová řada sleduje vývoj tržeb za

předchozí období vždy k poslednímu v daném měsíci.

• Přehledně shrňte pravidla, jak z popisných charakteristik časové řady poznáme, že v

daném období došlo k poklesu oproti předchozímu období.

• Můžeme na základě sledování tržeb v letech 2000 až 2010 odhadnout trendovou

složku tržeb v roce 2050? A proč, případně jak?

• Jakou délku klouzavých průměrů byste použili při vyhlazování časové řady, která po

20 let sleduje čtvrtletní údaje o průměrných výdajích na osobu?




203-4.


ISBN 978-80-245-1957-9.


ISBN 80-7044-845-8.



• ARLT, J.: Ekonomické časové řady, Grada, 2007 285 s., ISBN 978-80-24713-19-9






92

Seznam literatury

Seznam povinné literatury


nad Labem 1996, 98 s. ISBN 80-7044-143-7.





203-4.

• MOC, O., ŠIMSOVÁ, J., ŽAMBOCHOVÁ, M. Matematika pro ekonomy, 1. vyd.

Ústí nad Labem, UJEP 2013, 608 s. ISBN-9788074145995.


ISBN 80-7044-845-8.


ISBN 978-80-245-1957-9.

Seznam doporučené literatury




80-85659-39-5.





ISBN 978-80-21033-13-9

• ARLT, J.: Ekonomické časové řady, Grada, 2007 285 s., ISBN 978-80-24713-19-9





93

Příloha 1 – Normální normované rozdělení

Hodnoty distribuční funkce normovaného normálního rozdělení, F(u)=P(U<u)

u F(u) u F(u) u F(u) u F(u) u F(u) u F(u)

0,00 0,50000 0,40 0,65542 0,80 0,78814 1,20 0,88493 1,60 0,94520 2,00 0,97725

0,01 0,50399 0,41 0,65910 0,81 0,79103 1,21 0,88686 1,61 0,94630 2,01 0,97778

0,02 0,50798 0,42 0,66276 0,82 0,79389 1,22 0,88877 1,62 0,94738 2,02 0,97831

0,03 0,51197 0,43 0,66640 0,83 0,79673 1,23 0,89065 1,63 0,94845 2,03 0,97882

0,04 0,51595 0,44 0,67003 0,84 0,79955 1,24 0,89251 1,64 0,94950 2,04 0,97932

0,05 0,51994 0,45 0,67364 0,85 0,80234 1,25 0,89435 1,65 0,95053 2,05 0,97982

0,06 0,52392 0,46 0,67724 0,86 0,80511 1,26 0,89617 1,66 0,95154 2,06 0,98030

0,07 0,52790 0,47 0,68082 0,87 0,80785 1,27 0,89796 1,67 0,95254 2,07 0,98077

0,08 0,53188 0,48 0,68439 0,88 0,81057 1,28 0,89973 1,68 0,95352 2,08 0,98124

0,09 0,53586 0,49 0,68793 0,89 0,81327 1,29 0,90147 1,69 0,95449 2,09 0,98169

0,10 0,53983 0,50 0,69146 0,90 0,81594 1,30 0,90320 1,70 0,95543 2,10 0,98214

0,11 0,54380 0,51 0,69497 0,91 0,81859 1,31 0,90490 1,71 0,95637 2,11 0,98257

0,12 0,54776 0,52 0,69847 0,92 0,82121 1,32 0,90658 1,72 0,95728 2,12 0,98300

0,13 0,55172 0,53 0,70194 0,93 0,82381 1,33 0,90824 1,73 0,95818 2,13 0,98341

0,14 0,55567 0,54 0,70540 0,94 0,82639 1,34 0,90988 1,74 0,95907 2,14 0,98382

0,15 0,55962 0,55 0,70884 0,95 0,82894 1,35 0,91149 1,75 0,95994 2,15 0,98422

0,16 0,56356 0,56 0,71226 0,96 0,83147 1,36 0,91308 1,76 0,96080 2,16 0,98461

0,17 0,56749 0,57 0,71566 0,97 0,83398 1,37 0,91466 1,77 0,96164 2,17 0,98500

0,18 0,57142 0,58 0,71904 0,98 0,83646 1,38 0,91621 1,78 0,96246 2,18 0,98537

0,19 0,57535 0,59 0,72240 0,99 0,83891 1,39 0,91774 1,79 0,96327 2,19 0,98574

0,20 0,57926 0,60 0,72575 1,00 0,84134 1,40 0,91924 1,80 0,96407 2,20 0,98610

0,21 0,58317 0,61 0,72907 1,01 0,84375 1,41 0,92073 1,81 0,96485 2,21 0,98645

0,22 0,58706 0,62 0,73237 1,02 0,84614 1,42 0,92220 1,82 0,96562 2,22 0,98679

0,23 0,59095 0,63 0,73565 1,03 0,84849 1,43 0,92364 1,83 0,96638 2,23 0,98713

0,24 0,59483 0,64 0,73891 1,04 0,85083 1,44 0,92507 1,84 0,96712 2,24 0,98745

0,25 0,59871 0,65 0,74215 1,05 0,85314 1,45 0,92647 1,85 0,96784 2,25 0,98778

0,26 0,60257 0,66 0,74537 1,06 0,85543 1,46 0,92785 1,86 0,96856 2,26 0,98809

0,27 0,60642 0,67 0,74857 1,07 0,85769 1,47 0,92922 1,87 0,96926 2,27 0,98840

0,28 0,61026 0,68 0,75175 1,08 0,85993 1,48 0,93056 1,88 0,96995 2,28 0,98870

0,29 0,61409 0,69 0,75490 1,09 0,86214 1,49 0,93189 1,89 0,97062 2,29 0,98899

0,30 0,61791 0,70 0,75804 1,10 0,86433 1,50 0,93319 1,90 0,97128 2,30 0,98928

0,31 0,62172 0,71 0,76115 1,11 0,86650 1,51 0,93448 1,91 0,97193 2,31 0,98956

0,32 0,62552 0,72 0,76424 1,12 0,86864 1,52 0,93574 1,92 0,97257 2,32 0,98983

0,33 0,62930 0,73 0,76730 1,13 0,87076 1,53 0,93699 1,93 0,97320 2,33 0,99010

0,34 0,63307 0,74 0,77035 1,14 0,87286 1,54 0,93822 1,94 0,97381 2,34 0,99036

0,35 0,63683 0,75 0,77337 1,15 0,87493 1,55 0,93943 1,95 0,97441 2,35 0,99061

0,36 0,64058 0,76 0,77637 1,16 0,87698 1,56 0,94062 1,96 0,97500 2,36 0,99086

0,37 0,64431 0,77 0,77935 1,17 0,87900 1,57 0,94179 1,97 0,97558 2,37 0,99111

0,38 0,64803 0,78 0,78230 1,18 0,88100 1,58 0,94295 1,98 0,97615 2,38 0,99134

0,39 0,65173 0,79 0,78524 1,19 0,88298 1,59 0,94408 1,99 0,97670 2,39 0,99158

94

Příloha 2 – t- rozdělení

Kvantily rozdělení t

P

0,90 0,95 0,975 0,99 0,995 0,999

1 3,078 6,314 12,706 31,821 63,656 318,289

2 1,886 2,920 4,303 6,965 9,925 22,328

3 1,638 2,353 3,182 4,541 5,841 10,214

4 1,533 2,132 2,776 3,747 4,604 7,173

5 1,476 2,015 2,571 3,365 4,032 5,894

6 1,440 1,943 2,447 3,143 3,707 5,208

7 1,415 1,895 2,365 2,998 3,499 4,785

8 1,397 1,860 2,306 2,896 3,355 4,501

9 1,383 1,833 2,262 2,821 3,250 4,297

10 1,372 1,812 2,228 2,764 3,169 4,144

11 1,363 1,796 2,201 2,718 3,106 4,025

12 1,356 1,782 2,179 2,681 3,055 3,930

13 1,350 1,771 2,160 2,650 3,012 3,852

14 1,345 1,761 2,145 2,624 2,977 3,787

15 1,341 1,753 2,131 2,602 2,947 3,733

16 1,337 1,746 2,120 2,583 2,921 3,686

17 1,333 1,740 2,110 2,567 2,898 3,646

18 1,330 1,734 2,101 2,552 2,878 3,610

19 1,328 1,729 2,093 2,539 2,861 3,579

20 1,325 1,725 2,086 2,528 2,845 3,552

21 1,323 1,721 2,080 2,518 2,831 3,527

22 1,321 1,717 2,074 2,508 2,819 3,505

23 1,319 1,714 2,069 2,500 2,807 3,485

24 1,318 1,711 2,064 2,492 2,797 3,467

25 1,316 1,708 2,060 2,485 2,787 3,450

26 1,315 1,706 2,056 2,479 2,779 3,435

27 1,314 1,703 2,052 2,473 2,771 3,421

28 1,313 1,701 2,048 2,467 2,763 3,408

29 1,311 1,699 2,045 2,462 2,756 3,396

30 1,310 1,697 2,042 2,457 2,750 3,385

95

Příloha 3 – 2- rozdělení

Kvantily rozdělení 2

P

0,90 0,95 0,975 0,99 0,995 0,999

1 2,706 3,841 5,024 6,635 7,879 10,827

2 4,605 5,991 7,378 9,210 10,597 13,815

3 6,251 7,815 9,348 11,345 12,838 16,266

4 7,779 9,488 11,143 13,277 14,860 18,466

5 9,236 11,070 12,832 15,086 16,750 20,515

6 10,645 12,592 14,449 16,812 18,548 22,457

7 12,017 14,067 16,013 18,475 20,278 24,321

8 13,362 15,507 17,535 20,090 21,955 26,124

9 14,684 16,919 19,023 21,666 23,589 27,877

10 15,987 18,307 20,483 23,209 25,188 29,588

11 17,275 19,675 21,920 24,725 26,757 31,264

12 18,549 21,026 23,337 26,217 28,300 32,909

13 19,812 22,362 24,736 27,688 29,819 34,527

14 21,064 23,685 26,119 29,141 31,319 36,124

15 22,307 24,996 27,488 30,578 32,801 37,698

16 23,542 26,296 28,845 32,000 34,267 39,252

17 24,769 27,587 30,191 33,409 35,718 40,791

18 25,989 28,869 31,526 34,805 37,156 42,312

19 27,204 30,144 32,852 36,191 38,582 43,819

20 28,412 31,410 34,170 37,566 39,997 45,314

21 29,615 32,671 35,479 38,932 41,401 46,796

22 30,813 33,924 36,781 40,289 42,796 48,268

23 32,007 35,172 38,076 41,638 44,181 49,728

24 33,196 36,415 39,364 42,980 45,558 51,179

25 34,382 37,652 40,646 44,314 46,928 52,619

26 35,563 38,885 41,923 45,642 48,290 54,051

27 36,741 40,113 43,195 46,963 49,645 55,475

28 37,916 41,337 44,461 48,278 50,994 56,892

29 39,087 42,557 45,722 49,588 52,335 58,301

30 40,256 43,773 46,979 50,892 53,672 59,702

96

Příloha 4 – F- rozdělení

95% kvantily Fisherova F rozdělení.

D1 počet stupňů volnosti "z čitatele", D2 počet stupňů volnosti "ze jmenovatele".

D1= 1 2 3 4 5 6 7 8 10 12

D2= 1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 241,88 243,90

2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,40 19,41

3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74

4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91

5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68

6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00

7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57

8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91

12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69

14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53

16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42

20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28

25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16

30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09

40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00

50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95

100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,93 1,85

200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80

3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75

D1= 14 16 20 25 30 40 50 100 200

D2= 1 245,36 246,47 248,02 249,26 250,10 251,14 251,77 253,04 253,68 254,32

2 19,42 19,43 19,45 19,46 19,46 19,47 19,48 19,49 19,49 19,50

3 8,71 8,69 8,66 8,63 8,62 8,59 8,58 8,55 8,54 8,53

4 5,87 5,84 5,80 5,77 5,75 5,72 5,70 5,66 5,65 5,63

5 4,64 4,60 4,56 4,52 4,50 4,46 4,44 4,41 4,39 4,37

6 3,96 3,92 3,87 3,83 3,81 3,77 3,75 3,71 3,69 3,67

7 3,53 3,49 3,44 3,40 3,38 3,34 3,32 3,27 3,25 3,23

8 3,24 3,20 3,15 3,11 3,08 3,04 3,02 2,97 2,95 2,93

10 2,86 2,83 2,77 2,73 2,70 2,66 2,64 2,59 2,56 2,54

12 2,64 2,60 2,54 2,50 2,47 2,43 2,40 2,35 2,32 2,30

14 2,48 2,44 2,39 2,34 2,31 2,27 2,24 2,19 2,16 2,13

16 2,37 2,33 2,28 2,23 2,19 2,15 2,12 2,07 2,04 2,01

20 2,22 2,18 2,12 2,07 2,04 1,99 1,97 1,91 1,88 1,84

25 2,11 2,07 2,01 1,96 1,92 1,87 1,84 1,78 1,75 1,71

30 2,04 1,99 1,93 1,88 1,84 1,79 1,76 1,70 1,66 1,62

40 1,95 1,90 1,84 1,78 1,74 1,69 1,66 1,59 1,55 1,51

50 1,89 1,85 1,78 1,73 1,69 1,63 1,60 1,52 1,48 1,44

100 1,79 1,75 1,68 1,62 1,57 1,52 1,48 1,39 1,34 1,28

200 1,74 1,69 1,62 1,56 1,52 1,46 1,41 1,32 1,26 1,19

1,69 1,64 1,57 1,51 1,46 1,39 1,35 1,24 1,17 1,00

statistika - fsetest.ujep.czfsetest.ujep.cz/img/upload/files/statistika_pruvodce_kurzem.pdf · 5...

Documents