Általános statisztika ii - tankonyvtar.hu...Általános statisztika ii kriszt, Éva varga, edit...

340
Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Upload: others

Post on 05-Oct-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika IIKriszt, Éva

Varga, Edit

Kenyeres, Erika

Korpás, Attiláné

Csernyák, László

Page 2: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika IIKriszt, ÉvaVarga, EditKenyeres, ErikaKorpás, AttilánéCsernyák, László

Publication date 1997Szerzői jog © 1997 dr. Korpás Attiláné, Sándorné dr. Kriszt Éva, Varga Edit, Veitzné Kenyeres Erika, Nemzeti Tankönyvkiadó Rt.

Dr. Korpás Attiláné- főiskolai docens

Sándorné Dr. Kriszt Éva - főiskolai docens (9. és 10. fejezet)

Varga Edit - főiskolai adjunktus (11. fejezet)

Veitzné Kenyeres Erika - főiskolai tanársegéd (6., 7. és 8. fejezet)

A gyakorlófeladatokat:

Dr. Korpás Attiláné állította össze.

Szakmai lektor:

Dr. Csernyák László - egyetemi tanár, tanszékvezető, a matematikatudomány kandidátusa

A mű más kiadványban való részleges vagy teljes felhasználása, illetve utánközlése a kiadó engedélye nélkül tilos!

Page 3: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

iii

Tartalom6. Mintavétel ................................................................................................................................................................................................. 1

6.1. Alapfogalmak, jelölések .................................................................................................................................................................. 16.2. Véletlen mintavételi eljárások .......................................................................................................................................................... 5

6.2.1. Független, azonos eloszlású minta kiválasztása ................................................................................................................... 56.2.2. Egyszerű véletlen mintavétel ................................................................................................................................................ 56.2.3. Szisztematikus mintavétel .................................................................................................................................................... 66.2.4. Rétegzett mintavétel ............................................................................................................................................................ 66.2.5. Csoportos mintavétel ........................................................................................................................................................... 96.2.6. Többlépcsős mintavétel ...................................................................................................................................................... 106.2.7. Kombinált eljárások ............................................................................................................................................................ 10

6.3. Nem véletlen mintavételi eljárások ................................................................................................................................................ 116.4. A mintajellemzők fontosabb tulajdonságai ...................................................................................................................................... 126.5. Gyakorlófeladatok ......................................................................................................................................................................... 19

7. Statisztikai becslések .............................................................................................................................................................................. 237.1. Alapfogalmak ................................................................................................................................................................................ 237.2. A becslőfüggvényekkel szemben támasztott követelmények ........................................................................................................... 24

7.2.1. Torzítatlanság .................................................................................................................................................................... 247.2.2. Konzisztencia .................................................................................................................................................................... 277.2.3. Hatásosság ....................................................................................................................................................................... 277.2.4. Elégségesség .................................................................................................................................................................... 28

7.3. Intervallumbecslés ........................................................................................................................................................................ 287.3.1. A sokaság várható értékének becslése ............................................................................................................................... 287.3.2. A sokasági értékösszeg becslése ....................................................................................................................................... 417.3.3. A sokasági arány becslése ................................................................................................................................................ 437.3.4. A sokasági szórásnégyzet becslése ................................................................................................................................... 45

7.4. A konfidenciaintervallum meghatározása rétegzett mintavétel esetén .............................................................................................. 487.5. A minta elemszámának meghatározása ........................................................................................................................................ 577.6. Gyakorlófeladatok ....................................................................................................................................................................... 59

8. Hipotézisvizsgálat .................................................................................................................................................................................... 668.1. A hipotézisvizsgálat alapfogalmai .................................................................................................................................................. 668.2. A hipotézisvizsgálat során elkövethető hibák ................................................................................................................................. 748.3. A statisztikai hipotézisvizsgálat menete ......................................................................................................................................... 818.4. Egymintás statisztikai próbák ........................................................................................................................................................ 82

8.4.1. A várható értékkel kapcsolatos próbák ............................................................................................................................... 828.4.2. A sokasági szórásra vonatkozó próba ................................................................................................................................ 88

Page 4: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II

iv

8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próba .......................................................................................... 898.5. Kétmintás statisztikai próbák ......................................................................................................................................................... 91

8.5.1. Két sokasági várható érték különbségének vizsgálata ......................................................................................................... 928.5.2. Két sokasági arányra (valószínűségre) vonatkozó próba ..................................................................................................... 968.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próba .......................................................................................... 98

8.6. Egyéb hipotézisvizsgálatok .......................................................................................................................................................... 1018.6.1. Illeszkedésvizsgálat .......................................................................................................................................................... 1018.6.2. Függetlenségvizsgálat ...................................................................................................................................................... 1068.6.3. Varianciaanalízis .............................................................................................................................................................. 110

8.7. Gyakorlófeladatok ....................................................................................................................................................................... 1159. Kétváltozós korreláció- és regressziószámítás ........................................................................................................................................ 123

9.1. Kétváltozós korrelációszámítás .................................................................................................................................................... 1239.1.1. A kovariancia ................................................................................................................................................................... 1249.1.2. A lineáris korrelációs együttható ....................................................................................................................................... 1309.1.3. A rangkorrelációs együttható ............................................................................................................................................ 138

9.2. Kétváltozós regressziószámítás ................................................................................................................................................... 1449.2.1. Az elméleti regresszió ...................................................................................................................................................... 1459.2.2. A tapasztalati regresszió .................................................................................................................................................. 1469.2.3. A regressziófüggvény paramétereinek meghatározása ...................................................................................................... 1529.2.4. A változók felcserélhetősége ............................................................................................................................................ 1709.2.5. A rugalmassági együttható ............................................................................................................................................... 172

9.3. Statisztikai következtetések a kétváltozós lineáris regresszió alapján ............................................................................................ 1759.3.1. A regressziós modell feltételrendszere .............................................................................................................................. 1769.3.2. A regressziós becslés pontosságának mérése .................................................................................................................. 1779.3.3. A regressziófüggvény paramétereinek intervallumbecslése ................................................................................................ 1829.3.4. Regressziós becslések és prognózisok ............................................................................................................................. 1839.3.5. A regressziófüggvény eredményeinek hipotézis-ellenőrzése ............................................................................................... 1879.3.6. A reziduális változó vizsgálata .......................................................................................................................................... 1939.3.7. A paraméterek robusztus becslése ................................................................................................................................... 195

9.4. Nemlineáris regresszió ................................................................................................................................................................ 1989.5. Gyakorlófeladatok ....................................................................................................................................................................... 205

10. Többváltozós korreláció- és regressziószámítás .................................................................................................................................... 21310.1. A lineáris regressziófüggvény meghatározása ............................................................................................................................ 213

10.1.1. A háromváltozós lineáris regressziófüggvény .................................................................................................................. 21310.1.2. A legkisebb négyzetek módszere és tulajdonságai .......................................................................................................... 22610.1.3. A regressziófüggvény paramétereinek intervallumbecslése .............................................................................................. 23010.1.4. A regressziófüggvény eredményeinek ellenőrzése ........................................................................................................... 232

Page 5: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II

v

10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításban ............................................................................ 23410.2. Többváltozós korrelációszámítás ............................................................................................................................................... 236

10.2.1. Páronkénti korrelációs együttható ................................................................................................................................... 23710.2.2. Parciális korrelációs együttható ....................................................................................................................................... 24210.2.3. Többszörös korrelációs és determinációs együttható ....................................................................................................... 24410.2.4. A multikollinearitás és mérése ........................................................................................................................................ 245

10.3. Néhány kiegészítés a regressziószámításhoz ............................................................................................................................ 24910.3.1. Minőségi ismérvek kezelése a regressziós modellben ..................................................................................................... 24910.3.2. A tényezőváltozók kiválasztása ....................................................................................................................................... 252

10.4. Gyakorlófeladatok ................................................................................................................................................................... 25311. Az idősorok összetevőinek vizsgálata ................................................................................................................................................... 257

11.1. Az idősorok összetevői ............................................................................................................................................................. 25711.1.1. Additív és multiplikatív komponensek .............................................................................................................................. 259

11.2. Trendszámítás .......................................................................................................................................................................... 26111.2.1. Trendszámítás mozgóátlagolással .................................................................................................................................. 26111.2.2. Analitikus trendszámítás ................................................................................................................................................. 267

11.3. A szezonalitás vizsgálata .......................................................................................................................................................... 29211.3.1. Szezonális eltérések számítása ...................................................................................................................................... 29211.3.2. Szezonindexek számítása .............................................................................................................................................. 295

11.4. Előrejelzés az eredmények alapján ........................................................................................................................................... 29911.5. Gyakorlófeladatok ..................................................................................................................................................................... 300

A. Függelék ............................................................................................................................................................................................... 309B. Tárgymutató .......................................................................................................................................................................................... 325

Page 6: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

vi

Az ábrák listája6,1. A képviselők életkor szerinti megoszlásának hisztogramja ...................................................................................................................... 156,2. A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján .......................................................................................... 176,3. A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján ........................................................................................ 18

7,1. A és becslőfüggvény eloszlás .................................................................................................................................... 287,2. A konfidenciaintervallum ábrázolása ...................................................................................................................................................... 317,3. A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén .............................................................................. 337,4. A standard normális és a Student-féle t-eloszlás ................................................................................................................................... 35

7,5. A sűrűségfüggvénye különböző szabadságfokok esetén ........................................................................................................... 468,1. Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés ............................................................................................................. 698,2. ábra a. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél .................................................................................. 708,2. ábra b. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél .................................................................................. 718,2. ábra c. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél .................................................................................. 728,3. Az elfogadási és a kritikus tartomány elhelyezkedés .............................................................................................................................. 768,4. Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén ........................................................................................... 788,5. Az α és a β grafikus meghatározása különböző kritikus értékek esetén .................................................................................................. 808,6. Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén ..................................................................................................... 1009,1. Pontdiagramok különböző korrelációs együtthatókkal ........................................................................................................................... 1349,2. Rangszámpárok ábrázolása ................................................................................................................................................................ 1399,3. A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok ..................................................................................... 1509,4. A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél ............................................... 1519,5. Korrrelálatlanság ................................................................................................................................................................................. 1529,6. Függvényszerű kapcsolat .................................................................................................................................................................... 1529,7. A függvénytípus kiválasztását segítő grafikus ábrák ............................................................................................................................. 1549,8. A legkisebb négyzetek módszere ........................................................................................................................................................ 1559,9. A megfigyelt adatok és a különböző módon számolt regressziófüggvények ........................................................................................... 1609,10. A szállítási távolság és a szállítás időtartamának pontdiagramja ......................................................................................................... 1629,11. A koordináta-rendszer transzformációja ............................................................................................................................................. 1649,12. A változók felcserélése ..................................................................................................................................................................... 1729,13. A hibatényező eloszlásának vizsgálata .............................................................................................................................................. 1949,14. A mérési hiba hatása a regressziófüggvényre .................................................................................................................................... 19710,1. A regressziós együtthatók közötti összefüggések ............................................................................................................................... 22410,2. Útdiagram ......................................................................................................................................................................................... 22511,1. Az idősorok komponensei ................................................................................................................................................................. 259

Page 7: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II

vii

11,2. A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között ........................................................................ 26711,3. A népesség természetes fogyásának alakulása Nógrád megyében ..................................................................................................... 27611,4. Az ellátatlan munkanélküliek létszámának alakulása .......................................................................................................................... 28011,5. A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje ....................................................................................... 28711,6. Az urántermelés parabolikus trendje .................................................................................................................................................. 291

Page 8: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

viii

A táblázatok listája6.1. A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata ........................................................................................................ 36.2. 30 elemű minták mintaátlagainak megoszlása ....................................................................................................................................... 156.3. A 100 elemű minták átlagai .................................................................................................................................................................. 166.4. 100 elemű minták mintaátlagainak megoszlása ..................................................................................................................................... 167.1. A mintába került üvegek nettó töltési tömeg szerinti megoszlása ............................................................................................................ 397.2. A mintába került kávécsomagok megoszlása ......................................................................................................................................... 477.3. A rétegzett mintából történő becslés jelölésrendszere ............................................................................................................................ 497.4. A számításhoz szükséges adatok ......................................................................................................................................................... 537.5. A sokaság és a minta elemszámának megoszlása ................................................................................................................................ 547.6. 1000 elemű minta adatai ...................................................................................................................................................................... 558.1. A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége ........................................................................................ 748.2. A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén ................................................................................. 778.3. Az z-próba elfogadási tartományának határai szignifikanciaszint mellett .................................................................................................. 838.4. A t-próba elfogadási tartományának határai α szignifikanciaszint mellett ................................................................................................. 86

8.5. A elfogadási tartományának határai α szignifikanciaszint mellett .................................................................................................. 888.6. Két mintát igénylő próbák esetén alkalmazott jelölések .......................................................................................................................... 928.7. A 10 elemű minta mérési eredményei ................................................................................................................................................... 958.8. Az F-próba elfogadási tartományai α szignifikanciaszint mellett ............................................................................................................. 1008.9. A minta valamilyen ismérv szerinti megoszlása .................................................................................................................................... 1028.10. A kiválasztott vendégek kiszolgálási idő szerinti megoszlása .............................................................................................................. 104

8.11. A próbafüggvény számított értékének meghatározására szolgáló munkatábla ................................................................................. 1058.12. A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása ............................................................................. 108

8.13. Munkatábla a próbafüggvény aktuális értékének meghatározásához .............................................................................................. 1098.14. Varianciaanalízis-tábla sémája ........................................................................................................................................................... 1138.15. Az egyes dolgozók teljesítményadatai ............................................................................................................................................... 1149.1. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint ............................................................................................... 1269.2. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint ............................................................................................... 1279.4. Munkatábla a lineáris korrelációs együttható kiszámításához ................................................................................................................ 1379.5. A versenyen elért helyezések ............................................................................................................................................................. 1389.6. Munkatábla a rangkorrelációs együttható kiszámításához ..................................................................................................................... 1439.7. Munkatábla a rangkorrelációs együttható kiszámításához ..................................................................................................................... 1439.8. A hallgatók létszámmegoszlása ........................................................................................................................................................... 1479.9. A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalati regressziófüggvénye ........................................... 148

Page 9: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II

ix

9.11. A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokú végzettségű nőknél ...................... 1509.12. Munkatábla az analitikus regressziófüggvény meghatározásához ........................................................................................................ 1589.13. Munkatábla a normálegyenletekkel történő megoldáshoz .................................................................................................................... 1629.14. Munkatábla a transzformált normálegyenletekkel történő megoldáshoz ............................................................................................... 1669.15. A maradék-négyzetösszeg kiszámításának táblázata .......................................................................................................................... 1799.16. Varianciaanalízis-tábla ....................................................................................................................................................................... 1919.17. Varianciaanalízis-tábla ....................................................................................................................................................................... 1929.18. Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához ..................................................................... 1949.19. A feljegyzett adatok táblázata ............................................................................................................................................................ 1969.20. Munkatábla a reziduumok számítására .............................................................................................................................................. 1979.21. A megmaradó adatok táblázata a ...................................................................................................................................................... 1979.22. Munkatábla a hatványkitevős regressziófüggvény meghatározásához ................................................................................................. 2019.23. A tokaji aszú életkora és eladási ára közötti összefüggés ................................................................................................................... 2039.24. Munkatábla az exponenciális regressziófüggvény meghatározásához ................................................................................................. 20410.1. A szállítási idő vizsgálatára vonatkozó adatok .................................................................................................................................... 21910.2. Számítások a transzformált változók alapján ...................................................................................................................................... 21910.3. A maradéktag négyzetösszegének kiszámítása .................................................................................................................................. 22810.4. Az eddigi részeredmények ................................................................................................................................................................ 23110.5. A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredmények .............................................................................. 23310.6. A varianciaanalízis-tábla többváltozós regressziószámítás esetén ....................................................................................................... 23410.7. A varianciaanalízis-tábla .................................................................................................................................................................... 23510.8. A 20 elemű minta adatai ................................................................................................................................................................... 240

10.9. Az felbontása ............................................................................................................................................................................ 247

10.10. Az felbontása .......................................................................................................................................................................... 24711.1. Háromtagú mozgóátlagok számítása ( ) ....................................................................................................................................... 26211.2. Négytagú mozgóátlagok számítása ( ) ......................................................................................................................................... 26311.3. A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedéves bontásban ............................... 26411.4. A mozgóátlagolású trendszámítás munkatáblája ( ) ...................................................................................................................... 26511.5. A népesség természetes fogyásának alakulása Nógrád megyében ..................................................................................................... 27111.6. Munkatábla a paraméterek meghatározásához .................................................................................................................................. 27111.7. Munkatábla a paraméterek meghatározásához .................................................................................................................................. 27311.8. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámítása ........................................................................................ 27411.9. Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő) .................................................. 27611.10. Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvény kiszámításához ................................. 27711.11. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblája ............................................................ 281

Page 10: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II

x

11.12. Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között ................................................................................................ 28411.13. A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása ........................................................................................ 28611.14. A trendtől való eltérések összehasonlítása ....................................................................................................................................... 28711.15. Az urántermelés alakulása Magyarországon .................................................................................................................................... 29011.16. Az egyedi szezonális eltérések számítási táblázata .......................................................................................................................... 29311.17. Egy márkakereskedő személygépkocsi-értékesítésének adatai ......................................................................................................... 29611.18. Munkatábla az egyedi szezonindexek kiszámításához ...................................................................................................................... 29711.19. A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek ............................................................................................. 30011.20. A trend és a szezonhatás előrejezése ............................................................................................................................................. 3001. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata .............................................................................. 3091. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás) ............................................................... 310

2. A -eloszlás táblázata .......................................................................................................................................................................... 311

2. A -eloszlás táblázata (folytatás) .......................................................................................................................................................... 313

3. AzF-eloszlás táblázata .............................................................................................................................................................. 314

3. Az F-eloszlás táblázata (folytatás) .............................................................................................................................................. 316

3. Az F-eloszlás táblázata (folytatás) ............................................................................................................................................ 317

3. Az F-eloszlás táblázata (folytatás) ............................................................................................................................................ 319

3. Az F-eloszlás táblázata (folytatás) .............................................................................................................................................. 320

3. Az F-eloszlás táblázata (folytatás) .............................................................................................................................................. 3224. A Student-féle t-eloszlás táblázata ......................................................................................................................................................... 323

Page 11: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

1

6. fejezet - Mintavétel6.1. Alapfogalmak, jelölések

Tankönyvünk első kötetében a megfigyelt statisztikai sokaság elemzésére szolgáló különböző eszközökkel, mutatószámokkal ismerkedtünk meg. Asokaságot ismertnek feltételezve, figyelmünket csak arra fordítottuk, hogyan lehet annak összetételét, változását, törvényszerűségeit megvizsgálni.Nem tértünk ki részletesen arra, hogy az alapadatokhoz teljes körű vagy részleges felvétellel jutottunk. Utólag azt mondhatjuk, hogy az eddigieksorán megfigyelésünk a sokaság minden elemére kiterjedt, tehát elemzéseink a sokaság teljes körű megfigyelésén alapultak. Ebben a kötetbenolyan módszerekkel ismerkedünk meg, amelyekhez nem szükséges a sokaság minden egyes elemének megfigyelése, mivel erre gyakran nincs islehetőségünk.

A társadalmi-gazdasági statisztikában azonban az adatokhoz való hozzájutás gyakori formája a részleges adatgyűjtés, melynek egyik módja areprezentatív megfigyelés. Reprezentatív megfigyelésre vagy más néven mintavételes megfigyelésre van szükség pl. a lakosság életkörülményeivelkapcsolatos kérdések (jövedelem, fogyasztási szokások stb.) megválaszolásához, a tömegtermelés minőség-ellenőrzési eljárásaihoz vagy aközvélemény-kutatásokhoz. Ily módon becsüljük pl. a várható termés mennyiségét a mezőgazdaságban vagy a kisvállalkozások tevékenységénekeredményeit is. (Ilyen jellegű kérdésekkel már a Valószínűségszámítás c. tárgyban is foglalkoztunk.)

A reprezentatív megfigyelés, röviden szólva a mintavétel célja, hogy valamely sokaság egy részének megfigyelése révén következtetéseket tudjunklevonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan.

Azt a sokaságot, amelyre a mintavétel segítségével következtetni szeretnénk, alapsokaságnak, az alapsokaság azon részét, amely alapján akövetkeztetéseket levonjuk, mintasokaságnak nevezzük.

A továbbiakban az alapsokaságot röviden sokaságnak, a mintasokaságot pedig mintának fogjuk nevezni.

Tekintsük át először a sokaság megadásának módjait és a legfontosabb sokasági jellemzőket. A sokaság elemszáma lehet véges vagy végtelen.

Legyen Xa sokaság egy ismérve. Ha a sokaságból véletlenszerűen kiemelünk egy egyedet, ennek ismérvértéke a véletlentől függ, ezért valószínűségi

változó, ezt a véletlentől függő ismérvértéket jelölje Ekkor eloszlásfüggvénye

Véges sokaság esetén az egyedeket, illetve azok ismérvértékeit nagyság szerint sorba rendezhetjük. Az ismérvértékek legyenek

(N az egyedek száma). Ekkor

Page 12: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

2

A várható értéke, vagy másképpen a sokaság ismérvértékének várható értéke véges sokaság esetén – mint ismeretes – az átlaggal egyenlő:

szórásnégyzete

Végtelen elemszámú sokaság esetén két esetet különböztetünk meg. Ha diszkrét valószínűségi változó, ami azt jelenti, hogy az ismérvértékek

véges vagy megszámlálhatóan végtelen halmazt alkotnak, akkor az F eloszlásfüggvény szintén egy „lépcsősfüggvény” (azintervallumban állandó), várható értéke

Ha folytonos és létezik a sűrűségfüggvénye, akkor a várható értéke

(ha ez az improprius integrál is létezik).

A szórásnégyzetet a szokásos módon kapjuk:

(A jobb oldalon szereplő várható értékeknek is létezniük kell.)

Page 13: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

3

A gyakorlatban a mintavétel általában véges sokaságból történik. Ugyanakkor a nagy elemszámú sokaságokat tekinthetjük végtelennek, így avégtelen elemszámú sokaságra kidolgozott eszközök jól használhatók ezen sokaságok esetén is.

Ezek után tekintsük át a mintával kapcsolatos alapfogalmakat. A minta elemszáma, tekintet nélkül arra, hogy véges vagy végtelen sokaságbólszármazik, mindig véges. Elemszámát n-nel jelöljük. Az egyes mintaelemek valószínűségi változók, értékük mintáról mintára változhat. Ezeket

célszerű -nel jelölni. A minta elemei csak addig tekinthetők változóknak, míg a mintavétel nem történt meg, a minta elemeinek kiválasztásaután konkrét számértékek lesznek:

A mintából különböző mintajellemzők (átlag, szórás, értékösszeg, arány stb.) számíthatók. Miután a minta elemei valószínűségi változók, az ezekbőlszámított mintajellemzők is valószínűségi változók lesznek, értékük mintáról mintára változhat attól függően, hogy mely sokasági elemek kerültek amintába. Ez a mintajellemzőknek nagyon fontos tulajdonsága.

A véges elemszámú sokaságból történő mintavételnél alapvető fontosságú, hogy rendelkezésre álljon egy ún. mintavételi keret, amely egyenkénttartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket, és mindegyiket csak egyszer. Egy ilyen teljes keret biztosítása sokszor nemkönnyű feladat, mert vannak olyan sokaságok, amelyeknél az elemek száma és összetétele napról napra változik, s bármilyen jó is a megszűnő ésaz újonnan létrejövő egységek nyilvántartása, ez szükségszerűen különbözik a mintavételi keret összeállításakor létező sokaságtól. (Ilyen nehézségléphet fel a mintavételi keret összeállításánál, ha a sokaságot pl. Magyarország népessége vagy a Magyarországon működő kisvállalkozások stb.képezik.)

A mintavétel tervezése, a mintavételi eljárás megválasztása során két egymásnak ellentmondó követelményt kell figyelembe vennünk. Az egyikkövetelmény a pontosság, a másik az olcsóság. Mivel az egyik követelmény előtérbe helyezése a másik háttérbe szorulását jelenti, lényeges amintavétel tervezése során az elvárt célok és a lehetséges eszközök pontos megfogalmazása, számbavétele. Az, hogy ezen követelményeketmennyire vesszük figyelembe a mintavétel tervezése során, lényegesen befolyásolja a mintaelemek kiválasztási eljárását. A következőkben amintaelemek kiválasztási módjait tekintjük át.

A mintaelemek kiválasztása visszatevéssel vagy visszatevés nélkül történhet. Végtelen (vagy végtelennek tekintett) elemszámú sokaságbólakár visszatevéssel, akár visszatevés nélkül választjuk ki a minta elemeit, azok mint valószínűségi változók minden esetben függetlenek lesznekegymástól. Véges sokaság esetén csak a visszatevéses mintavétel eredményez független mintaelemeket. A mintaelemek ezen tulajdonságára akésőbbiek során még visszatérünk. Az elmondottakat a 6.1. táblázatban foglaltuk össze.

6.1. táblázat - A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata

A sokaság elemszáma A mintavétel módja A mintaelemek

végtelen visszatevéses

Page 14: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

4

visszatevés nélküli függetlenekvéges visszatevéses

visszatevés nélküli nem függetlenek

Az elmondottak alapján különbséget teszünk független mintavételi eljárások és nem független mintavételi eljárások között.

Véges sokaság esetén a minta fontos jellemzője a kiválasztási arány, amely azt mutatja meg, hogy a sokaság elemeinek mekkora hányadakerül a mintába. Adott N mellett annál nagyobb valószínűséggel lehet a mintából a sokaságra következtetni, minél nagyobb a kiválasztási arány. Azn-nek, a minta elemszámának azonban nagyobb jelentősége van a kiválasztási aránynál, mert ez határozza meg a mintából való következtetésnélhasználható módszereket.

A mintavétel során és a mintából történő következtetésnél meg kell különböztetnünk a kis és a nagy minta fogalmát. Ennek jelentőségét az adja, hogya mintából számított jellemzők nagy részének (pl. mintaátlag, mintabeli arány) eloszlása nagy minta esetén közelítőleg normális eloszlásúvá válik,ennélfogva kezelésük egyszerűsödik. (Ezen megállapításra a későbbiek során még visszatérünk.) Felvetődik a kérdés, hogy mi tekinthető kis, illetvenagy mintának. Azt mondhatjuk, hogy már nagy mintának tekinthető, azaz egyes mintajellemzők eloszlásfüggvényei ezen mintaelemszámfölött már közelítőleg normális eloszlásúvá válnak.

A mintanagysághoz szorosan kapcsolódik a mintavételi hiba fogalma. A mintavételi hiba abból adódik, hogy a sokaság egy részéből következtetünkaz egészre. Meghatározásának módszerei matematikailag kidolgozottak. Nagysága, illetve annak valószínűsége – a sokaság jellege, az alkalmazottmintavételi eljárás és a mutató fajtája mellett – alapvetően a mintanagyságtól függ, hiszen a mintanagyság növelésével a sokaság egyre nagyobbrészét vizsgáljuk meg, s így egyre kisebbé válik a mintavételből eredő nagy hiba valószínűsége.

A mintaelemek kiválasztása során elkövethetünk ún. nem mintavételi hibát is, amely több forrásból adódhat: többek között a sokaságot nemtökéletesen fedi le a mintavételi keret (pl. ilyen fordulhat elő, ha a megfigyelt sokaság a Magyarországon működő kisvállalkozások), nem sikerül amegfigyeléseket a terv szerint végrehajtani, válaszmegtagadás vagy egyéb okok miatt hiányoznak adatok. Hiba adódhat abból is, hogy a kérdésekrekapott válaszok nem egészen pontosak (tudatosan vagy önhibáján kívül téves adatot szolgáltat a válaszadó), vagy hibákat követhetnek el a kódolás,táblázás stb. során.

Az ilyen típusú hibák nagyságát nehéz meghatározni. Vizsgálatuknak, feltárásuknak elsődlegesen az a célja, hogy a mintavétel tervezésének ésvégrehajtásának különböző fázisaiban hatásukat csökkenteni lehessen.

Egy mintából csak akkor lehet számítható megbízhatóságú következtetéseket levonni a sokaságra vonatkozóan, ha a minta elemeit nem önkényesen,hanem véletlenszerűen választjuk ki. A véletlenszerűség nem feltétlenül jelenti azt, hogy a sokaság minden egyes elemének egyenlő esélye van amintába történő kerülésre, hanem csak azt jelenti, hogy minden elemhez egy előre meghatározott ismert valószínűség tartozik, és biztosítjuk, hogyezzel a valószínűséggel kerüljön be a mintába az adott elem, továbbá azt, hogy a mintaelemek kiválasztási eljárásának előre meghatározottnak ésegyértelműnek kell lennie.

Page 15: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

5

Ha a minta elemeit véletlenszerűen választjuk ki a sokaságból, véletlen (vagy valószínűségi) mintát kapunk. Attól függően, hogy a mintavétel soránbiztosítjuk-e a véletlenszerűséget vagy sem, különböző mintavételi eljárásokról beszélhetünk.

6.2. Véletlen mintavételi eljárások6.2.1. Független, azonos eloszlású minta kiválasztása

Független, azonos eloszlású mintát akkor kapunk, ha homogén és végtelen (vagy nagyon nagy) sokaságból veszünk véletlen (visszatevéses vagyvisszatevés nélküli) mintát, illetve amikor véges sokaságból visszatevéssel választjuk ki a minta elemeit. Tehát független mintát veszünk. Ilyenkor a

minta elemei független (vagy függetlennek tekinthető), azonos eloszlású valószínűségi változók lesznek.

Ugyanis az i-edik mintaelem ismérvértékére nyilvánvalóan igaz, hogy tehát az egyes mintaelemek mintvalószínűségi változók eloszlása a ismérvérték sokaságbeli eloszlásával azonos.

Alkalmazása elsősorban a tömegtermelés minőség-ellenőrzésénél célszerű. Például azonos eloszlású, független mintához jutunk, ha az 1 kg-os liszttöltési tömegének ellenőrzéséhez mintát veszünk. Ekkor a sokaság végtelennek tekinthető, így a minta elemei minden esetben függetlenek lesznek.

A gyakorlatban azonban nem túl gyakran jutunk független, azonos eloszlású mintához, mivel a valóságban ritkán áll rendelkezésünkre végtelen vagyvégtelennek tekinthető sokaság, vagy véges sokaság esetén nem minden esetben van lehetőség a mintaelemek megvizsgálása után a sokaságbatörténő visszatevésre (pl. egy adott cégtől vásárolt gumiabroncsok elhasználódásának minőségi vizsgálatakor).

Ennek ellenére ez a mintavételi eljárás későbbi vizsgálataink során kiemelt szerepet kap, mert matematikailag rendkívül könnyen kezelhető, és ezena mintatípuson keresztül lehet a legkönnyebben megmutatni a sokasági és a mintajellemzők kapcsolatát.

6.2.2. Egyszerű véletlen mintavételEgyszerű véletlen mintavételt hajtunk végre homogén, véges elemszámú sokaság esetén, amikor a mintát visszatevés nélkül választjuk ki,elemenként egyenlő valószínűséggel. (Ezt az esetet a valószínűségszámításban is vizsgáltuk.)

A végrehajtásához egy, a mintavételi keret minden elemét, de mindegyiket csak egyszer tartalmazó komplex lista szükséges. Ezen listábóla mintaelemek kiválasztása történhet sorsolással, ún. véletlenszám-táblázattal, illetve számítógépes véletlenszám-generálással. A visszatevésnélküliség követelményét a sorsolásnál oly módon biztosíthatjuk, hogy a kihúzott cédulákat nem tesszük vissza az urnába, míg a véletlenszám-táblázatnál, illetve a számítógépes véletlenszám-generálásnál az ismételten előforduló sorszámot átugorjuk, és haladunk tovább a táblázatban,illetve a számítógép által előállított listában.

Page 16: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

6

Az egyszerű véletlen mintavétel során különböző összetételű mintát kaphatunk. Minden n elemű minta előfordulásának a valószínűségeugyanakkora. Természetesen a mintavétel végrehajtása után csak egyetlenegy mintánk lesz, s ebből következtetünk a sokaság jellemzőire.

A gyakorlatban a sokaságok ritkán homogének, ezért az egyszerű véletlen mintavétel tiszta alkalmazása sem fordul elő gyakran, de ugyanakkorkiindulópontként szolgál a bonyolultabb eljárásokhoz.

6.2.3. Szisztematikus mintavételA gyakorlatban a véletlen kiválasztást a szisztematikus mintavétellel lehet legegyszerűbben megvalósítani. Az eljárás lényege a következő: egy nelemű mintát kívánunk venni egy N elemű sokaságból. Ehhez először a sokaságot valamely szempont szerint sorba rendezzük – általában eleve

adott egy sorrend –, majd meghatározzuk a számértéket, ahol a szám egész részét jelenti. Az első k elem közül egyenlő valószínűséggel

kiválasztjuk a kiindulópontot, s ezután szisztematikusan az erre következő minden k-adik elem kerül be a mintába.

A szisztematikus mintavétel végrehajtása rendkívül egyszerű, nem igényel szakismeretet, ellenőrzése is könnyű. Ezen mintavételi eljárás azonbancsak akkor eredményez véletlen mintát, ha a listaképző ismérv és a megfigyelt ismérv között nincs sztochasztikus kapcsolat. Súlyos torzítást okozhataz is, ha a lista rejtett trendet vagy periodicitást tartalmaz.

Tekintsük a következő példát. Valamely főiskola hallgatóinak – akikről rendelkezésre áll egy ábécé szerinti lista – a tandíjfizetéssel kapcsolatosvéleményére vagyunk kíváncsiak. Ekkor a szisztematikus mintavétel nagy valószínűséggel véletlen mintát fog eredményezni, hiszen nagyonvalószínű, hogy a hallgató nevének kezdőbetűje és a tandíj fizetéséről alkotott véleménye között nincs sztochasztikus kapcsolat. Ebben az esetbena szisztematikus kiválasztás egyszerűsíti a munkát.

6.2.4. Rétegzett mintavételMinden mintavételnél felmerül az a kérdés, hogyan lehet a mintaelemek kiválasztását úgy végrehajtani, hogy az meghatározott mintanagyság mellettminél jobban reprezentálja a vizsgálni kívánt sokaságot. Célszerű továbbá olyan becslési eljárásokat alkalmazni, amelyek minél kisebb hibávalbecsülik az ismeretlen sokasági jellemzőt. A leggyakrabban alkalmazott ilyen eljárás az ún. rétegzett mintavétel.

A rétegzett mintavétel során a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra (rétegekre)bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba. Az egyes rétegekenbelül a minta elemeinek a kiválasztása egyszerű véletlen mintavétellel történik.

A rétegzett mintavétel eredményeként egyrészt jobb keresztmetszetet kapunk a vizsgált sokaság összetételéről, másrészt az egyes rétegek nagyobbhomogenitása miatt ezeken belüli kisebb mintákból is megfelelő pontosságú következtetést vonhatunk le. Ilyen módon az eredetileg heterogén

Page 17: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

7

sokaságra ugyanakkora minta esetén pontosabb következtetést tudunk levonni rétegzett mintából, mint ha egyszerű véletlen mintavételt alkalmaztunkvolna.

A rétegzés nem csupán pontosságnövelő hatása miatt elterjedt mintavételi eljárás. A rétegzett kiválasztást arra is felhasználhatjuk, hogy az egyesrétegek sokasági jellemzőire megbízható becslést adjunk. Pl. az egyik kisvárosunkban a háztartások jövedelemviszonyait szeretnénk megvizsgálni.Ehhez a város háztartásait a gyermekszám alapján rétegekbe soroljuk. A mintavétel végrehajtása után lehetőség van egyrészt a kisvárosban lévőháztartások egy főre jutó jövedelmének, másrészt az egyes rétegek – tehát a gyermektelen, az 1 gyermekes, a 2 gyermekes stb. háztartások –esetén az egy főre jutó jövedelemnek a becslésére.

Rétegzett mintavételt alkalmaz többek között a Központi Statisztikai Hivatal – negyedéves rendszerességgel – az 50 vagy kevesebb főt foglalkoztatóiparba és a kivitelező építőiparba sorolt kisszervezetek reprezentatív megfigyelésére. (Az 50 főt meghaladó létszámú szervezetek megfigyeléseteljes körű és folyamatos.) A rétegzés során több szempontot is figyelembe vettek: jogi személyiségű-e a gazdasági társaság; a jogi személyiségűtársaságokon belül 21 és 50 fő közötti vagy 21 fő alatti létszámkategóriába tartozik-e; budapesti vagy vidéki székhelyű-e, illetve azt, hogy mikoralakult meg a gazdasági társaság. Ezen szempontok alapján a feldolgozóiparban 16, a kivitelező építőiparban 12 réteget alakítottak ki 1 a vizsgálatvégrehajtásához.

A továbbiak megértéséhez néhány újabb jelölés bevezetésére van szükség.

A sokaság rétegeinek számát M-mel jelöljük, az egyes rétegeken belül a sokaság elemszáma pedig:

ekkor:

Rétegenként elemű mintákat veszünk, és a mintákra igaz, hogy

Felvetődik a kérdés, hogy hogyan osszuk el a minta elemeit az egyes rétegek között. A mintaelemek szétosztása történhet arányos elosztással,illetve nem arányos elosztással.

1 A módszer részletes leírása Dr. Telegdi László: Az ipari és építőipari kisszervezetek reprezentatív megfigyelése (Statisztikai Szemle 1993. március) c. tanulmányában olvasható.

Page 18: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

8

a) Az arányos elosztás lényege, hogy a mintában a sokasági rétegarányoknak megfelelően választjuk meg a minta elemszámát, tehát adott rétegaránya a mintában és a sokaságban megegyezik, azaz

Ezt a kedvező tulajdonságot a későbbi számításoknál fogjuk felhasználni.

A j-edik réteg mintaelemszámát ekkor a következő összefüggéssel állapíthatjuk meg:

b) A nem arányos elosztás során a mintában a rétegarányok nem egyeznek meg a sokaságbeli arányokkal. Tehát

A következőkben – a nem arányos elosztáshoz tartozó – néhány, a statisztikai gyakorlatban legtöbbször előforduló eljárást mutatunk be.

– Egyenletes elosztás során minden egyes rétegbe azonos számú mintaelem kerül. Így a j-edik réteg mintaelemszáma lesz. Előnyöstulajdonsága, hogy egyszerű, semmilyen tervezési előkészítést nem igényel, végrehajtása kényelmes. Hátránya pedig, hogy az egyes rétegeknagyságát, szórását stb. nem veszi figyelembe a szükséges mintaelemszám meghatározásához. Így nagyfokú torzítást okozhat.

– A Neyman-féle optimális elosztás végrehajtásához szükséges, hogy előre ismerjük (vagy legalább hozzávetőlegesen becsülni tudjuk) a sokaságrétegenkénti szórásait. Ekkor rögzített mintaelemszám mellett kedvezőbb tulajdonságú mintát kapunk, ha nagyobb szórású rétegből aránylagnagyobb, kisebb szórásúból pedig kisebb mintát veszünk. Ezt az eljárást a rendszeres időközönként megismétlődő megfigyeléseknél alkalmazzák.Így a megelőző időszak eredményei felhasználhatók az egyes rétegek mintaelemszámának meghatározásához.

A j-edik réteg mintaelemszáma az alábbi összefüggés alapján határozható meg:

ahol a j-edik réteg elemszáma a sokaságban,

Page 19: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

9

a j-edik réteg szórása a sokaságban,

n: a minta elemszáma.

6.2.5. Csoportos mintavételAz egyszerű véletlen, a szisztematikus és a rétegzett mintavétel során feltételeztük, hogy rendelkezésünkre áll egy olyan lista – a mintavételi keret–, amely a sokaság összes elemét tartalmazza, s ebből választjuk ki a mintát. A gyakorlati feladatok egy részénél azonban ilyen lista nem állrendelkezésre, bár elkészíthető volna, de előállítása költséges és munkaigényes lenne. Más esetekben rendelkezésre áll ugyan a lista, de ha abbólválasztanánk ki közvetlenül a mintaelemeket, a felvétel végrehajtása rendkívül költséges lenne. Ezen feladatoknál célszerű a sokaság elemeit nemközvetlenül kiválasztani, hanem ezek természetes vagy mesterséges csoportjait megfigyelni.

A csoportos mintavétel során a homogén sokaság elemeinek (természetes vagy mesterséges) csoportjai közül egyszerű véletlen mintátveszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk.

A csoportos mintavétel esetén a költségtakarékosságot tartjuk elsődleges szempontnak, míg a megfigyelés megbízhatósága némileg háttérbe szorul.Bizonyos esetekben a csoportos mintavétel segítségével, ugyanazon költségkeret mellett lényegesen nagyobb mintához juthatunk, mint egyszerűvéletlen mintavétellel.

Nézzünk néhány példát a csoportos mintavétel alkalmazására.

Egy adott évben vizsgálni kívánjuk a szakközépiskolában végzettek továbbtanulását, illetve munkába állását az érettségi után 3 hónappal. Haegyszerű véletlen mintavételt hajtanánk végre, akkor az országban található valamennyi szakközépiskola végzős évfolyamának tanulóiról teljes körűlistát kellene összeállítani. A mintát ebből a listából kellene kiválasztani. Egy ilyen lista összeállítása rendkívül nehézkes és költséges lenne. Továbbijelentős költséget jelentene, hogy az így kiválasztott diákok területileg is rendkívül szétszórtan helyezkednek el, így az információk begyűjtése ishosszadalmas lenne. Ha azonban csoportos mintavételt végzünk, akkor a középiskolák rendelkezésre álló országos listájából egyszerű véletlenmintavétellel kiválaszthatunk néhány középiskolát. Ilyenkor a kiválasztott iskola végzős évfolyamának valamennyi hallgatója belekerül a mintába,s a felvétel során mindannyiukat meg kell kérdezni. Ebben az esetben a csoportok területi koncentráltsága miatt a csoportos mintavétel olcsóbb,mint az egyszerű véletlen mintavétel.

Az egyik nagy országos politikai párt valamely döntés meghozatala előtt kíváncsi a tagság véleményére. Ekkor egyszerűbb és olcsóbb a helyipártszervezetek közül néhányat egyszerű véletlen mintavétellel kiválasztani, s ezeknél minden párttagot megkérdezni, mint egy részletes címlistátösszeállítani a párt tagságáról. Csak akkor célszerű a csoportos mintavétel alkalmazása, ha a helyi szervezeteken belül a párt tagjainak véleményenem azonos a vizsgált kérdésről. Ellenkező esetben a csoportos mintavétel torz eredményre vezethet.

A fenti példákból is kitűnik, hogy a csoportos mintavétel során kétféle egység különül el: elsődleges mintavételi egység, amelyre a felvételközvetlenül irányul (iskolák, helyi szervezetek), végső mintavételi egység, amelyre vonatkozóan következtetéseket akarunk levonni a kapottmintából (tanulók, párttagok).

Page 20: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

10

6.2.6. Többlépcsős mintavételA többlépcsős mintavételt hasonló esetekben alkalmazzuk, mint a csoportos mintavételt – amelyet egylépcsősnek is szoktak nevezni –, azzala különbséggel, hogy többször ismételjük meg egymás után az egyszerű véletlen mintavételt, tehát a mintaelemek kiválasztása több fokozatban,több lépcsőben történik.

A mintavétel végrehajtása során először kiválasztjuk az elsődleges mintavételi egységeket. Attól függően, hogy hányszor ismételjük meg egymásután az egyszerű véletlen kiválasztást, két-, három- vagy többlépcsős mintavételről beszélhetünk. Ha az elsődleges mintavételi egységeken belülrögtön a megfigyelni kívánt elemeket választjuk ki (egyszerű véletlen mintavétellel), akkor kétlépcsős a mintavétel. Ha az elsődleges mintavételiegységeken belül először újabb nagyobb csoportokat választunk ki, majd az így képzett csoportokból választjuk ki a mintaelemeket, akkor a mintavételhárom- (vagy több-) lépcsős lesz.

A többlépcsős mintavétel előnye a csoportos kiválasztással szemben, hogy homogén elsődleges mintavételi egységek homogenitása esetén a teljeskörű megfigyelés helyett mintára támaszkodik, s ezáltal csökken a fölösleges adatfelvételek száma, s így ugyanakkora elemszámú minta eseténkisebb a mintavételi hiba valószínűsége, mint a csoportos mintavételnél.

Előző példánkat folytatva, ha a helyi szervezetekben nem kérdeznek meg minden párttagot, hanem egyszerű véletlen mintavétellel kiválasztanaknéhányat, s csak ezeknek teszik fel a megfelelő kérdéseket, akkor kétlépcsős mintavételi eljárást hajtanak végre. Ebben az esetben az első lépcsőa helyi szervezetek (elsődleges mintavételi egységek) kiválasztása, a második lépcső pedig a megkérdezésre kerülő tagok (végső mintavételiegységek) kiválasztása.

6.2.7. Kombinált eljárásokA kombinált eljárások gyakorta egy lépésben alkalmaznak több, eddig megismert mintavételi módszert. Ily módon ötvözhető például a rétegzéspontosságnövelő előnye a csoportos vagy többlépcsős mintavétel költségmegtakarításával. A KSH pl. az egységes lakossági adatfelvételirendszerben (ELAR) egyszerre alkalmaz rétegzést és lépcsőzést.

A kombinált eljárások külön csoportját képezik a ismétlődő felvételek, illetve panelfelvételek. Ezen felvételek alkalmazására akkor van szükség,ha a vizsgált sokaság szerkezetét vagy az egyes egyedek jellemzőinek időbeni változását akarjuk vizsgálni.

Az ismétlődő felvételek esetén nem szükséges, hogy a mintában szereplő egyedek azonosak legyenek. E módszer legfőbb erénye, hogy egy-egyidőpontban a vizsgált sokaság keresztmetszetéről megbízható képet ad. Az ismétlődő felvételek általában úgy történnek (például a legtöbb országbana munkaerő-felvételek), hogy a minta elemei néhány egymás után következő megkérdezéskor azonosak, majd előírt rend szerint cserélődnek.

A panelfelvételeknél a minta elemeinek a lehetőségek keretei között azonosaknak kell lenniük, s ezáltal alkalmasak az egyes egyedek jellemzőinekidőbeni vizsgálatára. A panelfelvétel előnye, hogy számos társadalmi jelenségre vonatkozóan pontosabb információkat ad, mint a szerkezetiváltozásokból levonható következtetések. Ezeket az előnyöket már az 1940-es években felismerték, és törekedtek a panelfelvételek alkalmazására.

Page 21: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

11

Az eljárás hátránya, hogy a mintába került egyedek nyomon követése nehéz, és a válasz megtagadása miatti torzítás gyorsan növekszik. Ilyenpanelfelvételnek tekinthető például a KSH háztartás-statisztikája, amelyben ELAR mintára támaszkodva nyernek kétévenként összehasonlítóadatokat a lakosság jövedelmére és fogyasztási szokásaira vonatkozóan.

A gyakorlatban sokszor előfordul a teljes körű felvétel és a mintavétel összekapcsolása. Pl. Magyarországon jelenleg 3-4 évente tartanak teljes körűállatszámlálást, amikor a kisgazdaságok teljes állatállományát összeírják. Ezen információ kiegészítéseként negyedévente reprezentatív felvételtvégeznek egyes fontosabb állatfajták állományának becslése érdekében. A teljes körű felvételek közötti időszakban a reprezentatív felvételből ésa megelőző teljes körű felvételből következtetnek a sokaság állapotára, a teljes állatállományra. Ez úgy történik, hogy kiválasztják a sokaságnaka reprezentatív felvétel során a mintába került egyedeit, majd ezeknél a teljes körű és a reprezentatív megfigyelés során nyert eredményeketösszehasonlítják. A tapasztalt változásokat a sokaságra matematikai módszerek segítségével általánosítják.

6.3. Nem véletlen mintavételi eljárásokAz eddigiek során áttekintettük a véletlenen alapuló mintavételi eljárásokat. Vannak azonban olyan mintavételi eljárások, amelyekre a véletlenkiválasztás nem jellemző, így ezen eljárásokkal létrejövő minták nem tekinthetők véletlen avagy valószínűségi mintáknak. Az eddig ismertetettmintavételi eljárásoknak számtalan hátrányos tulajdonsága van. Ezek közül a leglényegesebb, hogy nincs biztosítva, a minta a sokaságra valóbanjellemző legyen, így félrevezető következtetések forrása lehet. Továbbá a nem véletlen minták esetén nem lehetséges a mintából számított jellemzőkhibájának a meghatározása, tehát nem tudjuk a bizonytalanság, a tévedés várható hibáját becsülni. Ennek ellenére a nem véletlen mintavételieljárásokat széles körben alkalmazzák, mivel végrehajtásuk egyszerűbb és esetenként lényegesen olcsóbb, mint a korrektül megtervezett ésvégrehajtott véletlen mintavétel. Főleg igénytelen felvételeknél (gyors elővizsgálatoknál) használják, korlátozott következtetési lehetőségekkel.

A szisztematikus kiválasztásról a véletlen mintavételi eljárások között már esett szó. Láttuk, ha a listaképző ismérv és a megfigyelt ismérv közöttnincs sztochasztikus kapcsolat, akkor ez az eljárás véletlen mintát eredményez. Ellenkező esetben a kapott mintaelemek nem lesznek függetlenekegymástól, így a következtetések levonása során figyelembe kell venni a mintaelemek függőségéből adódó torzítást is. Időbeni megfigyeléseknéla periodicitás veszélye miatt alkalmazása nem célszerű.

Eléggé elterjedt mintavételi eljárás a kvóta szerinti kiválasztás. Ennek lényege, hogy a felvételt végző személyek (kérdezőbiztosok) előremegkapják, hogy milyen összetételű mintához kell jutniuk, de az előre adott kereteken belül rájuk van bízva a véletlenszerű kitöltés. A kvóta szerintikiválasztás legnagyobb hátránya, hogy a kapott minta a kérdezőbiztosok szimpátiája, illetve ítélőképessége szerint áll össze. Ez a statisztikailag nemszámszerűsíthető szubjektivitás jelentős mértékben befolyásolja a kapott eredményeket.

Az önkormányzati választások várható eredményét mintavételes eljárással kívánják meghatározni. Kvóta szerinti kiválasztás esetén a kérdezőbiztosúgy kapja meg a feladatát, hogy kérdezzen meg az adott választókörzetben öt 18 és 30 év, tíz 31 és 40 év közötti férfit, három 18 és 30 közöttinőt stb. Ezeken a határokon belül saját maga választja ki a megkérdezett személyeket, elvben véletlenszerűen, gyakorlatban azonban szubjektíven,ötletszerűen. Annak ellenére, hogy a kérdezőbiztos korrektül jár el, előfordulhat, ha kora délutáni órában végzi a felmérést, hogy a felvett mintábannagyobb lesz pl. a munkanélküliek aránya, mint a sokaságban. Továbbá gyakori, hogy a kérdezőbiztos saját ismeretségi köréből igyekszik „véletlenmintát” biztosítani, ez viszont bizonyos szempontból homogén csoportok megfigyelését jelenti.

Page 22: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

12

Az önkényes kiválasztás során a felvételt végző személy szakmai ismereteire támaszkodva – a véletlent figyelmen kívül hagyva – választjaki a sokaságra jellemző (vagy legalábbis általa jellemzőnek tartott) mintát. Sokéves tapasztalatok mutatják, hogy az ilyen kiválasztáson alapulómegfigyelés sokszor erősen torzított eredményt ad. Meg kell említenünk, hogy az önkényes kiválasztás a mintavétel történelmileg elsőkéntalkalmazott módszere volt, mára azonban eléggé visszaszorult. Az utóbbi időben elterjedt az ún. exit pool eljárás, amelyet elsősorban a választásieredmények előrejelzésére alkalmaznak. A módszer lényege, hogy a szavazóhelyiségből kijövő választót megkérdezik arról, hogy kire adta a voksát,s az így kapott minta alapján következtetnek a választási eredményekre.

6.4. A mintajellemzők fontosabb tulajdonságaiHa a minta elemeit véletlen mintavételi eljárással választjuk ki, akkor a mintaelemek ismérvértékei és a mintajellemzők valószínűségiváltozók lesznek.

A következőkben a mintajellemzők közül a minta átlagával foglalkozunk részletesen. Kiszámítása a

összefüggéssel történik, ahol az i-edik mintaelem ismérvértéke. Egy konkrét mintavételnél, ha adódik, akkor a mintaátlag

A mintaátlag tulajdonságait független, azonos eloszlású minta esetén mutatjuk be, mivel ezen mintavételi mód kezelése matematikailag egyszerűbb.Néhány esetben gyakorlati jelentősége miatt kitérünk az egyszerű véletlen mintavétel esetére is.

Tekintsük először a mintaelemek eloszlását. A független, azonos eloszlású minta esetén a minta elemeinek eloszlása megegyezik a sokaságeloszlásával. A mintaelemek várható értéke és szórása pedig a sokaság várható értékével és szórásával fog megegyezni. Hiszen

és

Feladatunk azonban a mintaátlag vizsgálata. A mintaátlagot mint valószínűségi változót várható értékével, szórásával és eloszlásával jellemezhetjük.

Page 23: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

13

Vizsgáljuk meg először a mintaátlag mint valószínűségi változó várható értékét. Valószínűségszámításból ismeretes, hogy

Így a minta átlagának várható értéke:

vagyis megegyezik a sokaságra vonatkozó várható értékkel.

A mintaátlag szórásnégyzete a mintaelemek függetlensége miatt

Így a mintaátlag szórásnégyzete

azaz a mintaátlag szórása

A mintaátlag szórását, a -ot a mintaátlag standard hibájának nevezzük. A standard hiba megmutatja, hogy mekkora a mintaátlagok

sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke. Nagysága a sokasági szórástól és a mintanagyságtól (n) függ.Egyszerűbben fogalmazva a standard hiba arra ad választ, hogy egyetlen mintavétel esetén mekkora hibát követünk el „átlagosan”. Mivel a hibaelkövetésének „oka” maga a reprezentatív mintavétel, szokásos ezt a hibát a reprezentatív megfigyelés hibájának is nevezni.

Ha a mintaelemek kiválasztása egyszerű véletlen mintavétellel történt, akkor a mintaátlag standard hibájának meghatározása (bizonyítás nélkül) akövetkező összefüggéssel történik:

Page 24: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

14

ahol a -t korrekciós tényezőnek vagy véges szorzónak nevezzük.

A fenti összefüggésben a korrekciós tényező alkalmazása egyszerű véletlen mintavételnél abból következik, hogy ezen eljárás esetén a mintaelemeknem függetlenek, és ezért a standard hiba levezetésekor a mintaelemek közötti kapcsolatszorosságról tájékoztató kovarianciát is figyelembe kellvenni. Az összefüggésből jól látható, hogy egyszerű véletlen mintavétel esetén a mintaátlag szórása jelentős mértékben függhet a kiválasztásiaránytól.

A korrekciós tényező értéke 0 és 1 között lehet. Alacsony (pl. 1% alatti) kiválasztási arány esetén értéke közel esik 1-hez, ezért elhagyása lényegesennem befolyásolja a kapott eredményt. Ha viszonylag magas a kiválasztási arány (5 és 10% közötti vagy ennél nagyobb), akkor a korrekciós tényezőalkalmazására feltétlenül szükség van.

Konkrét mintavételnél a standard hibát -gal fogjuk jelölni, és a

összefüggéssel határozzuk meg.

Végül vizsgáljuk meg a mintaátlag eloszlását.

Független, azonos eloszlású minta esetén a mintaátlag ( ) eloszlásáról a következők mondhatók (a bizonyításokat nem részletezzük, de felhívjuk

a figyelmet arra, hogy a a valószínűségi változók összegének konstansszorosa):

1. Normális eloszlású sokaság esetén a mintaátlag is normális eloszlású, függetlenül a minta nagyságától. (Normális eloszlású valószínűségi változókösszege is normális eloszlású.)

2. Ha a sokaság eloszlása nem ismert, de nagy mintát veszünk, akkor a mintaátlag közelítőleg normális eloszlású lesz, a centrális határeloszlás-tétel 2 következményeként.

3. Ha a sokaság eloszlása nem ismert és kis mintát veszünk, akkor a mintaátlag eloszlása függ a sokaság eloszlásától, ezért általánosan semmitsem tudunk mondani.

A mintaátlag egy-egy mintavételnél megvalósuló konkrét értékeinek eloszlását is szemléltethetjük. Erre vonatkozóan nézzük a következő példát.

2 Matematika üzemgazdászoknak. Valószínűségszámítás. (Szerk: dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1990. 187. oldal. (A további hivatkozásoknál: Valószínűségszámítás.)

Page 25: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

15

Az 1994-ben megválasztott 371 országgyűlési képviselő életkor szerinti megoszlása a következő hisztogrammal szemléltethető 3 (6.1. ábra):

6,1. ábra - A képviselők életkor szerinti megoszlásának hisztogramja

A mintaátlag eloszlásának vizsgálatához a 371 elemű sokaságból először 30, majd 100 elemű mintákat vettünk számítógépes véletlenszám-generálás segítségével, visszatevéssel, így független, azonos eloszlású mintához jutottunk. A mintavételt mindkét esetben 100-szor ismételtükmeg, majd minden egyes mintára vonatkozóan kiszámítottuk a mintaátlagot. A 30 elemű minták mintaátlagainak megoszlása a következő volt (6.2.táblázat):

6.2. táblázat - 30 elemű minták mintaátlagainak megoszlása

A mintaátlag értéke (év) A mintaátlagokmegoszlása (%)

– 43,90

43,91 – 45,00

45,01 – 46,10

46,11 – 47,20

47,21 – 48,30

48,31 – 49,40

1

5

13

15

22

25

3 Az alapadatokat nem közöljük.

Page 26: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

16

49,41 – 50,50

50,51 – 51,60

51,61 – 52,70

52,71 – 53,80

15

2

1

1Összesen 100

Ezt követően a 100 elemű mintákat választottuk ki a 30 elemű mintákhoz hasonló módon. A kiszámított mintaátlagokat a 6.3. táblázat tartalmazza:

6.3. táblázat - A 100 elemű minták átlagai

47,08

49,51

51,25

48,99

49,45

49,34

46,09

47,97

48,27

48,49

48,64

47,78

47,71

46,74

48,71

47,05

47,87

46,88

49,10

48,44

48,38

46,94

47,55

46,62

46,08

48,13

46,07

47,92

46,17

46,66

46,54

49,34

47,57

47,83

47,16

47,14

47,69

47,48

47,77

50,24

48,68

46,25

47,21

46,70

47,14

50,17

47,79

46,77

48,14

48,05

47,74

47,48

47,78

48,04

48,52

47,54

50,11

47,91

47,16

48,64

46,29

48,21

47,82

47,33

49,47

48,07

47,89

47,35

49,45

47,22

47,52

47,71

46,13

45,68

47,06

48,45

48,68

47,32

46,86

48,17

48,46

46,78

48,58

48,13

48,33

47,98

46,99

46,70

48,96

46,08

48,02

46,03

48,32

47,39

47,65

48,37

47,80

46,73

48,49

46,94

A kapott mintaátlagokat osztályközös relatív gyakorisági sorba rendeztük (6.4. táblázat).

6.4. táblázat - 100 elemű minták mintaátlagainak megoszlása

A mintaátlagértéke (év)

A mintaátlagokmegoszlása (%)

Page 27: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

17

– 46,10

46,11 – 47,20

47,21 – 48,30

48,31 – 49,40

49,41 – 50,50

50,51 – 51,60

6

25

40

21

7

1Összesen 100

A mintaátlagok megoszlásait hisztogrammal szemléltethetjük (6.2. és 6.3. ábra).

6,2. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján

Page 28: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

18

6,3. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján

A grafikus ábrákat összehasonlítva azt láthatjuk, hogy a tapasztalati eloszlás 100 elemű minták esetén jobban közelíti a normális eloszlást, mint 30elemű minták esetén. (A mintaátlag eloszlására tett 2. megállapításunk is ezt mondja ki.) A relatív gyakorisági sorokból és a hisztogramokból az iskitűnik, hogy a mintaátlagok kisebb intervallumban szóródnak 100 elemű minták esetén, mint 30 eleműeknél. Ez egyben azt is jelenti, hogy a 100elemű minták esetén kisebb a standard hiba.

A példánkban mindkét esetben meghatározhatjuk − a mintaelemek függetlenségének feltételezésével − a mintaátlag standard hibáját. (A sokaságiszórás 9,84 év.)

a) 30 elemű minták esetén:

b) 100 elemű minták esetén: év.

S mint vártuk, 100 elemű minták esetén valóban kisebb a mintaátlagok sokasági átlagtól vett átlagos négyzetes eltérésének várható értéke, mint30 elemű minták esetén.

A mintaátlagok átlagát is kiszámíthatjuk:

a)30 elemű minták esetén:

b) 100 elemű minták esetén:

Page 29: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

19

Természetesen egyik esetben sem kaphatjuk eredményül a sokasági átlagot (ami 47,776 év), mert a 100 kísérlet lényegesen kisebb, mint az összes

lehetséges minta száma, mely de ennek ellenére a b) esetben a mintaátlagok átlaga nagyon jól megközelíti a sokasági átlagot.

Meg kell jegyeznünk, hogy csak a könnyebb megértés érdekében határoztuk meg a sokasági várható értéket. A gyakorlatban éppen ezen értékmintából történő becslése a cél, ezért ez természetesen ismeretlen.

6.5. Gyakorlófeladatok1. Az alábbi adatokat, információkat ismerjük:

a) A BKV által szállított utasok száma 1992-ben Budapesten 1481 ezer fő volt.

b) A Budapestre hullott csapadék mennyisége 1996 februárjában 28 mm volt.

c) Egy édességbolt kávéforgalma 1996 decemberében.

d) A magyar lakosság egy főre jutó húsfogyasztása (kg/fő).

e) A dohányzók aránya a 14–18 éves fiatalok körében.

f) A kiszolgálási idő átlagos nagysága egy ARAL benzinkútnál.

g) A fogyasztói árak alakulása.

h) A lakossági tulajdonban lévő személygépkocsik átlagos életkora 8,2 év volt 1992-ben.

i) A magyar háztartások jövedelmüknek átlagosan 30%-át fordítják élelmiszer-vásárlásra.

j) A felsőfokú intézményekben végzettek száma 1995-ben.

Feladat:

Gondoljuk át, hogy a fenti információkból melyek azok, amelyek reprezentatív megfigyelésből származnak!

2. Tételezzünk fel egy mindössze 5 elemű sokaságot, amelyben egy mennyiségi ismérv értékei a következők:

A sokaság elemei értékeiA 2

Page 30: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

20

B

C

D

E

6

8

10

15

Feladat:

a) Számítsuk ki az összes lehetséges kételemű és háromelemű – visszatevés nélküli kiválasztással kapható – mintákat és mintaátlagokat!

b) Határozzuk meg a standard hibát:

1. a kételemű minták alapján,

2. a háromelemű minták alapján!

c) Hasonlítsuk össze a kapott eredményeket!

3. Néhány, a fejezetben található jelölés:

a j-edik réteg nagysága a sokaságban,

a sokaság szórásnégyzete,

a mintaátlag szórása,

a sokaság átlaga,

a minta átlaga.

Feladat:

Párosítsuk a fenti jelöléseket a helyes megnevezéssel!

4. Tételezzük fel, hogy egy sokaság 10 elemből áll. Egy tetszőleges mennyiségi ismérv értékei a sokasági egységeknél:

Sokasági egység Ismérv értéke

Page 31: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

21

Feladat:

a) Számítsuk ki a sokaság átlagát és szórását!

b) Határozzuk meg az ismétlés nélkül kiválasztható kételemű minták átlagait!

c) Rendezzük a kapott mintaátlagokat osztályközös gyakorisági sorba! Készítsünk az adatokból gyakorisági poligont!

d) Vizsgáljuk meg a mintaátlagok sokasági átlag körüli szóródását!

5. A katonai sorozáson megjelenő fiúk átlagos testmagassága 175 cm, a testmagasság szórása 8 cm. (A testmagasság szerinti eloszlás normálisnaktekinthető.)

Feladat:

A sokaságból 20 elemű mintát véve, mekkora a valószínűsége annak, hogy a mintaátlag a sokasági átlag 3 cm-es környezetében lesz?

Page 32: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mintavétel

22

6. A felnőtt korú népesség testtömege szerint normális eloszlású, 78 kg-os várható értékkel, 8 kg-os szórással. A sokaságból 10 fős véletlen mintátveszünk.

Feladat:

a) Mi a valószínűsége annak, hogy

1. a mintába kerülők mindegyikének a testtömege meghaladja a 80 kg-ot,

2. a mintaátlag nagyobb, mint 80 kg?

b) Magyarázzuk meg a kapott eredményeket!

7. Valamely termék gyártásánál az éves termelésben a szabvány-előírásnak megfelelő termékek aránya 90%.

Feladat:

Számítsuk ki annak a valószínűségét, hogy egy 200 elemű egyszerű véletlen mintában legalább 95% a szabványnak megfelelő termékek aránya!(Megjegyzés: a mintabeli arányok normális eloszlásúak!)

8. Hosszú évek tapasztalata alapján feltételezhetjük, hogy a hallgatók statisztikadolgozatainak pontszáma normális eloszlást követ. Az átlagospontszám: pont, a szórás: pont. (A dolgozatok elérhető maximális pontszáma 100 pont.)

Feladat:

a) Számítsuk ki annak a valószínűségét, hogy egy 40 fős tanulócsoportban az átlagos pontszám 72 pont felett lesz!

b) Mekkora a valószínűsége annak, hogy egy véletlenszerűen kiválasztott hallgató 72 pont felett teljesít?

Page 33: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

23

7. fejezet - Statisztikai becslések7.1. Alapfogalmak

Az előző fejezetben a mintavétel alapfogalmaival, a mintavételi eljárásokkal és a mintaátlag tulajdonságaival ismerkedtünk meg. Ebben a fejezetbenvalamely sokasági jellemző (várható érték, szórás, értékösszeg, arány stb.) mintából történő közelítő meghatározásával foglalkozunk.

A mintából való következtetés fontos alapfogalma a becslőfüggvény.

Becslőfüggvényen a mintaelemek olyan n-változós függvényét értjük, amelynek értéke a sokaság valamely paraméterének mintából történő becslésére szolgál. 1

Becslőfüggvény lehet például a mintaelemek átlaga amellyel a sokasági várható értéket vagy a mintabeli arány, amellyel asokasági arányt becsülhetjük. Ugyanazon sokasági jellemző értékének közelítő meghatározásához több becslőfüggvény is használható. Például asokasági várható érték becslésére a mintaelemek számtani átlagán kívül szimmetrikus eloszlás esetén a mediánt, a harmonikus átlagot, a négyzetesátlagot stb. is használhatjuk.

A sokasági szórásnégyzet becslésére is több becslőfüggvényt konstruálhatunk. Ezek közül a legfontosabbakat emeljük ki. Becsülhetjük a

statisztikával, amelynek egy konkrét mintavételnél az értéke az

összefüggéssel határozható meg. A fenti becslőfüggvényt tapasztalati szórásnégyzetnek nevezzük. A sokasági szórásnégyzet becslésérehasználhatjuk a korrigált tapasztalati szórásnégyzetet, a

1 A mintaelemek ezen függvényét statisztikának is szokták nevezni.

Page 34: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

24

becslőfüggvényt is, amelynek egy adott mintánál az értéke

Mivel a legtöbb sokasági jellemző becslésére több becslőfüggvény is konstruálható, ezért felvetődik a kérdés, hogy melyiket használjuk. Ehheznyújtanak támpontot a becslőfüggvényekkel szemben támasztott követelmények, amelyek alapján el tudjuk dönteni, hogy melyik becslőfüggvénymondható jónak, jobbnak, illetve bizonyos esetben a legjobbnak.

A becslőfüggvény értéke valószínűségi változó, értéke mintáról mintára változhat, de egyetlen n elemű mintához csak egyetlenegy értéket rendel.Ezt az értéket nevezzük valamely sokasági jellemző pontbecslésének. Például -nek pontbecslése az és -nak az s* vagy az s. Ezzel szembenaz intervallumbecslésnél egyetlenegy minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggeltartalmazza az ismeretlen sokasági jellemzőt. Ezt az intervallumot konfidenciaintervallumnak vagy megbízhatósági intervallumnak nevezzük.

7.2. A becslőfüggvényekkel szemben támasztott követelmények7.2.1. Torzítatlanság

Torzítatlannak nevezünk egy becslőfüggvényt, ha annak várható értéke megegyezik a becsülni kívánt sokasági jellemző értékével.

Jelöljük a sokasági jellemzőt -val, a becslőfüggvényét pedig továbbra is -pal. E követelmény szerint akkor tekinthető torzítatlanbecslőfüggvényének, ha

Véges sokaság esetén a torzítatlanság tulajdonsága azt jelenti, hogy ha az összes lehetséges módon kiválasztjuk az n elemű mintákat, és mindenegyes minta esetén kiszámítjuk a becslőfüggvény értékét, majd ezek számtani átlagát képezzük, akkor e követelmény szerint a sokasági jellemzőértékét kell kapnunk. Vagyis az összes lehetséges pontbecslés átlaga a tényleges érték.

Page 35: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

25

Ennél kevésbé szigorú, ám a gyakorlatban mégis sokszor elfogadható az aszimptotikus torzítatlanság követelményének teljesülése is. Eszerint

azaz a minta elemszámának növelésével a becsülni kívánt paraméter és a becslőfüggvény várható értékének különbsége egyre kisebb lesz.

Nézzük meg e követelmények teljesülését néhány becslőfüggvény esetén.

A mintaátlag a sokasági várható érték torzítatlan becslőfüggvénye.

E tulajdonság teljesülését már a 6.4. pontban bizonyítottuk. Vagyis beláttuk, hogy ha a azonos eloszlású, független valószínűségi változókalkotják a mintát, akkor

ahol a sokaság (egyben a ) várható értéke.

Ha konkrétan egy mintavételre sor kerül, és adódik, akkor az értékeknek ugyanazon függvénye, mint

a valószínűségi változóknak, vagyis az úgy tekinthető, mint e minta esetén felvett értéke (azaz olyan valószínűségi változó általfelvett érték az , amelynek várható értéke ).

Most vizsgáljuk meg, hogy a szórásnégyzetekre teljesül-e ez a követelmény. Tekintsük először a tapasztalati szórásnégyzet várható értékét:

Page 36: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

26

Mivel , továbbá , így

Vagyis a tapasztalati szórásnégyzet a sokasági szórásnégyzet torzított becslőfüggvénye. Igaz viszont, hogy

a tapasztalati szórásnégyzet tehát a sokasági szórásnégyzet aszimptotikusan torzítatlan becslőfüggvénye.

A korrigált tapasztalati szórásnégyzet viszont már torzítás nélkül becsüli a -et. Ezt könnyen igazolhatjuk. A korrigált tapasztalatiszórásnégyzetet a tapasztalati szórásnégyzet felhasználásával a következőképpen írhatjuk fel:

Page 37: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

27

Ezen összefüggést és a tapasztalati szórásnégyzet várható értékének levezetésénél leírtakat felhasználva

tehát a becslőfüggvény torzítatlan. Ezért a gyakorlatban a korrigált tapasztalati szórásnégyzetet használjuk a sokasági szórásnégyzet becslésére.

7.2.2. KonzisztenciaA konzisztencia követelménye azt írja elő, hogy a becslés torzítatlan (vagy legalább aszimptotikusan torzítatlan) legyen, és a mintanagyság mindenhatáron túl történő növelése esetén annak a valószínűsége, hogy a becsülni kívánt paraméter és a becslőfüggvény eltérése kisebb egy számnál,1 legyen. Képlettel felírva:

Másképpen megfogalmazva: a konzisztencia azt a követelményt támasztja a becslőfüggvényekkel szemben, hogy nagyon nagy minta esetén abecslőfüggvény mintából számított értéke nagy valószínűséggel közelítse meg a sokasági jellemző értékét. Véges (N elemű) sokaság és visszatevésnélküli mintavétel (tehát egyszerű véletlen mintavétel) esetén a konzisztencia azt jelenti, hogy esetén a becslőfüggvény „mintából” számítottértéke megegyezik a sokasági paraméter értékével.

7.2.3. Hatásosság

Ha a és a torzítatlan becslőfüggvénye -nak, és akkor azt mondhatjuk, hogy hatásosabb becslőfüggvénye -nak, mint

Más szavakkal: az a becslőfüggvény hatásosabb, amelynél a becslőfüggvény mintából számított értékeinek a sokasági paramétertől számítottátlagos négyzetes eltérésének várható értéke (tehát szórása) kisebb.

A 7.1. ábrán két torzítatlan ( , ) becslőfüggvény sűrűségfüggvénye látható. A kettő közül azt tekintjük hatásosabb becslőfüggvényének,amelynek szórása (standard hibája) kisebb, mivel ez azt jelenti, hogy becslésünk nagyobb valószínűséggel áll közel a sokasági paraméterhez.

Page 38: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

28

7,1. ábra - A és becslőfüggvény eloszlás

Ha egy sokasági paraméter összes becslőfüggvénye között létezik egy olyan, amelynek minimális a szórása, azt hatásos becslésnek nevezzük.

7.2.4. ElégségességEz a követelmény azt mondja ki, hogy az elégséges becslés minden mintából nyerhető információt tartalmaz a becsülni kívánt jellemzőről.

7.3. IntervallumbecslésAz alapfogalmak áttekintése után a becslések különböző eseteivel foglalkozunk. A becslés egyik célja egy olyan intervallum megadása, amelymegadott nagy valószínűséggel tartalmazza a sokasági jellemzőt. Ekkor konfidenciaintervallumot határozunk meg.

A becslés során egyetlen n elemű minta alapján egyetlenegy értéket is adhatunk az ismeretlen sokasági jellemzőre. Ekkor – mint már említettük– pontbecslést hajtunk végre. Pl. pontbecslést adunk, ha azt mondjuk, hogy a sokaság várható értéke a mintaátlaggal ( ), vagy a sokasági aránya mintabeli aránnyal egyenlő stb.

Térjünk vissza ismét a konfidenciaintervallum meghatározására.

7.3.1. A sokaság várható értékének becslése

A sokaság várható értékének becslőfüggvényeként a mintaátlagot használjuk. Mint azt már beláttuk, torzítatlan és konzisztens becslésteredményez. A sokasági várható értékre adott konfidenciaintervallum meghatározásánál a mintaátlag eloszlásáról elmondottak (6.4. pont) alapjána következő alpontokat fogjuk megkülönböztetni:

Page 39: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

29

a) Normális eloszlású sokaság esetén, ha a sokaság szórása ismert.

b) Normális eloszlású sokaság esetén, ha a sokaság szórása nem ismert.

c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk.

d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén.

A további tárgyalás során a minta elemszáma legyen n, és az előre rögzített (magas) valószínűségi szint .

a) Normális eloszlású sokaság esetén, ha a sokaság szórása ismert

Ha a sokaság normális eloszlású, a minta elemei és a mintaátlag is normális eloszlású lesz, a minta elemszámától függetlenül. Mivel a sokasági

szórás ismert, definiálhatunk egy valószínűségi változót oly módon, hogy a normális eloszlású mintaátlagból kivonjuk annak várható értékét

és elosztjuk a szórásával Jelöljük ezt a változót Z-vel, tehát

Így Z standard normális eloszlású valószínűségi változó lesz. A konfidenciaintervallum meghatározása során keressük azt a intervallumot,amely valószínűséggel tartalmazza a Z változót, azaz

és valószínűséggel nem tartalmazza azt. A keresett intervallumot úgy határozzuk meg, hogy ugyanakkora valószínűsége legyen annak, hogy a

Z változó kisebb, mint az intervallum alsó határa, mint annak, hogy a Z nagyobb, mint annak felső határa. Ez a valószínűség -vel egyenlő, mivela keresett intervallum a Z valószínűségi változót valószínűséggel nem tartalmazza, azaz

Page 40: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

30

Mivel a Z változó standard normális eloszlású (és ezen eloszlás szimmetrikus az Y tengelyre), ezért az intervallum is szimmetrikus lesz a Y

tengelyre, így helyett határokat használhatunk. A keresett intervallumba esés valószínűsége (Z standard normális eloszlású, az ismertösszefüggések felhasználásával 2 ) pedig:

Előre megadott magas valószínűségi szint esetén a Z valószínűségi változónak a konfidenciaintervallumba valószínűséggel kellesnie. Ekkor

azaz

Ebből z meghatározható táblázat (Függelék 1. táblázat) alapján, a megoldás legyen . A tehát az az érték, amely mellett a intervallum

kimetszi a standard normális eloszlás sűrűségfüggvénye alatti terület %-át. Ezt szemlélteti a 7.2. ábra.

2 Valószínűségszámítás 142. oldal

Page 41: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

31

7,2. ábra - A konfidenciaintervallum ábrázolása

Mivel a sokaság várható értékére (μ-re) akarunk egy intervallumot adni, rendezzük át a egyenlőtlenséget oly módon, hogy az intervallum

középpontjában a sokaság várható értéke (μ) álljon. Tehát azt jelenti, hogy Ebből

Vagyis a konfidenciaintervallum

Egy konkrét minta esetén a konfidenciaintervallum

Page 42: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

32

A mennyiséget hibahatárnak vagy maximális hibának nevezzük és Δ-val jelöljük. Ez az érték azt mutatja meg, hogy a becslés során valószínűséggel Δ-nál kevesebbet tévedünk.

A becslés hibahatárának csökkentésére több lehetőség is adódik. Csökkenthetjük a standard hibát, a értéket, illetve mindkettőt. A standard hiba, amintaátlag szórása csak a minta elemszámától függ (a sokasági szórás ( ) adott), mégpedig annak gyökével fordítottan arányos. Így a standard hiba,

s ezáltal a hibahatár csökkentésének egyik módja a minta elemszámának növelése. A értéke a megbízhatósági szinttől, az (1 – μ)-tól függ. Teháta megbízhatósági szint csökkentésével (az intervallumunk kisebb valószínűséggel tartalmazza a sokasági paramétert) a hibahatárt is csökkentjük.Összefoglalva az elmondottakat, a becslési pontosságot a minta elemszámának növelésével vagy a megbízhatósági szint csökkentésével javíthatjuk.De ez utóbbi csak látszateredmény, mert hiába adunk meg kis intervallumot, ha kis valószínűséggel esik csak bele a μ.

Jól látható, hogy az intervallum határai valószínűségi változók, értékük függ a minta átlagától. Mivel csak egyetlenegy minta áll a rendelkezésünkre,ezért a konfidenciaintervallum határai is konkrét számértékek lesznek. Ekkor a konfidenciaintervallumot úgy értelmezhetjük, hogy a sokaság várható

értéke valószínűséggel határok közé esik.

Tekintsünk vissza a 6. fejezetben elkezdett számpéldára. Határozzuk meg, hogy milyen határok közé esik 95%-os valószínűséggel a 371országgyűlési képviselő átlagéletkora, ha csak egyetlen 100 elemű mintát vettünk.

A konfidenciaintervallum megadásához tételezzük fel, hogy a sokaság normális eloszlású, és a minta elemeit visszatevéssel választottuk ki (tehátfüggetleneknek tekinthetjük). A kiválasztott 100 elemű minta átlaga 47,08 év. A 371 képviselő életkorának szórása (sokasági szórás) 9,85 év. Tehát:

A becslőfüggvény értéke a 100 elemű minta alapján:

A mintaátlag standard hibája:

Ezek után határozzuk meg a hibahatárt. Ehhez szükség van a értékére – a meghatározásához így –, amely a standard

normális eloszlás táblázatából kereshető ki. . A hibahatár:

Page 43: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

33

Tehát 95%-os valószínűséggel 1,93 évnél kevesebbet tévedünk a becslés során. A konfidenciaintervallum határai: 47,08 ± 1,93, így a 371 képviselőátlagéletkora 95%-os valószínűséggel 45,15 év és 49,01 év között van.

7,3. ábra - A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén

Page 44: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

34

Már említettük, hogy a konfidenciaintervallum határait befolyásolja a minta átlaga, vagyis az a tény, hogy a kiválasztás során melyik sokasági elemkerül be a mintába. Mivel a sokaság szórása ismert, továbbá változatlan a konfidenciaintervallumba esés valószínűsége (95%), ezért a maximálishiba, s ezáltal a konfidenciaintervallum hossza is ugyanaz lesz minden esetben. Tehát az intervallum elhelyezkedése csak egyetlen tényezőtől, amintaátlagtól függ. A 7.3 ábra 5 különböző minta esetén – amelyek mintaátlagai a 6.3. táblázatban találhatók és amelyek rendre 47,08 év, 49,51 év,51,25 év, 48,99 év és 49,45 év – a konfidenciaintervallum elhelyezkedését szemlélteti.

b) Normális eloszlású sokaság esetén, ha a sokaság szórása ( ) nem ismert

A becslés célja továbbra is az, hogy konfidenciaintervallumot készítsünk a sokaság várható értékére, Mivel a sokaság szórása (σ) nem ismert,ezért azt a mintából a korrigált tapasztalati szórás ( ) segítségével kell becsülni. Ennek következtében a

változót lehet csak használni az intervallum meghatározásához. Ez a változó (Student-féle) t-eloszlású valószínűségi változó

szabadságfokkal. 3 (Azért a szabadságfok, mert a számlálóban lévő valószínűségi változó nem független a valószínűségi változóktól.)

3 A Student-féle t-eloszlás sűrűség- és eloszlásfüggvénye a Valószínűségszámítás 196. oldalán található.

Page 45: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

35

7,4. ábra - A standard normális és a Student-féle t-eloszlás

A t-eloszlással kapcsolatban meg kell említenünk, hogy a standard normális eloszláshoz hasonlóan szimmetrikus az Y tengelyre, továbbá aszabadságfok növelésével a t-eloszlás egyre inkább közelít a standard normális eloszláshoz, 100 feletti szabadságfok esetén (azaz jelen esetben100-nál több elemű minta esetén) 4 a két eloszlás eltérése minimális lesz. A 7.4. ábrán a standard normális és a Student t-eloszlás sűrűségfüggvényétszemléltetjük. (Az N(0, 1) jelölés a standard normális eloszlásra utal.)

A konfidenciaintervallum az a) pontban megfogalmazott esethez hasonlóan vezethető le, azzal a különbséggel, hogy a Z helyett a változót

használjuk, továbbá az egyenlet megoldása helyett lesz, amely a Student t-eloszlás táblázatából kereshető ki (Függelék 4. táblázat).

Az elmondottaknak megfelelően a konfidenciaintervallum határai:

Konkrét minta esetén:

4 Ez az egyik magyarázata annak, hogy a 100-nál nagyobb elemű mintákat már nagy mintáknak tekintjük.

Page 46: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

36

ahol és

Folytassuk a példánkat azzal a feltevéssel, hogy a sokaság szórása (σ) nem ismert. Ekkor mintából kell becsülnünk. A minta elemeiből számított

korrigált tapasztalati szórás A mintaátlag standard hibája:

(Mivel a standard hiba kiszámításához a korrigált tapasztalati szórást használtuk fel, ezért konkrét minta esetén az jelölést használjuk a helyett.)

A hibahatár kiszámításához a Student t-eloszlás táblázatából kell kikeresni a -t, amelynek értéke a példában Ennek megfelelően ahibahatár:

A konfidenciaintervallum pedig: (47,77 ± 2,0) év. Tehát a 371 képviselő átlagéletkora 95%-os valószínűséggel 45,77 év és 49,77 év között van.

c) Nem normális, de ismert eloszlású sokaság esetén, ha nagy mintát vettünk

Nagy minta esetén – a 6.4. fejezetben elmondottak alapján – a mintaátlag a centrális határeloszlás tétele értelmében közelítőleg normális eloszlásúlesz, így a sokaság várható értékére adott konfidenciaintervallum alsó és felső határa konkrét minta esetén az

illetve a

összefüggés alapján határozható meg attól függően, hogy ismert vagy sem a sokasági szórás.

Page 47: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

37

Mivel nagy mintánk van – és nagy mintához tartozó szabadságfok esetén a Student t-eloszlás megközelítőleg egybeesik a standard normáliseloszlással –, a konfidenciaintervallum meghatározásához ismeretlen sokasági szórás esetén is használhatjuk a standard normális eloszlástáblázatát. (A fentiek közül az első intervallumot azzal a különbséggel, hogy a sokasági szórás (σ) helyett a mintabeli korrigált tapasztalati szórást(s) használjuk.)

d) Nem normális, de ismert eloszlású sokaság esetén, ha kis mintát vettünk, illetve ismeretlen eloszlású sokaság esetén

Mivel ekkor a minta átlagának eloszlásáról általánosan semmit sem tudunk mondani, ezért a konfidenciaintervallum meghatározása avalószínűségszámításból megismert Csebisev-egyenlőtlenség 5 alapján történik, amely a következő formában írható fel:

Tegyük fel, hogy valószínűségi változónk amelynek várható értéke szórása pedig ekkor a fenti egyenlőtlenség felírható a következő módon:

A felírt egyenlőtlenség nagyon hasonlít a korábban meghatározott konfidenciaintervallumra azzal a különbséggel, hogy itt a „szorzószám” nem egy

eloszlás táblázatából vett érték, hanem az összefüggésből határozható meg. Tehát a Csebisev-egyenlőtlenség azt mutatja

meg, hogy az intervallumba esés valószínűsége legalább . Természetesen, ha a sokaság szórása nem ismert, a helyett használható a

is.

Konkrét mintánál a Csebisev-egyenlőtlenség

formában írható fel, amelynél, ha a sokaság szórása nem ismert, a helyett az is használható.

5 Valószínűségszámítás 108. oldal

Page 48: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

38

Tekintsük a következő példát! Egy biztosítótársaság központjában az átlagkereset meghatározása céljából egy 20 elemű mintát vettek. A mintában

az átlagkereset a keresetek korrigált tapasztalati szórása pedig s = 21 300 Ft. Becsüljük meg legalább 95%-os valószínűséggel, hogymilyen határok között van a központ dolgozóinak átlagkeresete!

Először határozzuk meg a k értékét!

A mintaátlag standard hibája:

Ezek után kiszámíthatjuk a konfidenciaintervallum határait:

A központ dolgozóinak átlagkeresete legalább 95%-os valószínűséggel 26 910,3 Ft és 69 489,7 Ft között lesz.

Az eddigiek során feltételeztük – a pontos matematikai tárgyalás érdekében –, hogy független, azonos eloszlású minta áll a rendelkezésünkre. Ha aminta elemei egyszerű véletlen mintavételből származtak, akkor a konfidenciaintervallum meghatározása némiképp módosul az eddigiekhez képest.

A sokaság várható értékének a becslésére továbbra is a mintaátlag használható. A mintaátlag standard hibája (ami független, azonos eloszlású minta

esetén illetve volt, konkrét minta esetén pedig , illetve ) a 6.4. fejezetben leírtaknak megfelelően

illetve a korrigált tapasztalati szórás felhasználásával lesz. Az egyszerű véletlen mintavételnek számtalan jó tulajdonsága melletthátránya, hogy kismintás vizsgálatoknál csak közelítő módon tudunk konfidenciaintervallumot adni az átlagbecslésre. Szerencsére belátható, hogynagy minták esetén a

Page 49: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

39

változó standard normális eloszlást követ, így az intervallumbecslést az eddigiekben megismert módon lehet elvégezni. Egyetlen eltérés csupán,

hogy a standard hiba kiszámításakor a korrekciós tényezőt is figyelembe kell venni. Mivel nagy mintánk van, a fenti valószínűségi változóakkor is standard normális eloszlású, ha a sokasági szórás (σ) helyett a mintából becsült korrigált tapasztalati szórást ( ) használjuk.

Nézzünk néhány példát!

Tegyük fel, hogy az országgyűlési képviselők életkorának becslésére felhasznált minta elemeit nem visszatevéssel, hanem visszatevés nélkülválasztottuk ki (tehát egyszerű véletlen mintavétel történt). A minta elemei nem függetlenek, így a mintaátlag standard hibájának kiszámításánálalkalmaznunk kell a korrekciós tényezőt:

A hibahatár:

A konfidenciaintervallum pedig: (47,08 ± 1,65) év, azaz (45,43 ; 48,73) év.

Az a) pontban számított eredménnyel (45,15 ; 49,01) összehasonlítva megállapíthatjuk, hogy visszatevés nélküli mintavétel esetén akonfidenciaintervallum rövidebb – tehát pontosabb becslést eredményez –, mint visszatevéses mintavételnél. Ez az eltérés azzal magyarázható,hogy visszatevéses mintavétel esetén a „szélsőséges” mintaelemek ismét bekerülhetnek a mintába, így a becslési hiba nagyobb lehet.

Vegyünk egy másik példát!

Egy konzervipari vállalat 50 000 üvegből álló gyümölcskonzerv-szállítmány értékesítését tervezi. Minőség-ellenőrzés céljából egy 500 üvegből állómintát vesznek egyszerű véletlen mintavétellel. A mintába került üvegek nettó töltőtömeg szerinti megoszlása a következő (7.1. táblázat):

7.1. táblázat - A mintába került üvegek nettó töltési tömeg szerinti megoszlása

Üvegek nettó töltésitömege, gramm Üvegek száma

441 – 460

461 – 480

481 – 500

15

85

160

Page 50: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

40

501 – 520

521 – 540

190

50Összesen 500

Becsüljük meg 95%-os valószínűséggel, hogy milyen határok között van az üvegek átlagos nettó töltőtömege a szállítmányban!

Mivel a sokaság eloszlása nem ismert, de nagy mintát vettünk, a c) pontban megfogalmazott esettel van dolgunk. A feladat megoldása során elsőlépésként ki kell számolnunk a becslőfüggvény értékét, a mintaátlagot, majd a korrigált tapasztalati szórást kell meghatároznunk. A mintaátlag(súlyozott számtani átlag formát alkalmazva):

A korrigált tapasztalati szórás:

A mintaátlag standard hibája:

Az értékhez és az szabadságfokhoz tartozó Student t-eloszlású változó értéke és így a hibahatár:

A konfidenciaintervallum határai pedig:

az alsó határ: 497 – 1,7 = 495,3 gramm,

a felső határ: 497 + 1,7 = 498,7 gramm.

Tehát az 50 000 üveg átlagos nettó töltőtömege 95%-os valószínűséggel 495,3 és 498,7 gramm között van.

Page 51: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

41

Megjegyzés: A hibahatár meghatározásához (tekintettel a nagy mintaelemszámra) használhatjuk a Student t-eloszlás helyett a standard normális

eloszlás táblázatát is. Az esetén a standard normális eloszlású változó értéke . A és a érték megegyezik, ezért ugyanahhozaz eredményhez jutunk.

7.3.2. A sokasági értékösszeg becslése

A minta alapján a sokasági várható érték mellett lehetőségünk van ezen mutató N-szeresének, a sokasági értékösszegnek a

becslésére is. A sokasági értékösszeg becslőfüggvényeként nem a mintabeli értékösszeget használjuk, hanem a mintaátlag N-szeresét.Így a sokasági értékösszeg becslőfüggvénye:

Mivel a becslőfüggvény az átlagbecslés becslőfüggvényének egy konstanssal (N) történő szorzásával jön létre, ezért a standard hiba négyzete isN-szerese lesz az átlagbecslés standardhiba-négyzetének:

attól függően, hogy ismert vagy sem a sokasági szórás.

Konkrét mintából számolva a standard hiba négyzete:

Ezek után a sokasági értékösszegre adott konfidenciaintervallum alsó és felső határa a következő lesz:

Konkrét minta esetén pedig a határok az

Page 52: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

42

összefüggéssel határozhatók meg, ahol

Fontos megjegyeznünk, hogy a keresett intervallumot megkaphatjuk úgy is, hogy a sokasági várható értékre adott konfidenciaintervallum határait

– pl. – megszorozzuk N-nel, hisz a sokasági értékösszegre adott konfidenciaintervallum levezetésénél a becslőfüggvényt ésannak standard hibáját is megszoroztuk a sokaság elemszámával, N-nel.

Az előzőekben meghatározott konfidenciaintervallum, ha a minta elemszáma nagy, mind független azonos eloszlású, mind egyszerű véletlen mintaesetén használható. A különbség csak a standard hiba kiszámításában van. Kis minta esetén – hasonlóan az átlagbecsléshez – a megadottösszefüggés csak akkor használható, ha független, azonos eloszlású mintánk volt.

Folytassuk a gyümölcskonzerv-szállítmányra vonatkozó példánkat, és határozzuk meg, milyen határok között lesz 95%-os valószínűséggel az 50000 üveg összes nettó töltőtömege !

A becslőfüggvény értéke az eddigi számítási eredmények felhasználásával:

Egyben 24 850 kg a pontbecslés értéke is, hiszen egyetlen mintához egyetlen értéket rendel.

Az intervallumbecsléshez a becslőfüggvény standard hibája:

A konfidenciaintervallum pedig esetén:

Ugyanarra az eredményre jutunk, ha a sokasági várható értékre adott konfidenciaintervallum határait megszorozzuk 50 000-rel. Így

Tehát 50 000 üveg összes nettó töltőtömege 95%-os valószínűséggel 24 765 és 24 935 kg között van.

Page 53: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

43

7.3.3. A sokasági arány becsléseA sokasági arány becslésének, az ún. aránybecslésnek az a lényege, hogy a sokaságot valamely minőségi vagy mennyiségi ismérv alapján kétcsoportba soroljuk, és az egyes csoportokba esés valószínűségét akarjuk meghatározni. Vizsgálhatjuk például a sokaságon belül a férfiak vagy anők arányát, egy vállalaton belül azon dolgozók arányát, akiknek a keresete magasabb, mint 25 000 Ft, vagy valamely terméknél bizonyos minőségikövetelményeknek megfelelő darabok arányát. A sokasági arányt P-vel jelöljük. Ez azt jelenti, hogy egy egyedet kiválasztva P a valószínűségeannak, hogy az egyed rendelkezik az adott tulajdonsággal.

Továbbra is feltételezzük, hogy független, azonos eloszlású minta áll a rendelkezésünkre.

Ha n elemű mintát veszünk, akkor legyen az adott tulajdonsággal rendelkező mintabeli elemek száma . Független minta esetén binomiális eloszlású (Bernoulli-féle kísérletsorozatról van szó) és

Így a mintabeli arány

várható értéke így a P-nek torzítatlan becslése, és szórásnégyzete

Mivel P és így eleve ismeretlen (hiszen a P-t akarjuk meghatározni), ezért a -ot -nel becsüljük.

Egy konkrét mintában p-vel jelöljük a értékét, a értékét pedig -nel. Úgy is felfoghatjuk, hogy legyenek az adotttulajdonsághoz tartozó karakterisztikus valószínűségi változók, azaz

Page 54: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

44

Ekkor és

Ugyanakkor

vagyis és

Az eddigiek során alkalmazott gondolatmenetnek megfelelően a mintából számított arány ( ) alapján a binomiális eloszlás segítségévelmegkaphatjuk a keresett konfidenciaintervallumot. Ezt az eljárást a gyakorlatban ritkán alkalmazzuk. Helyette (mivel nagy mintaelemszám esetén abinomiális eloszlás jól közelíthető normális eloszlással) definiálhatunk egy

valószínűségi változót, amely standard normális eloszlású, ha n elég nagy. Ekkor a konfidenciaintervallum meghatározásához a standard normáliseloszlást használjuk, s ennek segítségével (hasonló gondolatmenetet alkalmazva, mint az átlagbecslésnél) a következő módon írhatjuk fel a keresettintervallumot:

amelyből a konfidenciaintervallum alsó és felső határa konkrét minta esetén:

ahol a egyenlet megoldása során a standard normális eloszlás táblázatából kikeresett érték.

Ha egyszerű véletlen minta áll a rendelkezésünkre, akkor a konfidenciaintervallum meghatározása az előzőektől csak annyiban különbözik, hogy az

kiszámításánál a korrekciós tényezőt is figyelembe kell venni.

Page 55: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

45

Egyik közvélemény-kutató cégünk a választók között a választás napján közvélemény-kutatást végzett abból a célból, hogy az urnák lezárása utánröviddel közzétegye a választás becsült eredményét. A fővárosban az egyik pártra a 2000 megkérdezettből 700 szavazott. Becsüljük meg 99%-osvalószínűséggel, hogy milyen határok között lesz a pártra szavazók aránya a szavazatok összeszámlálása után a fővárosban!

A pártra szavazók aránya a mintában (a becslőfüggvény értéke):

majd kiszámítjuk a standard hibát:

A 99%-os valószínűséghez tartozó táblázatbeli érték felhasználásával a konfidenciaintervallum határai:

Tehát a szavazatok összeszámlálása után 99%-os valószínűséggel arra számíthatunk, hogy a kiválasztott pártra szavazók aránya 32,2% és 37,8%között lesz.

7.3.4. A sokasági szórásnégyzet becsléseA sokasági szórásnégyzet ( ) becslésére a torzítatlan becslést eredményező korrigált tapasztalati szórásnégyzetet ( ) használjuk.

Független, azonos eloszlású minta esetén definiáljuk az

változót. Ha a minta tagjainak szórásnégyzete és akkor a valószínűségi változók

várható értéke 0 és szórásuk 1. Ha feltételezzük, hogy normális eloszlásúak, akkor négyzetösszegük, így is szabadságfokkal.

Page 56: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

46

A 6 érdemes megjegyezni, hogy független standard normális eloszlású változók négyzetösszegének eloszlását fejezi ki. Egyetlen

szabadságfoka van, ami az összegezendő független változók számával egyenlő. A csak pozitív értékekre van értelmezve, s balrólaszimmetrikus. Az eloszlás sűrűségfüggvényét a 7.5. ábra szemlélteti.

7,5. ábra - A sűrűségfüggvénye különböző szabadságfokok esetén

A 7.3.1. pontban már megállapítottuk, hogy annak valószínűsége, hogy a sokasági paraméter a konfidenciaintervallumba esik, s annak

valószínűsége, hogy nem, . Sokasági paraméterünk valószínűséggel lesz kisebb a konfidenciaintervallum alsó határánál, s ugyanekkora

valószínűséggel lesz nagyobb a felső határánál. Mivel a aszimmetrikus, az eddigi esetekkel ellentétben a konfidenciaintervallum nem leszszimmetrikus a pontbecslésre.

A konfidenciaintervallum képzéséhez írjuk fel az alábbi összefüggést:

6 Valószínűségszámítás 196. oldal

Page 57: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

47

ahol a illetve a az szabadságfok esetén a eloszlásfüggvényének az illetve az értékhez tartozó kvantilise. Ezt a

táblázatából kereshetjük ki. (Függelék 2. táblázat.) Mivel az eloszlás nem szimmetrikus, mind a két értéket ki kell keresnünk a táblázatból.Átrendezés után a következő összefüggés írható fel:

Ebből már felírhatjuk a sokasági szórásra adott konfidenciaintervallumot. Konkrét minta esetén

Nézzünk egy példát az elmondottakra.

Egy 250 grammos vákuumos kávét csomagoló gép működésének vizsgálatához egy 100 elemű véletlen mintát vettek az egyik munkanapon. Amintába került kávécsomagok nettó töltési tömeg szerinti megoszlása a következő volt:

7.2. táblázat - A mintába került kávécsomagok megoszlása

A csomagok töltésitömege (gramm)

A csomagokszáma

– 240

240 – 245

245 – 250

250 – 255

255 –

8

22

32

28

10Összesen 1002

Tegyük fel, hogy a kávécsomagok töltési tömeg szerinti eloszlása normálisnak tekinthető.

Page 58: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

48

Határozzuk meg, hogy milyen határok között lesz a kávécsomagok töltési tömegének szórása 95%-os valószínűséggel!

Először számítsuk ki a minta átlagát és szórását!

A táblázatából szabadságfoknál kikeressük a megfelelő táblázati értékeket, melyek

(Mivel a táblázata a 99-es szabadságfokhoz tartozó értéket nem tartalmazza, ezért a 100-nál talált értékeket adtuk meg.)

Így a szórásra adott megbízhatósági intervallum határai:

Tehát a kávécsomagok nettó töltési tömegének ingadozása (szórása) 95%-os megbízhatóság mellett 2,1 és 2,7 gramm között van. Természetesenkülön vizsgálat tárgyát képezi az a torzítás, amely abból származik, hogy a normalitási feltételünk hibás.

7.4. A konfidenciaintervallum meghatározása rétegzett mintavételesetén

A 6.2.4. pontban részletesen tárgyaltuk a rétegzett mintavételi eljárást. Emlékeztetőül itt csak annyit említünk meg, hogy ezen mintavételi módnál asokaságot oly módon bontjuk rétegekre, hogy a sokaság minden elemét tartalmazzák a rétegek, de egyetlen elem se tartozzon egynél több csoportba,és rétegenként egyszerű véletlen mintát veszünk.

Page 59: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

49

Az eddigiek során a sokaság várható értékére, a sokasági értékösszegre és az arányra mind független azonos eloszlású minta, mind egyszerű véletlenminta esetén megadtuk a konfidenciaintervallumot. (A sokasági szórásra csak független azonos eloszlású minta esetén tettük meg mindezt.) Mivel arétegzett mintavétel során a minta elemeit rétegenként egyszerű véletlen mintavétellel választjuk ki, ezért a konfidenciaintervallum meghatározásánálcsak ezzel az esettel fogunk foglalkozni.

A rétegzett mintából történő becslés tanulmányozásához további jelölések bevezetésére van szükség. Ezeket a 7.3. táblázatban tekintjük át.

7.3. táblázat - A rétegzett mintából történő becslés jelölésrendszereMegnevezés Sokaságban Mintában Konkrét mintábanElemszám N n n

A rétegek száma M M MElemszám az

egyes rétegekbenA j-edik réteg aránya(súlya) a sokaságban

A j-edik réteg i-edik eleméhez

tartozó ismérvérték

A j-edik réteg átlaga

A j-edik réteg szórása

Adott tulajdonsággalrendelkezők aránya

Véges sokaság feltételezése mellett az ismeretlen sokasági várható érték azonos az átlaggal , és a rétegátlagok súlyozott számtani átlagakéntszámítható ki:

Page 60: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

50

Nézzük most a becslést a mintaelemek nem arányos elosztása esetén! Mivel minden rétegből egyszerű véletlen mintát veszünk, a rétegátlagokat

célszerű a megfelelő mintaátlagokkal becsülni. Tehát a j-edik réteg átlagának a becslőfüggvénye a j-edik réteg mintaátlaga, a Célunk azonbannem a rétegátlag, hanem a sokasági átlag becslése. A sokasági várható érték becslőfüggvényét a mintaátlagoknak a sokasági rétegarányokkalsúlyozott átlagaként kapjuk, amely képlettel felírva a következő:

A konfidenciaintervallum meghatározásához azonban szükségünk van a becslőfüggvény standard hibájára. (Az egyszerűség kedvéért azösszefüggéseket a standard hiba négyzetére mutatjuk be.) Tehát

amely a rétegek függetlensége miatt tovább írható a következő módon:

Így az összefüggés redukálódott a j-edik réteghez tartozó mintaátlag szórásnégyzetének a rétegarányok négyzetével súlyozott átlagára.

Egyszerű véletlen mintavétel esetén

Ezt visszahelyettesítve az előző összefüggésbe, azt kapjuk, hogy

Ennek négyzetgyöke a standard hiba.

Természetesen, ha nem ismerjük a rétegenkénti szórásnégyzetet, akkor a mintából kell becsülnünk a korrigált empirikus szórásnégyzet segítségével,s így a standard hiba:

Page 61: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

51

A konfidenciaintervallum meghatározásához a becslőfüggvény eloszlásának ismerete is szükséges. Ezen becslőfüggvényről belátható, hogynagy minta esetén közelítőleg standard normális eloszlású (s a rétegzett mintavételnél általában nagy mintával van dolgunk). Így a sokasági várhatóértékre adott megbízhatósági intervallum határai a következők:

Konkrét minta esetén pedig

Vizsgáljuk meg, hogy a mintaelemek arányos elosztása esetén hogyan határozhatók meg a konfidenciaintervallum határai!

Ha a minta elemeit arányos elosztással választottuk ki, akkor az egyes rétegek aránya a mintában és a sokaságban megegyezik, tehát Eztbehelyettesítve a rétegzett mintavétel esetén a sokasági várható érték becslőfüggvényébe

adódik. Tehát a becslőfüggvény a rétegátlagoknak a mintabeli rétegarányokkal súlyozott számtani átlaga.

Ha behelyettesítjük a rétegzett mintavétel esetén az átlagbecslés standard hibájának négyzetét mutató összefüggésbe,

adódik, és felhasználva, hogy -tel, azaz a mintabeli belső szórásnégyzettel, akkor arányos elosztás esetén az átlagbecslés standardhibájának négyzete a következőképpen is írható:

Page 62: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

52

Ennek négyzetgyöke a standard hiba.

Ha a rétegenkénti szórás nem ismert, akkor a fenti összefüggés helyett konkrét minta esetén az

képletet használjuk, ahol

továbbá a mintából számított j-edik réteg korrigált tapasztalati szórásnégyzete.

Arányos rétegzés esetén így egyszerűsödik az átlagbecslés standard hibáját meghatározó összefüggés, és világossá válik, hogy a rétegzettmintavételnél a becslés pontossága csak a rétegeken belüli szóródástól függ. Továbbá belátható, hogy a rétegzett mintavétel standard hibája kisebb,mint az egyszerű véletlen mintavételé, mivel a mutató kiszámításánál csak a csoportokon belüli szórással számolunk, s nem vesszük figyelembe

a rétegátlagok különbözőségét. (Ismeretes, hogy a sokaság teljes szórásnégyzete Ha a sokaság erősen heterogén, akkor a nagy,így az arányosan rétegzett becslés standard hibája lényegesen kisebb lesz az egyszerű véletlen mintavételen alapuló becslésénél. Ezért a rétegzettmintavétel pontosabb becslést eredményez, mint az egyszerű véletlen mintavétel. Ezzel szemben, ha a sokaság közel homogén volt, akkor a teljes

szórásnégyzet nagy részét a eredményezi, s ekkor a rétegzés nem vezet lényegesen pontosabb eredményre.

Mivel az arányos elosztás esetén használt összefüggést a nem arányos elosztás esetén használt összefüggésből vezettük le, ezért a becslőfüggvénynagy minta esetén továbbra is standard normális eloszlású lesz, így a konfidenciaintervallum konkrét minta esetén az

összefüggésekkel határozható meg, attól függően, hogy ismert vagy sem a rétegenkénti szórás.

Page 63: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

53

Értékösszegbecslés esetén a rétegzett mintavételnél hasonlóan járunk el, mint egyszerű véletlen minta esetén. Nevezetesen a sokasági várhatóértékre adott konfidenciaintervallum határait meg kell szorozni N-nel.

Aránybecslésnél a sokasági arány becslőfüggvénye a mintabeli arányok súlyozott átlagaként számítható ki, azaz

Konkrét minta esetén

A standard hiba kiszámítása során konkrét mintánál – mind arányos, mind nem arányos elosztásnál – a nem arányos elosztás esetén használt

összefüggésben a rétegszórások ( ) helyett a szerepel. Tehát

A konfidenciaintervallum határait pedig konkrét minta esetén a

összefüggésbe történő behelyettesítéssel határozhatjuk meg.

Tekintsük a következő példát! A díjköteles levélpostai küldemények egyhavi forgalmát kívánta megbecsülni a Magyar Posta. Ezért a postahivatalokata forgalom nagysága szerint három csoportba (A, B és C) sorolták, és az egyes csoportokból egyszerű véletlen kiválasztással mintát vettek. Asokaság és a minta megoszlását, továbbá a számítási eredmények egy részét valamely hónapban a 7.4. táblázat tartalmazza.

7.4. táblázat - A számításhoz szükséges adatok

Hivatalok száma Levélpostaiküldemények számának

Rétegek a sokaságban a mintában átlaga (E db) szórása (E db)

Page 64: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

54

a mintában

A

B

C

80

420

2690

38

26

32

101,0

12,0

1,5

54,0

6,0

0,8Összesen 3190 96 ... ...

Adjunk pont- és intervallumbecslést a Magyar Posta havi átlagos levélforgalmára! (A megbízhatósági szint 95%.)

Először vizsgáljuk meg, hogy a mintaelemeket arányosan osztották-e el az egyes rétegek között! Ehhez határozzuk meg az egyes rétegek arányáta sokaságban és a mintában! A számítási eredményeket a 7.5. táblázat mutatja.

7.5. táblázat - A sokaság és a minta elemszámának megoszlása

Rétegek Az egyes rétegek aránya (%)a sokaságban a mintában

A

B

C

2,5

13,2

84,3

39,6

27,1

33,3Összesen 100,0 100,0

Mivel az egyes rétegek aránya nem egyezik meg az alapsokaságban és a mintában, így a mintaelemek szétosztása nem arányos elosztással történt.

Becsüljük meg a postahivatalok átlagos forgalmát a nem arányos elosztás esetén használt képlet alapján! A példában:

Tehát a Magyar Posta havi átlagos levélforgalma 5378 db. (Ekkor pontbecslést adtunk a levélforgalomra.)

Page 65: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

55

A standard hiba négyzetének meghatározására – mivel a rétegszórások a sokaságban nem ismertek – az képletethasználjuk. Így a példában:

amelyből a standard hiba:

A keresett megbízhatósági intervallum határai pedig felhasználásával:

Megállapíthatjuk, hogy az egyhavi átlagos levélforgalom 95%-os megbízhatósággal 4890 és 5866 db között van adott hónapban.

Becsüljük meg 95%-os valószínűséggel az adott havi összes levélforgalmat!

Tehát a Magyar Posta összes levélforgalma a vizsgált hónapban 95%-os valószínűséggel 15 599,1 E db és 18 712,54 E db között van .

Tekintsük a következő példát!

Egy városban kérdőíves felméréssel vizsgálták a házi munkára fordított idő nagyságát. A vizsgált településen 80 000 felnőtt lakos lakik, akik közül36 000 férfi. A nem szerinti hovatartozás alapján rétegzett 1000 elemű mintára vonatkozó információkat a 7.6. táblázat tartalmazza.

7.6. táblázat - 1000 elemű minta adatai

A lakosság száma A házi munkával töltött időa mintában átlaga (óra) szórása (óra)

Nem a mintában

Page 66: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

56

Férfi

450

550

0,6

4,0

1,5

1,2Összesen 1000 ... ...

Határozzuk meg a házi munkával töltött napi átlagos időt a felnőtt lakosság egészére 95,5%-os megbízhatósági szinten!

Mivel a férfiak aránya a mintában és a sokaságban megegyezik (a férfiak aránya 45%, a nőké pedig 55%), a mintát arányos elosztással választották ki.

A házi munkával töltött idő átlaga:

Mivel a rétegenkénti sokasági szórás nem ismert, ezért a standard hiba kiszámítására az összefüggést használjuk. Ehhez előszörcélszerű meghatározni a belső szórásnégyzetet:

Ennek felhasználásával a standard hiba:

Mivel a keresett konfidenciaintervallum határai:

Megállapíthatjuk, hogy a városban a házi munkára fordított átlagos idő 95,5%-os valószínűséggel 2,386 óra és 2,554 óra között van.

Page 67: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

57

Induljunk ki az előző példa eredményeiből! Határozzuk meg, hogy mekkora lenne a becslés standard hibája, ha a minta elemeit nem rétegzett, hanemegyszerű véletlen mintavétellel választottuk volna ki!

Természetesen a becslőfüggvény értéke, a mintaátlag továbbra is 2,47 óra. A standard hiba meghatározásához szükség van a mintaelemek teljes

szórására, amely nemcsak a rétegeken belüli szórástól ( ), hanem a rétegek közötti szórástól ( ) is függ. Ezért meg kell határoznunk a külsőszórást. Ehhez először kiszámítjuk a mintában a külső szórásnégyzetet:

A már korábban kiszámított ismeretében a teljes szórásnégyzet:

Ezek után egyszerű véletlen mintavétel feltételezése esetén a standard hiba:

Megállapíthatjuk, hogy egyszerű véletlen mintavételnél a standard hiba 0,068 óra, míg rétegzett mintavétel esetén csak 0,042 óra. Tehát a rétegzettmintavétel alkalmazása csökkentette a standard hibát.

7.5. A minta elemszámának meghatározásaAz eddigiek során feltételeztük, hogy rendelkezésre áll egy meghatározott elemszámú minta, amely elemeinek felhasználásával meghatároztukvalamely sokasági jellemzőt adott megbízhatósággal tartalmazó konfidenciaintervallum határait. A becslést ismert mintanagyság alapján végezzükel. Ekkor a becslés pontossága a mintaelemek számától is függ.

Közelítsük meg a problémát a másik oldalról. Határozzuk meg, hogy mekkora mintára van szükségünk ahhoz, hogy egy adott megbízhatósági szint

mellett egy adott pontosságot ( ) tudjunk biztosítani. Ezen gondolatmenetet az is indokolja, hogy a reprezentatív adatfelvétel során előremegtervezzük, rögzítjük a pontossági és a megbízhatósági követelményeket.

A minta elemszámának meghatározását független, azonos eloszlású minta és egyszerű véletlen minta esetén mutatjuk be.

Független, azonos eloszlású mintánál a hibahatár a már megismert képlet szerint:

Page 68: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

58

amelyből átrendezéssel meghatározhatjuk a szükséges minta elemszámát:

A fenti összefüggésből látható, hogy a mintaelemszám négyzetesen arányos a megbízhatósággal és a sokasági szórással, fordítottan arányos ahibahatár négyzetével (a pontossággal).

Egyszerű véletlen mintavétel esetén a standard hiba meghatározásánál a korrekciós tényezőt, ..-t is figyelembe kell venni, amely a hibahatárt ismódosítja. Így:

Átrendezés után a szükséges minta elemszáma:

Igazolható, hogy ha véges sokaságból visszatevéssel választjuk ki a minta elemeit (tehát független, azonos eloszlású mintát veszünk), akkor adottpontossági és megbízhatósági feltételek mellett nagyobb mintaelemszámra van szükség, mint ha véges sokaságból visszatevés nélkül (egyszerűvéletlen mintavétellel) választottuk volna ki a minta elemeit.

A mintanagyságot az egyéb véletlen kiválasztási módok esetén is rögzített pontossági és megbízhatósági feltételek mellett határozzuk meg afenti összefüggések alkalmazásával. Így például rétegzett mintavétel esetén, ha a mintaelemeket arányos elosztással választottuk ki, a fenti

összefüggésben a helyett a kell használnunk.

Fontos megjegyzés: ha a sokasági szórás nem ismert, a minta elemszámának meghatározásánál használhatjuk a korábbi mintavételből származószórást is.

Térjünk vissza a gyümölcskonzerv-szállítmánnyal foglalkozó példánkhoz, amelynek eredményei a következők voltak: A mintába került konzerveknettó töltőtömegének szórása: A hibahatár 1,7 gramm, a megbízhatósági szint pedig 95%, és 50 000 üveget tartalmaz a szállítmány.

a) Határozzuk meg, hány elemű mintára van szükség, ha változatlan megbízhatóság és szórás esetén a pontosságot a felére csökkentjük!

Page 69: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

59

Ha a pontosság a felére csökken, akkor a hibahatár kétszeresére nő, tehát

Ekkor lényegesen kevesebb (126) elemű minta is elegendő lenne.

b) Hány elemű mintára van szükség, ha változatlan pontosság mellett a megbízhatóságot 98%-ra akarjuk növelni?

Ekkor a a szükséges minta elemszáma pedig

Tehát ha a megbízhatóságot 98%-ra növeljük, változatlan pontosság mellett nagyobb (698 elemű) mintára lenne szükség.

7.6. Gyakorlófeladatok1. Egy szoros elszámolásra nem kötelezett bolt napi eladási forgalmára 12 véletlenszerűen kiválasztott napon az alábbi megfigyeléseket tették.(Forgalom 1000 Ft-ban, kerekítve.)

17,2; 10,8; 14,6; 15,5; 20,4; 16,3; 16,8; 17,5; 16,3; 18,1; 16,6; 20,5.

Korábbi tapasztalatok alapján azt állíthatjuk, hogy a napi forgalom normális eloszlású.

Feladat:

a) Készítsünk 95%-os megbízhatósággal intervallumbecslést a napi átlagos forgalomra!

b) Mondjuk meg a standard hiba, a maximális hiba és a konfidenciaintervallum jelentését!

2. Egy üdítőital-féleség palackozására új automata gépsort vásároltak. 500 elemű (10%-os) véletlen minta segítségével vizsgálják a gépteljesítményét. Feltételezzük, hogy a töltési tömeg normális eloszlást követ.

Üdítőital tömege (gramm) Palackok száma (db)– 960 50

Page 70: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

60

961 – 980

981 – 1000

1001 – 1020

1021 – 1040

75

300

50

25Összesen 500

Feladat:

a) Készítsünk intervallumbecslést:

1. a palackok átlagos töltőtömegére (95%-os megbízhatósággal),

2. az 1000 gramm töltőtömeg feletti üvegek arányára (90%-os megbízhatósággal)!

b) 5000 palack eladott üdítőital esetén maximálisan hány olyan palack van, amelyben 1000 gramm feletti a töltőtömeg? (Valószínűségi szint 90%.)

3. Egy gazdaságban tájékozódni kívánnak arról, hogy az 1000 hektáros búzavetés-területen milyen termés várható. Ennek érdekében véletlenkoordináták alapján kijelölt 1 m2-es mintavételi tereken 100 mintavételt végeznek. A mintából nyert adatok a következők:

Terméknagyság-csoportok (g/m2)

A mintaelemekszáma

– 450

451 – 500

501 – 550

551 – 600

601 – 650

651 – 700

701 –

4

8

20

32

20

12

4Összesen 100

Page 71: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

61

Feladat:

Becsüljük meg 95%-os megbízhatósági szinten

a) a várható termésátlagot,

b) az 1000 ha-os területen várható búzatermés mennyiségét!

4. Az egyik húsipari vállalatnál 500 gramm névleges tömegű húskonzerv töltésére új gépet állítottak üzembe. Egy 100 elemű minta segítségévelvizsgálták a gép teljesítményét. Feltételezhető, hogy a töltési tömeg normális eloszlást követ.

A 100 elemű mintában az átlagos töltési tömeg 498,6 gramm, a szórás 11,2 gramm.

Feladat:

a) Jelöljünk ki a konzervek átlagos töltőtömegére konfidenciaintervallumot

1. 95%-os megbízhatósági szinten,

2. 98%-os megbízhatósági szinten!

b) Ha ugyanezen információk 200 elemű mintából származnának, hogyan módosulnának az a) pontbeli intervallumok?

5. Egy 500 elemű minta alapján arra kívántak választ kapni, hogy Magyarországon a gyümölcscentrifuga mennyire elterjedt. A megkérdezettháztartások közül 80-ban volt ilyen gép. A háztartások száma a vizsgált évben 4 millió volt.

Feladat:

a) Becsülje meg 95,5%-os megbízhatósági szinten a gyümölcscentrifugával rendelkező háztartások arányát!

b) Hány darabra becsülhető a háztartásokban használt gyümölcscentrifugák száma? (Valószínűségi szint: 95,5%.)

6. Egy könyvtárban egy adott héten a beiratkozott olvasók 5%-a fordult meg és kölcsönzött könyvet. Elemzés céljából feljegyezték az olvasók általkölcsönzött könyvek számát:

A kölcsönzöttkönyvek száma Olvasók száma

1

2

14

15

Page 72: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

62

3

4

5

6

7

8

24

20

15

10

8

4Összesen 110

Feladat:

a) Adjunk 90%-os megbízhatósági intervallumot a háromnál több könyvet kölcsönzők arányára vonatkozóan!

b) Milyen szóródást mutat a mintában a kölcsönzött könyvek száma? (A szórás mutatószámával mérve.)

c) Milyen határok között becsülhető – 95%-os megbízhatósági szinten – a b) pontbeli mutatószám?

7. Egy bizonyos típusú televíziókészülék javításával Budapesten csak egy szerviz foglalkozik. Egy 100 elemű mintából az újonnan vásárolt ésgaranciális időn belül meghibásodott készülékek száma 30 db volt. Készítsünk 95%-os megbízhatósággal intervallumbecslést arra vonatkozóan,hogy az adott évben értékesített 10 000 db készülék közül hány db szorul majd garanciális javításra?

Feladat:

Hány elemű mintából kapnánk olyan becslést, amelynek

a) 98%-os a megbízhatósága változatlan hibahatár mellett?

b) változatlan megbízhatóság mellett kétszeres a pontossága?

8. Valamely felsőoktatási intézményben a napi átlagos ebédköltség nagyságának becslésére az ott tanuló 1800 diákból 200 fős mintát vettek. Azintézményen belül a hallgatók 60%-a fiú. A 200 fős minta eredményei:

Nem Megkérdezettekszáma (fő)

Átlagos ebédköltség(Ft/fő/nap)

Az ebédköltség rétegenbelüli szórása (Ft/fő/nap)

Fiú 120 400 124

Page 73: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

63

Lány 80 220 118Együtt 200 ... ...

Feladat:

a) Becsüljük meg a hallgatók átlagos napi ebédköltségét 95%-os megbízhatósággal!

b) Becsüljük meg, mekkora bevételre tenne szert naponta az étkezést biztosító cég, ha valamennyi hallgató az intézményben ebédelne!

c) Számítsuk ki, hogy mennyi lenne a becslés során elkövetett standard hiba, ha nem rétegeztük volna a mintát?

9. Egy országban új társasági adótörvény bevezetését tervezi a kormány. Szeretnék a lehető legmagasabb adót kivetni, de nem akarják elveszíteni asok külföldi befektetőt s lehetetlen helyzetbe hozni a vállalkozásokat. Ezért a törvény alkotása előtt egy előzetes felmérést végeztek arra vonatkozóan,mi az a maximális adókulcs, amit még a vállalkozók is elfogadhatónak tartanak. Az országban 348 600 vállalkozás működik. Egy 1000 eleműmintavétel eredményei:

A vállalkozástulajdonosa

A vállalkozásokaránya a

sokaságban(%)

Amegkérdezettvállalkozásokszáma (db)

Javasoltmaximálisadókulcs

átlaga (%)

Javasoltmaximálisadókulcs

szórása (%)Belföldi

Külföldi

Vegyestulajdonú

26

32

42

300

250

450

30

20

25

6

5

7

Összesen 100 1000 ... ...

Feladat:

Becsüljük meg 95,5%-os megbízhatósági szinten, mennyi a vállalkozások által javasolt adókulcs átlagos nagysága!

10. Egy reprezentatív felmérés során vizsgálták a libamájtermelést a libamáj-hasznosítású hibrideknél. A 25 ezer db-os hibridállomány 40%-a gödöllőimájhibrid, 30%-a Hungavis-kombi, 30%-a Hungavis-barna. A vizsgálat során levágott 500 lúdra vonatkozó adatok:

Fajta Ludakszáma (db)

A máj átlagostömege (gramm)

A tömeg relatívszórása (%)

Page 74: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

64

Gödöllői májhibrid

Hugavis-kombi

Hungavis-barna

175

75

250

695

530

610

16,0

13,0

14,0Összesen 500 ... ...

Feladat:

Becsüljük meg 95,5%-os valószínűségi szinten

a) a libamáj átlagos tömegét

– az egyes fajtáknál,

– az állatállomány egészére,

b) a májhasznosítású hibridek által termelt libamáj várható össztömegét!

11. Egy gazdaságban 3000 almafa össztermését kívánják megbecsülni. Ennek érdekében a két almafajta (A és B) terméséből arányosan rétegzett10%-os mintát vesznek. A 2250 A fajtából kiválasztott 225 fán az összes termés 27 000 kg, a B fajtából a mintába került almafákon az összes terméspedig 11 250 kg volt. A mintaátlagoktól számított eltérés-négyzetösszeg az egyes fajtáknál a következő: A-nál 201 600, B-nél 118 400.

Feladat:

a) Számítsuk ki

– az egyes rétegekben az átlagos almatermést,

– az egyes rétegek szórását!

b) Becsüljük meg a gazdaság várható össztermését 95%-os megbízhatósági szinten!

c) Az A fajtánál a „nagyon gyenge” termésű fák aránya: 12%, a B fajtánál pedig 8%. Mennyire becsülhető ez az arány az egész gazdaságban? Hányilyen almafa „pótlásáról” célszerű gondoskodni? (A valószínűségi szint 90%-os.)

12. A személygépkocsi-abroncsok minőségét egyszerű véletlen minta segítségével ellenőrzik. A késztermékek minőség-ellenőrzése során azabroncsok 20%-a nem felelt meg a minőségi követelményeknek.

Feladat:

Page 75: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztikai becslések

65

Határozzuk meg a minőségileg kifogásolt termékek arányának konfidenciaintervallumát, ha a fenti értéket és elemű mintábólkaptuk (a megbízhatóság 95%-os)!

Page 76: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

66

8. fejezet - HipotézisvizsgálatAz előző fejezetben megismert becslési eljárások során a sokasági paramétert ismeretlennek tekintettük, és a mintából származó adatokatarra használtuk fel, hogy az ismeretlen sokasági paraméter közelítő értékét meghatározzuk. A hipotézisvizsgálatnál ezzel szemben egy (vagytöbb) sokaságról állítunk valamit, majd a rendelkezésünkre álló minta (vagy minták) alapján az állítás helyességét ellenőrizzük. Másképpenmegfogalmazva: azt próbáljuk eldönteni, hogy valamely mintából számított érték és egy általunk előre feltételezett érték közötti eltérés elég nagy-e ahhoz, hogy állításunk helyességét megkérdőjelezzük.

8.1. A hipotézisvizsgálat alapfogalmaiEgy vagy több sokaságra vonatkozó állítást, feltevést hipotézisnek nevezünk. A hipotézis vonatkozhat az egy (vagy több) sokaság eloszlására,de a szóban forgó eloszlás egy (vagy több) paraméterére is. A hipotézis helyességét mintából (vagy mintákból) származó adatok alapjánellenőrizzük.

A fent elmondottakhoz hozzá kell fűzni, hogy nincs értelme hipotézisként kezelni olyan feltevéseket, amelyek helyességéről teljes körű számbavétellelis meggyőződhetünk. A statisztikai hipotézis fogalmához hozzátartozik, hogy a rendelkezésre álló információt a minta képviseli, ezért akövetkeztetésünk bizonytalanságot hordoz, valószínűségi jellegű. Hipotézis például, hogy egy csomagológép a szabványnak megfelelően tölti atasakokat, vagy hogy egy új eljárás eredményesebb, mint a régi.

A hipotézisvizsgálat első lépése a vizsgálni kívánt hipotézis matematikai megfogalmazása. Pontosabban, két hipotézist kell egyszerremegfogalmaznunk. Az ún. nullhipotézist és egy azzal szemben álló másik állítást, az ún. alternatív hipotézist. Ez utóbbit ellenhipotézisnek is

szokták nevezni. A továbbiakban a nullhipotézist az alternatív hipotézist fogjuk jelölni. Magukat a konkrét feltételezéseket a illetve a

szimbólumot követő kettőspont után írjuk fel, mégpedig olyan formában, hogy azok egymást kölcsönösen kizárják. Erre azért van szükség, mertminden hipotézisvizsgálat végeredménye, hogy a két hipotézis közül valamelyiket elfogadjuk a másikkal szemben.

A nullhipotézis és az ellenhipotézis is lehet egyszerű vagy összetett hipotézis. Egyszerű hipotézis esetén az állításunkat egyenlőség formájábanfogalmazzuk meg, míg az összetett hipotézis több önálló hipotézis összessége. Így állításunk megfogalmazása során az < és > relációjelekethasználhatjuk.

A nullhipotézist mi mindig egyenlőség formájában fogalmazzuk meg, azaz a nullhipotézis a továbbiakban mindig egyszerű hipotézis, míg az alternatív

hipotézisünk többnyire összetett hipotézis lesz. Például, ha az állításunk az, hogy a sokaság várható értéke ( ) egyenlő egy előre rögzítettértékkel, akkor a nullhipotézis és az alternatív hipotézis a következő módon fogalmazható meg:

Page 77: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

67

Ha pedig alternatív hipotézisként azt állítjuk, hogy az alapsokaság várható értéke kisebb az számnál, akkor

Az a hipotézis, amelynek helyességéről közvetlenül döntünk, a nullhipotézis, és döntésünket mindig az alternatív hipotézisünkkel szemben hozzukmeg. Mivel a nullhipotézis és az alternatív hipotézis kölcsönösen kizárják egymást, döntésünk – a nullhipotézist illetően – alternatív döntés lesz, vagy

a nullhipotézist ( ), vagy az alternatív ( ) hipotézist fogadjuk el.

A hipotézisvizsgálat eszköze a statisztikai próba. A próba egy olyan eljárás, amelynek során a mintából származó információk alapján döntünk anullhipotézis elfogadásáról vagy elutasításáról.

A statisztikai próba végrehajtásakor a nullhipotézis és az alternatív hipotézis megfogalmazása után feladatunk a mintaelemek egy olyan függvényéneka keresése, amelynek valószínűségeloszlása a nullhipotézis helyességének feltételezése, a sokaságra tett bizonyos kikötések és a mintavétel adottmódja mellett egyértelműen meghatározható. Az e követelménynek eleget tevő függvényt próbafüggvénynek nevezzük.

A próbafüggvény a hipotézisvizsgálat során hasonló szerepet tölt be, mint a becslőfüggvény a paraméterek becslésekor. A próbafüggvénykonstruálása matematikai feladat. A próba végrehajtásakor az alkalmazónak csak a megfelelő próbafüggvényt kell kiválasztania. Ehhez tudnia kell,hogy az adott hipotézist milyen feltételek fennállása esetén, milyen mintából stb. melyik próbafüggvénnyel lehet ellenőrizni.

A további tárgyalások előtt ismerkedjünk meg egy gyakran használt függvénnyel, az ún. z próbafüggvénnyel. A sokasági várható értékre vonatkozó

állítás teszteléséhez (nevezetesen ) – ha normális eloszlású sokaságból származó n elemű független, azonos eloszlású mintánk

van és a sokasági szórás ismert – a z próbafüggvény 1 használható, amely a következő formában írható fel:

Ha valóban a sokaság várható értéke (átlaga), akkor láttuk, hogy és így ezen próbafüggvény a fentmeghatározott feltételek mellett standard normális eloszlású valószínűségi változó lesz. Ezt a változót oly módon képeztük, hogy kivontuk egyvalószínűségi változóból annak várható értékét és elosztottuk a szórásával (röviden standardizáltuk a valószínűségi változónkat). Tehát teljesíti apróbafüggvényekkel szemben támasztott azon követelményt, hogy eloszlása egyértelműen meghatározható, ha a nullhipotézisünk igaz.

1 Néhány próbafüggvényt – annak ellenére, hogy valószínűségi változó – a szakirodalom nem görög, hanem latin betűvel jelöl. Bár eddig a valószínűségi változót görög, az általa felvett értéket amegvalósult minta esetén latin betűvel jelöltük, ezen próbafüggvényeknél alkalmazkodunk a megszokott jelölésmódhoz, megkülönböztetésül a próbafüggvény (z) megvalósult értékét az alsó indexbeírt 0-val (pl. z0 ) jelöljük.

Page 78: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

68

Mivel z a nullhipotézis teljesülése esetén standard normális eloszlású, pontosan meg lehet mondani, hogy mekkora annak a valószínűsége, hogy

z valamely intervallumba essen Fordítva, ha megadunk egy valószínűséget (pl. ), akkor az a értékemeghatározható a standard normális eloszlás táblázata (Függelék 1. táblázat) segítségével:

ebből . A táblázat alapján

Ez azt jelenti, hogy ha 100-szor veszünk n elemű mintát és minden esetben kiszámítjuk a z konkrét értékét:

akkor ezen értékek közül várhatóan 95 esik a intervallumba, ha helyes a hipotézis.

Mivel egyetlen minta áll rendelkezésünkre, ezért csak ennél tudjuk ellenőrizni, hogy a

érték az adott intervallumba esik-e. Ha beleesik, akkor elfogadjuk a hipotézist. Könnyen látható, hogy az intervallum hossza, így a beleesésesélye is az adott valószínűségtől függ.

Általánosan fogalmazva: a hipotézisvizsgálat végrehajtása során a próbafüggvény lehetséges értékeinek tartományát osztópontok segítségével két

egymást át nem fedő tartományra bontjuk. Az egyik az elfogadási tartomány, legyen ez a intervallum, a másik ennek komplementere, az

elutasítási vagy kritikus tartomány. Az egyes tartományok határait úgy választjuk meg, hogy a próbafüggvény értéke a nullhipotézis ( ) elfogadása

esetén előre megadott nagy valószínűséggel az elfogadási tartományba essen, azaz esetünkben legyen, és a kritikustartományba esés csak valószínűséggel következzen be. Ha ezek után a rendelkezésre álló minta adataiból kiszámítjuk a próbafüggvény ún.

aktuális értékét és ez beleesik az elfogadási tartományba, akkor a elfogadjuk, ellenkező esetben a elutasítjuk és a fogadjuk el.

A próbafüggvény kritikus tartományba esésének valószínűségét szignifikanciaszintnek nevezzük, és α-val jelöljük.

Page 79: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

69

Példánkban az szignifikanciaszint azt jelenti, hogy ha a mintavételt végtelen sokszor végrehajtjuk, akkor 100 esetből mindössze átlag ötszörfordul elő az az esemény, hogy a próbafüggvényünk minta alapján kiszámított értéke a kritikus tartományba esik. Ebben az esetben azt mondjuk,

hogy a hipotézist 0,05-ös szignifikanciaszinten fogadjuk el vagy vetjük el annak megfelelően, hogy a mintából számított érték hova esik.

Az elfogadási és a kritikus tartomány egymáshoz viszonyított elhelyezkedése háromféle lehet. Az egyes eseteket a 8.1. ábra szemlélteti.

8,1. ábra - Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés

Bal oldali vagy jobb oldali – egyoldali – kritikus tartományhoz abban az esetben jutunk, ha az ellenhipotézisben a nullhipotézishez képest egy

meghatározott irányú eltérést írunk fel. Ha a sokasági várható értékre akkor bal oldali kritikus tartományról, ha pedig akkor jobboldali kritikus tartományról beszélünk.

Kétoldali kritikus tartomány kijelölésére olyan esetben kerül sor, amikor a nullhipotézisben megfogalmazott állítástól való bármilyen irányú eltérés

érdekel bennünket. Ekkor pl. a sokasági várható értékre vonatkozóan az alternatív hipotézis.

Page 80: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

70

Az elfogadási és a kritikus tartományt elválasztó és értékeket kritikus értékeknek nevezzük, és az alsó, a felső kritikus értéket jelöljük.A kritikus érték(ek)et a szignifikanciaszint és a próbafüggvény eloszlásának ismeretében táblázatok segítségével egyértelműen meghatározhatjuk.

A 8.2. ábrán megvizsgálhatjuk az eddig elmondottakat a z próbafüggvény esetén.

8,2. ábra a. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél

Page 81: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

71

8,2. ábra b. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél

Page 82: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

72

8,2. ábra c. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél

A szemléltető ábrák áttekintése után nézzük meg, hogyan határozzuk meg a z próbafüggvény kritikus értékeit 5%-os szignifikanciaszint esetén.(Tehát )

Mivel a z próbafüggvény standard normális eloszlást követ, ezért az értékek kikereséséhez a Függelék 1. táblázatát használjuk.

a) Ha a az alternatív hipotézisünk, akkor bal oldali kritikus tartománnyal van dolgunk, s a kritikus értéket jelöltük. Mivel a kritikustartományba esés valószínűsége α, tehát

és a z standard normális eloszlású, így

Page 83: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

73

Most már az esetén a standard normális eloszlás táblázatából (Függelék 1. táblázat) kikereshetjük a értéket. Mivel

ezért így

A következőkben ezt fogjuk jelölni, ahol a z a standard normális eloszlásra, az pedig arra a valószínűségre utal, amekkora valószínűséggel

kisebb a próbafüggvény aktuális értéke a kritikus értéknél. Itt

b) Ha akkor az elfogadási tartományba esés valószínűsége tehát

Ezt az intervallumot a bevezetőben már meghatároztuk: és vagy másképpen felírva illetve

Tehát hasonló, mint a kétoldalú konfidenciaintervallum esete.

c) Ha a az alternatív hipotézisünk, akkor jobb oldali kritikus tartományunk van, és annak a valószínűsége, hogy nagyobb apróbafüggvény számított értéke, Tehát

amely átrendezés után:

esetén amiből Az a) pontban leírt jelöléseket alkalmazva:

Page 84: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

74

8.2. A hipotézisvizsgálat során elkövethető hibákMint már korábban elmondtuk, a mintából a sokaságra vonatkozóan csak valószínűségi következtetés lehetséges, így a hipotézisvizsgálat során

hozott döntésünk bizonyos kockázattal jár. Előfordulhat, hogy a hipotézis helyes, s a próbafüggvény adott mintából számított értéke mégis a

kritikus tartományba esik. Ilyenkor a annak ellenére, hogy fennáll, elutasítjuk. Ezt a hibás döntést elsőfajú hibának nevezzük. Az ilyen hibaelkövetésének valószínűsége az elfogadási és a kritikus tartomány konstrukciója alapján – hisz annak a valószínűsége, hogy a próbafüggvénya kritikus tartományba esik –, amelyet, mint már említettük, szignifikanciaszintnek nevezünk.

Előfordulhat, hogy a nem áll fenn (nem „igaz”), és a próbafüggvény mintából számított értéke mégis az elfogadási tartományba esik. Ez szintén

hibás döntés, s ilyenkor másodfajú hibát követünk el. Ezen esemény bekövetkezésének valószínűségét szokás jelölni.

Az elmondottakat a 8.1. táblázat szemlélteti.

8.1. táblázat - A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége

A valóságos A -ra vonatkozó döntésthelyzet elfogadjuk elutasítjuk

igaz helyes döntés elsőfajú hiba

igaz másodfajú hiba helyes döntés

Az valószínűséget a próba (megbízhatósági) szintjének, az pedig a próba erejének nevezzük.

Összefoglalásként megállapíthatjuk, hogy az elsőfajú hiba elkövetése során az igaz nullhipotézist elutasítjuk, a másodfajú hiba elkövetésénél pediga hamis nullhipotézist fogadjuk el.

Az első- és a másodfajú hibáról leírtak szemléltetésére nézzük a következő példát!

Egy alkatrész-összeszerelő műhelyben a futószalag mellett valamely munkafolyamat elvégzésének normaideje 15 perc. Vizsgáljuk meg 25 eleműminta alapján, hogy ennyi idő alatt el lehet-e végezni az adott munkafolyamatot! Tekintsük az alkatrész összeszerelésére fordított időt normális

eloszlásúnak, a szignifikanciaszint pedig legyen 5%, azaz Az ismert sokasági szórás : 3 perc.

Page 85: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

75

A vizsgálandó nullhipotézis: Az alternatív hipotézisben azt fogalmazzuk meg, hogy a norma nem helyes, és több mint 15 perc kell az

adott munkafolyamat elvégzésére, tehát Ekkor jobb oldali kritikus tartományunk van.

Azt mondtuk, hogy a próbafüggvény kritikus tartományba esésének a valószínűsége α. Tehát:

A próbafüggvényre vonatkozó összefüggés figyelembevételével a fenti képletet a következőképpen alakíthatjuk át:

A rendelkezésre álló adatok alapján a zárójelben álló egyenlőtlenség jobb oldalán lévő kifejezés értéke, figyelembe véve a 8.1. pontban leírtakat

(azaz ), meghatározható, így konkrét minta esetén

Mivel azonos átalakításokat végeztünk, továbbra is annak a valószínűsége, hogy a mintaátlag nagyobb, mint 16 perc. Ekkor a 16 percettekinthetjük kritikus értéknek, mivel ez az érték választja el az elfogadási és az elutasítási tartományt.

Page 86: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

76

8,3. ábra - Az elfogadási és a kritikus tartomány elhelyezkedés

A 8.3. ábra az elfogadási és a kritikus tartomány elhelyezkedését mutatja az átalakítás után. (Tehát a feltételezett várható érték 15 perc, a kritikusérték esetén pedig 16 perc.)

Az ábráról leolvasható, hogy annak valószínűsége, hogy a mintaátlag kisebb, mint 16 perc, és annak, hogy nagyobb, mint 16 perc.

Vizsgáljuk meg, hogyan lehet meghatározni a másodfajú hiba elkövetésének a valószínűségét!

A fenti példában az ellenhipotézis pedig azaz összetett ellenhipotézisünk van. A β meghatározása azonban csak egyszerű

(pl. alternatív hipotézis esetén lehetséges.

Számítsuk ki a másodfajú hiba elkövetésének a valószínűségét a nullhipotézis és a ellenhipotézis esetén! Használjuk fela korábban meghatározott kritikus értéket, a 16 percet!

Másodfajú hibát akkor követünk el, ha elfogadjuk a nullhipotézist, holott az ellenhipotézis volt az igaz. Másképpen megfogalmazva ez azt jelenti,

hogy a mintaátlagunk az elfogadási tartományba esik (kisebb, mint 16 perc) annak ellenére, hogy a az igaz. Képlettel felírva:

Page 87: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

77

Mivel csak a standard normális eloszlás táblázata áll a rendelkezésünkre, először a változónkat át kell alakítani standard normális eloszlásúvá(standardizálnunk kell), s ezt követően határozhatjuk csak meg a β értékét. Tehát:

azaz nullhipotézis és ellenhipotézis esetén az elsőfajú hiba elkövetésének valószínűsége 5%, a másodfajú hibáé pedig79,67%.

A összetett ellenhipotézis azonban számtalan egyszerű hipotézisre bontható fel. Válasszunk ki ezek közül néhányat, s határozzuk megezen esetekben a fenti gondolatmenetet követve a β értékét. Az eredményeket a 8.2. táblázatban foglaltuk össze.

8.2. táblázat - A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén

H1: β értékμ = 15,1

μ = 15,4

μ = 15,5

μ = 16,0

μ = 16,5

μ = 17,0

μ = 17,2

0,9332

0,8413

0,7967

0,5000

0,2033

0,0485

0,0228

Tehát a másodfajú hiba elkövetésének a valószínűsége függ attól, hogy mely ellenhipotézis esetén határoztuk meg. A 8.4. ábrán a másodfajú hibaelkövetésének a valószínűségét ábrázoltuk különböző alternatív hipotézisek esetén.

Page 88: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

78

8,4. ábra - Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén

Az ábrán jól látszik, hogy a helyzetnek megfelelő eloszlás egy része benne van a – téves – fennállása alapján kijelölt elfogadási tartományban.

Ez a terület, amelyet besatíroztunk, a másodfajú hiba elkövetésének valószínűségét mutatja. Továbbá az ábráról leolvasható, hogy

alternatív hipotézis esetén a másodfajú hiba elkövetésének a valószínűsége nagy (0,7967) lesz, míg ellenhipotézisnél ez a valószínűségkicsi (0,028).

Vizsgáljuk meg, hogyan változik és fennállása esetén a másodfajú hiba elkövetésének valószínűsége, ha az elsőfajú hibaelkövetésének valószínűségét 0,05-ről 0,01-re csökkentjük.

(Ebben az esetben )

A korábbi példák eredményeit felhasználva ( perc, perc) határozzuk meg azt a kritikus értéket, amely esetén 0,01 annak a valószínűsége,hogy a mintaátlag nagyobb, mint a kritikus érték! Behelyettesítve a kritikus érték meghatározására alkalmazható összefüggésbe:

Page 89: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

79

Tehát annak a valószínűsége, hogy a mintaátlag nagyobb, mint 16,4 perc, 0,01.

A 8.5. ábrán láthatjuk, hogyan változik a másodfajú hiba elkövetésének a valószínűsége, ha a kritikus értéket 16 percről 16,4 percre növeljük, amiegyben azt jelenti, hogy a szignifikanciaszintet (α -t) 0,05-ről 0,01-re csökkentjük.

Az ábra alapján megállapíthatjuk, hogy ha csökkentjük az elsőfajú hiba elkövetésének valószínűségét (α -t) akkor e csökkentésnél nagyobb mértékbennő meg a másodfajú hiba elkövetésének valószínűsége (β).

Az előzőekben már meghatároztuk (5%-os szignifikanciaszinten) és esetén a másodfajú hiba elkövetésénekvalószínűségét, ami 0,028 volt.

Most határozzuk meg, hogy mekkora a másodfajú hiba elkövetésének a valószínűsége, ha a kritikus érték 16,4 perc, azaz a szignifikanciaszint 1%.

Page 90: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

80

8,5. ábra - Az α és a β grafikus meghatározása különböző kritikus értékek esetén

Page 91: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

81

Mint vártuk a 8.5. ábra alapján, az elsőfajú hiba elkövetésének a valószínűsége lecsökkent (0,05-ről 0,01-re), de ugyanakkor nagymértékben megnőtt(0,0228-ról 0,0918-ra) a másodfajú hiba elkövetésének a valószínűsége.

Általánosságban is elmondhatjuk, hogy az csökkentése esetén megnő a β elkövetésének a valószínűsége.

Felvetődik a kérdés, hogy a hipotézisvizsgálat során az első- vagy a másodfajú hiba elkövetése-e a veszélyesebb. Kérdés továbbá, hogy egy-egykonkrét hipotézisvizsgálatnál milyen szignifikanciaszintet célszerű választani. Elterjedt az a nézet, hogy a másodfajú hiba veszélyesebb az elsőfajúhibánál. Vizsgáljuk meg, mi az alapja ennek az állításnak?

Ha elsőfajú hibát követünk el – vagyis az igaz nullhipotézist visszautasítjuk –, akkor a hipotézisvizsgálat eredménye, hogy a elutasítjuk. Ezt

követően egy újabb nullhipotézist fogalmazunk meg, majd a hipotézisvizsgálat végrehajtása után a ismét elutasítjuk, hisz az eredeti nullhipotézisvolt az igaz. Ha következetesen végighaladunk az összes lehetséges hipotézisen – s természetesen minden esetben új mintát veszünk –, akkormindegyiket vissza kell utasítanunk, s visszajutunk az eredeti állításunkhoz. Azt mondhatjuk tehát, hogy az elsőfajú hiba elkövetése nem okoz„jóvátehetetlen” hibát.

Másodfajú hibát viszont akkor követünk el, ha egy hamis hipotézist elfogadunk. Abból viszont, hogy elfogadjuk a hipotézist, az következik, hogy aprobléma vizsgálatát befejeztük. A hiba korrigálására tehát nincs lehetőség.

A szignifikanciaszint megválasztásánál olyan kompromisszumos megoldásra van szükség, hogy nem túl magas mellett a másodfajú hibaelkövetésének a valószínűsége viszonylag alacsony legyen. Ez az vagy ehhez közeli szignifikanciaszint, amit a gyakorlatban sokszoralkalmaznak.

Az eddig elmondottak alapján nyilvánvaló, hogy egy-egy nullhipotézis helyességének ellenőrzésére olyan próbát és ezáltal próbafüggvényt célszerűválasztani, amelynél az elsőfajú hiba adott elkövetési valószínűsége mellett minimális a másodfajú hiba elkövetésének valószínűsége. A különbözőpróbák e szempontból történő összehasonlításánál jó szolgálatot tesz a próbák erőfüggvénye. Erőfüggvényen azt a függvényt értjük, amely úgyáll elő, hogy minden lehetséges egyszerű alternatív hipotézishez meghatározzuk a megfelelő kiegészítő valószínűségeket és ezeket (azalternatív hipotézisben meghatározott érték) függvényében ábrázoljuk. Az erőfüggvénnyel e könyv keretei között részletesebben nem foglalkozunk,mint ahogyan a következőkben az egyszerű alternatív hipotézisekkel sem.

Ezek után tekintsük át a statisztikai próba végrehajtásának általános gondolatmenetét röviden, hisz ezen gondolatmenet egyes részeivel akorábbiakban már foglalkoztunk. A 8.3. fejezetben leírt lépések bármely hipotézis vizsgálata esetén alkalmazhatók.

8.3. A statisztikai hipotézisvizsgálat menete1. Megfogalmazzuk a nullhipotézist és a vele szemben álló alternatív hipotézist.

2. Megkeressük a megfogalmazott állításnak és az egyéb feltételeknek megfelelő próbafüggvényt.

Page 92: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

82

3. Megválasztjuk az elsőfajú és a másodfajú hibáról elmondottak alapján a szignifikanciaszintet.

4. Végrehajtjuk a mintavételt, meghatározzuk a mintajellemzők értékét és kiszámítjuk a próbafüggvény aktuális (számszerű) értékét.

5. Az alternatív hipotézissel összhangban a szignifikanciaszintnek megfelelően felosztjuk a próbafüggvény lehetséges értéktartományát elfogadásiés visszautasítási tartományra.

6. Döntünk a és a hipotézisről. Ha a próbafüggvény értéke az előre meghatározott elfogadási tartományba esik, elfogadjuk a a alternatív

hipotézissel szemben, ellenkező esetben elutasítjuk, és a ellenhipotézis kerül elfogadásra.

Ismét elmondjuk, hogy mivel minta alapján hozzuk meg a hipotézisvizsgálat során a döntésünket, az valószínűségi jellegű lesz, bizonytalanságothordoz. A hipotézist nem tudjuk „igazolni” vagy „cáfolni”, ezért azt mondjuk, hogy a hipotézist szignifikanciaszinten elfogadjuk vagy elutasítjuk.(Szokásos szóhasználat még a „fenntartjuk” vagy „elvetjük” megállapítás is.)

A következőkben a fontosabb próbák részleteit tekintjük át. Az áttekintés során feltételezzük, hogy egy vagy több azonos eloszlású, függetlenelemekből álló minta áll a rendelkezésünkre. Mivel az egyéb mintáknak a független, azonos eloszlású mintától vett eltérésének a hatása az egyespróbákra még szinte alig van feltérképezve, illetve bonyolult, ezért e szigorú megkötés. A leggyakrabban használt egyszerű véletlen mintáról azonbanelmondhatjuk, hogy ha a kiválasztási arány kicsi, akkor ez a minta jó közelítéssel független, azonos eloszlású mintának tekinthető.

A hipotézisvizsgálat során alkalmazott statisztikai próbákat több szempont alapján is csoportosíthatjuk. Azokat a statisztikai próbákat, amelyekalkalmazása csak előírt eloszlású statisztikai sokaság esetén lehetséges, paraméteres statisztikai próbáknak nevezzük, míg a nemparaméteresekazok a statisztikai próbák, amelyek bármely eloszlású sokaság esetén alkalmazhatók. Az elfogadási és kritikus tartomány elhelyezkedése alapjánbeszélhetünk továbbá egyoldali és kétoldali statisztikai próbáról. Vannak olyan statisztikai próbák, amelyek végrehajtásához egy mintára vanszükség, és vannak olyanok, amelyekhez két minta kell. Ez alapján megkülönböztetünk egymintás, illetve kétmintás statisztikai próbákat. Azegyes statisztikai próbák tárgyalása során is ez utóbbi csoportosítást fogjuk alkalmazni.

8.4. Egymintás statisztikai próbákE pontban az egymintás statisztikai próbák közül csak azok tárgyalására kerül sor, amelyek a sokaság valamely paraméterének (várható érték, szórás,arány) tesztelésére szolgálnak. A következőkben az alapján csoportosítjuk az egymintás próbákat, hogy mely sokasági paraméterre vonatkoznak.

8.4.1. A várható értékkel kapcsolatos próbákAz e csoportba tartozó két próba esetén azt teszteljük, hogy egy sokaság ismeretlen várható értéke (μ) megegyezik-e az általunk feltételezett értékkel. Nullhipotézisünk ekkor a következő lesz:

Page 93: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

83

Alternatív hipotézisünk pedig:

Az ismertetésre kerülő két próba kizárólag az alkalmazási feltételek tekintetében tér el egymástól.

Az egymintás z-próba 2

Ha a sokaság normális eloszlású, és a sokaság σ szórása (valamilyen előzetes tény birtokában) ismert, akkor próbafüggvényként a 8.1. pontban felírt

valószínűségi változót használjuk, amely standard normális eloszlást követ – a mintanagyságtól függetlenül –, ha a nullhipotézis igaz. Konkrét mintaesetén a próbafüggvény megvalósult értékét a 8.1.-ben leírtaknak megfelelően a

összefüggéssel határozzuk meg.

A próba végrehajtása során az elfogadási és a kritikus (visszautasítási) tartomány elhelyezkedése – mint ahogy a 8.2. ábrán is bemutattuk – azalternatív hipotézistől függ. Az elfogadási tartomány α szignifikanciaszint melletti határait a 8.3. táblázatban foglaltuk össze.

8.3. táblázat - Az z-próba elfogadási tartományának határai szignifikanciaszint mellett

Alternatív hipotézis Elfogadási tartomány

2 A szakirodalomban használatos az u-próba elnevezés is.

Page 94: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

84

Tekintsük a következő példát!

Egy automata gépsor lisztet csomagol, szabvány szerint 100 dkg-os tömeggel és 3 dkg-os megengedett szórással. Az automata ellenőrzésére 30db-os véletlen mintát vettek. A lemért liszteszacskók átlagos tömege 98 dkg volt. Feltételezhető, hogy a gép által töltött liszteszacskók töltési tömegenormális eloszlást követ. Ellenőrizzük, hogy a gép a szabványnak megfelelően csomagol-e ( )!

Nullhipotézisünket – a töltési tömeg megfelel a szabványnak – a

egyenlőséggel fogalmazzuk meg. Alternatív hipotézisünk pedig

tehát kétoldali statisztikai próbát végzünk.

Mivel a sokaság normális eloszlású és a szórás ismert, z-próbát alkalmazhatunk. Ezután kiszámítjuk a próbafüggvény aktuális értékét és n = 30 ismeretében:

Az 5%-os szignifikanciaszint ( ) esetén a standard normális eloszlás táblázatából (Függelék 1. táblázat) az alternatív hipotézis

figyelembevételével a felső kritikus érték: Az alsó kritikus érték pedig ennek mínusz egyszerese lesz, azaz vagyis az elfogadásitartomány:

Mivel az elfogadási tartomány nem tartalmazza a próbafüggvény aktuális értékét, a –3,65-öt, a nullhipotézist elutasítjuk az alternatív hipotézisselszemben. Vagy azt is mondhatjuk, hogy a liszteszacskók töltési tömege 5%-os szignifikanciaszinten nem felel meg a szabványnak.

Felvetődik a kérdés, hogy van-e olyan szignifikanciaszint, amelynél elfogadjuk a nullhipotézist. Ha megnézzük a standard normális eloszlás táblázatát,

azt tapasztaljuk, hogy x = 3,65-höz érték tartozik. Mivel kétoldali próbát végeztünk, amelyből Tehát csak ennélkisebb szignifikanciaszint esetén fogadjuk el a próbát, ami „gyakorlatilag” azt jelenti, hogy minden szignifikanciaszinten elutasítjuk a nullhipotézist.

Page 95: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

85

A kritikus értéket a vizsgált jelenség „mértékegységében” is kifejezhetjük. Ehhez a

egyenlőtlenséget a behelyettesítése és felhasználása után a következő formába kell átrendezni:

Az egyenlőtlenségbe behelyettesítve kiszámolhatjuk a kritikus értékeket:

Tehát az elfogadási tartományunk 98,9 és 101,1 dkg között van. A mintaátlagunk, ami 98 dkg, nem esik bele ebbe az intervallumba. Így a 5%-os szignifikanciaszinten elutasítjuk.

Ez utóbb mondottakat és a becsléselméletben tanultakat figyelembe véve nem nehéz észrevenni a kétoldali hipotézisvizsgálat és azintervallumbecslés közötti hasonlóságot. A hasonlóság ellenére a két eset között a különbség a következő. Az intervallumbecslésnél a sokaságvalamilyen paraméterére adunk egy, az adott paramétert valószínűséggel tartalmazó, a mintától függő végpontokkal határolt intervallumotvalamely mintajellemzőből kiindulva. A hipotézisvizsgálat esetében pedig valamely paraméternek a nullhipotézisben feltételezett értékéből indulunk

ki, és a mintajellemzőre adunk egy olyan intervallumot, amely a fennállása esetén valószínűséggel tartalmazza a mintáról mintára változómintajellemzőt.

A vizsgált jelenség „mértékegységben” kifejezett kritikus értékeinek meghatározása csak a könnyebb megértést szolgálta, a későbbiek során nemfogjuk alkalmazni.

Az egymintás z-próba abban az esetben is használható, ha egy véges szórású, tetszőleges eloszlású sokaságból nagy elemszámú függetlenmintát veszünk (a sokasági szórást ekkor nem szükséges ismernünk). A mintaelemek függetlensége és a valószínűségszámításból megismertcentrális határeloszlás tétele miatt a

Page 96: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

86

próbafüggvény – ahol a lehetséges mintákból számított korrigált empirikus szórás – közelítőleg standard normális eloszlású lesz, ha a igaz. Apróba végrehajtása során használt kritikus értékek természetesen ugyanazok maradnak.

Konkrét minta esetén a próbafüggvény megvalósult értékének kiszámítása a

képlettel történik.

Az egymintás t-próba

Enyhítsünk valamelyest a z-próba alkalmazásának meglehetősen szigorú feltételein! Az egymintás t-próba végrehajtásához a sokasági eloszlásszórását nem kell ismernünk, de a sokaság eloszlásának továbbra is normálisnak kell lennie. Ebben az esetben a

próbafüggvény használható a ellenőrzésére. Amennyiben a igaz, és a sokaság eloszlása valóban normális, akkor a t próbafüggvény szf =n – 1 szabadságfokú Student t-eloszlást követ. Erre alapozva könnyen felírhatjuk a próba végrehajtásához szükséges elfogadási tartományokat,amelyeket a 8.4. táblázatban foglaltunk össze.

8.4. táblázat - A t-próba elfogadási tartományának határai α szignifikanciaszint mellett

Alternatív hipotézis Elfogadási tartomány

Page 97: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

87

Konkrét minta esetén a próbafüggvény értékét a következő összefüggéssel határozzuk meg:

Térjünk vissza az előző példához! Fogadjuk el továbbra is azt, hogy a sokaság eloszlása normális, de a szórást ezúttal a mintából becsüljük. 30mérés eredményei alapján:

A nullhipotézis és az alternatív hipotézis továbbra is

A próbafüggvény mintából számított értéke:

A szabadságfokhoz és 0,05 szignifikanciaszinthez tartozó felső kritikus érték a Student t-eloszlás táblázatából (Függelék 4. táblázat)

Az alsó kritikus érték ennek a mínusz egyszerese, azaz

Az elfogadási tartomány: [–2,05; 2,05].

Mivel próbafüggvényünk értéke beleesik az elfogadási tartományba, ezért a nullhipotézist elfogadjuk. Tehát 5%-os szignifikanciaszinten a gép aszabványnak megfelelően csomagol.

Vizsgáljuk meg, hogy más szignifikanciaszinten elutasítjuk-e a próbát. A Student t-eloszlás táblázatában a szf = 29 szabadságfoknál olyan értéket

kell keresni, amelynél a t0 (vagy annak mínusz 1-szerese) nagyobb. Ez az 1,70. Ekkor amiből Tehát 0,1-es szignifikanciaszinten

már elutasítjuk a Ekkor 10% annak a valószínűsége, hogy az igaz elutasítjuk.

Page 98: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

88

8.4.2. A sokasági szórásra vonatkozó próbaGyakori feladat a sokasági szórásra vonatkozó feltevés ellenőrzése is. A 7.4.3. pontban láttuk, hogy a sokasági szórás becslésére akorrigált tapasztalati szórást használjuk. Intervallumbecslést csak akkor tudunk adni, ha a sokaság normális eloszlású. A konfidenciaintervallum

meghatározását a alapoztuk. A sokasági szórásra vonatkozó hipotézis ellenőrzésekor is ezekre az ismeretekre támaszkodunk. Röviden

ismételjük meg az ott elmondottakat. Ha a sokaság szórása és várható értéke (átlaga) m0, akkor független, azonos eloszlású minta esetén

a valószínűségi változók standard normális eloszlásúak, így négyzetösszegük, az valószínűségi változó Ezért a sokasági eloszlás szórására vonatkozó

hipotézis ellenőrzésére (ha a sokaság normális eloszlású) a

próbafüggvény használható, amely szf = n – 1 szabadságfokú követ, ha a igaz. Figyelembe véve a 7.4.3. pontban a

elmondottakat, a próba végrehajtása során az elfogadási tartomány határai különböző alternatív hipotézisek esetén a következők lesznek(8.5. táblázat):

8.5. táblázat - A elfogadási tartományának határai α szignifikanciaszint mellettAlternatív hipotézis Elfogadási tartomány

Előző példáinkban feltettük, hogy a liszt csomagolásánál a gép 3 dkg-os szórással tölt. A 30 elemű mintában pedig 5,5 dkg volt a szórás. Ellenőrizzükle, hogy helyes volt-e az a feltevés, hogy a csomagológép maximum 3 dkg szórással tölt! A szignifikanciaszint továbbra is 5%.

Konkrét minta esetén a próbafüggvény magvalósult értékének kiszámítása a

Page 99: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

89

képlettel történik.

A nullhipotézist továbbra is egyenlőség formájában írjuk fel:

Az alternatív hipotézisben pedig azt a feltételezést fogalmazzuk meg, hogy a szórás meghaladja az előírtat 3 , azaz

Az alternatív hipotézis szerint egyoldalú próbát hajtunk végre jobb oldali kritikus tartománnyal.

A mintából számított szórás: s = 5,5 dkg.

A próbafüggvény számított értékének meghatározásához szükséges adatok tehát n = 30, s = 5,5 dkg és Az érték pedig:

A kritikus érték a Függelék 2. táblázatából

Az elfogadási tartomány tehát 0 és 42,6 között van.

Mivel próbafüggvényünk aktuális értéke nem esik bele az elfogadási tartományba, ezért elutasítjuk a nullhipotézist. A elvetésével automatikusanaz alternatív hipotézist fogadjuk el, azaz a töltés során a szórás meghaladja az előírást. Úgy is fogalmazhatunk, hogy a minta adatai – 5%-osszignifikanciaszinten – ellentmondanak annak a feltevésnek, hogy a gép maximum 3 dkg szórással tölt.

8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próbaLegyen P egy arányszám, amely a 7.3.3. pontban leírtaknak megfelelően meghatározott típusú egyedek előfordulásának valószínűségét mutatjaa sokaságban, vagyis P annak a valószínűsége, hogy egy egyedet véletlenszerűen kiválasztva az rendelkezik az adott tulajdonsággal. Ellenőriznikívánjuk azt, hogy a sokasági arány egyenlő-e egy általunk előre feltételezett P0 értékkel. A nullhipotézis tehát

3 Ekkor a nullhipotézis elfogadása azt jelenti, hogy a csomagológép 3 dkg vagy annál kisebb szórással tölt 5%-os szignifikanciaszinten.

Page 100: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

90

H0 : P = P0.

Legyen A az az esemény, hogy egy mintaelem kiválasztásakor az rendelkezik az adott tulajdonsággal. Ha igaz a H0 : P = P0 hipotézis, akkor P(A) = P0.

Ha az i-edik mintaelem kiválasztásakor az A esemény karakterisztikus valószínűségi változója, akkor

A feltevés szerint ha a sokaság nagy.

Ekkor

az adott tulajdonságú elemek aránya a mintában és Így a

valószínűségi változó várható értéke nulla és szórása 1. ugyanakkor n db azonos eloszlású valószínűségi változó összege, ezért nagy n esetén

a centrális határeloszlás-tétel szerint közel standard normális eloszlású. Így a próbafüggvénynek választva, egy megvalósult minta esetén a

értéket kell vizsgálni, ahol p a megvalósult mintabeli arány.

A próba kritikus értékei megegyeznek a z-próba kritikus értékeivel, mivel mindkét próbafüggvény standard normális eloszlású.

Nézzünk egy példát a próba alkalmazására.

Page 101: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

91

Egy biztosítótársaság feltevése szerint az első számú vezetők egynegyedének van nagy életbiztosítása. Ezen feltevés ellenőrzésére véletlenszerűenkiválasztottak 1000 vállalatot. A megkérdezett cégek vezetői közül 226 kötött már valamilyen nagy összegű életbiztosítást. Ellenőrizzük 5%-osszignifikanciaszinten a feltevés helyességét!

Nullhipotézisünket – az első számú vezetők negyedének (25%-ának) van nagy összegű életbiztosítása –

H0 : P = 0,25

formában fogalmazzuk meg. Az alternatív hipotézis pedig

H1 : P ≠ 0,25,

tehát kétoldalú próbát hajtunk végre.

A mintabeli arány:

A próbafüggvény minta alapján számított (aktuális) értéke:

Az alternatív hipotézisnek megfelelő kritikus érték: az elfogadási tartomány pedig -tól 1,96-ig terjed. Mivel az elfogadási tartománytartalmazza a próbafüggvény megvalósult értékét, a nullhipotézist elfogadjuk. Tehát 5%-os szignifikanciaszinten elfogadjuk azt az állítást, hogy azelső számú vezetők egynegyedének van nagy összegű életbiztosítása.

8.5. Kétmintás statisztikai próbákA hipotézisvizsgálatot eddig arra az esetre korlátoztuk, amikor adva volt egy sokaság, és a hipotézis ennek a sokaságnak valamely paraméterérevonatkozott. Előfordul azonban, hogy nem egy, hanem két sokasággal van dolgunk, és a hipotézis két paraméter értékének egymáshoz valóviszonyára (általában különbségére) vonatkozik. Ilyenkor kétmintás próbát hajtunk végre, azaz a sokaságokból egy-egy független, véletlen mintátveszünk a hipotézis ellenőrzése céljából.

Tipikus döntési probléma két eljárás (pl. két különböző technológia, módszer vagy kezelés) hatásának az összehasonlító vizsgálata. Ennek speciálisesete, hogy az egyik hagyományos, a másik új eljárás. Ekkor azt az állítást vizsgáljuk, hogy az új eljárás eredményesebb, mint a hagyományos.

Page 102: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

92

Noha a feltevés az, hogy az új eljárás (módszer stb.) eredményesebb, mint a hagyományos, a nullhipotézisben az egyenlőség szerepel. Az „igazi”állítást mindig az alternatív hipotézisben fogalmazzuk meg. Így többnyire egyoldalú próbát hajtunk végre.

Gyakran előforduló döntési feladat az is, amikor két sokaságot (pl. férfiak–nők, falu–város stb.) kívánunk összehasonlítani valamilyen átlagosszínvonal szempontjából. Feltevésünkben ekkor a két sokaság átlagos színvonala közötti eltérés szerepel.

A két sokaságot két véletlen és független mintának kell képviselnie.

8.5.1. Két sokasági várható érték különbségének vizsgálataLegyen adott két sokaság, rendre illetve paraméterekkel. A két sokaságból egy-egy véletlen és egymástól független mintát veszünk. Amintákból rendelkezésünkre álló adatokat a 8.6. táblázatban foglaltuk össze.

8.6. táblázat - Két mintát igénylő próbák esetén alkalmazott jelölések

Megnevezés Sokaság Minta Megvalósult minta1.

sokaság2.

sokaság 1. minta 2. minta 1. minta 2. minta

Elemszám

Átlag

Szórás

A minták alapján ellenőrizni kívánjuk a

hipotézis helyességét a bal oldali, a kétoldali vagy a jobb oldali alternatívhipotézissel szemben. A H0 tetszőleges, előre megadott érték, és azt a különbséget fejezi ki, ami feltevésünk szerint a két várható érték közöttlehetséges.

Az, hogy melyik próbafüggvényt alkalmazzuk a H0 helyességének ellenőrzésére – a várható értékkel kapcsolatos egymintás próbákhoz hasonlóan–, attól függ, hogy milyen információkkal rendelkezünk a két sokaságról.

A kétmintás z-próba

Page 103: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

93

Tegyük fel, hogy mindkét sokaság normális eloszlású illetve paraméterekkel, és ismerjük a sokasági szórásokat. Legyen és

a mintaátlaguk, akkor ezek is normális eloszlásúak, így különbségük is az. ha H0 helyes és a függetlenség miatt

Ezért ez esetben a

próbafüggvény standard normális eloszlást követ, függetlenül a mintaelemszámoktól, ha a H0 igaz. Konkrét minta esetén a próbafüggvénymegvalósult értékét a következő összefüggéssel határozhatjuk meg:

A próba elfogadási tartománya megegyezik az egymintás z-próba elfogadási tartományával.

A gyakorlatban rendszerint nem ismerjük a sokasági ( ) szórásokat, ezért azokat a mintából becsüljük a korrigált tapasztalati szórások ( illetve

) segítségével. Ha kellően nagy mintánk van, a

próbafüggvény közelítőleg standard normális eloszlást alkot, ha a H0 igaz. (Ennek igazolásával nem foglalkozunk.) A próbafüggvény megvalósultértékét a

összefüggéssel számolhatjuk ki konkrét minta esetén. Ezek után a próba elvégzése már egyszerű. A próba végrehajtásához itt annál nagyobbmintára van szükség, minél jobban eltér a sokaság eloszlása a normális eloszlástól.

Page 104: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

94

A kétmintás t-próba

Két várható érték különbségére vonatkozó feltevés kis minták alapján is ellenőrizhető, ha az alábbi kikötések teljesülnek:

a) a minták normális eloszlású sokaságból származnak,

b) az ismeretlen sokasági szórások azonossága feltételezhető 4 .

A nullhipotézis ellenőrzésére a

próbafüggvény használható, amelyben

továbbá a és a lehetséges minták korrigált tapasztalati szórásai.

Konkrét minta esetén a próbafüggvény megvalósult értéke a

összefüggéssel határozható meg, ahol

továbbá s1 és s2 a korrigált tapasztalati szórás konkrét értékei egy mintánál.

Ez a próbafüggvény H0 helyessége és az alkalmazási feltételek fennállása esetén szf = n1 + n2 – 2 szabadságfokú Student t-eloszlást követ.

4 E feltevés ellenőrzésére a 8.5.3. pontban ismertetésre kerülő F-próba szolgál.

Page 105: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

95

Tekintsük a következő példát!

Egy autóabroncsokat gyártó cég az új típusú abroncs kopásállóságának ellenőrzése érdekében 10 gépkocsira véletlen mintavétellel kiválasztott újtípusú, 10 gépkocsira pedig hasonló módon kiválasztott régi típusú abroncsot szerelt. 50 000 km megtétele után megmérte az abroncsok kopását.A mérési eredményeket a 8.7. táblázat tartalmazza.

A 10 elemű minták alapján a cég arról kíván meggyőződni, hogy az új típusú abroncsok kopásállóbbak-e, mint a régi típusúak. A szignifikanciaszint5%.

Az, hogy az abroncsok kopásának eloszlása normális, továbbá hogy a sokasági szórások egyenlőek, feltételezhető. Mivel feltevésünk a két típuseltérésének csak az irányára vonatkozik (δ = 0), ezért

ahol 1-gyel a régi, 2-vel pedig az új típusú abroncsot jelöltük. Az alternatív hipotézisben azt fogalmazzuk meg, hogy az új abroncs kopásállóbb, mint

a régi (vagyis a mm-ben mért kopása számszerűen kisebb), azaz

8.7. táblázat - A 10 elemű minta mérési eredményei

Sorszám Régi típusú Új típusúabroncsok kopása mm-ben

1

2

3

4

5

6

7

8

9

1,4

2,1

1,7

2,9

1,0

3,4

2,5

1,7

2,4

1,2

2,0

1,7

2,6

1,1

2,5

2,3

1,5

2,1

Page 106: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

96

10 2,0 1,6

A minta adatainak átlaga és szórása:

Mivel a sokasági szórások nem ismertek és kis mintát vettünk, t-próbát alkalmazhatunk. A próbafüggvény számított értéke:

A szabadságfok: szf = 10 + 10 – 2 = 18, a kritikus érték a Függelék 4. táblázata alapján pedig: Az elfogadási tartomány: Apróbafüggvény megvalósult értéke beleesik az elfogadási tartományba, így a nullhipotézist fogadjuk el. A kétféle típusú gumiabroncs kopásállósága5%-os szignifikanciaszinten azonosnak tekinthető. A minta tehát nem igazolta a feltevést.

8.5.2. Két sokasági arányra (valószínűségre) vonatkozó próbaLegyen P1 és P2 két ismeretlen sokasági arányszám (valószínűség). A próba végrehajtása során ellenőrizni kívánjuk, hogy a két paraméterkülönbsége egyenlő-e egy megadott értékkel (pl. nullával). Ezért a sokaságokból egy-egy független mintát veszünk, és meghatározzuk a kérdésesarányszámokat torzítatlanul becslő és relatív gyakoriságokat.

Tehát a nullhipotézis

melynek ellenőrzésére a kétmintás z-próba használható. Ha a vizsgálni kívánt két sokaságból rendelkezésünkre áll két nagy minta, akkor a

Page 107: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

97

próbafüggvény standard normális eloszlást alkot (lásd 8.4.3. és 8.5.1. alatti megfontolásainkat).

Konkrét minta esetén a próbafüggvény megvalósult értéke a

összefüggéssel határozható meg.

Ha akkor a nullhipotézis

Ellenőrzésére célszerű a fenti összefüggés helyett az ugyancsak standard normális eloszlású

próbafüggvényt használni, ahol most az egyes minták elemszámai, pedig a mintákból számított relatív gyakoriságok.

Konkrét minta esetén a

összefüggés használható, ahol

A próba végrehajtása során a kritikus értékek megegyeznek az egymintás z-próba kritikus értékeivel.Nézzünk egy példát.

Az egyik országos közvélemény-kutató cég 1000 elemű független, azonos eloszlású mintával dolgozik. Két, egymás után 1 hónapos eltérésselmegismételt közvélemény-kutatás eredménye szerint valamely politikust a lakosság 32%-a, illetve 38%-a tartotta rokonszenvesnek.

Page 108: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

98

Vizsgáljuk meg 5%-os szignifikanciaszinten azt a feltevést, hogy adott politikus iránt nőtt-e a rokonszenv!

A mintában: n1 = n2 = 1000, továbbá p1 = 0,32, p2 = 0,38.

A kérdés megválaszolása a

nullhipotézis vizsgálatát jelenti, ahol 1-gyel a korábbi, 2-vel a későbbi vizsgálat eredményét jelöltük. Az alternatív hipotézisben azt fogalmazzuk meg,hogy a politikus iránti rokonszenv nőtt, azaz

Mivel a két arányszám közötti eltérésnek csak az iránya érdekel bennünket, ezért az esetén felírt próbafüggvényt használjuk. Ennek a mintábólszámított értéke:

melynek meghatározásához

A kritikus érték bal oldali kritikus tartomány esetén Az elfogadási tartomány pedig

Mivel a próbafüggvény számított értéke nem esik bele az elfogadási tartományba, a H0-t elutasítjuk a H1-gyel szemben. Tehát 5%-osszignifikanciaszinten nőtt az adott politikus iránti rokonszenv a lakosság körében .

8.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próbaA kétmintás t-próba alkalmazásának egyik feltétele a két sokasági szórás egyezősége volt. A két mintát igénylő próbák közül ismerkedjünk megutolsónak ezen probléma tesztelésére is alkalmas próbával. A 8.6. táblázatban bevezetett jelöléseket alkalmazzuk. Szükséges azonban az a továbbimegszorítás, hogy a sokaság eloszlásának mindkét sokaság esetén pontosan vagy igen jó közelítéssel normálisnak kell lennie.

Page 109: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

99

Célunk a két sokasági szórásra vonatkozó

nullhipotézis vizsgálata. Erre az

próbafüggvény használható, ami H0 helyessége esetén szf1 = n1 – 1 és szf2 = n2 – 1 szabadságfokú F-eloszlást alkot. Hiszen a számláló is és a

nevező is valószínűségi változó (lásd 7.3.4. pont). Ezért ezt a próbát F-próbának nevezzük.

Konkrét minta esetén a próbafüggvény megvalósult értéke a következő összefüggéssel határozható meg:

Fontos megjegyeznünk, hogy a szf1 a számláló szabadságfoka, a szf2 pedig a nevező szabadságfoka. Az, hogy melyik sokaságot jelöljük 1-essel,illetve 2-essel, elhatározás dolga. Ha ezt azonban egyszer már eldöntöttük, akkor e döntéshez a továbbiakban következetesen ragaszkodnunk kell,s a számláló és a nevező szabadságfokát ennek megfelelően kell megállapítani. (Erre később még visszatérünk.)

Az F-eloszlás 5 – a hasonlóan – nem szimmetrikus eloszlás. Ez befolyásolja az elfogadási tartomány határainak kikeresését. Az eloszlássűrűségfüggvényét a 8.6. ábra szemlélteti, különböző szabadságfokpárok esetén.

Az F-próba kritikus értékei szintén külön erre a célra készített táblázatokból olvashatók ki (Függelék 3. táblázat). Mivel most a szf1 és szf2szabadságfokok a táblázatban egy-egy külön dimenziót igényelnek, így a „p” értékek a táblázat címe alatt szerepelnek. A táblázatból közvetlenülkiolvasható a cf felső kritikus érték, míg az ca alsó kritikus értékek a következő összefüggéssel határozhatók meg:

5 Sűrűségfüggvénye a Valószínűségszámítás 197. oldalán található.

Page 110: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

100

8,6. ábra - Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén

Tehát az alsó kritikus értéket úgy határozhatjuk meg, hogy a felcserélt szabadságfokok mellett kikeresett felső kritikus érték reciprokát vesszük.

Ezek után tekintsük át az F-próba elfogadási tartományait különböző alternatív hipotézisek esetén (8.8. táblázat)!

8.8. táblázat - Az F-próba elfogadási tartományai α szignifikanciaszint mellett

Alternatív hipotézis Elfogadási tartomány

Az alsó kritikus érték kikeresésével kapcsolatos kellemetlenséget elkerülhetjük, ha a számlálóba mindig a nagyobb szórást írjuk. Így eleve biztosítjuk,

hogy a próbafüggvény értéke 1-nél nagyobb legyen. Mivel mindig nagyobb vagy egyenlő, mint 1, így az alsó kritikus érték mindig kisebb vagy

Page 111: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

101

egyenlő lesz, mint 1. Ezért nem fordulhat elő, hogy a próbafüggvény számított értéke kisebb legyen az alsó kritikus értéknél, így nem feltétlenülszükséges ezen érték meghatározása.

Az F-próbáról elmondottak igazak a és a ellenhipotézis esetén is. Mivel a ellenhipotézis esetén, ha a számlálóba a

nagyobb szórást írtuk, a próbafüggvény értéke mindig az elfogadási tartományba esik, így a nullhipotézist mindig elfogadjuk a ellenhipotézissel szemben.

Mint már említettük, a kétmintás t-próba alkalmazásának feltétele, hogy a sokasági szórások megegyezzenek. Az új és a régi típusú gumiabroncsok

kopásállóságát összehasonlító példában feltételeztük, hogy Ellenőrizzük 5%-os szignifikanciaszinten ezen állítás helyességét! (Továbbra is1-gyel a régi, 2-vel az új típusú abroncsokat jelöljük.)

A vizsgálandó nullhipotézis: illetve az ellenhipotézis:

A próbafüggvény megvalósult értéke:

Az alternatív hipotézis kétoldali statisztikai próbát határozott meg. Annak ellenére, hogy a számlálóba a nagyobb mintabeli szórás került, (csupán a

gyakorlás céljából) határozzuk meg az alsó és a felső kritikus értéket is! A két szabadságfok: illetve

A kritikus értékek pedig: és

Az elfogadási tartomány: [0,248 ; 4,03]. A próbafüggvény számított értéke beleesik az elfogadási tartományba, így a nullhipotézisünket elfogadjuk.Tehát 5%-os szignifikanciaszinten a régi és az új típusú gumiabroncs kopásállóságának a szórása azonosnak tekinthető.

8.6. Egyéb hipotézisvizsgálatokA 8.4. és a 8.5. pontban tárgyalt próbák sokasági paraméterekre vagy ezek egymáshoz való viszonyára vonatkoztak. Ebben a pontban olyanhipotézisvizsgálati módszerekkel foglalkozunk, amelyek egy vagy több változó sokasági eloszlására irányulnak. Megismerkedünk továbbá avarianciaanalízis legegyszerűbb modelljével.

8.6.1. IlleszkedésvizsgálatEgy valószínűségi változó eloszlására vonatkozó állítás vagy feltételezés ellenőrzését illeszkedésvizsgálatnak nevezzük. Attól függően, hogy ahipotézisünket mennyire konkretizáljuk, kétféle illeszkedésvizsgálatot különböztetünk meg.

Page 112: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

102

1. Ha a feltételezett (hipotetikus) eloszlás egyértelműen meghatározott – a típusát és paramétereit előre rögzítjük –, akkor tiszta illeszkedésvizsgálatrólbeszélünk.

2. Ha a feltételezett (hipotetikus) eloszlásnak csak a típusát adjuk meg – a paramétereit pedig a mintából becsüljük –, akkor becslésesilleszkedésvizsgálatot végzünk.

Tegyük fel, hogy a sokaságot valamely (többnyire mennyiségi, de néha minőségi) ismérv(ek) alapján k számú részre bontottuk, azaz a sokaságegységeit a szóban forgó ismérv(ek) alapján osztályoztuk. Tegyük fel, hogy ugyanezt az osztályozást a mintára vonatkozóan is elvégeztük.

A mintaelemek osztályozásának eredményeit a 8.9. táblázatban foglaltuk össze.

8.9. táblázat - A minta valamilyen ismérv szerinti megoszlása a

Az ismérvalapján képzett A kategória előfordulásának

kategóriák ismérvértéke gyakorisága a mintában a konkrét mintábanX1

X2

.

.

Xi

.

.

Xk

v1

v2

.

.

vi

.

.

vk

n1

n2

.

.

ni

.

.

nk

Összesen n na Az ismérvértékek alapján képzett kategóriák lehetnek egyedi értékek, illetve mennyiségi ismérv esetén osztályközök. Egyedi értékek esetén a minta eloszlásáról, míg osztályközökesetén megoszlásáról beszélünk.

Az általunk feltételezett eloszlás minden ismérvváltozathoz egy meghatározott Pi valószínűséget rendel. A Pi megmutatja, hogy a feltételezett(elméleti) eloszlás fennállása esetén mekkora lenne az i-edik ismérvváltozat előfordulásának valószínűsége, vagyis egy elemet véletlenszerűenkivéve ennyi a valószínűsége, hogy az adott ismérvváltozatba tartozik.

Page 113: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

103

Ennek megfelelően a nullhipotézis az alábbi módon adható meg:

ahol

Az alternatív hipotézist pedig a

H1 : létezik olyan i, amelyre

formában fogalmazhatjuk meg. Világos, hogy Egy mintában az eltérést a összeggel mérhetnénk.

Ha a rendelkezésre álló minta elég nagy, akkor a H0 hipotézis ellenőrzésére a

(ahol ) próbafüggvény használható, amely jó közelítéssel szabadságfokú követ, ha a igaz. (A bizonyítással nemfoglalkozunk.) A szabadságfoknál a b a Pi meghatározásához szükséges azon paraméterek számát jelenti, amelyet a mintából becsültünk, k pedig

a képzett kategóriák száma. (Természetesen tiszta illeszkedésvizsgálatnál a b értéke 0, így )

A próbafüggvény csak akkor közelíti meg jól a ha nagy mintánk van. További követelmény a jó közelítéshez, hogy a legkisebb feltételezett

gyakoriság (nPi) nagyobb vagy egyenlő legyen, mint 10, de legalább Ez a szigorú feltétel valójában a mintanagyságra, valamint a képzettkategóriák számára vonatkozó korlát. Ha ez nem teljesül és a minta elemszáma valamilyen oknál fogva előre adott, célszerű új kategóriákat képeznia próba végrehajtásához.

A próbafüggvény képzésének logikája, hogy igaz H0 esetén az n elemű mintában az i-edik kategória előfordulásának gyakorisága az körülingadozik, hiszen – mint azt láttuk – ennyi a várható értéke. A próbafüggvény számlálójában lévő különbség tehát a nullhipotézis fennállása eseténcsak a véletlenszerű (a mintavétel véletlen jellege miatti) eltéréseket mutatja.

Ha az alternatív hipotézis igaz, akkor a két eloszlás (a feltételezett elméleti és a mintából előállt eloszlás) eltérése már nemcsak a véletlentől függ,

ezért várható, hogy a próbafüggvény eloszlása a megfelelő szabadságfokú képest jobbra fog tolódni. Így az illeszkedésvizsgálatot jobb

Page 114: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

104

oldali kritikus tartománnyal kell végrehajtani. Ez azt jelenti, hogy az szignifikanciaszinthez felső kritikus értéket kell keresni, azaz A próba

végrehajtásához az elfogadási tartomány a kritikus tartomány pedig lesz.

Konkrét minta esetén a próbafüggvény megvalósult értékét a

összefüggéssel határozhatjuk meg, ahol

Az illeszkedésvizsgálatnak számtalan felhasználási területe van. Az eddig megismert egy- és kétmintás statisztikai próbák feltétele volt, hogy a mintanormális vagy közelítőleg normális eloszlású sokaságból származzon. Ezen megkötés teljesülését illeszkedésvizsgálattal ellenőrizhetjük, magát avizsgálatot pedig normalitásvizsgálatnak nevezzük.

Nézzünk erre vonatkozóan egy példát.

Valamely gyorsbüféhálózat üzleteiben a vevőket 45 másodperc alatt kell kiszolgálni. A kiszolgálási idő megengedett szórása 7 másodperc. 400véletlenszerűen kiválasztott vendég kiszolgálási idő szerinti megoszlását a 8.10. táblázat mutatja:

8.10. táblázat - A kiválasztott vendégek kiszolgálási idő szerinti megoszlása

Kiszolgálási idő(másodperc)

Vendégekszáma (fő)

– 35

35 – 40

40 – 45

45 – 50

50 – 55

55 –

20

80

100

100

60

40Összesen 400

Page 115: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

105

Ellenőrizzük azt a feltevést, hogy a mintánk az előírt paraméterű (μ = 45, σ = 7) normális eloszlásból származott! A szignifikanciaszint 5%.

A vizsgálathoz először a normális eloszlás feltételezése melletti Pi elméleti valószínűségeket kell meghatározni. Ha az i-edik osztályköz felsőhatárát xif-fel, illetve alsó határát xia-val jelöljük, akkor az i-edik osztályközbe esés valószínűsége μ várható értékű és σ szórású normális eloszlásfeltételezésével:

A valószínűségek meghatározásához először ki kell számolni a hányadosokat, amelyeket a számítások elvégzéséhez szükségesmunkatábla (8.11. táblázat) (3) oszlopában tüntettünk fel. Ezek után a standard normális eloszlás táblázatából (Függelék 1. táblázat) kikeressük ahányadosokhoz tartozó eloszlásfüggvény-értékeket (a munkatábla (4) oszlopa). Az (5) oszlopban a Pi valószínűségeket határozzuk meg a (4) oszlopszomszédos elemeinek kivonásával. (Ennek magyarázatát az i-edik osztályközbe esés valószínűségére az előzőekben felírt összefüggés adja.) Akiszámított Pi elméleti valószínűség megmutatja, hogy mekkora az i-edik kategória előfordulásának valószínűsége, ha normális eloszlású sokaságbólszármazik a minta. A normális eloszlás feltételezése melletti gyakoriságok – (6) oszlop – segítségével meghatározzuk a (7) oszlop összesen sorábana próbafüggvény számított értékét.

Fontos megjegyeznünk, hogy az utolsó osztályközhöz tartozó zif értéket mindig ∞-nek vesszük. Ennek következtében ezen osztályközhöz tartozó

eloszlásfüggvény értéke 1 lesz, és így teljesül a összefüggés.

A számítások elvégzésének gondolatmenetét alkalmazzuk a példánkra. Az eredményeket a 8.11. táblázat tartalmazza.

8.11. táblázat - A próbafüggvény számított értékének meghatározására szolgáló munkatáblaKiszolgálási

idő (sec) Vendégekszáma (fő)

(1) (2) (3) (4) (5) (6) (7)– 35

35 – 40

40 – 45

45 – 50

20

80

100

100

–1,43

–0,71

0,00

0,71

0,0764

0,2389

0,5000

0,7611

0,0764

0,1625

0,2611

0,2611

30,56

65,00

104,44

104,44

3,65

3,46

0,19

0,19

Page 116: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

106

50 – 55

55 –

60

40

1,43

0,9236

1

0,1625

0,0764

65,00

30,56

0,38

2,92Összesen 400 – – 1,0000 400,00 10,79

A táblázat alapján a próbafüggvény aktuális értéke:

A kritikus érték meghatározásához a szabadságfok mivel az osztályközök (kategóriák) száma 6 és a sokaság paraméterei adottak, ígytiszta illeszkedésvizsgálatot hajtottunk végre.

A kritikus érték az elfogadási tartomány pedig [0 ; 11,1]. Mivel a számított érték az elfogadási tartomány része, elfogadjuk anullhipotézist. A kiszolgálási időt tehát 5%-os szignifikanciaszinten 45 perc várható értékű, 7 perc szórású normális eloszlású valószínűségi változónaklehet tekinteni.

Az illeszkedésvizsgálatot nemcsak a normális eloszlás, hanem egyéb elméleti eloszlások (pl. egyenletes, lognormális, Poisson- stb. eloszlás)

fennállásának ellenőrzésére is használhatjuk. Természetesen az egyes eloszlások esetén a feltételezett elméleti eloszlás melletti gyakoriság meghatározása különbözni fog a normalitásvizsgálatnál bemutatott gondolatmenettől.

8.6.2. FüggetlenségvizsgálatA függetlenségvizsgálat azon nullhipotézis ellenőrzésére szolgál, hogy két ismérv független egymástól. Az alternatív hipotézisben pedig aztfogalmazzuk meg, hogy nem függetlenek. Ez az alternatív hipotézis két ismérv közötti sztochasztikus, illetve függvényszerű kapcsolatot enged meg. 6

Ha a sokaságról teljes körű információval rendelkezünk, akkor az I. kötet 3.4. pontjában szereplő kontingenciatábla segítségével és a 3.4.1. pontbanfelírt függetlenség definíciójának felhasználásával eldönthetjük, hogy a két ismérv független-e egymástól.

Más a helyzet, ha a véges sokaságot nem ismerjük, és a következtetést mintából származó adatokra kell alapoznunk. Ilyenkor is egy méretű(ahol s a sorok, t az oszlopok számát mutatja) kontingenciatáblából indulunk ki – általános sémája Tankönyvünk I. kötetének 3.15. táblázatábantalálható –, amely most a mintában észlelt gyakoriságokat tartalmazza.

A függetlenségvizsgálat során a

6 Általános statisztika I. (Szerk. Korpás Attiláné dr.) Nemzeti Tankönyvkiadó, Bp., 1996. 3.4. pont (A további hivatkozásoknál: I. kötet.)

Page 117: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

107

nullhipotézist a

van olyan i és j, amelyre (ha és )

alternatív hipotézissel szemben teszteljük, ahol:

az első ismérv i-edik és a második ismérv j-edik változata együttes előfordulásának valószínűsége a sokaságban,

és a peremeloszlás megfelelő valószínűségei.

Ha a nullhipotézis fennáll, akkor a két szóban forgó ismérv szignifikanciaszinten függetlennek tekinthető egymástól .

Nyilvánvaló, hogy a együttes valószínűségek a és a peremvalószínűségek ismeretében meghatározhatók, ha a hipotézis igaz. Általábanezeket a peremvalószínűségeket sem ismerjük. Becslésükre a minta gyakoriságait használjuk.

Legyen az 1. ismérv szerinti i-edik osztályhoz tartozó gyakoriság a mintánál és a 2. ismérv j-edik osztályához tartozó

gyakoriság. Jelölje továbbá az 1. ismérv i-edik és a 2. ismérv j-edik osztályába eső mintaelemek számát Ekkor

Ha a és valószínűségek ismeretesek, akkor tiszta illeszkedésvizsgálatról van szó, és a próbafüggvény

szabadságfokú, valószínűségi változó, mivel osztály van. Ha a és valószínűségek (paraméterek) nem

ismeretesek, akkor ezeket becsüljük a és gyakoriságok segítségével. Itt tulajdonképpen illetve szabad paramétert kell becsülni, hiszenmindkét peremen a valószínűségek összege 1. Így a becsléses illeszkedésvizsgálat próbafüggvénye, a

Page 118: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

108

valószínűségi változ szabadságfokú alkot. Tehát a szabadságfok levezethető a becslésesilleszkedésvizsgálatnál alkalmazott szabadságfokból. A függetlenségvizsgálat így valóban az illeszkedésvizsgálat speciális eseteként kezelhető.

A következőkben a konkrét mintában az 1. ismérv i-edik előfordulásának és a 2. ismérv j-edik előfordulásának együttes gyakoriságát jelölje a

peremgyakoriságokat pedig és Ekkor a próbafüggvény megvalósult értéke a következőképpen határozható meg:

A próba elutasítási tartománya a becsléses illeszkedésvizsgálatnak megfelelően jobb oldali, így a szignifikanciaszint esetén akkor fogadjuk el,

ha a próbafüggvény megvalósult értéke a elfogadási tartományba esik.

Tekintsük a következő példát. Egy szociológiai vizsgálat során azt kívánjuk ellenőrizni, hogy az egyetemet végzett férfiak és nők előrejutásilehetőségei azonosnak tekinthetők-e. Ehhez a vizsgálathoz az egyik egyetem 15 évvel ezelőtt végzett évfolyamának hallgatói közül véletlenszerűenkiválasztottunk 200 főt. A megkérdezettek adatait a 8.12. táblázat tartalmazza:

8.12. táblázat - A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása

Megnevezés Férfi Nő ÖsszesenBeosztott

Középvezető

Felső vezető

20

60

30

40

40

10

60

100

40Összesen 110 90 200

A vizsgálat során a szignifikanciaszint 5%.

A nullhipotézis és az alternatív hipotézis a következő formában írható fel:

van olyan i és j, amelyre (ha és ).

Page 119: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

109

A próbafüggvény kiszámításához készítsük el a 8.13. táblázatot.

8.13. táblázat - Munkatábla a próbafüggvény aktuális értékének meghatározásához

Megnevezés

Férfi

Beosztott

Középvezető

Felső vezető

20

60

30

33

55

22

5,121

0,455

2,909

Beosztott

Középvezető

Felső vezető

40

40

10

27

45

18

6,259

0,556

3,556Összesen 200 200 18,856

A táblázat alapján a próbafüggvényünk számított értéke:

A szabadságfok:

A kritikus érték szf szabadságfok és 5%-os szignifikanciaszint esetén Mivel a kritikus érték kisebb, mint a számított érték, a elutasítjuk.Tehát a rendelkezésre álló adatok 5%-os szignifikanciaszinten ellentmondanak annak az állításnak, hogy a nemhez való tartozás és a beosztásfüggetlen egymástól.

A függetlenség történő ellenőrzése során – hasonlóan a Tankönyvünk I. kötete 3.4.1. pontjában ismertetett függetlenség definíciójához –nem tettünk megkötést az ismérvek típusára vonatkozóan. Így ezen eljárás bármilyen ismérvek esetén alkalmazható.

A gyakorlatban sokszor előfordul, hogy két minőségi (vagy területi) ismérv közötti kapcsolat szorosságát kívánjuk meghatározni, de a teljes végessokaságot nem ismerjük. Mivel következtetéseinket mintára kell alapoznunk, a 3.4.2. pontban megismert asszociációs mutatószámok által mértkapcsolat szorossága félrevezető lehet, mert nem tudunk a mutatóhoz a mintanagyságtól függő konfidenciaintervallumot rendelni. Ezért célszerű asokaságban érvényesülő sztochasztikus kapcsolat hiányát hipotézisként kezelni, és a minta adatai alapján függetlenségvizsgálattal ellenőrizni, hogya két ismérv független-e egymástól, vagy van közöttük sztochasztikus vagy függvényszerű kapcsolat.

Page 120: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

110

8.6.3. VarianciaanalízisA varianciaanalízis annak a nullhipotézisnek az ellenőrzésére szolgál, hogy kettőnél több azonos szórású normális eloszlású valószínűségiváltozónak azonos-e a várható értéke is.

A próba végrehajtásához szükség van legalább egy nominális mérési skálán és egy arányskálán mért ismérvre. A nominális mérési skálán mértismérv alapján M db egymástól független sokaságot hozunk létre, amelyekből független, azonos eloszlású mintát veszünk. Így M db egymástólfüggetlen mintához jutunk.

Legyen a j-edik sokaságból származó i-edik megfigyelés ( ). A varianciaanalízis modellje szerint

ahol : az egész sokaságra jellemző várható érték,

: a sokasági hatást képviselő, csak a j-edik sokaságra jellemző konstans,

: az előző kettőhöz képest a véletlen ingadozást képviselő, 0 várható értékű és szórású normális eloszlású valószínűségi változó.

Tehát a modellünk szerint minden megfigyelés három tagból tevődik össze. Az első két komponens összege amely a j-edik sokaságra jellemző

várható érték, amit is szoktak jelölni. A modell szerint a j-edik sokaságon belüli megfigyelések a várható érték körül ingadoznak a szórásúnormális eloszlás törvényszerűségeinek megfelelően.

A felírt modell szerint a j-edik sokaságból származó elemű minta alapján számított

mintabeli átlag várható értéke:

mivel továbbá és rögzített j mellett állandó paraméterek.

Page 121: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

111

Legyen

az „egyesített” minta átlaga. (Felírásánál a rész- és a főátlagok közötti összefüggést használtuk fel a mintákra alkalmazva.)

Igaz továbbá, hogy

Ezután belátható, hogy

Tehát az egyesített minta átlaga csak akkor lehet torzítatlan becslése a (az egyesített sokaság várható értékének), ha

Vezessük be a

vagy a

nullhipotézist. A felírt nullhipotézisek egyenértékűek azzal az állítással, hogy az X (az arányskálán mért ismérv) várható értéke független asokaságokat megkülönböztető tényezőtől (a nominális mérési skálán mért ismérvtől). A várható érték tehát minden részsokaságban egyenlő az

egyesített sokaság várható értékével, a

A felírt – két egymással ekvivalens – nullhipotézissel szemben az az alternatív hipotézis áll, hogy a sokasági átlagoknak nem mindegyike esik

egybe a az egyesített sokasági átlaggal. (Ezzel egyenértékű az az ellenhipotézis, hogy létezik olyan amely nem egyenlő 0-val.)

Page 122: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

112

A nullhipotézis ellenőrzésére szolgáló próbafüggvény a

összefüggésen alapul, ami nem más, mint az I. kötet 3.4.3. pontjában megismert összefüggésnek az egyes mintákra és az egyesített mintára történőalkalmazása.

A modell kiinduló feltételei (az egyes sokaságok normális eloszlásúak, és a szórásaik megegyeznek) esetén a nullhipotézis tesztelésére az

próbafüggvényt használjuk, amely és szabadságfokú F-eloszlást alkot, ha a igaz. Az is bizonyítható továbbá, hogy a számlálóvárható értéke

lesz. A nevező várható értéke pedig, mivel

Tehát a próbafüggvénynek mind a számlálója, mind a nevezője becslését adja. Ha az ellenhipotézis az igaz, akkor a számláló nagyobb lesz, minta nevező, ezért a próbát jobb oldali kritikus tartománnyal kell végrehajtani.

Konkrét minta esetén jelöljük a j-edik sokaságból származó i-edik megfigyelés eredményét , a j-edik (rész)minta átlagát

és az „egyesített” minta átlagát. Legyen

Page 123: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

113

a konkrét mintából számított teljes eltérés-négyzetösszeg,

a konkrét mintából számított külső eltérés-négyzetösszeg,

a konkrét mintából számított belső eltérés-négyzetösszeg.

Ekkor a próbafüggvény megvalósult értéke a következő összefüggéssel határozható meg:

Ha a nullhipotézis igaz, akkor azt mondhatjuk, hogy a nominális mérési skálán mért ismérvnek szignifikanciaszinten semmilyen hatása sincs azarányskálán mért ismérv átlagos nagyságára. Ha pedig az alternatív hipotézis az igaz, akkor a két ismérv között sztochasztikus (vagy függvényszerű)kapcsolat áll fenn.

A próba végrehajtásához szükséges számítások elvégzését megkönnyíti a varianciaanalízis- tábla, amelynek sémáját – konkrét minta esetén – a8.14. táblázat tartalmazza.

8.14. táblázat - Varianciaanalízis-tábla sémája

Összetevő Négyzetösszeg Szabadság-fok

Becsültszórás-négyzet

Külső

Belső

Teljes –

Page 124: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

114

Az eddigiek során a próba végrehajtásához egy nominális és egy arányskálán mért ismérvre volt szükség. A varianciaanalízist akkor alkalmazhatjuk,ha mintavételből származó információk alapján kívánjuk eldönteni, hogy egy mennyiségi ismérv (arányskálán mérhető) átlagos nagysága függ-e valamilyen minőségi ismérvtől (nominális skálán mérhető), vagy független attól. Ekkor a varianciaanalízist a vegyes kapcsolat fennállásánaktesztelésére használjuk.

Nézzük a következő példát. Egy összeszerelő-üzemben ugyanazon alkatrész összeszerelését 4 dolgozó végzi. Az üzem vezetése szerint az egyikdolgozó rosszabb teljesítményt nyújt, mint a többi. Ennek ellenőrzésére 15 napon keresztül figyelemmel kísérték a gyártott alkatrészek számát. Azegyes dolgozók teljesítménye normális eloszlásúnak tekinthető, továbbá a szórások egyezősége feltételezhető. A megfigyelés eredményeit a 8.15.táblázat tartalmazza.

8.15. táblázat - Az egyes dolgozók teljesítményadatai

Megfigyeltnapok száma

Átlagosteljesítmény (db) Eltérés-négyzetösszeg

Dolgozó

A

B

C

D

15

15

15

15

59,3

57,9

61,0

60,2

117,6

173,4

228,2

86,4Összesen 60 ... ...

Vizsgáljuk meg, hogy a 4 dolgozó átlagos teljesítménye azonosnak tekinthető-e (α = 5%).

Először írjuk fel a nullhipotézist és az ellenhipotézist!

létezik olyan amely nem egyenlő a többivel.

A próbafüggvény kiszámításához:

Page 125: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

115

Ezek után kiszámíthatjuk a próbafüggvény megvalósult értékét, ami

A kritikus érték megállapításához a szabadságfokok: és A kritikus érték pedig 5%-os szignifikanciaszint esetén A próba elfogadási tartománya: [0 ; 2,79]. Mivel a próbafüggvény értéke az elfogadási tartományba esik, a nullhipotézist elfogadjuk. A 4 dolgozóátlagos teljesítménye között nincs szignifikáns különbség, más szóval nem bizonyult igaznak az a feltételezés, hogy egyik dolgozójuk rosszabbteljesítményt nyújt.

8.7. Gyakorlófeladatok1. A zacskóba csomagolt 1 kg-os kristálycukor tömegének ellenőrzésére 10 elemű véletlen mintát vettünk. Feltételezhető, hogy a csomagolóautomatanormális eloszlással tölt.

Mérési eredmények dkg-ban:

96; 96; 97; 100; 98; 98; 96; 99; 101; 102.

A töltősúly szórásának megengedett mértéke 1 dkg.

Feladat:

a) Ellenőrizzük, hogy a kristálycukor töltési tömege megfelel-e a szabványnak! (α = 1%.)

b) Ellenőrizzük 5%-os szignifikanciaszinten azt a feltevést, hogy a csomagolási tömeg szórása meghaladja az 1 dkg-os mértéket!

2. Egy konzervgyárban a húskonzervek töltését automata gép végzi. A dobozok szabvány szerinti töltési tömege 450 gramm, szórása 10 gramm. Agyár egyik szállítmányából 30 darabból álló véletlen mintát vettek. A mintába került dobozok átlagos töltési tömege 448 gramm, a szórása 12 gramm.A dobozok töltési tömeg szerinti eloszlása normális.

Feladat:

Page 126: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

116

Vizsgáljuk meg annak a hipotézisnek a helyességét, hogy

a) a konzervek átlagos töltési tömege nem tér el a szabványtól!

– A megengedett szórás felhasználásával,

– a mintából becsült szórás felhasználásával.

b) a szórás nem tér el szignifikánsan a szabvány szerintitől!

Az elsőfajú hiba elkövetésének mindhárom esetben 5% esélyt adunk.

3. Adott technológiai folyamattal évek óta készítenek tv-képcsöveket. A képcső szabvány szerinti átlagos élettartama 12 000 óra, a megengedettszórás 3000 óra.

Új technológiát vezetnek be a képcsövek minőségi paramétereinek javítására. Egy 60 db-os mintában az átlagos élettartam 12 800 óra, 3 100 órásszórással. A képcsövek élettartama normális eloszlást alkot.

Feladat:

Ellenőrizzük az alábbi hipotéziseket:

a) Az új technológiával gyártott képcsövek élettartama nem felel meg a szabványnak (α = 0,05 és α = 0,01 szignifikanciaszinteken)!

b) Az új képcsövek élettartama meghaladja a szabványosat! (α = 0,05.)

4. Egy titkárnőképző hirdetésében azt állítják, hogy a végzettek 90%-ának garantálják az elhelyezkedését. Az utolsó tanfolyamon 100-an végeztek,és közülük 84-nek sikerült elhelyezkedni.

Feladat:

a) Mondjunk véleményt a hirdetésről 5, illetve 1%-os szignifikanciaszinten!

b) Megerősítené-e döntésünket, ha az információk 200 elemű mintából származtak volna?

5. 200 grammos mosóport 3 műszakban töltenek. Műszakonként 50 elemű mintát vesznek a töltés mennyiségének ellenőrzésére. A töltési tömegátlagára vonatkozó adatok:

Page 127: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

117

A töltőgép 5 grammos szórással képes tölteni. A töltési tömeg normális eloszlása feltételezhető.

Feladat:

Vizsgáljuk meg, hogy az egyes műszakok töltési mennyiségei eltérnek-e szignifikánsan a névleges értéktől! (α = 0,05.)

6. Egy reprezentatív felmérés során vizsgálták a juhok gyapjúhozamát 300 elemű minta alapján. A vizsgálat során a következő adatok váltakismeretessé.

A fésűs merinó fajta részletes adatai:

Gyapjúhozam (kg) Juhok száma (db)– 4,0

4,0 – 5,0

5,0 – 6,0

6,0 – 8,0

8,0 –

6

32

40

59

13Összesen 150

A német húsmerinó fajtára számított eredmények:

a megfigyelt juhok száma: 150 db,

az átlagos gyapjúhozam: 5 kg,

a gyapjúhozam szórása: 1,24 kg,

a 6 kg feletti gyapjúhozamú juhok aránya 32%.

Mindkét fajtánál a gyapjúhozam szerinti normális eloszlás feltételezhető.

Feladat:

a) Szakértők tapasztalatai szerint a fésűs merinó juhok átlagos hozama 1,5 kg-mal meghaladja a német húsmerinó gyapjúhozamát. Alátámasztja-ea minta a szakértői tapasztalatokat? (α = 10%.) A szórások azonossága feltételezhető!

Page 128: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

118

b) Van-e szignifikáns különbség a 6 kg feletti hozamú juhok aránya között? (α = 5%.)

7. Az M-0-ás autópálya valamely szakaszán forgalomszámlálást tartanak. Az egyes napokon történő számlálás eredményei (az áthaladó gépkocsikszáma szerint csoportosítva):

Gépkocsik száma Napok száma– 1000

1001 – 2000

2001 – 3000

3001 – 4000

4001 – 5000

5001 felett

14

19

31

19

15

12Összesen 110

A megfigyelt napokon átlagosan 2851 gépkocsi haladt át a vizsgált helyen, a szórás 1506 gépkocsi. (Kerekített adatok!)

Feladat:

Ellenőrizzük azt a feltevést, hogy a gépkocsiforgalom normális eloszlású! (α = 5%.)

8. Termésátlagbecsléshez az alábbi 100 elemű mintát használjuk.

A mintaelemek számaTermésnagyság-

csoportok (g/m2) ténylegesen N(579; 69,51)* eloszlásfeltételezésével

– 450

451 – 500

501 – 550

551 – 600

4

8

20

32

3,14

9,57

21,01

28,07

Page 129: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

119

601 – 650

651 – 700

701 –

20

12

4

...

...

...

Összesen 100 ...

*A mintából számított paraméterek.

Feladat:

a) Számítsuk ki a hiányzó adatokat!

b) Ellenőrizzük 5%-os szignifikanciaszinten, hogy normális eloszlásúnak tekinthető-e a minta!

9. Egy lakótelepen 420 háztartásnál elemezték a mosógéppel való ellátottságot. A minta adatai:

Háztartástípus

Mosógép- ellátottság

Egyedülállók ésgyermektelenházaspárok

Gyermekesházaspárok Összesen

Nincs mosógép

Hagyományos

Félautomata és automata

20

40

40

44

236

40

64

276

80Összesen 100 320 420

Feladat:

a) Ellenőrizzük megfelelő próbával azt a feltevést, hogy a mosógép nélküli háztartások aránya szignifikánsan nagyobb az egyedülálló (ésgyermektelen) háztartásokban! (α = 5% és α = 1% mellett.)

b) Számítsuk ki, hogy milyen szoros a kapcsolat a két ismérv között!

c) Ellenőrizzük 5%-os szignifikanciaszinten, hogy a szorossági mérőszám szignifikáns kapcsolatot jelez-e!

10. Egy közvélemény-kutató intézet azt vizsgálja, hogy három párt szavazói a választások után 1 évvel mennyire ragaszkodnak ahhoz a párthoz,amelyikre a választáskor szavaztak. Az erre vonatkozó vizsgálat eredményei a következők:

Page 130: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

120

Szavazat a Most kire szavazna?választás

idején A-ra B-re C-re Nem tudja Összesen

A

B

C

142

37

5

8

103

8

41

24

67

34

23

8

225

187

88Összesen 184 119 132 65 500

Feladat:

a) Milyen következtetésre jut a közvélemény-kutató intézet a kapott adatok birtokában a választók „ragaszkodását” illetően? (α = 0,01.)

b) Számítsuk ki a két ismérv közötti kapcsolat szorosságát!

11. A közlekedési balesetek elemzésére szolgál az alábbi minta:

Megnevezés Autópálya Főút–autóút Egyéb ÖsszesenHalálos

Sérüléses

50

80

60

690

10

110

120

880Összesen 130 750 120 1000

Feladat:

a) Ellenőrizzük, hogy a baleset kimenetele és az út típusa között van-e szignifikáns kapcsolat! (α = 5%.)

b) Szignifikáns különbség van-e a halálos balesetek aránya között a főút–autóút és az egyéb utak esetében? (α = 1%.)

12. 50 véletlenszerűen kiválasztott hallgató dolgozatának eredménye valamely tantárgyból:

Hallgatók Elért pontszámFeladatsor

száma (fő) átlaga szórásaA 8 41 7,5

Page 131: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

121

B

C

D

E

10

14

8

10

37

40

34

37

10,0

7,0

8,7

6,4

Összesen 50 ... ...

Feladat:

a) Vizsgáljuk meg, hogy két (tetszőlegesen választott) feladatsor eredményei szignifikánsan eltérnek-e egymástól 5%-os szinten!

b) Igazolható-e az az állítás, hogy a feladatsorok (összességükben) eltérő nehézségűek voltak? (α = 0,05.)

13. Egy marketinggel foglalkozó cég vezetője arra kíváncsi, hogy jól kiképzett munkatársainak ügynöki teljesítménye független-e az életkortól. Azadatokat úgy gyűjtötték, hogy egy adott termékből egy hónap alatt hány darabot sikerült az ügynöknek eladni.

A 600 elemű minta adatai:

Eladások számaÉletkor 5 és 9

között10 és 15

között16 és 20

közöttÖsszesen

30 év alattiak

30 és 40 év között

40 év felettiek

50

80

60

80

90

50

70

90

30

200

260

140

Összesen 190 220 190 600

Feladat:

Befolyásolja-e az életkor az ügynökök munkájának eredményességét? (α = 5%.)

14. Egy piackutatás során különböző csomagolásban (A, B, C, D, E) mutattak be egy terméket. 300 vevő az alábbi megoszlásban választott:

Csomagolás Vevők száma

Page 132: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hipotézisvizsgálat

122

A

B

C

D

E

45

55

70

65

65Összesen 300

Feladat:

Ellenőrizze 5%-os szignifikanciaszinten, hogy egyenlő arányban választják-e az egyes csomagolási fajtákat!

Page 133: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

123

9. fejezet - Kétváltozós korreláció- és regressziószámításA társadalmi-gazdasági jelenségek alakulását, viselkedését vizsgálhatjuk teljes körű vagy részleges megfigyeléssel, nézhetjük önmagukban, deelemezhetjük a velük szoros kapcsolatban levő tényezőkkel együttesen is. Ha önmagukban vizsgáljuk azokat, akkor csak az események rögzítésére,egy állapot leírására van lehetőségünk. A hatótényezők összefüggésének elemzése ennél bővebb lehetőséget kínál, mivel arra is választ kaphatunk,hogy a bekövetkezett állapot milyen tényezők hatására jött létre, mely tényezők, milyen mértékben határozták meg a vizsgált jelenség alakulását.

Ebben a fejezetben a társadalmi-gazdasági folyamatokat alakító tényezők összefüggéseivel foglalkozunk és a becslési eljárásokhoz, valamint ahipotézisvizsgálathoz hasonlóan mintából származó adatokat használunk fel.

A közgazdasági elemzőmunkában a mennyiségi ismérvek közötti sztochasztikus kapcsolatok vizsgálatának van elsődleges szerepe. A gazdaságiélet jelenségei ugyanis rendszerint számszerűsíthetők. Vizsgálhatjuk például a gazdasági társaságok nettó árbevételének és jövedelmezőségénekösszefüggését, vagy a nemzetgazdaság fizetési mérlegének hiánya és az export volumene közötti kapcsolatot. Korábban, a kombinációs táblákelemzésekor már megismerkedtünk a sztochasztikus kapcsolat fogalmával, 1 az ismérvek közötti tendenciaszerű összefüggéssel. Az ismérvekfajtája szerint megkülönböztettünk asszociációt, vegyes kapcsolatot és megismerkedtünk a korrelációs kapcsolattal is. A csoportosított adatokbólvégzett elemzés kapcsán alkalmazható a korrelációs tábla, a kapcsolat szorossága mérhető a megismert korrelációs hányadossal, az összefüggésekfeltárásában pedig segít a tapasztalati regressziófüggvény. A következőkben a mennyiségi ismérvek közötti kapcsolatvizsgálat speciális eszközeivelfogunk megismerkedni.

Ha aziránt érdeklődünk, vajon fennáll-e a kapcsolat vagy sem, illetve milyen irányú és erősségű az összefüggés, a korrelációszámítás eszközeivelkaphatunk választ kérdésünkre.

Az ismérvek közötti függőségi viszonyok feltárásával, az összefüggésekben rejlő tendenciák matematikai függvényekkel történő leírásával pedig aregressziószámítás foglalkozik.

A gyakorlati elemzőmunkában a korreláció- és a regressziószámítást általában együtt, egymást kiegészítve alkalmazzák. Ha a korrelációszámítássorán szoros kapcsolat mutatkozik az ismérvek között, akkor a regressziós függvényt bátran felhasználhatjuk az összefüggés jellemzésére, gyengekapcsolat esetén viszont a regressziófüggvénnyel szemben is fenntartásaink lehetnek.

9.1. Kétváltozós korrelációszámításA sztochasztikus kapcsolatok elemzése során már megismertük a korrelációs hányadost 2 . Ebben a fejezetben további mérőszámokmeghatározásával foglalkozunk, amelyek szintén a mennyiségi ismérvek közötti kapcsolat szorosságát fejezik ki, kiszámításuk azonban reprezentatívmegfigyelések adataiból, azaz mintából történik.

1 I. kötet 125. oldal2 I. kötet 159. oldal

Page 134: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

124

A korrelációszámítás célja a kapcsolat intenzitásának és irányának mérése. A kapcsolatszorosság vizsgálatánál a két mennyiségi ismérvetszimmetrikusan kezeljük.

A korrelációs kapcsolat szorossági mérőszámainak esetében is ésszerűnek látszik megvizsgálni, hogy egy összefüggés mennyire áll közel afüggetlenséghez és mennyire közelíti meg a függvényszerű kapcsolatot. Ezért a mutatószámokkal szemben az asszociációs együtthatókhoz hasonlókövetelményt támasztunk:

– ha nincs összefüggés az ismérvek között, vagyis függetlenek egymástól, a szorosság mérőszámának nullát kell adnia;

– ha egyértelmű (lineáris függvényszerű) kapcsolat van az ismérvek között, a mérőszámnak 1 (illetve +1 vagy –1) értéket kell felvennie (a kapcsolatirányának megfelelően).

A szorossági mérőszámok meghatározásánál fontos szerepet játszanak a vizsgált ismérvek mérhetőségi tulajdonságai. A szóba jöhető mérőszámokközül, amelyeket a statisztika ilyen célra használ, itt csak a legfontosabbakat mutatjuk be.

9.1.1. A kovarianciaInduljunk ki a mennyiségi ismérvek kétdimenziós eloszlásainak speciális paraméteréből, a kovarianciából.

A valószínűségszámításban két valószínűségi változó, és kovarianciáján a

számot értjük, ha a definícióban szereplő várható értékek léteznek.

Ott bebizonyítottuk, hogy 3

1.

2. Ha és függetlenek, akkor fordítva nem igaz, ha akkor még nem biztos, hogy és függetlenek.

3. Ha és együttes eloszlása (kétváltozós) normális eloszlás, akkor akkor csak akkor, ha és függetlenek.

Adott egy sokaság, amelynek két mennyiségi ismérvét, X-et és Y-t vizsgáljuk. Diszkrét esetet feltételezve

3 Valószínűségszámítás 163., 168., 179. oldal

Page 135: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

125

X lehetséges értékei

Y lehetséges értékei

(mindkét esetben elképzelhető, hogy a lehetséges értékek száma nem véges). Ha véletlenszerűen kiválasztunk egy egyedet,

az úgynevezett együttes valószínűségek és

a peremvalószínűségek, akkor

ahol

az X, illetve az Y ismérv várható értéke.

Ha a sokaság véges N tagú és az együttes gyakoriságok (azon egyedek száma, amelyek az ismérvértékkel rendelkeznek), illetvea peremgyakoriságok 4 , akkor

Így a kovariancia (amelyet most -nal jelölünk):

4 I. kötet 127. oldal

Page 136: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

126

Itt az illetve az X ismérv, illetve az Y ismérv átlaga.

A kovariancia gyakran használt képlete még – az abszolút gyakoriságokat felhasználva, a definíciónak megfelelően – az átlagtól való eltérésekszorzatának átlagaként felírt formula:

A kovariancia tehát az átlagtól való eltérések szorzatának számtani átlaga, amely az együttes szóródás nagyságrendjét jellemzi.

Abban a speciális esetben, amikor a kovariancia a szórásnégyzettel azonos, így valóban a két ismérv együttes szórásának tekinthető,

Nézzünk egy példát!

Egy település könyvtárának összesen 50 beiratkozott olvasója van. A kölcsönzött kötetek száma (db) és a kölcsönzési idő (hét) közötti összefüggéstkívánjuk vizsgálni. (A könyvtár kéthetes időtartamokra kölcsönöz és legfeljebb kétszer hosszabbítja meg a kölcsönzési időt.) X: a kölcsönzési idő(hét), Y: a kölcsönzött kötetek száma (db). (Adatok a 9.1. táblázatban.)

9.1. táblázat - Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerintKölcsönzési idő (hét) Kölcsönzött kötetek száma (db) Y

X Összesen

3 9 2 1 15

8 7 2 3 20

4 9 1 1 15

Összesen 15 25 5 5 50

Page 137: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

127

A kölcsönzési idő átlaga 4 hét ( ). A kölcsönzött kötetek átlagos száma 2 ( ).

Ha a kovariancia másik képletéből indulunk ki, a számítás menete a következő:

Kérdés, hogy a kovariancia nagysága mennyire szoros sztochasztikus kapcsolatot jelez. Erre azért is nehéz válaszolni, mert a kovariancia nemdimenzió nélküli szám, nagysága függ a vizsgált ismérvek mértékegységétől.

Számítsuk ki a kovarianciát az előbbi példa adataiból, a kölcsönzési időt azonban most napokban mérjük! (9.2. táblázat.)

9.2. táblázat - Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerintKölcsönzési idő (nap) Kölcsönzött kötetek száma (db) Y

X Összesen

3 9 2 1 15

Page 138: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

128

8 7 2 3 20

4 9 1 1 15

Összesen 15 25 5 5 50

Az átlagos kölcsönzési idő most: A kölcsönzött kötetek átlaga:

(Itt már csak a nullától különböző szorzatokat írtuk fel.)

A kovariancia lényegesen nagyobb lett, pedig csak a kölcsönzési idő dimenzióján változtattunk.

A kétváltozós korrelációs kapcsolat vizsgálatánál a kovariancia képlete általában leegyszerűsödik, ha egyedi adatokból dolgozunk, azaz mindenértékpár csak egyetlenegyszer fordul elő, így a súlyok szerepét betöltő előfordulások száma mindegyik eltérésnél egy.

Ekkor a kovariancia:

ahol

Mielőtt a kovariancia felhasználásáról beszélnénk, összegezzük, hogy milyen tulajdonságai vannak. A következőket állapíthatjuk meg:

1. Előjelét a szorzatösszeg előjele határozza meg.

2. A sokaság elemszámától független.

3. Nagysága az ismérvek szóródásától és a kapcsolat szorosságától függ. Minél szorosabb a korreláció, annál nagyobb abszolút értékűszorzatösszegre számíthatunk.

Page 139: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

129

4. A két ismérv korrelálatlansága esetén

5. Ha az X, Y ismérvek függetlenek 5 , akkor Ha akkor értéke nemcsak a kapcsolat szorosságától függ, hanem a mennyiségi ismérvekdimenziójától is, amint azt a példánkban láttuk.

Célszerű a kapcsolat erősségének mérésére, ahogy erre már utaltunk, normált, a intervallumban elhelyezkedő mérőszámot alkalmazni. Ekkorteljesülnek a szorossági mérőszámokkal szemben megfogalmazott követelmények.

Tegyük fel, hogy az X és Y ismérv között lineáris kapcsolat áll fenn, azaz

Ekkor a számtani átlag és a szórás ismert tulajdonságai alapján:

Írjuk fel a -t:

Minden helyettesíthető tehát Ezt az átalakítást elvégezve a kovariancia a következőképpen írható:

(mivel ).

Fordítva is igaz, ha akkor van olyan a és b, hogy

(Ezt az állítást nem bizonyítjuk.)

5 Valószínűségszámítás 168. oldal

Page 140: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

130

Minden más esetben

Bizonyítás:

És ez akármilyen -nál igaz. Legyen

ekkor ,

azaz

Lineáris függvénykapcsolat esetén tehát a kovariancia az ismérvek külön-külön számított szórásainak szorzatával azonos.

9.1.2. A lineáris korrelációs együtthatóA sztochasztikus kapcsolatok szorosságának mérésére szolgáló dimenzió nélküli mérőszám a korrelációs együttható. Mi megkülönböztetésül lineáriskorrelációs együtthatónak nevezzük. Ha két valószínűségi változó kovarianciáját ( ) elosztjuk a két változó szórásával ( illetve ),megkapjuk a korrelációs együtthatót, melyet Pearson angol statisztikusról Pearson-féle korrelációs együtthatónak is neveznek. (Jele: R.)

Képlete:

A kovarianciánál leírtak miatt fennáll, hogy

Page 141: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

131

Eddigi megfontolásainknak megfelelően a sztochasztikus kapcsolat két valószínűségi változó között annál szorosabb, minél közelebb van az az 1-hez.

Ha a és az valószínűségi változók a kovarianciánál leírtak szerint korrelálatlanok.

Ha véges sokaságra kívánjuk felírni a lineáris korrelációs együtthatót (jele: ), képlete a következő:

Számítsuk ki példánk adataiból a lineáris korrelációs együtthatót! (Adatok a 9.1. táblázatban.)

A gyakoriságeloszlás alapján már kiszámítottuk a kovarianciát: volt.

A peremeloszlások szórására a következőket kapjuk:

és

A lineáris korrelációs együttható:

(gyenge, negatív kapcsolat).

Page 142: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

132

Számítsuk ki a lineáris korrelációs együtthatót a napokban mért kölcsönzési idők adataival is! (Adatok a 9.2. táblázatban.) Ebben az esetben akölcsönzési idő szórása:

Vegyük észre, hogy a szórás 2. tulajdonsága értelmében ez a hetekben mért kölcsönzési idő alapján számított szórásból egyszerűbben is

kiszámítható:

(A minimális eltérés természetesen kerekítésből adódik.)

A kölcsönzött kötetek számának szórása változatlan:

A lineáris korrelációs együttható most: egyezően az előbbivel, mutatva, hogy dimenzió nélküli mérőszámról van szó.

függetlenül attól, hogy a kölcsönzési időt hetekben vagy napokban mérjük.

A kapcsolat szorosságáról grafikus úton is tájékozódhatunk.

Ha az összes értékpár egy növekvő egyenesen fekszik :

Ha az összes értékpár egy csökkenő egyenesen fekszik:

Ha akkor az ismérveket korrelálatlanoknak nevezzük. Ha az X és Y ismérvek függetlenek, akkor A tétel azonban nem fordítható meg,a korrelálatlanságból nem következik a függetlenség. 6

Minél közelebb vannak a pontok az egyeneshez, annál közelebb kerül a lineáris korrelációs együttható +1-hez, illetve #1-hez. Az elmondottakatszemlélteti a 9.1. ábra.

6 Lásd 9.1.1. A kovariancia

Page 143: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

133

Általában nem áll rendelkezésünkre az együttes peremeloszlás-függvény, illetve az egész sokaság. Ilyenkor egy mintából becsüljüka korrelációs együtthatót.

(A például azt jelenti, hogy az első mintaelem X ismérvértéke és Y ismérvértéke )

A lineáris korrelációs együttható becslésére használt becslőfüggvényünk:

ahol :az X ismérv lehetséges mintaátlaga,

: az Y ismérv lehetséges mintaátlaga,

:az X ismérv szórásának becslése,

: az Y ismérv szórásának becslése,

n: a minta elemszáma.

Page 144: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

134

9,1. ábra - Pontdiagramok különböző korrelációs együtthatókkal

Page 145: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

135

Az az aszimptotikusan torzítatlan és erősen konzisztens becslése. 7

Egy konkrét mintavételnél, ha és , a lineáris korrelációs együttható:

ahol a mintaátlagok,

pedig a tapasztalati szórások (a képletek nevezőiben a mintanagyság, n szerepel).

Ha a kovarianciára, illetve a változók szórására külön nincsen szükségünk és a mintában mindegyik értékpár egyetlenegyszer fordul elő, megfelelőátalakítás után 8 a lineáris korrelációs együtthatót egy konkrét mintából kiszámíthatjuk a következőképpen is:

egyszerűbben

Kiszámítható az úgy is, hogy magukat az eltérésszorzatokat és az eltérés-négyzetösszegeket nem számítjuk ki. Elvégezhetők ugyanis a következőátalakítások:

7 Ennek bizonyítását lásd Köves Pál–Párniczky Gábor: Általános statisztika II. Közgazdasági és Jogi Könyvkiadó, 1981. 208. oldal8 Ennek belátását az olvasóra bízzuk.

Page 146: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

136

Ezek alapján:

A következő példánkban egy egyéni vállalkozó adatait dolgoztuk fel.

A vállalkozó fő tevékenységi körében teherszállítással foglalkozik. Munkájának elemzése során 10 véletlenszerűen kiválasztott fuvar alapjánvizsgálta, hogy van-e összefüggés a szállítás időtartama és távolsága között. A megfigyelés eredménye a 9.3. táblázatban található.

Sorszám Szállítás távolsága (km) x Szállítás időtartama (perc) y11. 114 11012. 114 11313. 112 11814. 110 12015. 119 12716. 120 13517. 116 12218. 120 14019. 125 14510. 130 150

Page 147: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

137

∑ 150 270

A számításokat célszerű munkatáblában elhelyezni (9.4. táblázat).

9.4. táblázat - Munkatábla a lineáris korrelációs együttható kiszámításához

Sor-szám x y

11. 4 10 #11 #17 187 121 28912. 4 13 #11 #14 154 121 19613. 2 8 #13 #19 247 169 36114. 10 20 #5 #7 35 25 4915. 19 27 4 0 0 16 016. 20 35 5 8 40 25 6417. 16 22 1 #5 #5 1 2518. 20 40 5 13 65 25 16919. 25 45 10 18 180 100 32410. 30 50 15 23 345 225 529∑ 150 270 0 0 1248 828 2006

A munkatábla adatainak felhasználásával számítsuk ki a lineáris korrelációs együtthatót!

Az átlagtól való eltérések segítségével számított lineáris korrelációs együttható:

A kapott eredmény alapján megállapíthatjuk, hogy szoros pozitív irányú kapcsolat van a szállítási távolság és a szállítási idő között.

Page 148: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

138

Ha a gyakorlatban olyan összefüggéseket vizsgálunk, melyeknél nem zárható ki, hogy nemlineáris kapcsolat áll fenn az ismérvek között, a lineáriskorrelációs együttható értelmezésénél kellő óvatossággal kell eljárni, és további elemzésre is szükség van. A korrelációs együttható ugyanis a lineáriskapcsolat mérőszáma, nemlineáris esetben nem használható.

9.1.3. A rangkorrelációs együtthatóA lineáris korrelációs együttható arányskálán mért mennyiségi ismérvek közötti kapcsolat szorosságát mérte. Szükséges lehet azonban olyantulajdonságok közötti összefüggés vizsgálata is, melyek legfeljebb sorrendi (ordinális) skálán mérhetők.

Ennek a problémának a megközelítésére nézzük a következő példát.

Az olimpiai játékokra készülve egy sícsapat az Alpokba utazott edzőtáborba. A hatfős csapat tagjai: Eszter, Brigitta, Karin, Bence, István és Pál. Asportolók a felkészülési idő végén versenyt rendeztek lesiklásban és műlesiklásban. A feljegyzett eredményeket a 9.5. táblázat tartalmazza.

9.5. táblázat - A versenyen elért helyezések

Diák Eszter Brigitta Bence István Karin PálLesiklás (X) 2. 1. 3. 4. 5. 6.

Műlesiklás (Y) 2. 3. 1. 5. 4. 6.

Edzőjük ki akarta számítani, hogy vajon van-e kapcsolat a lesiklásban és a műlesiklásban elért helyezések között. Mivel ő korábbi tanulmányaibóla lineáris korrelációs együtthatót ismerte, ezt számította ki, és a következő eredményt kapta 9 :

Az eredményből arra következtetett, hogy viszonylag szoros kapcsolat van a helyezési számok között.

Gondoljuk végig, hogy a lineáris korrelációs együttható számítása helyes volt-e az edző részéről. A helyezési számok sorrendi skálán mért értékek.A teljesített időről és az idők különbségéről az egyes sífutókra vonatkozóan a helyezési számok alapján nem tudunk semmit mondani. A 9.2. ábraalapján könnyen meggyőződhetünk arról, hogy a 6 futó helyezési számaira vonatkozó értékpárok egy emelkedő egyenesen fekszenek, ha mindkétversenyen azonos helyezést érnek el.

9 A felkészülésen csak ez a hat sportoló vett részt, tehát a teljes sokaságot vizsgáljuk.

Page 149: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

139

9,2. ábra - Rangszámpárok ábrázolása

Nézzük meg a 9.2. ábra A) részét. A lineáris korrelációs együttható ebben az esetben értéket vesz fel. Ez egyértelmű lineáris (függvényszerű)kapcsolatra utal, így a kérdésfeltevés jogos. Egy másik szélsőséges eset akkor áll fenn, ha a műlesiklás sorrendje pontosan a fordítottja a lesiklásénak.Grafikusan ábrázolva ezt az esetet, a 9.2. ábra B) részéhez hasonló rajzunk lesz.

A helyezési számok értékpárjai most egy csökkenő egyenesen helyezkednek el. A lineáris korrelációs együttható most lesz. Ez az érték isarra utal, hogy a lineáris korrelációs együttható a kapcsolat vizsgálatára alkalmas mérőszám.

A példa átgondolása után tehát logikusnak tűnik a lineáris korrelációs együttható alkalmazása ordinális skála esetében is. De a lineáris korrelációsegyüttható számítása csak akkor lehetséges, ha az ismérvváltozatok természetes számok. Ez az ordinális skálánál nem mindig teljesül. Ezt aproblémát úgy tudjuk megoldani, hogy mindegyik ismérv megfigyelési értékeit önmagában rangsoroljuk. A rendezett értékek rangsort adnak, melyekmár alkalmasak lesznek a számítások elvégzésére.

Nézzünk egy következő példát!

Két rangskálán mért ismérv következő # együtt fellépő # értékeit figyeltük meg egy mintában. A lehetséges ismérvváltozatokat az ábécé betűiveljelöltük. A megadott sorrendek:

(B,D); (C,E); (A,F); (D,B); (E,G).

A két ismérv lehetséges értékeinek sorrendje és a hozzájuk tartozó rangszámok a következők:

A B C D E B D E F G

Page 150: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

140

1 2 3 4 5 1 2 3 4 5

Az eredeti megfigyelt értékek helyébe a rangszámokat téve a következő párokat kapjuk: (2;2), (3;3), (1;4), (4;1) (5;5).

Mivel a rangszámok pontosan a megfigyelési értékek sorrendjét adják meg, a két ordinális skálán mért ismérv közti esetleges kapcsolat a rangszámokalkalmazásán keresztül vizsgálható. Mivel a rangszámok természetes számok, rendelkeznek a mennyiségi ismérvekre jellemző tulajdonságokkal.

Ezen meggondolások következtetései alapján ésszerűnek látszik, hogy a rangszámokból lineáris korrelációs együtthatót számoljunk az ismérvekkapcsolatszorosságának mérésére. A mérőszám értelmezésénél arra kell ügyelni, hogy az elsősorban az együtt megfigyelt ismérvváltozatoksorrendje közötti kapcsolat szorosságát méri.

Ahhoz, hogy a rangszámokra korrelációs együtthatót számoljunk, nem a korábbi fejezetben megismert formulát használjuk, hanem egy átalakítottformulát, melyet a következőkben vezetünk le.

Mivel minden gyakoriság 1, a lineáris korrelációs együttható:

A nevezőben szereplő szórások a megfigyelt értékek négyzetes és számtani átlaga alapján is kiszámíthatók. 10 Az átalakított formula:

Az és az megfigyelési értékpárjaira vonatkozóan igaz, hogy mindegyik ismérv rangszámai 1-től n-ig vesznek fel értékeket, melyek számtanisorozatot alkotnak, és

így

10 I. kötet 73. oldal

Page 151: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

141

valamint

(A szummázási határok a következő képletekben is, ahol külön nem jelöljük, 1-től n-ig értendők, a továbbiakban eltekintünk kiírásuktól.)

Ezáltal a fenti korrelációs együttható nevezője átalakítható a következőképpen:

A korrelációs együttható számlálójára, vagyis a kovarianciára vonatkozóan kihasználhatjuk az alábbi összefüggést:

amelyből átrendezéssel a

egyenlőséget kapjuk. Ennek alapján a számláló:

Az utolsó lépésben felhasználtuk a nevezőre kapott eredményeinket.

Ha a fenti kifejezéseket behelyettesítjük a korrelációs együttható képletének számlálója, illetve nevezője helyébe, a következőt kapjuk:

Page 152: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

142

vagy:

A rangszámok különbségét többnyire jelöljük, és rangkülönbségnek nevezzük.

Az adott módon a korrelációs együtthatót nagyon egyszerűen ki tudjuk számolni. Ezt a mutatószámot (Spearman-féle) rangkorrelációsegyütthatónak nevezzük.

A mutatószám levezetését egy konkrét mintára mutattuk be. Itt is becslésről van tehát szó.

A sokaságra számítható rangkorrelációs együttható:

a rangskálán mért ismérvek kapcsolatszorossági mérőszáma.

Értéke:

Becslőfüggvénye:

Szemléltetésképpen térjünk vissza a témakör elején bemutatott példára. A példában a megfigyelt értékek közvetlenül a rangszámok voltak. Arangkülönbségeket legegyszerűbben a 9.6. táblázatban számíthatjuk ki.

Page 153: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

143

9.6. táblázat - Munkatábla a rangkorrelációs együttható kiszámításához

Lesiklás ( ) 2 1 3 4 5 6

Műlesiklás ( ) 2 3 1 5 4 6

0 #2 2 #1 1 0

0 4 4 1 1 0

A rangkorrelációs együttható számítása:

Ha a sorrend azonos a két ismérv szerinti rangsorolásnál, akkor (minden i-re), így

Fordított sorrend esetén pedig:

A gyakorlati felhasználás során, ha több ismérvérték megegyezik egymással, ezekhez a megfelelő rangszámok számtani átlagát rendeljük, és ígyközelítjük a rangkorrelációs együtthatót. Túlságosan sok egyező helyezési szám esetén azonban ezzel a formulával nem célszerű számolni. Ezzela problémával találkozunk a következő példában.

Egy hetipiacon 11 kiválasztott gyümölcskereskedőnél minőségvizsgálatot végeztek. Az almát és a körtét, amelyet eladásra kínáltak, A, B, C, D, E ésF minőségi osztályba sorolták. A megfigyelési értékeket és a megfelelő rangszámokat a 9.7. táblázat tartalmazza:

9.7. táblázat - Munkatábla a rangkorrelációs együttható kiszámításához

Gyümölcs- Alma Körtekereskedősorszáma

Minőségiosztály Rangszám Minőségi

osztály Rangszám

1. B 2,5 B 3 #0,5 0,252. A 1,0 A 1 0,0 0,003. F 11,0 F 10,5 0,5 0,25

Page 154: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

144

4. E 9,5 F 10,5 #1,0 1,005. E 9,5 E 9 0,5 0,256. D 7,5 D 7 0,5 0,257. D 7,5 D 7 0,5 0,258. C 5,0 D 7 #2,0 4,009. B 2,5 B 3 #0,5 0,25

10. C 5,0 B 3 2,0 4,0011. C 5,0 C 5 0,0 0,00

Ebben az esetben a rangszámokat az alábbiak szerint képezzük. A 2. sorszámú kereskedőnél a legjobb minőségű (A kategóriájú) az alma, ezértő az 1 rangszámot kapja. Az 1. és a 9. sorszámú kereskedőnél az almára vonatkozó ismérvértékek megegyeznek (B kategóriájúak), ezért a 2

és a 3 rangszám számtani átlagát, azaz 2,5-öt rendelünk mindkettőhöz. Hasonló megfontolás alapján a C kategóriájú almát árulók a rangszámot kapják.

A rangkorrelációs együttható számítása:

Szoros, pozitív irányú kapcsolat mutatkozik az alma és a körte minőségi osztályokba sorolása között, azaz aki jobb minőségi árut kínál az egyikgyümölcsből, annál a másik gyümölcsből is jobb minőségű kapható és fordítva.

9.2. Kétváltozós regressziószámításEbben a részben olyan kérdésekre keressük a választ, hogy milyen összefüggés mutatható ki például a mezőgazdasági üzemekben a burgonyatermésátlaga és a felhasznált öntözővíz mennyisége között. (Adott öntözővíz-mennyiség felhasználása esetén hogyan következtethetünk a várhatótermésátlagra.) A következőkben olyan módszerekkel ismerkedünk meg, amelyek segítségével megválaszolható az a kérdés, hogy az egyik ismérv(változó) hogyan hat a másik ismérvre (változóra), egy változó adott értékéhez a másik változónak mekkora a várható értéke. Ugyanis figyelembekell venni, hogy az összefüggés sztochasztikus, hiszen a termésátlagot sok más egyéb tényező (pl. a ráfordított munkaidő, a napsütéses órák számastb.) is befolyásolja.

A továbbiakban először a regressziószámítás valószínűségszámítási alapjait elevenítjük fel.

Page 155: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

145

9.2.1. Az elméleti regresszióMatematikai tanulmányainkban találkoztunk már ezzel a fogalommal. Két valószínűségi változó együttes valószínűségeloszlását vizsgálvadefiniálható a feltételes várható érték fogalma. Idézzük fel ezeket a fogalmakat először diszkrét, majd folytonos valószínűségi változók esetén. 11

Ha és diszkrét valószínűségi változók, melyek lehetséges értékei illetve akkor az valószínűségi változó feltételmelletti várható értékén az alábbi összeget értjük:

ahol és

Ez a mennyiség megmutatja, hogy várható értéke hogyan függ a lehetséges értékeitől, vagyis az pontokban értelmezett függvény,

amelyet az valószínűségi változó valószínűségi változóra vonatkozó regressziós függvényének nevezünk. Grafikonja diszkrét pontokból áll.

Hasonlóan definiálható a

a valószínűségi változó vonatkozó regressziós függvénye.

A valószínűségszámításban tárgyaltuk, hogy a regressziós függvényekhez úgy is eljuthatunk, hogy keressük azt a illetve függvényt, amelyre az

várható értékek (átlagok) minimálisak.

Ha és folytonos valószínűségi változók, akkor minden olyan x-re, ahol az feltételes eloszlásfüggvény értelmezve van,

11 Valószínűségszámítás 6.6. pont.

Page 156: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

146

Ha és függetlenek, akkor a feltételes várható érték megegyezik az adott változó feltétel nélküli várható értékével. Ezt az állítást arra avalószínűségszámítási tételre alapozzuk, hogy függetlenség esetén az együttes sűrűségfüggvény a perem-sűrűségfüggvények szorzatával egyenlő,és így például

független az x-től.

Felhívjuk a figyelmet arra, hogy ebben az esetben konstans, de nem biztos, hogy az egész számegyenesen értelmezett.

Az együttes eloszlás ismeretében a regressziófüggvény egyértelműen megadható. Kiemelt szerepe van a kétdimenziós normális eloszlásnak. Ha

és együttes eloszlása normális, -nak -re vonatkozó és -nek -ra vonatkozó regressziós függvénye lineáris függvény.

A regressziós görbe tehát egyenes. Például ahol

9.2.2. A tapasztalati regresszió

Ha a véges N elemű sokaság ismert és az X, illetve Y ismérv lehetséges értékei diszkrétek, illetve akkor jelölje az együttes

és illetve a peremgyakoriságokat

Ebben az esetben kiválasztva egy egyedet, az egyes valószínűségek, mint az előző pontban is láttuk:

Page 157: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

147

Így a regressziós függvények:

(Ha valamely lehetséges érték nulla gyakoriságú, ott a megfelelő regressziós függvény nem értelmezhető.)

Az illetve az úgynevezett részátlagok, vagyis például azon egyedek Y ismérvértékeinek átlaga, amelyeknek X ismérve egyenlő. Ez azt

jelenti, hogy koordináta-rendszerben ábrázolva az pontokat, a függvényérték az abszcisszájú ( „feletti”) pontok ordinátájánakátlaga. Ezzel a módszerrel az I. kötetben már megismerkedtünk, most a mélyebb elméleti háttér átgondolása után a teljesség igénye miatt térünkrá vissza. 12

Nézzünk egy példát!

Vizsgáljuk meg egy felsőoktatási intézmény közgazdászhallgatóinak matematika- és statisztikaosztályzatai közötti összefüggést! Az adatokat a 9.8.táblázatban láthatjuk.

9.8. táblázat - A hallgatók létszámmegoszlása

Statisztika- osztályzat

Matematika-osztályzat

1 2 3 4 5 Összesen

1 4 2 2 1 0 9

12 I. kötet 156. oldal

Page 158: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

148

2 3 4 2 1 1 113 1 15 14 10 4 444 1 0 16 6 3 265 1 0 5 1 3 10

Összesen 10 21 39 19 11 100

A regressziófüggvényt a 9.9. táblázatban helyeztük el.

9.9. táblázat - A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalatiregressziófüggvénye

Matematikaosztályzat Átlagos statisztikaosztályzat

1 2,002 2,363 3,024 3,385 3,50

Számításaink eredményei egyértelműen mutatják, hogy pozitív irányú sztochasztikus kapcsolat mutatkozik a két tantárgy osztályzatai között. A jobbmatematika-érdemjegyekhez általában jobb statisztika-érdemjegyek tartoznak és fordítva.

Ha X és Y, vagy csak az egyik folytonos ismérv, akkor osztályközöket képezhetünk, és például az az i-edik osztályköz közepe, és értéke az ebben az osztályközben található egyedek Y ismérvértékeinek átlaga. Így természetesen a tényleges regressziófüggvénynek a közelítésétkapjuk.

Példaként nézzünk meg egy olyan céget, ahol 20 középfokú végzettségű nő dolgozik, és vizsgáljuk meg, hogyan befolyásolja a munkában eltöltöttidő (X) az elérhető bruttó keresetet (Y). A megfigyelt adatokat a 9.10. táblázatban találjuk.

9.10. táblázat

Sorszám Munkában töltöttévek száma, X

Bruttó átlagkereset,(ezer Ft) Y

Page 159: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

149

1. 23 33,42. 36 31,03. 18 27,54. 35 35,85. 35 28,16. 24 26,07. 25 26,48. 4 24,19. 21 33,4

10. 23 27,011. 40 31,012. 30 28,613. 22 28,914. 5 22,115. 23 24,016. 17 27,017. 24 27,918. 4 14,219. 25 26,020. 26 27,6

Ha egyedi adatokból dolgozunk, mindenekelőtt érdemes tájékozódni az ismérvek közötti összefüggésről. Ehhez ábrázoljuk is az adatokat.

Az ismérvek közötti kapcsolat lényegének megismerésében fontos szerepet játszik a grafikus ábrázolás.

Kétváltozós kapcsolat esetén ilyen grafikus ábrát úgy készítünk, hogy a derékszögű koordináta-rendszer vízszintes tengelyére az ok szerepét játszótényezőváltozó (más néven magyarázóváltozó) (X) értékeit, függőleges tengelyére pedig a vizsgált jelenség, vagyis a függő változó (más néveneredményváltozó) (Y) értékeit mérjük fel. Ily módon pontdiagramot kapunk.

Példánk adatait ábrázolva ilyen pontdiagramot látunk a 9.3. ábrán. A nők munkában töltött éveinek és bruttó keresetének kapcsolatára már apontdiagramból is következtethetünk.

Page 160: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

150

9,3. ábra - A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok

Vizsgáljuk tovább az összefüggést, és készítsük el a tapasztalati regressziófüggvényt! Ha ugyanazt az eljárást követnénk, mint az előző példában(matematika-, statisztikaosztályzatok), akkor a regressziófüggvényünk 14 pontból állna. Ezt ábrázolva sem kapnánk a pontdiagramnál sokkaláttekinthetőbb ábrát. (A pontok száma 6-tal csökken, ugyanis 14 különböző értéke van az X ismérvnek.) Ezért az X értékeiből négy osztályköztképezve a következő eredményt kaptuk, amelyet a 9.11. táblázatban helyeztünk el.

9.11. táblázat - A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokúvégzettségű nőknél

Munkában töltött évek száma Átlagos bruttó kereset

# 10 20,1311 # 20 27,2521 # 30 28,1131 # 40 31,48

Page 161: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

151

A regresszió tanulmányozása megerősíti a kapcsolat fennállására vonatkozó feltételezésünket, egyúttal annak irányát is jelzi: X növekedésével Yis növekvő tendenciát mutat. Azaz minél hosszabb valakinek a munkaviszonya, annál több a bruttó átlagkeresete. A függvény grafikus képét a 9.4.ábrán látjuk.

9,4. ábra - A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél

töltött évek számának függvényében a középfokú végzettségű nőknél

A regressziófüggvényt közelítő grafikonból következtetések vonhatók le a kapcsolat irányáról és természetéről.

Korrelációs kapcsolat esetén a pontdiagram pontjai szóródnak a regressziófüggvényt közelítő grafikon körül. A szóródás mértéke a kapcsolatszorosságára vonatkozóan ad felvilágosítást.

Ha a két ismérv korrelálatlan, akkor a regressziós függvényértékeket ábrázoló pontok az X tengellyel párhuzamos vonalon vannak. Ebben az esetben

ugyanis az bármilyen értéke mellett ugyanolyan értékek jöhetnek szóba, vagyis az valamennyi azonos érték (9.5. ábra).

Page 162: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

152

9,5. ábra - Korrrelálatlanság

Függvényszerű kapcsolat esetén a pontdiagramon a pontok a kapcsolatot megadó függvény grafikonján helyezkednek el. A regressziófüggvénykörül nincs szóródás (ha eltekintünk a mérési pontatlanságoktól). (9.6. ábra.)

9,6. ábra - Függvényszerű kapcsolat

9.2.3. A regressziófüggvény paramétereinek meghatározásaKét probléma merülhet fel a regressziószámítás során:

Page 163: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

153

1. Ismerjük a sokaságot (illetve az együttes eloszlást), de a regressziós függvény nem alkalmas az elemzésre (például nagyon ingadozik).

2. Nem ismerjük a sokaságot (illetve az együttes eloszlást), ezért minta alapján kell becsülnünk a regressziós függvényt.

Mindkét esetben azt tesszük, hogy egy analitikus (akárhányszor differenciálható) függvénytípusból (pl. lineáris függvények, másodfokú függvények,hatványfüggvények) választjuk ki azt, amelyikre a 9.2.1. alatt már felírt kifejezés,

minimális.

Ezt nevezzük analitikus regressziófüggvénynek. (A valószínűségszámításban elsőfajú, illetve másodfajú regressziós függvényről beszéltünk.)

Természetesen felmerül a kérdés, hogy mely típusú függvényekkel dolgozzunk.

A regressziófüggvény típusának kiválasztása

Ahhoz, hogy a regressziófüggvény típusát meghatározzuk, elsősorban az adott terület szakmai ismerete szükséges. A gazdasági élet, a gazdaságijelenségek közötti sokoldalú, bonyolult összefüggések miatt már a tényezők (ismérvek) kiválasztásához is szakmai megfontolásokra, szakértőivéleményekre van szükség. Segítségünkre lehetnek a függvénytípus kiválasztásánál a korábban említett egyszerűbb módszertani eszközök. Ilyena grafikus ábrázolás eredményeképpen kapott pontdiagram. A pontdiagram nemcsak ahhoz nyújt segítséget, hogy érdemes-e tovább vizsgálódni,mint ahogy ezt az előző pontban mondtuk, hanem a pontok sűrűsödési helye és vonulási iránya támpontot ad a függvénytípus kiválasztásához is(9.7. ábra).

Page 164: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

154

9,7. ábra - A függvénytípus kiválasztását segítő grafikus ábrák

A statisztikai gyakorlatban a következő függvénytípusokat használjuk:

1. lineáris regresszió,

2. hatványkitevős (vagy multiplikatív) regresszió,

3. exponenciális regresszió,

4. parabolikus regresszió,

5. hiperbolikus regresszió.

A legkisebb négyzetek módszere

A függvénytípus kiválasztásával azonban a regressziófüggvény meghatározásának problémája még nincs megoldva. A végtelen sok egyenes (vagyparabola, hatványkitevős, exponenciális vagy más típusú függvény) közül azt az egyet keressük, amely az összefüggést a lehető legjobban írja le.Ennek a függvénynek a paramétereit (állandóit) a gyakorlatban a legkisebb négyzetek módszere segítségével határozzuk meg.

Page 165: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

155

Induljunk ki ismét abból, hogy adott egy véges (N elemű) sokaság értékpárokkal. A problémát a 9.8. ábrán szemléltetjük.

9,8. ábra - A legkisebb négyzetek módszere

(Megjegyezzük, hogy a pontok és a regressziós egyenes megfelelő pontjai közötti távolságot különbözőképpen értelmezhetjük: vertikálisan,ahogy az ábrán látjuk, de horizontálisan és geometriailag is mérhetők a távolságok. A leggyakrabban használatos eljárásból indultunk ki, ahol a pontés az egyenes távolságát vertikálisan az Y tengellyel párhuzamosan mérjük.)

A legkisebb négyzetek módszerét # amellyel már az analízisben is foglalkoztunk # abban az esetben tárgyaljuk részletesen, amikor a választott

függvénytípus lineáris. Egy lineáris függvény grafikonja egyenes, legyen ennek az egyenlete:

Ha az értékpárt nézzük, és az értéket helyettesítjük az egyenes egyen- letébe, nem biztos, hogy Az eltérést jelölje vagyis

azaz

Page 166: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

156

Nyilvánvaló, hogy a és paraméterek (együtthatók) megválasztásától függ, hogy mekkorák ezek az értékek. A módszer onnan kapta a nevét,

hogy és meghatározására feltételként azt szabjuk, hogy a

összeg legyen minimális.

Az E kétváltozós függvénynek ott lehet minimuma, ahol

Ebből # mint láttuk 13 # -ra és -re a

úgynevezett normál- (lineáris) egyenletrendszer adódik, amelynek megoldása:

13 Matematika üzemgazdászoknak. Analízis. (Szerk. dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1989. 6.7. pont. (A további hivatkozásoknál: Analízis.)

Page 167: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

157

Ha az első egyenletet osztjuk, a számlálóban és a nevezőben már ismert kifejezéseket kapunk.

Végezzük el ugyanezt az osztást a kifejezésben is:

Ugyanazt az eredményt kaptuk, mint amikor az ismert együttes eloszlás normális. Így a regressziós egyenes egyenlete:

Ha az X, Y értékek függetlenek, ahogy ezt a 9.1.1. pontban beláttuk, Ekkor

Egyenletünk az

alakra hozható. Ha az X és Y ismérvértékeket standardizáljuk, azaz és akkor egyenesünk egyenlete:

Page 168: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

158

Ugyanezeket az eredményeket kapjuk, ha a 9.2.3. pont elején említett feltételből indulunk ki.

A regressziószámításban az ismérvek közötti ok-okozati összefüggés feltárására törekszünk. Ez a változók elnevezésében is kifejezésre jut. Aszakirodalomban, mint már említettük, az ok szerepét játszó X változót független változónak vagy magyarázóváltozónak, az okozat szerepét betöltőY változót pedig függő változónak vagy eredményváltozónak szokták nevezni.

Az eredmények értelmezése

A paraméter azt fejezi ki, hogy az helyen a függvény éppen ezt az értéket veszi fel, ha a 0 szerepel az X lehetséges értékei között.

A paraméter geometriai értelemben az egyenes meredekségét meghatározó iránytangens, regressziós együtthatóként választ ad arra, hogy azX változó egységnyi változása átlagosan mekkora változást okoz az Y változóban.

Térjünk vissza a munkában eltöltött idő és a bruttó átlagkereset kapcsolatát vizsgáló példához! (A megfigyelt adatokat a 9.10. táblázatban találjuk.)Válasszuk a lineáris függvénytípust, és számítsuk ki az analitikus regressziófüggvény paramétereit! A szükséges mellékszámításokat a 9.12.táblázatban találjuk.

9.12. táblázat - Munkatábla az analitikus regressziófüggvény meghatározásához

Sorszám

1. 23 33,4 768,2 5292. 36 31,0 1116,0 12963. 18 27,5 495,0 3244. 35 35,8 1253,0 12255. 35 28,1 983,5 12256. 24 26,0 624,0 5767. 25 26,4 660,0 625

Page 169: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

159

8. 4 24,1 96,4 169. 21 33,4 701,4 441

10. 23 27,0 621,0 52911. 40 31,0 1240,0 160012. 30 28,6 858,0 90013. 22 28,9 635,8 48414. 5 22,1 110,5 2515. 23 24,0 552,0 52916. 17 27,0 459,0 28917. 24 27,9 669,6 57618. 4 14,2 56,8 1619. 25 26,0 650,0 62520. 26 27,6 717,6 676∑ 460 550,0 13 267,8 12 506

Page 170: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

160

9,9. ábra - A megfigyelt adatok és a különböző módon számolt regressziófüggvények

Értelmezések:

A azt fejezi ki, hogy a pályakezdő alkalmazottak bruttó átlagkeresete várhatóan 20,1 ezer Ft, azaz 20 100 Ft.

A paraméter pedig azt jelenti, hogy az egy évvel hosszabb ideje dolgozó nők bruttó átlagkeresete átlagosan 0,32 ezer Ft-tal, azaz 320 Ft-talmagasabb.

A különböző módon számolt regressziófüggvényeket a 9.9. ábrán mutatjuk be.

A lineáris regresszió együtthatóinak becslése

Ha nem ismerjük a sokaságot, a regressziófüggvényt csak mintából becsülhetjük.

Induljunk ki ismét egy n elemű mintából. A becslőfüggvények az alábbiak lesznek:

Page 171: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

161

A becslőfüggvények torzítatlan becslést adnak, ennek fontosságára a 9.3. pontban még visszatérünk.

Egy konkrét mintavétel után, ahol a mintaelemek ismérvértékei a megoldandó normálegyenletek:

A regressziós együtthatók kiszámítási formulái az alábbiak lesznek:

Végezzük el az elemzést egy konkrét példán!

A 9.1.2. pontban megvizsgáltuk egy teherfuvarozással foglalkozó vállalkozó adatai alapján, hogy van-e összefüggés a szállítási távolság és a szállítás

időtartama között. A lineáris korrelációs együtthatóból ( ) szoros kapcsolatra következtettünk. Nézzük most meg, milyen természetű azösszefüggés a két ismérv között! Az alapadatokat a korábbi, 9.7. táblázatban találjuk.

Mindenekelőtt ábrázoljuk a megfigyelt statisztikai adatokat!

Page 172: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

162

9,10. ábra - A szállítási távolság és a szállítás időtartamának pontdiagramja

A 9.10. ábra lineáris összefüggésre enged következtetni. Ezek után határozzuk meg a lineáris regressziófüggvényt. A normálegyenlet-rendszermegoldásához szükséges számítások a 9.13. táblázatban találhatók.

9.13. táblázat - Munkatábla a normálegyenletekkel történő megoldáshoz

Sorszám Szállítástávolsága (km) x

Szállításidőtartama (perc) y xy

1. 4 10 40 162. 4 13 52 163. 2 8 16 44. 10 20 200 1005. 19 27 513 3616. 20 35 700 4007. 16 22 352 256

Page 173: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

163

8. 20 40 800 4009. 25 45 1125 625

10. 30 50 1500 900Együtt: 150 270 5298 3078

A normálegyenletek segítségével határozzuk meg a függvény paramétereit:

Értelmezések:

A paraméter közgazdaságilag csak akkor értelmezhető, ha a magyarázóváltozó értelmezési tartománya az helyet tartalmazza.

Jelen esetben a paraméter igazán nem értelmezhető, mert az hely nem tartozik az X-ek értelmezési tartományába.

A paraméter az egyenes meredeksége (iránytangense), megmutatja, hogy az X magyarázóváltozó egy egységgel nagyobb értékéhez az Yeredményváltozó átlagosan mennyivel nagyobb (vagy kisebb) értéke tartozik. A paramétereket természetesen mindig az adott feladat, a vizsgáltösszefüggés tartalmának megfelelően értelmezzük.

A paraméter jelentése: 1 km-rel hosszabb út átlagosan másfél perccel növeli a szállítási időt.

Az egyenletrendszer megoldását különböző technikákkal is elvégezhetjük.

Az egyik lehetőség az ún. transzformált normálegyenletekkel történő megoldás, amely a következőket jelenti.

Page 174: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

164

A normálegyenletek megoldásának egyszerűsítése céljából transzformációt hajtunk végre. A változókat az átlaguktól vett eltéréseikkel helyettesítjük.

Ez megfelel egy geometriai transzformációnak, amennyiben a koordináta-rendszer kezdőpontját az pontba helyezzük át. Akkor minden

érték helyébe és minden helyébe kerül. A koordináta-rendszer transzformációját a 9.11. ábra szemlélteti.

9,11. ábra - A koordináta-rendszer transzformációja

A normálegyenleteket az új változókra felírva a következőket kapjuk.

Transzformált normálegyenletek:

Mivel # mint tudjuk # a számtani átlagtól vett eltérések kiegyenlítődnek, összegük 0, a transzformált normálegyenletekből mindazon tagok kiesnek,

amelyek tényezőt tartalmaznak.

A paraméter meghatározására az alábbi egyszerű képlet adódik:

Page 175: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

165

, 14

mert és .

A kapott képlet megegyezik az eredeti normálegyenletekből meghatározottal. Nem is lehet más, mert a geometriai transzformációval az egyeneshelyzete nem változott meg, így iránytangense is ugyanaz maradt.

A paramétert a normálegyenletekből már levezetett összefüggés alapján határozzuk meg: .

De úgy is gondolkodhatunk, hogy az új koordináta-rendszerben , minthogy az eredeti koordináta-rendszerben ábrázolva a regresszióvonal

áthalad az ponton. Ezt az alábbi formában írhatjuk fel: .

Minket azonban a értéke az eredeti x, y változók szerint érdekel. Amennyiben értékét a fentiek szerint már kiszámítottuk, könnyen

meghatározható a :

.

A paraméter a rendelkezésre álló adatoktól függően a már ismert összefüggések felhasználásával további módon is meghatározható:

A magyarázat egyszerű, hiszen ahogy már láttuk:

14 Vessük össze az eredeti normálegyenletekből kapott képlettel!

Page 176: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

166

így

Ha az összefüggést végigegyszerűsítjük n-nel, valóban -et azaz -et kapunk. Rajtunk múlik # illetve a rendelkezésünkreálló adatokon #, hogy adott esetben melyik számítási módot követjük a regressziós paraméterek meghatározásánál; a különböző megoldások(normálegyenletekbe történő behelyettesítés vagy képletekkel történő számítás) egyenrangúak, ugyanahhoz az eredményhez vezetnek. A lényeg,hogy a kapott paramétereket helyesen értelmezzük, elemezzük.

A számítások nyomon követéséhez folytassuk az előző példát! A szükséges számításokat célszerű a 9.14. táblázat szerinti munkatáblában elvégezni.

Miután a transzformált normálegyenletekből nyert képletekkel kívánunk dolgozni, először az átlagokat kell meghatároznunk:

9.14. táblázat - Munkatábla a transzformált normálegyenletekkel történő megoldáshoz

Sor-szám x y

1. 4 10 #11 #17 187 121 2892. 4 13 #11 #14 154 121 1963. 2 8 #13 #19 247 169 3614. 10 20 #5 #7 35 25 495. 19 27 4 0 0 16 06. 20 35 5 8 40 25 647. 16 22 1 #5 #5 1 258. 20 40 5 13 65 25 169

Page 177: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

167

9. 25 45 10 18 180 100 32410. 30 50 15 23 345 225 529∑ 150 270 0 0 1248 828 2006

A lineáris regressziófüggvény mindkét megoldás szerint:

További megoldási lehetőség a paraméterek mátrixalgebrai műveletekkel 15 történő meghatározása. Ebben az esetben az eredeti változókrafelírt egyenletrendszert mátrix-, vektorjelölésekkel adjuk meg. A paramétervektort ez esetben a mátrixegyenlet megoldásával kapjuk. A módszeralkalmazásánál támaszkodunk a matematikai tanulmányokban megismertekre. 16

Jelölésrendszerünk is az ott bevezetett jelölésekkel azonos.

Jelölések:

ahol y: rendű n elemű oszlopvektor, melynek elemei az Y megfigyelt értékei.

X: rendű mátrix, melynek első oszlopa n elemű összegezővektor, második oszlopa pedig az X megfigyelt értékei.

A függvény paramétereit tartalmazó b vektor pedig:

15 Lényeges könnyítést nem jelent, de a későbbiekben, ha kettőnél több változónk lesz, sokkal egyszerűbb ez a megoldási mód.16 Operációkutatás II. Szerk. Dr Csernyák László. Nemzeti Tankönyvkiadó, Bp., 1991.

Page 178: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

168

Az X mátrix transzponáltja:

Ha az X mátrix transzponáltját megszorozzuk jobbról az eredeti mátrixszal, az ún. együtthatómátrixot kapjuk:

Így a mátrix elemeiként a normálegyenletek együtthatóit kapjuk.

Az szorzat pedig:

Ezzel a művelettel tehát a normálegyenletek bal oldalán szereplő kifejezéseket kapjuk. A normálegyenletek mátrixalgebrai jelöléssel akövetkezőképpen írhatók fel:

Az együtthatómátrix inverzével balról végigszorozva az egyenletet eljutunk a becsült paraméterek vektorához. (Az inverz mátrix általában létezik,mivel, kivételes esetektől eltekintve a normálegyenletek függetlenek. Így nem szinguláris.)

Amint látjuk, a paraméterek kiszámításához szükség van az mátrix inverzére. A még ma sem ritka kézi számításoknál a ( )-es mátrixinverzének számítására egyszerűsített formulát szokás használni.

Egyszerű szorzással meggyőződhetünk arról, hogy az

Page 179: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

169

mátrix inverze az

mátrix.

Példánk megoldása mátrixalgoritmussal az alábbi:

A paraméterek meghatározása:

A lineáris regressziófüggvény:

A kapott eredmények statisztikai jelentését ismételten összefoglaljuk.

A lineáris regressziófüggvény paramétere a regressziós egyenes meredekségét meghatározó iránytangens. Ebből a geometriai értelmezésből

következően nagyon fontos eredményt szolgáltat. A paraméter kifejezi, hogy a magyarázóváltozó egy egységnyi változása átlagosan mekkoraváltozást okoz az eredményváltozóban.

A paraméter előjele megegyezik a lineáris korrelációs együttható előjelével. Ha akkor pozitív irányú a kapcsolat a két ismérv között,

ha akkor pedig negatív irányú kapcsolatra következtethetünk. A paramétert regressziós együtthatónak nevezzük. A paraméternek alegtöbb esetben nincs közgazdasági jelentése.

Page 180: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

170

9.2.4. A változók felcserélhetőségeTekintettel arra, hogy a regressziószámításnál mindkét ismérv mennyiségi ismérv, nemcsak X ismérv hatását vizsgálhatjuk Y-ra, hanem fordítva is.Minden esetben két regressziós egyenes határozható meg. Bizonyos esetekben egyértelmű oksági viszony van az ismérvek között, s ekkor indokoltegyik vagy másik ismérvet független változónak tekinteni. Vannak azonban olyan esetek, amikor az ismérvek kölcsönhatásáról beszélhetünk, stetszőleges az egyes változók szerepe.

Elvileg tehát X és Y ismérvek megfigyelt adatai alapján mindig felírható az alábbi két regressziós egyenes:

Y-nak X szerinti regressziófüggvénye (amit már ismerünk):

továbbá X-nek Y szerinti regressziófüggvénye:

Felhívjuk a figyelmet arra, hogy ebben az esetben mindenképpen indokolt jelölni a paraméterek után zárójelben a változók közötti viszonyt, vagyis,hogy adott esetben melyik az eredményváltozó és melyik a tényezőváltozó.

Tehát a fenti egyenletekben a regressziós együtthatók:

Az függvény paramétere pedig:

A két egyenes egymáshoz viszonyított helyzetét a kapcsolat szorossága befolyásolja. Könnyű belátni, hogy a két regressziós egyenes paraméterei

és a lineáris korrelációs együttható között szoros az összefüggés. Felírható: ebből .

A korreláció hiánya esetén: vagyis az egyenesek a megfelelő tengellyel párhuzamosak, egymásra pedig merőlegesek.

Page 181: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

171

Lineáris függvényszerű kapcsolat esetén ezért a két egyenes egybeesik.

Sztochasztikus kapcsolatnál a két egyenes annál közelebb kerül egymáshoz, minél szorosabb a kapcsolat.

A paraméter hasonlóan értelmezhető, mint a részletesen ismertetett Vagyis: az y változó egységnyi változásának hatására mennyivelváltozik (nő vagy csökken) az x változó.

A gyakorlatban ezt az információt az eredeti összefüggés más szempontból történő megvilágítására használjuk: A azt fejezi ki, hogyahhoz, hogy az y változó egy egységgel változzon meg, mennyivel kell megváltoznia az x változónak.

Példánkban:

A kapott eredmény azt fejezi ki, hogy a szállítási idő 1 perccel való növekedéséhez a távolság átlagosan 0,6 km-rel, azaz 600 m-rel történő növekedéseszükséges.

Az és az regressziós függvényeket a 9.12. ábra szemlélteti.

Page 182: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

172

9,12. ábra - A változók felcserélése

A két egyenes láthatóan közel esik egymáshoz, mivel egymáshoz viszonyított helyzetüket a korreláció szorossága befolyásolja. Könnyű belátni, hogya kapcsolat szorosságát nem befolyásolja az a kérdés, hogy a változók szerepet cserélnek. 17

A számítási formulából látható, hogy Y-nak X-re vonatkozó korrelációs együtthatója megegyezik X-nek Y-ra vonatkozó korrelációs együtthatójával.

9.2.5. A rugalmassági együttható

A lineáris regressziófüggvény paramétere, # mint már említettük # az X ismérv Y-ra gyakorolt hatásának nagyságát, vagyis azt mutatja, hogyX egységnyi változása Y-nak mekkora változását indukálja. Természetesen a két ismérvnek nemcsak a különbségeit, hanem relatív változásait is

17 Gondoljunk vissza az kiszámítási képletére.

Page 183: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

173

szembeállíthatjuk egymással. Ily módon a közgazdasági elméletben igen fontos szerepet játszó rugalmasság (idegen szóval elaszticitás) fogalmáhozjutunk, amelyet példaként az analízisben is említettünk. 18

Általánosságban a rugalmasság arra ad választ, hogy az egyik változó relatív változása a másik változó milyen mértékű relatív változásáteredményezi, ha függvénykapcsolat van köztük. Ennek mérésére a rugalmassági (elaszticitási) együttható (jele: Ε) szolgál, amely a matematikaitanulmányokból ismert differenciálhányados segítségével definiálható.

Jelöljük X ismérv tetszőleges értékét x-szel, Y ismérv hozzá tartozó értékét pedig y-nal ( ). Vegyük x-nek egy nagyon kicsiny (abszolút)

változását, ezt jelöljük Δx-szel. Az ennek megfelelő függvénynövekmény Δy. Ez azt jelenti, hogy az X ismérv értékéhez az érték tartozik.

A relatív növekmények ennek alapján:

A rugalmassági együttható arra ad választ, hogy az Y változó relatív változása hányszorosa az X változó relatív változásának. Ezt az alábbi hányadosfejezi ki:

Mivel ez a hányados a hosszúságú intervallumra vonatkozik (ezen belül egy átlagos értéknek tekinthető), az x-beli értéket úgy kapjuk, hogyvesszük a határértékét esetén.

Így képezhető Y-nak X-re vonatkozó rugalmassági együtthatója. (Természetesen hasonlóan képezhető X-nek Y-ra vonatkozó rugalmasságiegyütthatója.)

A rugalmassági együttható:

Ez a határérték akkor létezik, ha az f függvény minden pontban differenciálható. A határértéket képezve a következő összefüggéshez jutunk:

18 Analízis 192. oldal

Page 184: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

174

Az együtthatót a sztochasztikus kapcsolatra alkalmazva figyelembe kell venni, hogy y-nak csupán becsült értéke áll rendelkezésünkre:

Az elaszticitási együttható becsléséhez ezen regressziófüggvény differenciálhányadosát használjuk fel. Ily módon a rugalmassági együtthatóbecslése a következő:

A vizsgált gazdasági jelenségnek a hatótényezővel szembeni viselkedését a mutató előjele és abszolút nagysága jellemzi. A rugalmassági együtthatóelőjele a differenciálhányados előjelével egyezik meg. Azt fejezi ki, hogy az adott jelenség a hatótényező változásával azonos irányban (ekkor pozitívaz előjel) vagy ellentétes irányban (ekkor negatív az előjel) változik.

A mutató abszolút nagyságának vizsgálata során három fő értéket, illetve értékcsoportot kell megkülönböztetnünk.

Ez azt jelenti, hogy a hatótényező 1%-os változása esetén a vizsgált gazdasági jelenség ennél kisebb mértékben változik az adott helyen.Ez esetben azt mondjuk, hogy az Y változó rugalmatlan az X változásával szemben. Ilyen esettel találkozhatunk például az élelmiszerekjövedelemrugalmasságának vizsgálata során.

A hatótényező változásával az adott helyen arányosan változik a gazdasági jelenség. Azaz, ha X 1%-kal növekszik, akkor ennek hatására az Yváltozóban is 1%-os változás következik be.

Ez az eset akkor fordul elő, ha az adott helyen a vizsgált jelenség érzékenyen reagál a hatótényező változására. A hatótényező 1%-os változásaaz adott helyen tehát 1%-nál nagyobb változást eredményez a vizsgált jelenségben. Ezeket a jelenségeket az adott hatótényező szempontjábólrugalmasnak tekintjük. Rugalmasnak tekintjük például a luxuscikkek forgalmát az ár szempontjából.

Page 185: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

175

A lineáris regresszió rugalmassági együtthatója a következő:

ugyanis és deriváltja

A rugalmassági együttható ebben az esetben is x függvénye, kivéve azt az esetet, amikor , azaz a regressziófüggvény grafikonja origón átmenőegyenes. Az x bármely kiválasztott értékére számítható. A gyakorlatban azonban többnyire az átlagos szinten (szokásos megfogalmazással élve azátlagpontban) vizsgálják, hogy a független változó 1%-os változása hány %-os változást idéz elő a függő változóban.

esetén ui. a függvényérték

A szállítási távolság és az időtartam összefüggését vizsgáló példánkban az átlagos szinten mért rugalmasság:

A mutatószám egynél kisebb, ezért azt mondhatjuk, hogy a szállítás időtartama rugalmatlanul reagál a szállítási távolságra. Az átlagos szállításiidőtartam környezetében a szállítási távolság 1%-os növekedése átlagosan 0,84%-kal hosszabbítja meg a szállítás időtartamát.

9.3. Statisztikai következtetések a kétváltozós lineáris regresszióalapján

Az analitikus regressziószámítás során az elméleti regresszió becslését végeztük el adott számú megfigyelésből származó adatok, azaz n elemű

minta alapján. Így az elméleti összefüggést mintából származó analitikus függvénnyel közelítjük. A tapasztalati adatokból a paraméterekbecslésére kerül sor. A becsült paraméterek valószínűségi változók, értékük mintáról mintára ingadozik.

Célunkat, miszerint az alapsokasági összefüggésekre kívánunk következtetni, csak akkor érhetjük el, ha előtte megismerkedünk a regressziós modellfeltételrendszerével és a becsült paraméterek valószínűségi eloszlásával.

Page 186: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

176

9.3.1. A regressziós modell feltételrendszereTételezzük fel, hogy az X tényezőváltozó és az Y eredményváltozó között lineáris sztochasztikus kapcsolat áll fenn, ami alatt azt értjük, hogy

Hangsúlyozni szeretnénk, hogy továbbra is feltételezzük, hogy az X magyarázóváltozó ismert (mindig rögzített) érték és az eredményváltozó, Y asztochasztikus változó.

Ha a sokaság véges, akkor a fentiek azt jelentik, hogy ha az értéket rögzítve vesszük az összes olyan értéket, amely az értékpárt alkot,

akkor ezen értékek átlaga Korábbi jelölésünket megtartva, ha akkor a lehetséges értékek átlaga (rögzített mellett) a fentiek alapján nulla.

A és a a már ismert módszerekkel meghatározható.

Most térjünk rá arra az esetre, amikor és értékét minta alapján becsüljük. Mivel csak Y a sztochasztikus változó, ezért valamely rögzített

érték mellett a mintaelem Yismérvértéke valószínűségi változó. Természetesen általában nem egyenlő

Legyen

ahol is a definícióból adódóan valószínűségi változó. Az is nyilvánvaló, hogy különböző és értékekre a megfelelő és valószínűségi

változók (így és ) eloszlása különböző lehet. ( eloszlása az Y változó vonatkozó feltételes eloszlása.)

Ahhoz, hogy a paraméterek értékeinek becslését vizsgálhassuk, szükségünk van néhány feltevésre.

1. és így is normális eloszlású (az és különbsége állandó; ),

2. ha ( ),

3. Ezzel ekvivalens, hogy ( ),

Page 187: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

177

4. (független ). Nyilvánvaló, hogy az szórása is ugyanennyi ( ).

Ezen feltételek teljesülése esetén standard lineáris modellről beszélünk.

9.3.2. A regressziós becslés pontosságának méréseA regressziós becslés során elkövetett hibák alapvetően kétféle okra vezethetők vissza.

1. Az analitikus regresszió az elméleti regresszió mintából számított közelítése, becslése. Ezért a regressziófüggvény paraméterei a valóságos paraméterek becsült értékei (pontbecslései). A mintából számított regressziós paraméterek # mint minden reprezentatív mintából származó becsültparaméter értéke # szóródnak az elméleti értékek körül. Ezt a szóródást az együtthatók standard hibája fejezi ki.

2. A hiba másik forrása, hogy a vizsgált ismérvek között sztochasztikus kapcsolat van. Y-nak X szerinti regressziós becslése nem a tényleges Yértékeket, hanem azoknak csak az X-től függő részét adja. A tényleges és a regressziófüggvénnyel becsült értékek eltérése miatt beszélhetünka regresziófüggvény, illetve a regresszióértékek hibájáról. Az eltérések nagyságát értelemszerűen befolyásolja a kapcsolat szorossága. Szoroskorreláció esetén a becsült értékek jól közelítik az eredményváltozó értékeit. Laza kapcsolatnál viszont a kétféle érték között # az Y-t befolyásolóegyéb tényezők jelentős súlya miatt # nagy eltérések mutatkoznak.

A paraméterek hibái

A 9.2.3. pontban és kapott becslőfüggvényeket most a következőképpen írhatjuk, mivel a minta X ismérvértéke rögzített és csupán az Yismérvérték valószínűségi változó:

Ez azt jelenti, hogy és így is az ( ) valószínűségi változók lineáris kombinációja. Ennek alapján már nem nehéz bizonyítani az alábbiállításokat:

Page 188: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

178

1. és vagyis torzítatlan becslésről van szó.

2. A és valószínűségi változók szórása, vagyis a becslés standard hibája:

3. A becslés konzisztens. (Az állítást nem bizonyítjuk.)

4. Konkrét minta esetén a standard hibát az alábbi képletekkel számítjuk ki:

A 2. pontbeli képletekben szereplő az illetve az szórása. Értékét a gyakorlatban nem ismerjük, ezért a mintabeli adatok alapján becsüljük

és jelöljük.

Konkrét mintából történő becsléséhez a következő gondolatmenettel jutunk el:

– elméleti szórás:

Page 189: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

179

– mintából becsült szórás: ,

– konkrét mintából becsült szórás: ,

ahol „maradéktag”, vagy más néven becsült reziduum.

az a reziduális négyzetösszeg, amelynek nagyságát a legkisebbnégyzetek módszerével történő becslés során minimalizáljuk.Elméleti megfontolásból, a torzítatlanság követelményénekteljesüléséért a négyzetösszeget a szabadságfokkal korrigáljuk,ami jelen esetben (mert képzése tényezőváltozó

alapján történik). Így elérjük, hogy torzítatlan becslőfüggvénye

lesz az alapsokasági varianciának, -nek.

Bemutatópéldánk adatai alapján számítsuk ki a paraméterek standard hibáját!

9.15. táblázat - A maradék-négyzetösszeg kiszámításának táblázata

Sor-szám y

1. 10 10,5 –0,5 0,252. 13 10,5 2,5 6,253. 8 7,5 0,5 0,254. 20 19,5 0,5 0,255. 27 33,0 –6,0 36,006. 35 34,5 0,5 0,257. 22 28,5 –6,5 42,25

Page 190: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

180

8. 40 34,5 5,5 30,259. 45 42,0 3,0 9,00

10. 50 49,5 0,5 0,25Együtt: 270 270,0 0,0 125,00

A szórás ( ) becslése:

A becsült paraméterek standard hibái:

Megjegyzés: A számítási részeredmények a 9.13. és a 9.14. táblázatban találhatók.

A paraméterek hibáit a következőképpen értelmezzük:

Az kifejezi, hogy a 10 elemű mintavételeket végtelen sokszor ismételve a lehetséges becsült értékek – a paraméterek # átlagosan 2,41

egységgel térnek el az elméleti paramétertől.

Az pedig azt jelenti, hogy a lehetséges becsült paraméterek átlagosan 0,1374 egységgel szóródnak az alapsokasági

regressziófüggvény paramétere körül, az összes lehetséges 10 elemű minta esetén.

A regressziós becslés abszolút és relatív hibája

A regressziófüggvény hibája a regressziós becslés második hibaforrására, az ismérvek közötti sztochasztikus kapcsolatra vezethető vissza.

A paraméterek hibájának meghatározásánál bevezettük a maradéktag szórásának becslésére az

Page 191: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

181

formulát, amely önmagában is fontos. a regressziós becslés abszolút hibájának nevezzük.

Hasznos információt nyújt a regressziós függvény útján nyerhető regressziós becslések megbízhatóságáról, alkalmazhatóságáról.

Az abszolút hiba a 9.1. pontban megismert korrelációs együttható (r) felhasználásával is meghatározható:

Az abszolút hiba kifejezi, hogy a regressziós becslések átlagosan mennyivel térnek el az eredményváltozó megfigyelt értékeitől.

A regressziófüggvény használhatóságát a gyakorlatban a hiba relatív mértéke alapján jobban megítélhetjük. A regressziós becslés relatív hibájátaz abszolút hiba és az átlag hányadosaként számítjuk.

Relatív hiba:

A relatív hiba kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől.

A regressziófüggvény megbízhatóságáról a relatív hiba ad felvilágosítást. Minél kisebb a relatív hiba, annál megbízhatóbb a regressziófüggvény. Agyakorlatban általában 10% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést.

Példaként ismét a távolság és a menetidő közötti kapcsolatot leíró regressziófüggvényt idézzük fel.

Az abszolút hiba :

A becsült értékek átlagosan 3,95 perccel térnek el a tényleges szállítási időtől.

A relatív hiba:

Page 192: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

182

A becsült értékek átlagosan 14,6%-kal térnek el a tényleges szállítási időtől. Mivel a relatív hiba 10%-nál nagyobb, az eredményeket kellőóvatossággal kell kezelnünk.

9.3.3. A regressziófüggvény paramétereinek intervallumbecsléseA paraméterek becslésével, a pontbecslés, intervallumbecslés fogalmával korábban már megismerkedtünk. A becsléselméletben tanultakalkalmazhatók a regressziós becslésekre is. A regressziós modell feltételeinek rögzítése és a paraméterek becslőfüggvényének kidolgozása utánlehetővé válik, hogy összefüggést teremtsünk a mintából becsült paraméterek és az elméleti, alapsokasági paraméterek között. Így módunkbanáll a gyakorlatban egyetlen mintából következtetni az alapsokasági paraméterekre. A regressziós paraméterek pontbecslésének ismeretébenintervallumbecslés is adható.

Mivel feltételezzük, hogy az azonos szórású normális eloszlású független valószínűségi változók és a ezek lineáris kombinációja,be lehet látni (mi nem bizonyítjuk), hogy a

valószínűségi változó szabadságfokú Student t-eloszlást alkot, azaz valószínűségi szint esetén

Átalakítva:

A zárójelen belüli egyenlőtlenségek a paraméterre konfidenciaintervallumokat jelölnek ki, valószínűségi szinten. A konfidenciaintervallum #

amelynek középpontja # mintáról mintára ingadozik, azaz valószínűségi változó. Ezért az előző összefüggést úgy értelmezzük, hogy ha ismételt

Page 193: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

183

mintavételeket hajtunk végre, azaz a regressziószámításnál többször elvégezzük az adott számú megfigyelést, és mindegyik után elkészítjük a

konfidenciaintervallumot, várhatóan az intervallumok %-a tartalmazni fogja a sokasági paramétert.

Egyetlen mintából készített konfidenciaintervallum a

Példánkban # 95%-os megbízhatósági szintet választva # a t-táblázatbeli érték: A korábban már kiszámított standard hiba

Így a az alábbi konfidenciaintervallum írható fel:

Ennek alapján azt mondhatjuk, hogy a sokasági paraméter 95%-os megbízhatósággal ezen intervallumban van.

9.3.4. Regressziós becslések és prognózisokA regressziós függvénnyel két ismérv közötti összefüggés tendenciáját írjuk le. A becslőfüggvényt felhasználhatjuk a tényezőváltozó egy rögzített

értéke mellett az eredményváltozó értékének becslésére. Ehhez a megfelelő értéket behelyettesítjük a regressziófüggvénybe, és kiszámítjuk a

hozzá tartozó becsült értéket.

Ezt az értéket kétféleképpen foghatjuk fel:

a) Ez az érték az várható érték, illetve véges diszkrét esetben az lehetséges értékpárok értékeiből képzett becslése.Becsülhetjük például a testmagasság és a testsúly közötti összefüggés vizsgálata alapján az adott testmagasságú emberek átlagos testsúlyát. Az

az becslőfüggvénye definíció szerint.

Page 194: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

184

b) Ez az érték annak becslése, hogy egy minta esetén mekkora lehet.

Mindkét esetben intervallumbecslést adunk.

Az értékhez tartozó feltételes várható érték intervallumbecslése

A regressziófüggvény segítségével kapott becslések azonban eltérhetnek a tartozó feltételes várható értéktől, mivel mintából dolgoztunk.

Az szórása, azaz a standard hiba a paraméterek szórásának ismeretében meghatározható:

(Nem bizonyítjuk és a formulákat már csak konkrét mintára alkalmazva írjuk fel.)

Látható, hogy a standard hiba akkor a legkisebb, ha a rögzített hely ( ) éppen az átlaggal egyenlő. Ebben az esetben a képlet az alábbi formuláraegyszerűsödik:

Ennek alapján azt mondhatjuk, hogy regressziós becslésünk az átlag környezetében a legjobb, a szélső értékek felé haladva egyre romlik.

A konfidenciaintervallumot szintén a t-eloszlás segítségével határozzuk meg:

A becsült konfidenciaintervallum valószínűséggel tartalmazza az helyhez tartozó feltételes várható értéket (átlagot).

A teherfuvarozó vállalkozó adatainak felhasználásával 95%-os valószínűségi szinten adjunk intervallumbecslést a 12 km távolságra történőszállítások átlagos idejére!

Page 195: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

185

Az átlagos színvonal becsült értéke:

Korábbi számításokból ismert:

A standard hiba:

A konfidenciaintervallum:

A 12 km távolságra történő szállítások átlagos ideje 95,0%-os megbízhatósági szinten 19,4 és 25,4 perc között van.

Az egyedi becslések konfidenciaintervalluma

Előfordulhat, hogy nem átlagos szintet, hanem egy hiányzó adatot kívánunk becsülni az helyen. Erre a célra is ugyanezt a becslőfüggvényt

használjuk. Mivel értéknél valamely érték az

Page 196: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

186

módon számítható, ezért

A behelyettesítés és a gyökvonás után az egyedi érték becslésekor a standard hiba kiszámításának képlete egy konkrét mintára a következő:

Egyedi érték valószínűségi szinthez tartozó konfidenciaintervalluma:

Ismét a korábbi példa adataiból becsüljük meg 95,0%-os valószínűségi szinten most konkrétan egy 12 km távolságra történő fuvarozás menetidejét.

Az egyedi érték becslése:

A standard hiba:

A konfidenciaintervallum:

Az eredmények is mutatják, hogy az egyedi értékek becslése lényegesen pontatlanabb. A konfidenciaintervallum ebben az esetben lényegesenszélesebb sávot ölel fel.

Page 197: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

187

Bármilyen formában történik is a becslés, óvakodni kell az általánosítástól. A regressziós becslésnek csak az adott keretek között, a vizsgáltadathalmazra vonatkozóan van értelme. Attól is tartózkodni kell, hogy a regressziós függvényt tetszés szerint meghosszabbítsuk. A függvény mindigcsak a megfigyelt értékek értelmezési tartományában érvényes.

9.3.5. A regressziófüggvény eredményeinek hipotézis-ellenőrzéseAz eredmények valóságtartalmának ellenőrzése a hipotézisvizsgálat eszközeivel történhet. Mivel az eredmények mintából származnak, felmerül akérdés, hogy a kapott eredmények a sokaságra is igazak-e.

Kétféle vizsgálatot végezhetünk:

– ellenőrizhetjük, hogy szignifikáns-e a regressziós együttható;

– szignifikánsnak bizonyul-e maga a regressziófüggvény.

(Megjegyezzük, hogy a kétféle módszer – két ismérv kapcsolatának vizsgálatakor – azonos eredményre vezet. A teljesség kedvéért mindkét módszertbemutatjuk.)

A regressziós együttható ( ) tesztelése

Az ellenőrzés gondolatmenete a következő. Feltételezzük, hogy valójában nincs korreláció, az elméleti paraméter ( ) nullával egyenlő, és a

tapasztalati adatokból számított ( ) paraméter nullától való eltérését csak a véletlen okozza.

A regressziós együttható tesztelése t-próbával történik. A hipotézisek matematikai megfogalmazása a

módon történik. A nullhipotézis helyességét próbafüggvénnyel ellenőrizhetjük.

Mint láttuk, n elemű minta esetén a

valószínűségi változó szabadságfokú t-eloszlást alkot.

Page 198: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

188

Az ellenőrzés szignifikanciaszinten azt jelenti, hogy a

teljesülése esetén fogadhatjuk el ezen a szignifikanciaszinten a nullhipotézist. Konkrét minta esetén a próbafüggvény számított értéke:

A próbafüggvény nem más, mint a regressziós együttható becsült értékének és a hozzá tartozó standard hibának a hányadosa. Számított értékétaz szignifikanciaszinthez és az szabadságfokhoz tartozó kritikus értékhez viszonyítjuk.

Ha , a hipotézist elfogadjuk. Ez azt jelenti, hogy a paraméter nem különbözik szignifikánsan nullától. Abban az esetben, ha , a

hipotézist elvetjük. A mintabeli információk ekkor azt mutatják, hogy szignifikáns a kapcsolat az X és az Y változó között.

Teszteljük le a mintapéldánkban szereplő regressziófüggvény paraméterét! A 10 elemű mintából származó függvény ; továbbá a

paraméter standard hibája volt.

A próbafüggvény számított értéke:

A próbafüggvény kritikus értéke (5%-os szignifikanciaszinten, ):

Mivel a számított érték (10,95) meghaladja a t kritikus értékét (2,31), a hipotézist fogadjuk el. A szállítási távolság és a fuvarozási időtartam

között a valóságban is # mivel a számított érték minden szignifikanciaszinten meghaladja a kritikus értéket # fennálló összefüggés van, a paraméterszignifikáns.

A varianciaanalízis alkalmazása a regressziószámításban

Page 199: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

189

A regressziós együttható tesztelése mellett magának a regressziófüggvénynek a hipotézis-ellenőrzése is elvégezhető. Ez a varianciaanalízismódszerével történhet.

Elsőként írjuk fel az eredményváltozó és a magyarázóváltozó közötti összefüggést az i-edik megfigyelésre:

azaz

ahol az Y megfigyelt értéke ( ),

az tartozó regressziós becslés,

a maradéktag vagy reziduum.

Megállapíthatjuk, hogy a maradéktagok összege nulla. Ez belátható, ha a már ismert normálegyenleteink közül az I. normálegyenletet

átrendezzük:

Ebből következik, hogy

Ez azt jelenti, hogy a regressziós becslések összege és ebből következően átlaga is megegyezik az eredményváltozó tényleges értékeinekösszegével és átlagával.

Kiinduló összefüggésünk tehát az átlagtól vett eltérések alapján is felírható:

Page 200: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

190

Ez fontos összefüggés számunkra, mert kifejezi, hogy az eredményváltozó megfigyelt értékeinek átlagtól való eltérése két komponensselmagyarázható, egyrészt a becsült regressziófüggvény szóródásával, másrészt a maradéktag ingadozásával.

Bizonyítás nélkül közöljük, hogy az eltérések összetevőkre bontása az eltérés-négyzetösszegekre is felírható:

Az eltérés-négyzetösszegeket a következőképpen is szokás jelölni:

Különleges jelentősége van a reziduális négyzetösszegnek (SSE), mivel a megfigyelt értékeknek a regressziófüggvény körüli szóródását fejezi ki.

Ha ez azt jelenti, hogy a függő változó teljes varianciája megmagyarázható a tényezőváltozó segítségével. Minden megfigyelt érték aregressziófüggvényen helyezkedik el. Egyéb tényezőknek nincs hatása az eredményváltozóra, vagyis az ismérvek között függvényszerű kapcsolatvan.

Ha az akkor a két ismérv között sztochasztikus kapcsolat áll fenn. Minél nagyobb a reziduális négyzetösszeg értéke, annál nagyobb a becsléshibája, mert a modellben nem szereplő egyéb magyarázóváltozók hatása annál nagyobb szerepet játszik a függő változó szóródásában.

A varianciaanalízis-tábla # a 8. fejezetben elmondottak figyelembevételével # a következőképpen készíthető el (9.16. táblázat):

Page 201: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

191

9.16. táblázat - Varianciaanalízis-tábla

Aszórásnégyzet

forrása

Eltérés-négyzetösszeg Szabadságfok Átlagos

négyzet- összeg

Regresszió

Hibatényező

Teljes #

A szabadságfokokról a következőket kell tudni:

A teljes négyzetösszeg (SST) szabadságfoka mert számításához először a mintából az azaz egy paramétert kell kiszámítani.

A hibatényező négyzetösszegének (SSE) szabadságfoka Ennek az a magyarázata, hogy számításához két paraméter, a és a becsléseszükséges.

A regresszióból becsült négyzetösszeg szabadságfoka pedig a szabadságfokok között fennálló additív összefüggésből következik.

A tesztelésnél itt is a regresszió fennállásának tagadásából indulunk ki.

Hipotéziseinket a következőképpen írhatjuk fel:

A regresszióból származó becslést a szórásnégyzet „külső” becslésének, a hibatényezőből származót pedig „belső” becslésének tekinthetjük. (Ígyteljes az analógia a 8. fejezetben megismert F-próbával.)

Page 202: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

192

A nullhipotézist F-próbával ellenőrizzük, amelynek képlete konkrét minta esetén:

ahol a számláló szabadságfoka, a nevező szabadságfoka pedig

Abban az esetben, ha az MSE (a „belső” szórásnégyzet becslése) relatíve nagy az MSR-hez (a „külső” szórásnégyzet becsléséhez) képest, a

regressziófüggvény rosszul illeszkedik a ponthalmazhoz, ami a változók közötti lineáris kapcsolat hiányára utal, és így elfogadását támasztja alá.A fordított eset a magyarázóváltozó és az eredményváltozó lineáris kapcsolatára utal. Ekkor az X és Y változók közötti lineáris kapcsolat hiányát

megfogalmazó nullhipotézisnek ellentmond, és így az alternatív hipotézist ( ) támasztja alá.

A bemutatópéldánkhoz kapcsolódóan a szállítási távolság és a fuvarozási idő közötti összefüggés vizsgálatából elkészítettük a varianciaanalízis-táblát. A felhasznált számítási részeredmények az alábbiak:

Ezen adatokból állítottuk össze a varianciaanalízis-táblát (9.17. táblázat).

9.17. táblázat - Varianciaanalízis-táblaSzórásnégyet

forrásaEltérés-

négyzetösszeg Szabadságfok Átlagosnégyzetösszeg

Regresszió 1881 1 1881Hibatényező 125 8 15,625

Teljes 2006 9 –

Page 203: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

193

A próbafüggvény számított értéke:

Kritikus értéke 5%-os szignifikanciaszint mellett: .

A szerinti feltételezést 5%-os szignifikanciaszint mellett elvetjük. Megállapítható, hogy a paraméter értéke szignifikánsan különbözik nullától,vagyis a szállítási távolság és a menetidő között szignifikáns kapcsolat van.

A szorosság mérése a varianciaanalízis-tábla alapján

Az eltérésnégyzetek közötti összefüggés alapján kiszámíthatjuk a regresszió által megmagyarázott eltérés-négyzetösszegnek az y teljes eltérés-

négyzetösszegéhez való arányát. Ezt a mutatószámot determinációs együtthatónak nevezzük. (Jele: )

Értéke sztochasztikus kapcsolat esetén 0 és 1 közé eshet, és százalékos formában fejezzük ki.

Bizonyítás nélkül közöljük, hogy a most megismert determinációs együttható négyzetgyöke a lineáris korrelációs együttható. (Ez a számítás a 9.1.2.pontban megismert számítási képleteket egy újabb lehetőséggel bővíti.)

9.3.6. A reziduális változó vizsgálataEddigi eredményeinknél feltételeztük, hogy jól választottuk ki a regressziós függvényt, azaz helyesen specifikáltuk a függvény típusát, továbbáteljesülnek a lineáris regresszió feltételei. A regressziószámítás alkalmazása során azonban a feltételek teljesülését ellenőrizni is kell. Ez azúgynevezett diagnosztikai tesztekkel történhet, amelyek egyrészt értékelik a modellt, másrészt a levont következtetések valódiságát támasztjákalá. A legtöbb regressziószámításhoz készült programcsomag tartalmazza ezeket a diagnosztikai teszteket. Az eredmények értékelése azonbanminden esetben a felhasználóra vár.

Arra a kérdésre, hogy a regressziófüggvény jól írja-e le a valóságot, a reziduális változó tapasztalati értékeinek ( ) vizsgálata ad választ. Ez a változó

az elméleti véletlen változó tapasztalati megfelelője, és rendelkeznie kell annak tulajdonságaival. Ha ez nem áll fenn, akkor ez azt jelenti, hogy avéletlen mellett más, szisztematikus hatás is érvényesül a reziduális eloszlásban, ezért a modell felülvizsgálatra szorul.

Page 204: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

194

A reziduális változó eloszlását kétféleképpen vizsgálhatjuk: a reziduumok grafikus ábrázolásával, valamint a hipotézisvizsgálat eszközeivel.

E vizsgálat részletes bemutatása meghaladja tankönyvünk kereteit. A problémát csak grafikonokkal szemléltetjük. A hibatényező grafikus ábráját azx magyarázóváltozó függvényében a 9.13. ábrán mutatjuk be.

9,13. ábra - A hibatényező eloszlásának vizsgálata

Az a) ábrán a vízszintes szalag x nagyságától független szóródást jelent. A reziduális eloszlás véletlen jellegűnek tekinthető, ha a pontdiagram asávon belül helyezkedik el. A variancia állandóságának feltétele teljesül.

A b) ábra szétnyíló tendenciát mutat. A variancia az x érték növekedésével nő, tehát ellentmond az állandó szórás feltételének. Ez esetben vagya modell (a függvénytípus), vagy a becslési eljárás újragondolása szükséges. A becslési módszerek közül célszerű például a legkisebb négyzetekmódszere helyett az úgynevezett súlyozott legkisebb négyzetek módszerével dolgozni.

A következőkben bemutatjuk a szállítási távolság és a szállítási idő vizsgálata közötti összefüggés EXCEL 5.0 szoftverrel való megoldása után kapotteredménytábláját (9.18. táblázat). Vessük össze az eredményeket az eddig közöltekkel!

9.18. táblázat - Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához

x y xy e

4 10 16 40 #11 #17 187 121 10,4203 #0,4203 0,1766 #16,5797 274,8868

Page 205: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

195

4 13 16 52 #11 #14 154 121 10,4203 2,5797 6,6549 #16,5797 274,88682 8 4 16 #13 #19 247 169 7,4058 0,5942 0,3531 #19,5942 383,9328

10 20 100 200 #5 #7 35 25 19,4638 0,5362 0,2875 #7,5362 56,794819 27 361 513 4 0 0 16 33,0290 #6,0290 36,3487 6,0290 36,348720 35 400 700 5 8 40 25 34,5362 0,4638 0,2151 7,5362 56,794816 22 256 352 1 #5 #5 1 28,5072 #6,5072 42,3443 1,5072 2,271820 40 400 800 5 13 65 25 34,5362 5,4638 29,8528 7,5362 56,794825 45 625 1125 10 18 180 100 42,0725 2,9275 8,5705 15,0725 227,179230 50 900 1500 15 23 345 225 49,6087 0,3913 0,1531 22,6087 511,1531

150 270 3078 5298 0 0 1248 828 270,0000 0,0000 124,9565 0,0000 1881,0435

paraméter értéke → 1,507246 4,391304standard hiba → 0,137347 2,409648determinációs

eh.→ 0,937709 3,95216

F próbafv. értéke → 120,4287 8 ←szfSSR → 1881,043 124,9565 ←

F kritikus értéke 5,317645t próbafv. értéke 10,974 1,822384t kritikus értéke 2,306006

9.3.7. A paraméterek robusztus becsléseA megismert becslési eljáráson kívül még sok más lehetőség is van a sztochasztikus összefüggések vizsgálatára. Ezek közül a robusztus becslésmódszerét emeljük ki. A gyakorlati számításoknál ugyanis mindkét változónál előfordulhatnak úgynevezett mérési hibák. Az adatok pontatlansága,a hibák mértéke és iránya értelemszerűen kihat mindenfajta további statisztikai számítás eredményére, így a regressziófüggvény paramétereinekbecsült értékeire is.

Page 206: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

196

Léteznek olyan becslési eljárások, amelyek kevésbé érzékenyek az adatbázisban lévő mérési hibákra vagy a modellekben rögzített feltételekteljesülésére. Ezek az eljárások a robusztus becslési módszerek.

Ezzel az eljárással számíthatjuk például az úgynevezett nyesett átlagot, amelyet az átlagszámítás ismert szabálya szerint határozhatunk meg azzala különbséggel, hogy a rangsor szélén elhelyezkedő kiugróan nagy vagy kicsi értékeket, azaz a szélsőséges értékeket elhagyjuk.

A módszer a regressziós paraméterek becslésére is kiterjeszthető. Ebben az esetben első lépésben a legkisebb négyzetek módszerévelmeghatározzuk a paramétereket, majd kiszámítjuk a reziduumokat. Ezt követően elhagyjuk azokat a megfigyeléseket, amelyekhez a legnagyobb

és a legkisebb reziduumok tartoznak. Összesen (ahol ) megfigyelést hagyunk el a rangsor mindkét szélén, majd a megmaradt adatokalapján újra végrehajtjuk a becslést a legkisebb négyzetek módszerével.

Kövessük végig a leírtakat az alábbi példán!

Abból indulunk ki, hogy ismert az függvény, amellyel leírható az y és az x változók közötti determinisztikus kapcsolat. A megfigyelés során

elírás történt, és tévedésből az jegyezték fel helyett (9.19. táblázat).

9.19. táblázat - A feljegyzett adatok táblázata

Sorszám y x1. 17 12. 21 33. 50 24. 25 55. 29 7

Ebből az öt adatpárból, amely a téves adatot is tartalmazza, meghatározzuk a regressziófüggvényt, majd pedig kiszámítjuk a maradéktagokat. (Arészletes számításokat nem közöljük.)

A lineáris regressziófüggvény:

Számítsuk ki a becslési hibákat!

Page 207: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

197

9.20. táblázat - Munkatábla a reziduumok számítására

Sorszám y

1. 17 28,7 #11,72. 21 28,5 #7,53. 50 28,8 21,24. 25 28,2 #3,25. 29 27,9 1,1

Annak illusztrálására, hogy egyetlen hibás adat mekkora eltérést okoz, nézzük meg a 9.14. ábrát!

9,14. ábra - A mérési hiba hatása a regressziófüggvényre

A továbbiakban elhagyjuk az első és a harmadik megfigyelést, mert a maradéktag az elsőnél a legkisebb és a harmadiknál a legnagyobb. Eztkövetően a megmaradó megfigyelések alapján (9.21.táblázat) újra becsüljük a regressziófüggvény paramétereit.

9.21. táblázat - A megmaradó adatok táblázata a

Sorszám y x1. 21 32. 25 53. 29 7

A regressziófüggvény:

Page 208: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

198

Elhagytuk a mérési hibát tartalmazó megfigyelést az adataink közül, és így visszakaptuk a determinisztikus összefüggést leíró függvényünket,amelyből kiindultunk.

9.4. Nemlineáris regresszióA mennyiségi ismérvek közötti kapcsolat törvényszerűségeinek leírására igen gyakran nem alkalmas a lineáris függvény. A kapcsolatnak egyenesseltörténő kifejezése ugyanis feltételezi, hogy az X változó egységnyi változása Y-nál mindig adott nagyságú (konstans) változást eredményez. Aközgazdasági összefüggéseknél e feltétel gyakran nem teljesül. Ilyen esetekben nemlineáris modellek alkalmazására kerül sor. A műtrágya-felhasználás és a terméshozam nagysága között például korrelációs kapcsolat van. A műtrágya-felhasználás mennyiségének növekedésével csakbizonyos határig nő a terméshozam # az adagolás mértékétől függően is eltérő nagysággal #, majd a hozam csökkenése figyelhető meg. Bizonyostermékek egy főre jutó fogyasztása és az egy főre jutó jövedelemszint között sem állapíthatunk meg egyértelmű lineáris összefüggést, ugyanisegy adott jövedelemszint felett a termék fogyasztásában telítettség következik be, és a jövedelem további emelkedésével nem, vagy csak nagyonkis mértékben növekszik a termék fogyasztása. A vállalati gyakorlatban alkalmazható költségfüggvények és termelési függvények legtöbbje isnemlineáris típusú.

Nemlineáris regressziófüggvényt akkor használunk, ha az X változó Y-ra gyakorolt hatásának mértéke függ az X változó nagyságától.

A megfelelő függvénytípus kiválasztásához az érintett szakterület alapos ismerete szükséges. A megfigyelt minta adatainak # a korábban megismertegyszerű eszközökkel történő # elemzése is sokat segíthet a megfelelő függvénytípus kiválasztásában.

A nemlineáris, vagy másképpen görbevonalú regresszió fontosabb típusai :

a hatványkitevős,

az exponenciális,

a parabolikus,

a hiperbolikus függvények.

Mielőtt ezen függvénytípusok tárgyalására rátérnénk, idézzük fel a regressziós függvény paramétere meghatározási elvét, amit a legkisebb négyzetekmódszereként ismertünk meg. E módszer segítségével határozhatjuk meg adott függvénytípuson belül a ponthalmazhoz legjobban illeszkedőfüggvényt.

A legkisebb négyzetek módszerét nemlineáris regresszióra is alkalmazhatjuk.

Parabolikus regressziófüggvény

Ha egy parabola típusú regressziófüggvény adott, tehát akkor a következő megoldás lehetséges.

Page 209: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

199

A legkisebb négyzetek kritériuma most is azt igényli, hogy a regressziófüggvény paramétereit úgy határozzuk meg, hogy a megfigyelt y értékekneka regressziófüggvény megfelelő értékeitől számított eltérés-négyzetösszege minimális legyen. Tehát a következő kifejezést kell minimalizálni:

Ha a függvény szerinti parciális deriváltjait egyenlővé tesszük nullával, az alábbi normálegyenleteket kapjuk a regressziós paraméterekmegállapítására:

I. normálegyenlet: ,

II. normálegyenlet: ,

III. normálegyenlet: .

(Az összegzési határokat most nem írtuk ki, értelemszerűen )

Előfordulhat, hogy nem polinomokkal, hanem más, pl. racionális törtfüggvényekkel közelítünk. Világosan látszik az általánosítás lehetősége.Magasabb fokú polinomnál hasonlóan járhatunk el, a paraméterek (együtthatók) száma mindig a fokszámnál 1-gyel nagyobb, és ugyanannyi alineáris normálegyenletek száma is.

A normálegyenletek egyszerűsíthetők, ha a változókat a lineáris regressziónál tanult módon transzformáljuk. Ha a változókat az átlaguktól vett

eltérésükkel helyettesítjük # és változókkal #, akkor és nulla. Nulla továbbá minden páratlan hatványsor összege, tehát és

is. Így a normálegyenletek egyszerűbben megoldhatók.

A parabolikus regressziót a gyakorlatban általában akkor használjuk, ha a két változó közötti összefüggés jellege bizonyos határig növekvő (vagycsökkenő), de ezen túl megfordul a tendencia. (A műtrágya-felhasználás például egy adott szintig növeli a termésátlagot, bizonyos határon túl pedigalacsonyabb hozamot eredményez.)

A parabolikus regressziófüggvény paramétereinek értelmezése nem olyan kézenfekvő. A független változó hatását nem tudjuk olyan szemléletesen

megfogalmazni. Az x helyen az X ismérvérték egységnyi változása az Y ismérvérték mértékű változását vonja maga után (tehát függ az x -től).

A parabolikus regressziót elsősorban valamely meghatározott x értékhez tartozó függvényérték kiszámításához használjuk fel. Gyakori, hogy éppenazt kutatjuk, hogy a függvény milyen x érték mellett maximális.

Page 210: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

200

Hatványkitevős regressziófüggvény

Az X és Y változók kapcsolatát az x és y megfigyelt értékei alapján az alábbi becslőfüggvénnyel írhatjuk le:

Logaritmikus transzformációval # mindkét oldal logaritmusát véve # a következő egyenletet kapjuk:

Természetesen itt feltételeznünk kell a változók és pozitivitását.

Az egyenletből látható, hogy most az x és y értékek logaritmusai között van lineáris kapcsolat. A paramétereket ezért a lineáris regressziónálmegismert formulák segítségével határozhatjuk meg. A különbség csupán annyi, hogy x helyett log x és y helyett log y szerepel.

Az eredeti függvény felírásához a visszakeresésével a -t is meg kell határozni. Jelöljük a transzformált változókat az alábbi módon:

A regressziófüggvény:

Page 211: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

201

ahol .

A hatványkitevős függvény regressziós együtthatója a rugalmassági együtthatóval azonos, ugyanis

és így

A hatványkitevős regresszió paramétere tehát elaszticitási (rugalmassági) együtthatóként értelmezhető. Megmutatja, hogy 1%-kal nagyobb xértékhez hány %-kal nagyobb vagy kisebb y érték tartozik.

(Amennyiben a hatványkitevős függvény paramétere 1 vagy annál nagyobb értéket vesz fel, azt mondhatjuk, hogy adott esetben azeredményváltozó rugalmasan reagál az tényezőváltozó alakulására.)

Hatványkitevős regresszió esetén tehát a rugalmasság független a hatótényező nagyságától. A függvény minden pontján állandó.

A következő példában a hatványkitevős függvény alkalmazását mutatjuk be. Grafikus ábrázolás útján dönthetjük el az alapadatok ismeretében afüggvény típusát. Feltételezzük, hogy ez korábban elkészült, és a hatványkitevős függvény látszott a legjobb közelítésűnek.

30 négytagú (2 felnőttből és 2 gyerekből álló) aktív keresős háztartásban megfigyelték az egy főre jutó havi jövedelem és az egy főre jutó haviutazási és szórakozási kiadások nagyságát. Az alapadatokat és a szükséges részszámítások eredményeit a 9.22. táblázat tartalmazza. (A könnyebbáttekinthetőség kedvéért nem írjuk ki valamennyi rendelkezésre álló adatot és részeredményt.)

9.22. táblázat - Munkatábla a hatványkitevős regressziófüggvény meghatározásához

Sor-szám x y

1 18 4 1,255 0,602 0,009 0,033 0,000297 0,0000812 25 7 1,398 0,845 0,152 0,276 0,041952 0,023104... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ... ...

Page 212: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

202

... ... ... ... ... ... ... ... ...30 19 4 1,279 0,602 0,033 0,033 0,00099 0,001100

Együtt # # 37,394 17,084 # # 1,00822 0,4612

ahol x: egy főre jutó jövedelem (E Ft),

y: egy főre jutó utazási és szórakozási kiadás (E Ft).

A paraméter azt jelenti, hogy amelyik háztartásban 1%-kal magasabb az 1 főre jutó jövedelem, ott átlagosan 2,186%-kal több az utazási ésszórakozási kiadás összege. Tehát az utazási és szórakozási kiadás nagysága rugalmasan reagál a jövedelem változására.

Exponenciális regressziófüggvény

Becslőfüggvényünk x és y megfigyelt értékei alapján a következő:

Az exponenciális függvény olyan esetben kerül alkalmazásra, amikor az Y ismérv növekedése arányos az adott helyen felvett értékével:

A regressziós paraméter arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét.

Lineáris alakra transzformálva:

Page 213: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

203

Az exponenciális függvényekre az a jellemző, hogy lineáris összefüggés van a függő változó logaritmusa és az x változó között.

Jelöljük a transzformált változókat és a paramétereket a következő módon:

A regressziós modell a bevezetett jelölésekkel:

Nézzük a következő példát!

Magyarország történelmi borvidékén vizsgálták a tokaji aszú életkora (év) és export eladási ára (dollár) közötti összefüggést. 28 véletlenszerűenkiválasztott palack megfigyelt adatait a 9.23. táblázat tartalmazza:

9.23. táblázat - A tokaji aszú életkora és eladási ára közötti összefüggés

Sorszám Életkor (év) Eladási ár (dollár)1. 25 21002. 22 13253. 20 8004. 19 7005. 17 5506. 17 4607. 16 4008. 13 2209. 12 170

10. 10 10011. 10 12512. 10 8913. 9 79

Page 214: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

204

14. 9 7015. 8 5916. 8 5517. 8 5118. 7 6019. 7 3920. 7 3421. 6 3922. 6 2523. 6 1824. 5 2425. 5 826. 4 1627. 4 1128. 4 9

A bevezetett jelölések szerint a paraméterek logaritmusait az alábbi normálegyenletekkel becsüljük:

9.24. táblázat - Munkatábla az exponenciális regressziófüggvény meghatározásához

Sorszám Életkor (év) x Eladási ár(dollár) y

11. 125 2100 3,322219 83,05548 162512. 122 1325 3,122216 68,68875 1484

... ... ... ... ...

... ... ... ... ...

... ... ... ... ...

Page 215: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

205

... ... ... ... ...27. 114 1111 1,041393 4,165571 111628. 114 1119 0,954243 3,81697 1116

Összesen: 294 7636 54,40651 674,4496 4024

(A könnyebb áttekinthetőség kedvéért itt sem közlünk minden részeredményt.)

Normálegyenletek:

A regressziófüggvényünk lineáris alakban:

A paraméterek logaritmusainak visszakeresett értékei:

Így az összefüggés exponenciális regressziófüggvénye:

Az eredmények alapján megállapíthatjuk, hogy az 1 évvel idősebb borok export eladási ára átlagosan 28,9%-kal magasabb.

9.5. Gyakorlófeladatok

Page 216: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

206

1. Egy utazási iroda programfüzetéből véletlenszerűen kiválasztottunk 10 társasutat. Vizsgáljuk az utak időtartama (X) és részvételi díja (Y) közöttikapcsolatot. A 10 elemű minta adatai:

Sor-szám

Időtartam(nap)

Részvételidíj (E Ft)

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

3

4

4

5

7

8

8

9

10

12

19

24

25

26

33

35

34

40

44

50

Feladat:

a) Számítsuk ki

a kovarianciát,

a lineáris korrelációs együtthatót!

b) Csoportosítsuk az adatokat az utazás időtartama szerint! Számítsuk ki a korrelációs hányadost!

2. Egy pályázatra benyújtott 8 művet 3 bíráló véleményezett az alábbi rangsorolással:

A pályaművek jelölése A B C D E F G HElső bíráló 5 2 4 3 7 8 1 6

Page 217: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

207

Második bíráló 4 1 6 2 5 7 3 8Harmadik bíráló 5 2 3 4 7 8 1 6

Feladat:

Vizsgáljuk meg, hogy mennyire vannak „összhangban” a bírálati eredmények!

3. 10 országot rangsoroltak az alábbi szempontok szerint:

Hitelképesség 1 főre jutó GDPOrszág

rangsoraA

B

C

D

E

F

G

H

I

J

1

2

3

4

5

6

7

8

9

10

3

1

5

2

9

10

7

8

6

4

Feladat:

Számítsuk ki a rangkorrelációs együtthatót, és értelmezzük a kapott eredményt!

4. Egy kereskedelmi cég felmérést végzett ügynöki beosztású munkatársai körében, hogy egy hónap alatt hányszor sikerült megkötni az üzletet. 5ügynöktől a következő adatokat kapták:

Ajánlat 200 400 300 150 250

Page 218: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

208

Eladás 30 70 55 20 45

Feladat:

a) Számítsuk ki a lineáris regressziófüggvény paramétereit, és mondjuk meg jelentésüket!

b) Számítsuk ki a regressziófüggvény értékeit, és ellenőrizzük a összefüggés teljesülését!

c) Számítsuk ki a regressziós becslés abszolút és relatív hibáját!

d) Állítsuk össze a varianciaanalízis-táblát és teszteljük a regressziót ( )!

e) Számítsuk ki a determinációs együtthatót!

f) Adjunk becslést egy 500 ajánlatot tevő ügynök eladásainak várható számára!

g) Cseréljük fel a változókat, és számítsuk ki az regressziófüggvény paramétereit! Értelmezzük a paramétert!

5. Mutassuk ki a társasutak időtartama és részvételi díja közötti összefüggést (1. feladat) lineáris regressziófüggvénnyel!

Feladat:

a) Számítsuk ki a paramétereket, valamint a regresszióval becsült értékeket, és hasonlítsuk össze a megfigyelt értékekkel!

b) Teszteljük a paramétert 5%-os szignifikanciaszinten t-próbával!

c) Jelöljük ki a paraméter 95%-os megbízhatósági szintű konfidenciaintervallumát!

d)Vizsgáljuk a függvény rugalmasságát az helyen!

6. Egy város 10 véletlenszerűen kiválasztott élelemiszer-áruházának értékesítési forgalom- és készletadatai 1996-ban:

Sorszám Forgalom(M Ft) Készlet (M Ft)

1.

2.

56,9

117,5

3,5

7,5

Page 219: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

209

3.

4.

5.

6.

7.

8.

9.

10.

60,7

75,5

60,7

72,8

67,7

72,6

85,9

73,6

3,9

4,7

3,6

4,5

3,9

5,1

5,4

5,2

Néhány számítási eredmény:

Feladat:

a) Számítsuk ki a lineáris regressziófüggvény paramétereit, és mondjuk meg a regressziós együttható jelentését!

b) Számítsuk ki a lineáris korrelációs és a determinációs együtthatót

a kovarianciából kiindulva,

a regressziófüggvény paraméterének felhasználásával!

c) Ellenőrizzük 5%-os szignifikanciaszinten a paramétert!

d) Jelöljük ki a paraméter konfidenciaintervallumát 95%-os megbízhatósági szinten!

7. Egy likőripari vállalatnál vizsgálták, hogy a palackozó gépsor óránkénti teljesítménye és a selejtes töltés között milyen kapcsolat van. A megfigyelt15 nap adatai:

Page 220: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

210

Teljesítmény (1000palack/nap) X Selejtszám (palack/nap) Y

17

18

19

20

21

9,0

9,0

8,9

9,1

9,322

23

24

25

26

9,2

9,7

10,4

10,4

11,627

28

29

30

31

14,1

18,2

25,0

38,3

57,0360 249,2

Az összefüggést exponenciális regresszióval leírva, a következő eredményt kapták:

Feladat:

a) Értelmezzük a regressziófüggvény paramétereit!

b) Számítsuk ki a selejtszám regresszióval becsült értékeit, és állapítsuk meg a maradék-négyzetösszeget!

Page 221: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

211

c) Adjunk becslést a selejtes palackokra, hatványkitevős összefüggést feltételezve!

d)Döntsük el, hogy melyik típusú függvény írja le jobban a két ismérv kapcsolatát!

8. 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP (USA-dollár), X és az 1000 lakosra jutó személygépkocsik száma (db), Y ismérvekközötti összefüggést.

Számítási eredmények:

Lineáris regressziófüggvény:

A megfigyelt változók szórásai:

Feladat:

a) Milyen szoros a kapcsolat a két ismérv között?

b) Hány %-ban játszik meghatározó szerepet az X ismérv az Y ismérv szóródásában?

c) Írjuk fel a hatványkitevős regresszió normálegyenleteit, és számítsuk ki a paramétereket!

d) Értelmezzük mindkét regressziófüggvény paraméterét!

e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár!

9. Egy élelmiszer-áruházban véletlenszerűen kiválasztottak 10 vevőt, és megkérdezték őket, hogy naponta hány percet töltenek vásárlással (X),percben és mennyit költenek átlagosan naponta élelmiszerre (Y) Ft-ban.

Az elvégzett számításokból az alábbiak ismeretesek:

A vásárlásra fordított átlagos idő 21 perc, az átlagos kiadás pedig 5420 Ft.

Lineáris regresszióval becsülve megállapították, hogy az a vevő, aki 1 perccel több időt töltött az áruházban, átlagosan 240 Ft-tal költött többet.

A regressziófüggvénnyel becsült értékek és a tényleges vásárlási összegek eltéréseinek négyzetösszege: 112 878.

Page 222: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kétváltozós korreláció- és regressziószámítás

212

A két ismérv kapcsolatának szorosságát vizsgálva megállapították, hogy a vásárlási idő 46,4%-os mértékben játszik meghatározó szerepet a napiátlagos vásárlási kiadásban.

Feladat:

a) Írjuk fel számszerűen a lineáris regressziófüggvényt!

b) Számítsuk ki a regressziós becslés abszolút és relatív hibáját!

c) Állapítsuk meg, hogy milyen szoros és milyen irányú a kapcsolat a két ismérv között!

Page 223: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

213

10. fejezet - Többváltozós korreláció- ésregressziószámítás

A korábbi fejezetben a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmi-gazdasági élet jelenségei azonban sokkalösszetettebbek, bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásávalvan összefüggésben.

A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolatvizsgálatánál az Y-ra ható tényezők közül csak egyet, X-et választottuk ki # feltételezve, hogy ennek hatása jelentős. A bérből és fizetésből élőkhavi bruttó átlagkeresetét jelentősen befolyásolja például iskolai végzettségük foka, de ezen kívül egyéb tényezők, pl. beosztás, gyakorlati idő stb.is alakítják. A lakások eladási ára és a lakások mérete közötti kapcsolat elemzésénél számszerűsíthetjük pl. a lakások életkorának hatását is. Agazdasági társaságok gazdálkodásának mutatóit vizsgálva is arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja,ilyenek például a nettó árbevétel, a hatékonyságot kifejező vagyonarány mutatója stb. Az eredményváltozóra ható tényezők körének kibővítéséveltöbbszörös vagy többváltozós sztochasztikus kapcsolathoz jutunk.

10.1. A lineáris regressziófüggvény meghatározásaA többváltozós regresszióanalízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerinthárom-, négy-, öt- stb. változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet.

A többváltozós lineáris regressziós modellt a következőképpen írhatjuk fel:

A továbbiakban csak a háromváltozós lineáris kapcsolattal foglalkozunk, de az itt elmondottak akárhány változóra általánosíthatók.

10.1.1. A háromváltozós lineáris regressziófüggvényAz előző fejezetben tárgyalt kétváltozós kapcsolathoz hasonlóan ebben az esetben is az a cél, hogy a mennyiségi ismérvek közötti összefüggések

tendenciáját egy függvénnyel leírjuk. Ekkor lényegében az elméleti regressziófüggvényt közelítjük analitikus függvénnyel a megfigyeltminta alapján.

Tegyük fel, hogy a sokaság N egyedből áll, és az egyedek ismérvértékeit a következő vektorok tartalmazzák:

Page 224: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

214

Ez azt jelenti, hogy az i-edik egyed Y ismérvértéke ismérvértéke és ismérvértéke A tér pontjaihoz az egyenletű síkot illeszthetjük a legkisebb négyzetek módszerével. Ekkor az

háromváltozós függvény minimumát kell keresni. Szélsőérték ott lehet, ahol a parciális deriváltak nullák.

Ebből a következő, ún. normálegyenlet-rendszert kapjuk:

Ez az egyenletrendszer az ismérvértékeket tartalmazó vektorok segítségével is felírható (1 az ún. összegzővektor, minden komponense 1):

Page 225: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

215

Legyen

Ekkor az egyenletrendszer

Amennyiben az mátrixnak létezik az inverze, akkor

Ezt leíró regressziónak is szokás nevezni.

Ha a sokaság nem véges vagy nem ismert, akkor minta segítségével becsülhetjük a regressziós függvény együtthatóit. A legáltalánosabb esetben avéletlenszerűen kiválasztott egyedek mindhárom ismérvértéke valószínűségi változó. Gyakran fordul elő az az eset, hogy csupán az eredményváltozófügg a véletlentől, a magyarázóváltozókat pontosan ismerjük. Például említhetjük a következő kísérletet. Különböző parcellákon más-más műtrágya-és öntözővíz-mennyiség mellett mérjük a termésátlagot. Kíváncsiak vagyunk arra, hogy a műtrágya és az öntözővíz mennyisége hogyan befolyásoljaa termésátlagot. Itt a magyarázóváltozók értékét pontosan ismerjük, de az eredményváltozó értékét más véletlen jelenségek is befolyásolhatják, ígyaz valószínűségi változó.

A következőkben ezzel az esettel foglalkozunk, vagyis amikor az Y eredményváltozó értéke valószínűségi változó, de a magyarázóváltozók

értékei ismertek; ezt standard lineáris regressziónak nevezzük. Tegyük fel, hogy n elemű mintát veszünk, az egyes mintaelemek illetve ismérvértékei:

Page 226: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

216

A megfelelő Y ismérvértékek (valószínűségi változók):

Ekkor ( ), vagy ami ugyanaz vektorok segítségével:

ahol és

Itt nyilvánvalóan az ( ) is valószínűségi változók, amelyeket reziduumoknak nevezünk. A együtthatóvektort itt is azon feltétel határozzameg, hogy az

várható érték minimális legyen.

A leíró regressziónál alkalmazott módszerrel az ottanival analóg eredményt kapunk.

A becslőértékre vonatkozó normálegyenlet:

Ha inverze létezik, akkor a becslőfüggvénye

Page 227: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

217

Ekkor

Itt jegyezzük meg, hogy ahhoz, hogy az X mátrix oszlopai függetlenek legyenek (ez az inverz létezésének szükséges feltétele),elengedhetetlen, hogy X-nek legalább annyi sora legyen, mint oszlopa, vagyis a minta elemeinek száma nagyobb legyen, mint a regressziósegyütthatók száma.

Amennyiben egy konkrét mintáról van szó, akkor ( ), és a normálegyenletek a következő alakúak:

A normálegyenletek megoldásával az ( ) pontrendszerhez legjobban illeszkedő sík paramétereit kapjuk.

A változók transzformálásával viszonylag egyszerű megoldási lehetőség adódik.

Vezessünk be új változókat:

A zérussal egyenlő összegek elhagyása után a normálegyenletek „maradványaiból” a paraméterek # regressziós együtthatók # könnyenmeghatározhatók.

A második és harmadik normálegyenletre

adódik. Ebből és meghatározható.

A paraméter kiszámítási módja pedig # a kétváltozós kapcsolathoz hasonlóan # az első egyenletből:

Page 228: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

218

Háromnál több változó esetében jól használható, praktikus egyszerűsítésre nincs lehetőség. Megfelelő számítástechnikai apparátus felhasználásávalazonban a megoldás mátrixalgebrai műveletekkel lehetséges.

Az egyenletből a regressziófüggvény paramétereinek becslése az alábbi:

Az együtthatómátrix elemei:

Az vektor elemei pedig:

Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regressziószámítási feladatoknál azonban általában teljesülaz a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható.

Végezzük el a számításokat egy gyakorlati példán!

A kétváltozós modellben szereplő változókat kibővítve 10 megfigyelésből vizsgáljuk meg a szállítás időtartama (y), a szállítási távolság ( ) és a

szállítási tömeg ( ) közötti összefüggést! (Az adatok a 10.1. táblázatban találhatók.) A regressziós sík paramétereit határozzuk meg a transzformáltváltozók alapján és mátrixalgebrai módszerrel egyaránt.

Page 229: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

219

10.1. táblázat - A szállítási idő vizsgálatára vonatkozó adatok

SorszámSzállítás

időtartama(perc) y

Szállítás

távolsága (km)

Szállított tömeg

(tonna)

1. 10 4 42. 13 4 53. 8 2 24. 20 10 55. 27 19 56. 35 20 77. 22 16 68. 40 20 79. 45 25 9

10. 50 30 10Összesen: 270 150 60

1. A paraméterek meghatározása a transzformált változók alapján. A szükséges számításokat a 10.2. táblázat tartalmazza.

10.2. táblázat - Számítások a transzformált változók alapján

Sor-szám y

1. 10 4 4 #17 #11 #2 121 4 22 187 34 2892. 13 4 5 #14 #11 #1 121 1 11 154 14 1963. 8 2 2 #19 #13 #4 169 16 52 247 76 3614. 20 10 5 #7 #5 #1 25 1 5 35 7 495. 27 19 5 0 4 #1 16 1 #4 0 0 06. 35 20 7 8 5 1 25 1 5 40 8 647. 22 16 6 #5 1 0 1 0 0 #5 0 258. 40 20 7 13 5 1 25 1 5 65 13 169

Page 230: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

220

9. 45 25 9 18 10 3 100 9 30 180 54 32410. 50 30 10 23 15 4 225 16 60 345 92 529

Összesen 270 150 60 0 0 0 828 50 186 1248 298 2006

A második és a harmadik normálegyenlet „maradványa”:

Megoldás a regressziós együtthatókra:

Az előbbiek felhasználásával:

A háromváltozós regressziófüggvény becslése:

2. A paraméterek mátrixalgebrai műveletekkel történő meghatározása:

Page 231: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

221

A háromváltozós lineáris regressziófüggvény becslése:

Page 232: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

222

(A 10.2. táblázat alapján számított paraméterektől való minimális eltérést az adatok különböző pontossága, azaz a kerekítés okozza.)

A regressziófüggvény paramétereinek értelmezése

Becslőfüggvényünk # az eddig elmondottak alapján # a következő volt:

Először a konkrét mintából kapott regressziós együtthatók ( és ) értelmezésével foglalkozunk. Ha értékét egy egységgel növeljük # miközben

értékét változatlanul hagyjuk #, akkor az eredményváltozó (Y) becsült értéke (y) éppen egységgel változik. (A változás növekedés vagy csökkenés

lehet előjelétől függően.) Az tényezőváltozó egységnyi növelésével pedig # értékének változatlanul hagyása mellett # az eredményváltozóbecsült értékében bekövetkező hatás.

A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést) okoz azeredményváltozó becsült értékében, miközben a másik tényezőváltozó értéke változatlan.

A regressziós együtthatók tehát egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük.

Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például így is írható: ami arra utal, hogy az eredményváltozóban csak

hatása mutatkozik meg, változatlan.

Példánkkal kapcsolatban a következőket állapíthatjuk meg. Amennyiben a szállítási távolság 1 km-rel hosszabb, a menetidő átlagosan 1,025 perccel

hosszabb, azonos szállítási tömeg mellett ( ). A szállított tömeg hatása pedig abban nyilvánul meg, hogy azonos szállítási távolság mellett

2,148 perccel hosszabb átlagosan a menetidő, ha 1 tonnával nagyobb tömeget kell elszállítani ( ). A a konstans, az helyen vettfüggvényérték, ha ott értelmezve van. Értelmezése példánkban logikailag nem indokolt.

A parciális regressziós együtthatóhoz hasonlóan parciális rugalmassági együttható is értelmezhető. Ez a mutató arra ad választ, hogy egy adotttényezőváltozó egységnyi relatív változása milyen relatív változást eredményez az y-ban a másik változó változatlan színvonala mellett.

Általános képlete:

Page 233: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

223

ahol a j-edik tényezőváltozó. (Háromváltozós esetben .)

Regressziófüggvényünkre alkalmazva:

Mint látható, a parciális rugalmassági együttható nagysága attól függ, hogy azt a tényezőváltozók milyen színvonala mellett számítjuk.

Vizsgáljuk először az átlagos szinten a rugalmasságot a példában!

szerinti rugalmasság ( ):

Ez azt jelenti, hogy átlagos távolság és átlagos szállítandó tömeg esetén 1%-os szállításiút- növekedés 0,57%-os menetidő-növekedést eredményez.

szerinti rugalmasság ( ):

A fuvaronkénti átlagos tömeg 1%-os növelése # változatlan szállítási távolság mellett # átlagosan 0,48%-kal növeli a szállítási időt.

Számítsuk most ki a parciális rugalmasságot az helyeken!

szerinti rugalmasság:

Page 234: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

224

szerinti rugalmasság:

Ez utóbbiak jelentése:

A szállítási távolság 25 km-ről történő 1%-os növelése # változatlan szállítási tömeg mellett # átlagosan 0,559%-kal növeli a menetidőt.

A szállított tömeg 10 tonnáról való 1%-os növelése pedig # változatlan távolság esetén # átlagosan 0,469%-kal növeli a szállítás idejét.

Felhívjuk a figyelmet arra, hogy lineáris esetben a rugalmasság mértéke a vizsgált helytől is függ. Az értelmezés minden esetben a rögzített helykörnyezetére érvényes.

A paraméterek értelmezésével kapcsolatban fel kell hívnunk a figyelmet az ún. multikollinearitás veszélyére. Általában # a jelenségek sokoldalúösszefüggései miatt # a tényezőváltozók között sztochasztikus kapcsolat mutatkozik. Multikollinearitásnak nevezzük a tényezőváltozók közötti lineáriskapcsolatot. Ha a tényezőváltozók között lineáris kapcsolat van, vagyis az mátrix valamely oszlopa felírható a többi lineáris kombinációjával, akkor

inverze nem létezik. Ez komoly problémákat okozhat. Egyértelmű lineáris függőségre általában nem számíthatunk a független változók között,de a sztochasztikus összefüggés is zavarja az eredmények értelmezését és bizonytalanná teszi a becslést.

A regressziós modell változói közötti összefüggések elemzéséhez a legtöbb információt a regressziós függvény és paraméterei jelentik.

A regressziós együtthatók között kimutatható összefüggéseket szemlélteti háromváltozós esetre a 10.1. ábra.

10,1. ábra - A regressziós együtthatók közötti összefüggések

A 10.1. ábrán a nyilak irányában haladva vizsgálhatjuk a tényezőváltozók hatását az eredményváltozóra. A tényezőváltozót és az eredményváltozótközvetlenül összekötő nyíl a magyarázóváltozó közvetlen hatását fejezi ki, számszerű értékét a regressziófüggvényben az adott magyarázóváltozóegyütthatója mutatja. Ezt a grafikus ábrát útdiagramnak is szokás nevezni.

Page 235: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

225

A háromváltozós modellben a magyarázóváltozók nemcsak az eredményváltozóval, hanem egymással is kapcsolatban lehetnek. Ezért egy-egymagyarázóváltozó hatása az eredményváltozóra két részből # a direkt hatásból és az indirekt hatásból, más változókon keresztül begyűrűző hatásból# tevődik össze.

Így például az X1 változó Y-ra gyakorolt hatása a következőképpen írható fel:

A teljes (totális) hatás e két hatás együttese.

Az összefüggésből a tényezőváltozók közötti kapcsolatra is következtethetünk. Minél erősebb a magyarázóváltozók közötti kapcsolat, annál nagyobba változók közvetett hatásának aránya.

A direkt és az indirekt hatás kimutatásához meg kell határozni a kétváltozós lineáris regressziófüggvényeket is.

Mutassuk be a változók közötti direkt és indirekt hatást az előző példa adatai alapján! Készítsük el az útdiagramot is! (10.2. ábra.)

10,2. ábra - Útdiagram

A változókat páronként vizsgálva a kétváltozós lineáris regressziófüggényeket a 9.2. pontban tanultak szerint határozhatjuk meg. A részletesszámítást nem közöljük.

A kapott eredmények a következők:

A kétváltozós lineáris regressziófüggvények:

Page 236: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

226

Az előzőekben meghatározott háromváltozós lineáris regressziófüggvény:

A kétváltozós és a háromváltozós regressziós együtthatók összefüggései:

Az összefüggésekből látható, hogy a direkt és az indirekt hatásoknak egyaránt szerepe van. A magyarázóváltozók között pozitív irányú a kapcsolat.Ez azt jelenti, hogy a nagyobb súlyú rakományt általában hosszabb távolságra szállítják.

10.1.2. A legkisebb négyzetek módszere és tulajdonságaiAz előzőekben csak a háromváltozós, lineáris regressziós modellel foglalkoztunk, ahol a paraméterek becslésére a már ismert legkisebb négyzetekmódszerét alkalmaztuk.

Mint már említettük, eredményeink könnyen általánosíthatók arra az esetre, amikor két magyarázóváltozó helyett több van. Ezek számát jelölje m.Ekkor az mátrix a következő alakú:

Page 237: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

227

Említettük azt is, hogy esetén számíthatunk csak arra, hogy inverze létezik. Ekkor becslőfüggvényeink teljesen azonosak a háromváltozósesetben megismertekkel:

illetve .

Ekkor ( ).

Azt a feltevést, hogy csak az eredményváltozó valószínűségi változó, a magyarázóváltozók meghatározottak (determinisztikusak), továbbra isfenntartjuk, és továbbiakkal egészítjük ki:

a) legyen minden szórása ugyanakkora, ( ). Ez azt is jelenti, hogy ( ).

b) , ha .

Ha akkor jelölje azt az mátrixot, amelynek i-edik sorában a j-edik elem , azaz

A mátrixot az valószínűségi változó kovarianciamátrixának nevezzük. Feltevésünk azt jelenti, hogy

ahol az egységmátrix. (Felhasználtuk, hogy .)

Page 238: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

228

Hangsúlyozzuk, hogy eloszlásáról nem tételeztünk fel semmit.

Be lehet látni, hogy ezen feltevés mellett

vagyis a a torzítatlan becslése, és

ahol valószínűségi vektorváltozó típusú kovarianciamátrixa. (Ezen állítások bizonyítását nem részletezzük.)

Az előző összefüggésben szereplő értékét általában nem ismerjük, ezért a konkrét mintából számított reziduumok felhasználásával a következőformula szerint becsüljük:

ahol n: a megfigyelések száma,

m: a tényezőváltozók száma, így a szabadságfok,

( ); .

A legkisebb négyzetek módszerével kapott regressziós együtthatók a sokasági paraméterek legjobb lineáris torzítatlan becslései. Ez azt jelenti, hogya lineáris becslések közül a legkisebb négyzetek módszere esetében a legkisebb a paraméterbecslések szórása, vagyis a standard hiba. Egy becsléssorán a standard hiba nagysága is fontos információt jelent a becslési eredmények megítélése szempontjából.

Számítsuk ki a vizsgált példánkban meghatározott regressziófüggvény paramétereinek standard hibáját!

Ehhez első lépésben az eredményváltozó megfigyelt értékeinek és becsült értékeinek eltéréseit, vagyis a maradéktagokat (reziduumokat), majd azoknégyzetösszegét kell kiszámítani. A számításokat a 10.3. táblázatban találjuk.

10.3. táblázat - A maradéktag négyzetösszegének kiszámítása

Sorszám y

Page 239: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

229

1. 10 11,429 #1,429 2,0420412. 13 13,577 #0,577 0,3329293. 8 5,083 2,917 8,5088894. 20 19,727 0,273 0,0745295. 27 28,952 #1,952 3,8103046. 35 34,273 0,727 0,5285297. 22 28,025 #6,025 36,3006258. 40 34,273 5,727 32,7985299. 45 43,694 1,306 1,705636

10. 50 50,967 #0,967 0,935089Összesen: 270 270,000 0,000 87,037100

A maradéktag szórásnégyzete:

Az együtthatók kovarianciamátrixa:

A paraméterek varianciái (standardhiba-négyzetei) és szórásai (standard hibái)

Page 240: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

230

A becsült paraméterek standard hibái a mintavételből származó átlagos véletlen hiba nagyságát mutatják.

10.1.3. A regressziófüggvény paramétereinek intervallumbecslése

Most az előbbiek mellett még azt is tegyük fel, hogy eloszlása Levezethető, hogy ekkor ( ) is normális eloszlású, mivel

normális eloszlású valószínűségi változók lineáris kombinációja, és , ahol az mátrix főátlójának i-edik eleme, amintazt az előző pontban láttuk.

Ez azt jelenti, hogy a

valószínűségi változó standard normális eloszlású.

De nem ismert, kell becsülni, ez azt jelenti, hogy

szabadságfokú t-eloszlást alkot. Ennek alapján az intervallumbecslés is elvégezhető.

Ehhez első lépésben előírjuk a becslés megbízhatósági szintjét, majd a t-eloszlás segítségével meghatározzuk a maximális hibát, ezt követően pedigkijelöljük a konfidenciaintervallumot.

Az i-edik változóhoz tartozó paraméterre a következő valószínűségi megállapítást tehetjük (a formulákat csak konkrét mintára írjuk fel):

Page 241: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

231

Az elméleti paraméter konfidenciaintervalluma valószínűségi szinten:

A becslésnél tanultak természetesen itt is alkalmazandók, azaz nagy minta esetén a t-eloszlás helyett a standard normális eloszlás használható.

Ebben az esetben a konfidenciaintervallum számítása az alábbi formában történik:

Példánk adataiból végezzük el a paraméterek becslését 95%-os megbízhatósági szinten!

Gyűjtsük össze a korábbi részeredményeket (10.4. táblázat)!

10.4. táblázat - Az eddigi részeredmények

Paraméterek A paraméterekbecsült értéke

A paraméterekstandard hibája

A konfidenciaintervallum meghatározásához szükséges t értéket szabadságfoknál keressük ki. (n a minta elemszáma, m pedig a

magyarázóváltozók száma.) Így .

A konfidenciaintervallumok 95%-os megbízhatósági szinten a következők:

Page 242: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

232

10.1.4. A regressziófüggvény eredményeinek ellenőrzéseA regressziós modell specifikálása a függvény típusának és a paramétereknek a meghatározását jelenti. Az első probléma tehát a függvénytípuskiválasztása. Számunkra többváltozós esetben most ez a kérdés nem vetődik fel, mert azt mondtuk, hogy csak a lineáris függvénytípussalfoglalkozunk. A gyakorlatban azonban ebben a szakaszban feltétlenül figyelembe kell venni az adott terület szakértőjének véleményét is.

A következőkben azt vizsgáljuk, hogy a modellképzésnél szóba jöhető magyarázóváltozók valóban szignifikáns kapcsolatban vannak-e azeredményváltozóval. Ehhez el kell végezni a paraméterek hipotézis-ellenőrzését. A tényezőváltozók paramétereinek teszteléséhez ismerni kell aregressziós együtthatók eloszlását. Ha az eredményváltozó (Y) normális eloszlást követ, akkor, mint már említettük, a b regressziós együtthatókis normális eloszlást követnek, mivel a b lineáris kombinációja az Y értékeinek. A minta nagyságának növelésével a b eléggé általános feltételek

mellett akkor is normális eloszlású lesz, ha az változó nem követ normális eloszlást. Ezt a központi határeloszlás tétele alapján állíthatjuk,

melyet matematikai tanulmányainkból jól ismerhetünk. A maradéktag szórásnégyzetét ( ) nem ismerjük, közelítő értékét mintából becsültük.A becslőformula nevezőjében ezért nem a mintanagyságot, hanem a becsült paraméterek számával csökkentett mintanagyságot szerepeltetjük,amit szabadságfoknak nevezünk. A maradéktag szórásának torzítatlan becslése így biztosítható. Mivel a számításokhoz szükséges reziduálisszórásnégyzetet a mintából becsüljük, bizonyítható, hogy a b paraméterek nem normális, hanem Student t-eloszlást követnek. (Lásd 10.3. pont.)

Ily módon t-próbával ellenőrizhető, hogy egy-egy tényezőváltozó szignifikáns kapcsolatban van-e az eredményváltozóval.

Általános formában az i-edik tényezőváltozó ellenőrzésére szolgáló nullhipotézis a következőképpen írható fel:

A kétoldalú ellenhipotézis pedig:

A paraméterek tesztelésére a t-próbafüggvényt használjuk.

A próbafüggvény:

Konkrét minta esetén pedig:

Page 243: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

233

Mivel kétoldalú próbát végzünk, a próba szabadságfoka az intervallumbecsléshez hasonlóan: .

Az ellenőrzés során meghatározzuk a próbafüggvény számított értékét és azt az adott szabadságfokhoz és választott szignifikanciaszinthez tartozókritikus értékkel hasonlítjuk össze.

Ha a próbafüggvény számított értékének abszolút értéke kisebb, mint a kritikus érték, a vizsgált feltevések közül a nullhipotézist ( ) fogadjuk el.Ezt azt jelenti, hogy az i-edik magyarázóváltozó nincs szignifikáns kapcsolatban az eredményváltozóval, ezért célszerű kihagyni a modellből.

Abban az esetben, ha a próbafüggvény számított értéke abszolút értékben nagyobb, mint a kritikus érték, akkor a nullhipotézist (melyben a

kapcsolat tagadását fogalmaztuk meg) elvetjük, és a alternatív hipotézist fogadjuk el. Ez azt jelenti, hogy a vizsgált tényezőváltozó ( ) és azeredményváltozó (Y) között a vizsgált szignifikanciaszinten valós kapcsolat mutatkozik.

Vizsgáljuk meg a példánk adataiból meghatározott regressziófüggvény paramétereinek szignifikanciáját! A szignifikanciaszintet válasszuk a szokásos5%-nak!

A legtöbb korreláció-regressziószámításra készült szoftver már közli az ellenőrzéshez szükséges részeredményeket. Az elrendezés általában a 10.5.táblázatban bemutatott módon történik.

10.5. táblázat - A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredményekMagyarázóváltozó A becsült

paraméter értéke

A becsült paraméter

standard hibája térték 1,025 0,30229 3,39078

2,148 1,230089 1,746

A próbafüggvény kritikus értéke . Ezt a értékkel összehasonlítva a hipotézist elvetjük; a hipotézist pedig elfogadjuk.

Ez azt jelenti, hogy a parciális regressziós együttható szignifikánsnak bizonyul, a viszont nem.

Ez utóbbi azt jelenti, hogy a szállítási idő és a szállított tömeg között nem mutatható ki szignifikáns összefüggés. A gyakorlati felhasználás soránilyenkor meg kell kísérelnünk a változó elhagyását vagy esetleges transzformációját, vagy másik magyarázóváltozó bevonását. Az új változóellenőrzését természetesen szintén el kell végezni. A feladat ez irányú folytatására most nem térünk ki.

Page 244: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

234

Vizsgáljuk meg a paramétereket -os szignifikanciaszinten. A kritikus t érték ebben az esetben 1,90. Itt még elfogadjuk ugyan a nullhipotézist,de lényegesen kisebb az eltérés a számított t érték és a kritikus t érték között. -nál a t kritikus értéke 1,42. Ezen a szignifikanciaszinten már

szignifikánsnak mutatkozik a paraméter.

10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításbanAz előző fejezetben bemutattuk kétváltozós esetben a szórásnégyzet-felbontás egy speciális alkalmazási területét. Az eredményváltozó varianciájáta regressziós modell és a hibatényező hozzájárulására bontottuk.

A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között akövetkező összefüggés:

Ezt az összefüggést felhasználhatjuk további mutatószámok számítására is, de a varianciaanalízis végrehajtásával a regressziós függvényellenőrzése is elvégezhető.

A következő hipotéziseket vizsgáljuk:

A nullhipotézisben azt fogalmaztuk meg, hogy mindegyik parciális regressziós együttható értéke nulla. Tehát a regresszió tagadásából indulunk ki.Az alternatív hipotézis azt jelenti, hogy a modellben van szignifikáns paraméter.

A varianciaanalízis-táblát a 10.6. táblázatban látjuk.

10.6. táblázat - A varianciaanalízis-tábla többváltozós regressziószámítás esetén

A szórásnégyzetforrása

Eltérés-négyzetösszeg Szabadságfok Átlagos

négyzetösszeg

Regresszió m

Page 245: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

235

Hibatényező

Teljes #

A kétváltozós regressziónál megismert összefüggéshez képest a szabadságfoknál található eltérés, mert figyelembe kell venni a tényezőváltozókszámát is, ami jelen esetben m.

A próbafüggvény számított értéke konkrét minta esetén:

A számláló szabadságfoka: , a nevező szabadságfoka pedig: .

Az F próbafüggvény lényegében azt vizsgálja, hogy az Y eredményváltozó szórásnégyzetéből szignifikánsan nagy hányadot magyaráz-e meg aregressziófüggvény.

A próba végrehajtása úgy történik, hogy a számított F értéket összehasonlítjuk a választott szignifikanciaszinthez tartozó kritikus F értékkel. Ha aszámított érték nem haladja meg a kritikus értéket, akkor a nullhipotézist elfogadjuk, ami azt jelenti, hogy elfogadjuk a regresszió tagadását, vagyisaz adott szignifikanciaszinten nem áll fenn a lineáris regresszió. Ellenkező esetben a nullhipotézist elutasítjuk, és az alternatív hipotézist fogadjuk el.

A nullhipotézis elfogadása nem jelenti szükségképpen a rossz specifikációt. Előfordulhat, hogy a változókat – vagy csak valamelyik változót –választottuk ki helytelenül, vagy a függvény típusa nem lineáris. Mindenesetre a modellalkotást ilyenkor felül kell vizsgálni.

Ellenőrizzük 5%-os szignifikanciaszinten a korábban meghatározott regressziófüggvényünket! Az kiszámításához szükséges adatokat a 10.7.táblázatban adjuk meg.

10.7. táblázat - A varianciaanalízis-tábla

A szórásnégyzet forrása Eltérés-négyzetösszeg Szabadságfok Átlagos

négyzetösszegRegresszió 1919 2 959,5

Page 246: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

236

Hibatényező 87 7 12,4Teljes 2006 9 #

Az F-próba a következő:

A kritikus érték 5%-os szignifikanciaszinten:

A próbafüggvény számított értéke nagyobb, mint a kritikus érték. Ebből arra a következtetésre juthatunk, hogy a szállítási út hossza és a szállítotttömeg együttesen szignifikáns kapcsolatban vannak a szállítás menetidejével (azaz a függvény 5%-os szignifikanciaszinten elfogadható).

Megjegyezzük, hogy a többváltozós modellben is kiszámíthatjuk a determinációs együtthatót. Az eltérés-négyzetösszegek hányadosakénthatározható meg, és ebben az esetben többszörös determinációs együtthatónak nevezzük:

A többszörös determinációs együttható 0 és 1 között vehet fel értékeket. Továbbá kifejezi, hogy a modellben lévő magyarázóváltozók mennyibenmagyarázzák meg az eredményváltozó szóródását. Példánkban:

A menetidő szóródását az út hossza és a szállított tömeg együttesen 95,7%-ban befolyásolja. (Erre a mutatószámra a 10.2. pontban mégvisszatérünk.)

10.2. Többváltozós korrelációszámításA többváltozós korrelációszámítás célja a többváltozós korreláció szorosságának mérése.

A regressziószámítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjukaz olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így

Page 247: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

237

hatásukat a vizsgálat során ellenőrzésünk alatt tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól. Ezt azonbancsak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regressziószámításnál tanultakkal. A kapcsolat szorosságának vizsgálataönmagában a megkülönböztetést nem tenné szükségessé.

Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbápáronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető.

10.2.1. Páronkénti korrelációs együtthatóA páronkénti korrelációs együtthatóval csak két-két változó közötti kapcsolat szorosságát mérjük, a többváltozós kapcsolatot kétváltozóskapcsolatra redukáljuk és az eddig megismert lineáris korrelációs együtthatókat számítjuk. A mutatószám meghatározásakor eltekintünka többi tényezőváltozótól, ezért kiszámítási módja megegyezik a kétváltozós kapcsolatnál megismert formulával. Ezeket az együtthatókat totáliskorrelációs együtthatóknak is szokták nevezni.

A többváltozós lineáris modellben az R korrelációs mátrixba rendezzük a lineáris korrelációs együtthatókat. (A jelöléseket és a képleteket ebbena részben ismét csak a konkrét mintára vonatkozóan közöljük, egyszerűsítve ezzel a problémát.)

A korrelációs mátrix a páronkénti korrelációs együtthatókat tartalmazza. Egy ( )-változós modell esetén a korrelációs mátrix a következő:

Vegyük észre, hogy a korrelációs mátrix szimmetrikus mátrix. A mátrix fődiagonálisában szereplő korrelációs együtthatók értéke 1. Ez a kétváltozóslineáris korrelációs együtthatók képzési módjából adódik, hiszen egy-egy változó önmagával való kapcsolatát méri. Könnyen belátható, hogy mindenváltozó tökéletesen korrelált önmagával.

A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációsegyütthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri.

A korrelációs mátrix nagy segítséget nyújt a regressziós modell megalkotásához. Az elemzés kezdeti szakaszában módot ad a megfelelőtényezőváltozók kiválasztásához.

Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovariancia-mérőszámait tartalmazó, variancia-kovariancia mátrixra isszükségünk van.

Page 248: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

238

A mátrix általános formája a következő:

ahol az eredményváltozó és a j-edik magyarázóváltozó;

pedig az i-edik és a j-edik magyarázóváltozó kovarianciája.

A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei.

A korrelációs mátrix és a variancia-kovariancia mátrix között a következő összefüggés áll fenn:

A modellben szereplő S a változók szórásaiból álló diagonális mátrix:

A részletesen tárgyalt háromváltozós kapcsolat esetén # a kétváltozós esetnél leírt formula szerint # a következő lineáris korrelációs együtthatókszámíthatók:

a) Y és között:

b) Y és között:

Page 249: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

239

c) és között:

Számítsuk ki az előző, 10.1. pontban tárgyalt példa adataiból a szállítási idő (Y), a távolság ( ) és a szállított tömeg ( ) közötti páronkénti korrelációsegyütthatókat, és írjuk fel a korrelációs mátrixot!

Eredményeink azt mutatják, hogy szoros pozitív irányú kapcsolat van a menetidő (Y) és a távolság ( ), valamint szintén pozitív irányú, valamivel

lazább kapcsolat mutatkozik a menetidő (Y) és a rakomány súlya ( ) között. A tényezőváltozók között is erős a sztochasztikus kapcsolat.

A variancia-kovariancia mátrix pedig:

Page 250: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

240

Nézzünk egy másik példát!

Egy ingatlanközvetítő iroda adatai alapján 1996 októberében 20 budapesti öröklakás eladási ára (millió Ft), életkora (év) és területe ( ) a következővolt. (Az adatokat a 10.8. táblázatban találjuk.)

10.8. táblázat - A 20 elemű minta adataiSorszám Eladási ár (M Ft) y

Terület ( ) Életkor (év) 1.

2.

3.

4.

5.

2,45

4,10

2,15

4,20

4,50

48

55

71

82

100

2

2

3

0

36.

7.

8.

9.

10.

6,00

3,00

2,76

2,70

2,45

85

70

73

74

66

1

8

9

10

711.

12.

13.

14.

1,20

2,10

2,40

1,25

35

53

73

39

47

18

18

63

Page 251: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

241

15. 2,00 67 2316.

17.

18.

19.

20.

1,40

1,70

3,40

1,55

1,45

48

51

61

53

54

64

31

5

40

78

Ismeretesek az alábbi számítási eredmények is:

A páronkénti korrelációs együtthatók a következőképpen számíthatók:

Page 252: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

242

A totális korrelációs együtthatók azt mutatják, hogy az eladási ár és a terület között közepesnél szorosabb pozitív irányú kapcsolat van. Az eladásiár és az életkor között pedig szintén közepesnél szorosabb, de negatív irányú a kapcsolat. A két tényezőváltozó között közepes erősségű negatívirányú kapcsolat mutatkozik.

10.2.2. Parciális korrelációs együtthatóA parciális korrelációs együttható annyiban különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, dehatásukat kiküszöböljük.

Az így kapott parciális korrelációs együttható azt mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függőváltozó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük.

Kiszámításának # a korrelációs mátrix elemeiből történő # közvetett módját közöljük.

a) Az Y és közötti kapcsolat szorossága, ha hatását kiszűrjük:

b) Az Y és közötti kapcsolat szorossága, ha hatását kiszűrjük:

c) A két tényezőváltozó közötti parciális korrelációs együttható:

Ügyeljünk a jelölésekre is! A parciális korrelációs együttható alsó indexében megjelöljük, hogy mely változók kapcsolatát vizsgáljuk, majd a pont utánírjuk azt a változót, amelyiknek hatását a kapcsolat vizsgálata során kiszűrjük. (Hasonlóan, mint a parciális regressziós együtthatónál.)

Az ingatlanközvetítő iroda adataiból:

Page 253: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

243

A parciális korrelációs együtthatók lényegesen eltérnek a páronkénti korrelációs együtthatóktól. Az eladási ár és a lakásméret között lényegesenlazább kapcsolat mutatkozik, ha kiszűrjük mindkét változóból a lakások életkorának hatását. Hasonlóan lazább a kapcsolat az eladási ár és az

életkor között is, ha megtisztítjuk az összefüggést a lakásméret hatásától. Lényegesen eltér a tényezőváltozók között kapcsolatot mérő parciális

korrelációs együttható a totális mérőszámtól, az -től.

Korábbi példánkban:

Az parciális korrelációs együttható azt mutatja meg, hogy azonos szállított tömeg mellett a szállítási idő és a szállítási út hossza között közepesnélerősebb pozitív irányú kapcsolat van. A másik két parciális korrelációs együttható is hasonlóképpen értelmezhető. Vegyük észre, hogy a parciáliskorrelációs együtthatók lényegesen lazább kapcsolatot mutatnak, mint a páronkénti korrelációs együtthatók. Ez azt jelenti, hogy ha kiszűrjük kétváltozóból a harmadik változó hatását, gyengébb kapcsolat mutatkozik közöttük. A páronkénti kapcsolatot tehát a harmadik változó hatása mindegyikesetben felerősítette.

Page 254: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

244

10.2.3. Többszörös korrelációs és determinációs együtthatóA páronkénti korrelációs együtthatókra és a parciális korrelációs együtthatókra egyaránt az jellemző, hogy két változó között mérik a kapcsolatot. Atöbbváltozós lineáris modellnél azonban arra a kérdésre is válaszolni kell, hogy milyen szoros a kapcsolat az eredményváltozó (Y) és a modellbe

bevont tényezőváltozók ( ) összessége között. Ezt a kapcsolatot a többszörös korrelációs együttható méri. Másképpen fogalmazva aztis mondhatjuk, hogy a többszörös korrelációs együttható megmutatja, hogy milyen szorosan illeszkedik a regressziófüggvény az eredményváltozó(Y) megfigyelt értékeihez.

A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y eredményváltozó és az

magyarázóváltozók alapján becsült kapcsolatának szorosságát méri. Képlete:

(Jelölés: az alsó indexben először az eredményváltozót jelöljük, majd egy pont után felsoroljuk a regressziófüggvényben szereplőmagyarázóváltozókat.)

A háromváltozós modellben a többszörös korrelációs együtthatót a páronkénti korrelációs együtthatók felhasználásával is kiszámíthatjuk:

A többszörös korrelációs együttható előjelét mindig pozitívnak tekintjük.

A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. Ezt a mutatószámot már ismerjük a 10.1.5.pontból, ahol a regresszióból származtattuk, és a varianciaanalízis segítségével definiáltuk. Ezzel a mutatószámmal azt mérjük, hogy a függetlenváltozók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy afüggő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad.

A 10.8. táblázatban megadott adatokból kiszámított többszörös korrelációs és determinációs együttható:

Page 255: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

245

Az eladási ár, a lakásméret és az életkor között szoros kapcsolat mutatkozik.

Az eladási ár szórásnégyzetének 64,1%-át a lakásméret és az életkor határozza meg.

A 10.1. pontban tárgyalt példa eredményeiből számított többszörös korrelációs és determinációs együttható pedig:

A szállítási idő, a szállítási út és a szállított tömeg között a többszörös korrelációs együttható szoros kapcsolatot mutat.

A többszörös determinációs együttható:

A szállítási idő varianciájának 95,7%-át a szállítási út hossza és a szállított tömeg nagysága magyarázza. A variancia fennmaradt hányadát

( ) egyéb, a modellben nem szereplő tényezők okozzák.

10.2.4. A multikollinearitás és méréseA matematikai-statisztikai módszerek alkalmazására széles körben nyílik lehetőség a gyakorlatban. A módszerek felhasználása azonban csak akkorlehet hatékony, ha az elméletileg megalapozott, vagyis, ha fennállnak az alkalmazás feltételei. A többváltozós lineáris regressziós modellnél abbóla feltételezésből indultunk ki, hogy a tényezőváltozók lineárisan függetlenek egymástól. Ennek az alapvető feltételnek az a magyarázata, hogy a

legkisebb négyzetek elve alapján becsült regressziós együtthatók ( ) meghatározásához szükség van az mátrix inverzére. Mintismeretes, az mátrix rangja azaz megegyezik a változók számával. Amennyiben az X mátrix rangja kisebb, mint a regressziófüggvényegyütthatói nem becsülhetők. Ez az eset akkor fordul elő, ha a tényezőváltozók egyike kifejezhető a többi tényezőváltozó lineáris kombinációjaként,vagyis a tényezőváltozók között függvényszerű kapcsolat áll fenn. Ezt teljes multikollinearitásnak nevezzük. Felismerése viszonylag könnyű, és aproblémát valamelyik változó elhagyásával meg tudjuk oldani.

A társadalmi, gazdasági jelenségek vizsgálatánál gyakoribb a tényezőváltozók közötti sztochasztikus kapcsolat. Szinte elképzelhetetlen, hogy atényezőváltozók között ne jelentkezzen multikollinearitás. A regressziófüggvény együtthatói ekkor is meghatározhatók és értelmezhetők is, de amultikollinearitás csökkenti becsléseink értékét, bizonytalanságot okozva bennük.

Page 256: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

246

A vizsgálat céljától függ, hogy a becslés bizonytalansága mennyiben jelent problémát. Abban az esetben, ha az eredményváltozó nagyságának atényezőváltozók adott színvonala melletti becslése, előrejelzése a cél, pl. egy adott termék iránti kereslet színvonalát kívánjuk megbecsülni, a modelltalkalmazhatjuk akkor is, ha jelentős multikollinearitás mutatkozik a tényezőváltozók között.

Más a helyzet azonban, ha gazdasági elemzésre, a hatótényezők kimutatására szolgáló regressziós modellről van szó. Ebben az esetben a parciálisregressziós együtthatók jelentik a legfontosabb információt, tehát a multikollinearitás jelenléte káros.

Ebből következik, hogy a tényezőváltozók kölcsönös függőségének mértékét és hatását ellenőriznünk kell.

A multikollinearitás mérésére többféle eljárás ismert. Tananyagunkban csak a következő módszert mutatjuk be. A mérés logikai meneténekmegértéséhez gondoljuk végig a következőket. Ha egy-egy új tényezőváltozót bekapcsolunk a vizsgálatba, akkor a többszörös determinációsegyüttható vagy nagyobb lesz, vagy egyáltalán nem változik a nagysága. A modellben szereplő minden változóra kiszámíthatjuk, hogy mennyivelnöveli a többszörös determinációs együtthatót, ha a változót utolsóként vonjuk be. Ekkor lényegében azt vizsgáljuk, hogy az utoljára bevont változónknöveli-e az eredményváltozó varianciájának a függvény által megmagyarázott részét. Ha ezeket a változónkénti hatásokat összeadjuk, és a kapottösszeg egyenlő a többszörös determinációs együtthatóval, akkor a multikollinearitást nullának tekintjük. Ebben az esetben ugyanis a többszörösdeterminációs együtthatót fel tudjuk bontani a változónkénti hatások összegére. A gyakorlatban ilyen eset ritkán fordul elő. Általában azzal az esetteltalálkozunk, hogy a többszörös determinációs együtthatónak van egy olyan hányada, amit a tényezőváltozók együttesen magyaráznak meg.

A multikollinearitás mérésére ezért a többszörös determinációs együttható és a tényezőváltozók által megmagyarázott rész különbségét célszerűhasználni. A mérőszám három változó esetén a következő:

ahol a magyarázóváltozók számát jelöli.

Minél nagyobb az M értéke, annál inkább számolni kell a multikollinearitásból adódó veszélyekkel.

Számítsuk ki a multikollinearitás mérőszámát a példában meghatározott páronkénti korrelációs együtthatókból és a többszörös determinációsegyütthatóból! (Alapadatok a 10.8. táblában.)

Az M mérőszám az alábbi:

A többszörös determinációs együttható felbontását a 10.9. táblázatban adjuk meg.

Page 257: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

247

10.9. táblázat - Az felbontása

VáltozókA változók hozzájárulása

az -hez0,08900

0,13590

0,41605

Összesen 0,64095

Számottevő a multikollinearitás, mert a kapcsolat jelentős részét az és az együttes hatása teszi ki, de emellett jelentős az és az változókkülön-külön vizsgált hatása is a többszörös determinációs együtthatóra.

Vizsgáljuk meg ezek után az egész fejezeten végigvonuló, szállítási idő, távolság és szállítási tömeg közötti kapcsolatot bemutató példában amultikollinearitást.

A többszörös determinációs együttható felbontását a 10.10. táblázatban adjuk meg.

10.10. táblázat - Az felbontása

VáltozókA változók hozzájárulása

az -hez0,0190

0,0715

0,8663

Page 258: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

248

Összesen 0,9568

Ennél a feladatnál nagymértékű multikollinearitással találkozunk. Szinte a teljes hatás a tényezőváltozók együttes hatásaként érvényesül azeredményváltozóra. Amennyiben előrejelzés a célunk, vagyis a szállítási időt kívánjuk megbecsülni a távolság és a szállított tömeg meghatározottszínvonala mellett, némi fenntartással ugyan, de alkalmazható a modell. A változók közötti összefüggések részletes elemzéséhez azonban célszerű

lenne vagy a szállítási távolság ( ), vagy a szállított tömeg ( ) helyett másik magyarázóváltozót beépíteni a modellbe.

Nézzünk még egy másik példát is a multikollinearitás vizsgálatára!

30 véletlenszerűen kiválasztott mezőgazdasági üzem 1992. évi adatai alapján megvizsgáltuk az alábbi változók kapcsolatát:

Y: a kukorica termésátlaga (q/ha),

a műtrágya-felhasználás (kg/ha),

az öntözésre felhasznált víz mennyisége ( /ha).

A számítások során a következő részeredmények adódtak:

A parciális korrelációs együtthatók a következők:

A többszörös determinációs együttható:

Page 259: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

249

A multikollinearitás mérőszáma:

Ennél a feladatnál már jóval kisebb multikollinearitás mutatkozik. Ezt vélelmezhetjük a páronkénti és a parciális korrelációs együtthatók közöttiviszonylag kis mértékű eltérésből is, de a multikollinearitás mérőszáma is erről tanúskodik.

Megjegyezzük, hogy a gyakorlati tapasztalatok alapján a multikollinearitást akkor szokásos káros mértékűnek tekinteni, ha létezik a korrelációsmátrixnak a tényezőváltozókra vonatkozó részében a többszörös korrelációs együtthatónál nagyobb abszolút értékű elem.

Természetesen léteznek ennél jóval egzaktabb módszerek is a multikollinearitás mérésére, a probléma kezelésére. A statisztikai módszertan számoseljárást ismer multikollinearitást tartalmazó regressziós modellek paramétereinek becslésére, ilyen például a faktoranalízis.

10.3. Néhány kiegészítés a regressziószámításhozA regressziós modellképzés elsődleges és egyben leglényegesebb feladata a modell specifikálása. A vizsgált tényezőt leginkább meghatározóváltozók kiválasztása és beépítése a modellbe nem könnyű feladat. Ha például a közalkalmazotti réteg átlagjövedelmét befolyásoló tényezőketkívánjuk számba venni, feltehetően fontos változó lesz a közalkalmazotti munkaviszony hossza, az életkor, az iskolai végzettség, a beosztás stb. Azutóbbiak azonban minőségi ismérvek. Kérdés, hogyan tudjuk megoldani, hogy minőségi ismérvek is szerepelhessenek a regressziós modellben.

10.3.1. Minőségi ismérvek kezelése a regressziós modellbenA regressziószámítás alapvetően a mennyiségi ismérvek közötti összefüggések elemzésének eszköztára. Az eredményváltozót illetően ezt a kikötésttovábbra is megtartjuk. A magyarázóváltozók között azonban gyakran találkozunk minőségi vagy területi ismérvekkel is. Ebben az esetben azismérveket alternatív ismérvekké alakítjuk, és mesterséges változók segítségével illesztjük be a modellbe. A mesterséges változók ily módon 1és 0 értéket tartalmazó változók.

A minőségi vagy területi ismérveket eggyel kevesebb változóval tudjuk bevinni a modellbe, mint ahány változata van az ismérvnek.

Alternatív ismérveknél, ha a minőségi ismérv csupán két változattal rendelkezik (pl. férfi, nő), akkor elegendő egy mesterséges változót bevezetni(pl. férfi =1, nő =0). Három változattal rendelkező ismérvnél két mesterséges változó elegendő stb.

Page 260: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

250

Nézzük meg általánosságban, hogyan történhet a minőségi ismérvek kezelése a regressziós modellben. Vizsgáljuk a bruttó átlagkeresetnek azéletkorral, a nem szerinti hovatartozással és a beosztással való összefüggését!

Képezzük ennek érdekében a következő modellt:

ahol a változók az alábbiak:

Y: a havi átlagos bruttó kereset (Ft),

X: életkor (év),

N: Nem , ha a megfigyelés férfira vonatkozik,

, ha a megfigyelés nőre vonatkozik,

B: Beosztás , ha a megfigyelésbe bevont dolgozó vezető,

, ha a megfigyelésbe bevont dolgozó beosztott.

Ennek megfelelően a modell szerint például egy 45 éves, vezető beosztásban dolgozó férfi havi bruttó átlagkeresetének várható értéke:

míg egy ugyancsak 45 éves, vezető beosztásban dolgozó nőé:

azaz kevesebb. Ez pedig azt jelenti, hogy az azonos korú és beosztású férfiak és nők keresetének várható értéke közötti különbség. Hasonló

értelmezést adhatunk a B mesterséges változó parciális regressziós együtthatójának is.

Ezek alapján választ kapunk arra, hogy a keresetek színvonalában mennyiben jut kifejezésre az életkor és a beosztás, illetve, hogy azonos életkorúés beosztású férfiak és nők esetében van-e szignifikáns különbség a havi átlagkeresetek nagyságában.

A mesterséges változókat tartalmazó modell paramétereinek becslése ugyanúgy a legkisebb négyzetek módszerének segítségével történik, mintahogy azt a korábbiakban láttuk.

Page 261: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

251

Nézzük a következő példát!

Az egyik budapesti kerületi önkormányzat felmérést végeztetett 50 eladásra meghirdetett zöldövezeti családi házra. A vizsgálat során a következőváltozókat figyelték meg:

Lineáris regressziós modell segítségével közelítve az Y változó alakulását, a következő regressziófüggvényhez jutottak:

A paraméterek meghatározása a legkisebb négyzetek elve alapján történt. Az ellenőrzés során a paraméterek szignifikánsnak bizonyultak.Értelmezésük a következő:

A paramétert nem értelmezzük.

: Az egy évvel idősebb lakások kínálati ára # azonos telefonellátottságot, csatornázottságot és garázzsal való ellátottságot feltételezve # átlagosan

1000 Ft/ -rel alacsonyabb.

: A telefonos lakások kínálati ára # a velük azonos életkorú, azonos csatornázottságú és garázsellátottságú lakásokénál # átlagosan 950 Ft/ -rel magasabb.

: A csatornázott lakások ára átlagosan 520 Ft/ -rel magasabb az azonos életkorú, azonos telefon- és garázsellátottságú lakásokhoz képest.

Page 262: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

252

: A garázzsal rendelkező # a többi vizsgált tényező szempontjából egyforma típusú # lakások kínálati ára átlagosan 1200 Ft-tal magasabbnégyzetméterenként.

A regressziós együtthatók értelmezésekor hasonlóan járunk el, mint azt a standardizálás során tettük. Itt is egy-egy tényező hatásának elkülönítésérőlvan szó, a többi tényező változatlansága mellett. Nem hagyható azonban figyelmen kívül, hogy az eredményhez alapvetően más módszerrel jutottunk.

A regressziószámítás általánosabb, mint a standardizálás módszere, mivel elméletileg tetszőleges számú minőségi és mennyiségi ismérvhatásának szétválasztására alkalmas. A regressziószámítás további előnye még, hogy az eredmények a megismert hipotézisvizsgálati módszerekkelellenőrizhetők.

A számítógépes programcsomagok alkalmazásánál azonban ügyelni kell arra, hogy a számítógép nem tesz különbséget a „természetes” és a„mesterséges” változók között. Ilyen esetekben a korrelációs mátrix elemei egészen különböző (asszociáció, vegyes kapcsolat, korreláció) kapcsolatszorosságát mérik azonos formulával, a páronkénti korrelációs együtthatókkal.

10.3.2. A tényezőváltozók kiválasztásaA regressziós modell specifikálásánál az első és egyben legnehezebb feladat az eredményváltozót befolyásoló magyarázóváltozók kiválasztása.Ehhez általában javasolható az adott terület szakértőinek tanácsát is kikérni. Minden szóba jöhető változót általában nem lehetséges és rendszerintnem is szükséges beépíteni a modellbe.

Az „optimális” regressziófüggvény meghatározásához két fő szempontot szokás mérlegelni:

1. Úgy kell kialakítani a regressziófüggvényt, hogy becslési célokra alkalmas legyen.

2. A legkevesebb tényezőváltozót tartalmazza a vizsgált sztochasztikus kapcsolat leírására.

A felsorolt követelmények egyidejű betartása azonban nem lehetséges. A gyakorlatban bizonyos kompromisszumra van szükség. Több módszerismeretes az „optimális modellek” szerkesztésére. A végső döntésnél azonban mindig támaszkodni kell a vizsgált területre vonatkozó szakmaiismeretekre. A tényezőváltozók kiválasztásának módszertanával részletesen nem foglalkozunk.

Megemlítjük, hogy az optimális regressziófüggvény specifikálásának legegyszerűbb, de rendkívül munkaigényes módszere az összes lehetségesregressziófüggvény kiszámítása és összehasonlítása a tényezőváltozók adott halmazából. Ilyenkor az összehasonlításnál általában a többszörösdeterminációs együtthatóra támaszkodunk. Ez a mutató ugyanis (mint azt már ismertettük) azt fejezi ki, hogy az adott modellben szereplőtényezőváltozók együttesen milyen arányban magyarázzák meg az eredményváltozó szóródását.

Nem elegendő azonban csak a többszörös determinációs együtthatóra figyelni. A túlságosan bonyolult, sokváltozós modell áttekinthetetlen. Ezért

azok közül a modellek közül, amelyeknek közel azonos a többszörös determinációs együtthatója ( ), a kevesebb változót tartalmazó regressziósfüggvényt választjuk. Ezzel kettős célt érünk el. Egyrészt egyszerűsítjük a modellt, másrészt csökkentjük a multikollinearitás veszélyét.

Page 263: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

253

10.4. Gyakorlófeladatok1. Egy 10 elemű véletlen minta alapján azt vizsgáljuk, hogy milyen összefüggés van valamely tantárgy zárthelyieredménye (Y), a felkészülési idő

( ) és a hallgató intelligenciahányadosa ( ) között. A 10 hallgató adatai az alábbiak:

A dolgozateredménye (%)

Felkészülésiidő (óra) IQ

33

44

54

56

65

2

5

5

8

8

99

99

116

98

11470

72

79

85

94

10

13

11

15

18

109

94

118

100

97

Feladat:

a) Írjuk fel a transzformált normálegyenleteket ( ), és számítsuk ki a regressziófüggvény paramétereit!

b) Értelmezzük a kapott eredményeket!

c) Számítsuk ki és értelmezzük a két-két változó közötti kapcsolat szorosságát!

d) Számítsuk ki és értelmezzük a többszörös determinációs együtthatót!

e) Vizsgáljuk meg a parciális rugalmasságokat az és helyen!

Page 264: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

254

2. A Közlekedéstudományi Intézet megvizsgálta a munkába járással kapcsolatos utazások (ingázások) alakulását. A regressziós modell változói akövetkezők voltak:

Y: ingázók száma (ezer fő),

aktív keresők száma (ezer fő),

városi lakónépesség aránya (%).

A kapott részeredmények a következők:

A regressziós függvény:

A paraméterek standard hibái sorrendben:

A korrelációs mátrix:

Feladat:

a) Értelmezzük a kapott eredményeket!

b) Számítsuk ki a többszörös korrelációs és determinációs együtthatót!

c) Határozzuk meg és értelmezzük az -t!

d) Teszteljük 5%-os szignifikanciaszinten a és regressziós együtthatókat!

3. A vállalati eredmény (Y) alakulását 20 elemű minta alapján regresszióelemzéssel vizsgáltuk. Független változó a nettó árbevétel ( ) és a létszám

( ) volt.

Eredmények:

Változó A paraméter értéke A paraméter standard hibája

Page 265: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

255

X1

X2

0,025

0,019

0,005

0,004

Ismeretes továbbá, hogy a regresszióból származó összes eltérés-négyzetösszeg 36 900, a maradék-négyzetösszeg pedig 9300.

Feladat:

a) Készítsünk 95%-os megbízhatósági szinten konfidenciaintervallumot a regressziós együtthatókra!

b) Állítsuk össze a varianciaanalízis-táblát és teszteljük a regressziófüggvényt 5%-os szignifikanciaszinten!

4. 40 véletlenszerűen kiválasztott személygépkocsi üzemeltetési költségét (ezer Ft/év), Y; életkorát (év), és kilométerteljesítményét (ezer km/

év), vizsgáltuk.

A regressziófüggvény:

A paraméterek standard hibái sorrendben:

Az eltérés-négyzetösszegek: .

Feladat:

a) Értelmezzük a paramétereket!

b) Teszteljük a nullhipotézist 5%-os szignifikanciaszinten!

c) Készítsük el a paraméter 95%-os megbízhatósági szintű konfidenciaintervallumát!

d) Becsüljük meg egy 15 ezer km-t futott 6 éves gépkocsi éves üzemeltetési költségét!

5. 50 véletlenszerűen kiválasztott nőnél a következő változókat figyeltük meg:

Testsúly (kg): Y,

Testmagasság (cm): X1 ,

Page 266: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Többváltozós korreláció- és regressziószámítás

256

Életkor (év): X2 .

Az alábbi számítási részeredmények ismertek:

Feladat:

Ellenőrizzük a varianciaanalízis módszerével, hogy szignifikáns-e a felsorolt változók közötti összefüggés! (Szignifikanciaszint 5%.)

6. Mezőgazdasági szövetkezetnél a kukorica termésátlagát befolyásoló tényezőket vizsgálták. A megfigyelt szövetkezetek száma 30 volt. A két

legfontosabb hatótényezőnek a műtrágya-felhasználás (hatóanyag q/ha), és a felhasznált öntözővíz mennyisége ( /ha), bizonyult. E háromtényező összefüggését vizsgálva az alábbi részeredmények ismertek:

A regressziófüggvény: .

A paraméterek standard hibái sorrendben: 0,446; 0,174 és 0,00039.

A regressziófüggvény értékeinek ( ) és a termésátlag megfigyelt értékeinek (y) összes eltérés-négyzetösszege: 118,44.

A maradék-négyzetösszeg:10,11.

A korrelációmátrix: .

Feladat:

Elemezzük a korreláció- és regressziószámítás eredményeit!

Page 267: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

257

11. fejezet - Az idősorok összetevőinek vizsgálataTankönyvünk első kötetében már találkoztunk az időbeli ismérv szerinti elemzés egyszerűbb eseteivel. Megismerkedtünk az idősorok főbb típusaivalés azok grafikus megjelenítésével. Bemutattuk továbbá azokat az egyszerűbb mutatószámokat, amelyekkel a jelenségekben, folyamatokbanbekövetkezett változások vizsgálhatók.

A felsorolt módszerek alkalmazása lehetőséget nyújt a vizsgált jelenség múltbeli fejlődésének megállapítására. Gyakorlati tapasztalatok, szakmaiismeretek birtokában # bár erősen korlátozott mértékben # módunk van a törvényszerűségek feltárására és a jelenség jövőbeni alakulásának azelőrejelzésére is. Az előző fejezetekben ismertettük azokat a matematikai-statisztikai elemzési eszközöket, amelyeket felhasználva az idősorokmélyebb, megbízhatóbb elemzését is elvégezhetjük.

Statisztikai elemzés szempontjából az idősor úgy is felfogható, mint az egyes időpontokhoz (időszakokhoz) rendelt valószínűségi változókösszessége. Lényeges sajátossága, hogy minden olyan időponthoz (időszakhoz), amelyben megfigyelést végzünk, a valószínűségi változókülönböző (rendszerint végtelen sok) lehetséges értéke tartozik, de ezek közül természetesen csak egy realizálódik.

A jelenségek fejlődése, alakulása, és így az azoknak megfelelő idősor számos tényező együttes hatásának az eredménye. Az egy-egy jelenségváltozását befolyásoló sok-sok tényezőről mélyebb, részletesebb információnk általában nincs. E változások hatását is csak közvetve, az időtényezőnkeresztül érzékeljük. Az időtényező ily módon gyűjtője a jelenséget befolyásoló tényezők sokaságának. Ebből következően az idősorokat speciálissztochasztikus kapcsolatnak tekintjük, ahol a magyarázóváltozó szerepét formailag az időtényező tölti be. Az idősorelemzésnek két fő megközelítésimódja ismert, a determinisztikus és a sztochasztikus idősorelemzés.

A determinisztikus idősorelemzés abból a feltevésből indul ki, hogy az idősort tartósan érvényesülő hosszú távú tendencia (trend), tartósan hatószabályos, jól modellezhető hullámmozgás (szezonalitás) határozza meg, és ezektől eseti-egyedi eltérítő hatást eredményez a véletlen.

A sztochasztikus idősorelemzés kiindulópontja pedig az, hogy minden idősor sztochasztikus folyamat, amelynek pillanatnyi alakulását saját korábbiállapotából és a véletlen hatásokból lehet magyarázni. E felfogás szerint a véletlen változó beépül a folyamatba, annak aktív alkotóeleme lesz, ésa jelenség fő mozgatójává válik.

Tananyagunkban csak a determinisztikus idősorelemzéssel foglalkozunk.

11.1. Az idősorok összetevőiA statisztikai elemzés szempontjából az idősornak három összetevője van: az alapirányzat vagy trend, a periodikus ingadozás és a véletleningadozás.

Az idősorok legfontosabb összetevője az alapirányzat vagy trend.

Page 268: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

258

A trend az idősorban hosszabb időszakon át tartósan érvényesülő tendencia.

Az alapirányzat maga is több tényező együttes hatásának a következménye, alapvetően társadalmi-gazdasági törvényszerűségek határozzák meg.A gazdasági jelenségek fejlődési tendenciájának kialakulásában lényeges szerepe van a demográfiai változásoknak, a műszaki fejlődésnek és avizsgált jelenséggel összefüggő egyéb speciális körülményeknek. A jelenség trendje addig érvényes, amíg a magyarázó törvényszerűségek stabilak,azokban lényeges változások nem következnek be. Ha a társadalmi-gazdasági környezetben minőségi változások következnek be, a régi fejlődésitendenciákat új tendenciák váltják fel.

A periodikus ingadozás az idősorokban rendszeresen ismétlődő hullámzást jelenti. Két típusát különböztetjük meg, a szezonális vagy idényszerűhullámzást és a konjunkturális ingadozást.

A szezonális vagy idényszerű hullámzás periodikus ingadozás, azaz a trendtől való abszolút vagy relatív mértékű eltérés periodicitást mutat.

A szezonalitás legtöbbször az évszakok változásának következménye, általában olyan idősorokban érvényesül, amelyeknél a megfigyelésekidőközei egy évnél jóval rövidebbek. (Pl. a kereskedelmi áruforgalom, az építőipari termelés.) A természeti tényezők mellett társadalmi szokások,hagyományok is szerepet játszanak a szezonalitás kialakulásában. (Pl. az ünnepek is hatással vannak a kereskedelmi forgalomra.) Előfordulhat,hogy a periódus hossza egy évnél rövidebb. Példaként említhető a tömegközlekedés, ahol egy éven, egy hónapon, sőt egy napon belüli ingadozásis kimutatható. Ebben az esetben többszörös szezonalitást mutató idősorról beszélünk.

Vannak olyan idősorok, ahol az ingadozások periódusának hosszúsága nem állandó. Ezek egy részének természeti okai vannak. Kimutathatókbizonyos meteorológiai ciklusok, amelyek elsősorban a mezőgazdasági termelést befolyásolják. Jellemzőek az ún. gazdasági (konjunktúra-)ciklusok. A gazdasági ciklus a konjunktúra, a recesszió, az üzleti pangás és a megújulás időszakait foglalja magába.

A továbbiakban a megfigyelt adatnak a trendből, illetve a periodikus ingadozásból származó részét determinisztikusnak tételezzük fel.

Az idősorokban lehetnek még véletlenszerű, szabálytalan ingadozások is. Ezt az összetevőt valószínűségi változónak tekintjük. A véletleningadozás sok (önmagában nem jelentős) tényező együttes hatása az idősorra. A véletlen hatás eredménye, hogy az idősorok adatai a trendből,illetve a periodikus komponensből adódó görbe körül sztochasztikusan ingadoznak.

Az idősorokban bizonyos körülmények hatására egyszeri kiugró értékek is előfordulhatnak, melyek nagyságuknál és egyes esetekben utóhatásuknálfogva nem tekinthetők véletlen ingadozásnak. (Pl. háborúk, súlyos természeti csapások hatása.) E kiugró értékeket, melyeket strukturálistöréseknek nevezünk, el kell különítenünk a fentebb felsorolt komponensektől. Hogy torzító hatásuk ne jusson kifejezésre az egyes összetevőkmeghatározásánál, a strukturális töréseket és az utóhatásukat jellemző adatokat célszerű kihagyni az elemzéseknél.

Az egyes tényezők szerepét az idősor kialakításában a 11.1. ábra sémáival szemléltetjük.

Page 269: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

259

11,1. ábra - Az idősorok komponensei

Egy-egy jelenség idősora nem tartalmazza feltétlenül mindhárom összetevőt. Ha például egy jelenséget csak évenként figyelünk meg, akkor azidősorban nem tapasztalunk idényszerű hullámzást, az esetleges ingadozások az éves periódusban kiegyenlítődnek. Előfordulhat az is, hogy egyjelenség értékeit havonként rögzítjük, és a megfigyelt adatok kis eltérésekkel egy állandó érték körül ingadoznak. Ez esetben nem beszélhetünkalapirányzatról, az ilyen idősorokat stacionárius idősoroknak nevezzük.

Az idősorok elemzésének alapvető feladata a komponensek elkülönítése. A tényezőkre bontás többféle elméleti feltevés alapján történhet. Az egyeskomponensek között additív (összegszerű), multiplikatív (szorzatszerű), vagy ezeknél bonyolultabb kapcsolat lehetséges. Mi a továbbiakban csakaz additív, illetve a multiplikatív összefüggést feltételezve vizsgáljuk az idősorok összetevőit.

11.1.1. Additív és multiplikatív komponensekSzemléltető ábránkon (11.1. ábra) feltételeztük, hogy a komponensek összeadódnak, és a komponensek összege adja az idősort. A gyakorlatbanaz elemzés fordítva történik, az idősor adataiból kell elkülöníteni az egyes összetevőket, az idősort kell komponenseire bontani.

Abban az esetben, ha azt feltételezhetjük, hogy az idősor adatai a komponensek összegeként adódnak, additív kapcsolatról beszélünk. Hamegfigyelésünk p számú periódusra (pl. évre) és egy perióduson belül m időszakra (szezonra) vonatkozik, akkor az i-edik időszak megfigyelt adata

ahol a periódus sorszámát (pl. évet) jelöli,

Page 270: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

260

a perióduson belüli időszak sorszámát (pl. negyedévet, hónapot) jelöli,

az i-edik periódus j-edik időszakának megfigyelt adata,

a szezonális ingadozást (bármely i-edik periódus j-edik szakaszában) fejezi ki,

a véletlen hatás értéke az i-edik periódus j-edik szakaszában.

Egyetlen indexet használva ( ):

A szezonális eltérés a periódusok különböző szakaszaiban különböző mértékű és irányú lehet. Az egyes periódusokban a különböző irányú, pozitív,negatív eltérések kiegyenlítik egymást. (Ha a kiegyenlítés nem következnék be, akkor a különbözetet a trendbe kellene beépítenünk.) Tehát egym szakaszból álló periódus esetén:

A véletlen komponens # mint már említettük # valószínűségi változó. Additív kapcsolat esetén feltételezzük, hogy várható értéke

Vannak olyan jelenségek, amelyeknél azzal a feltételezéssel élünk, hogy az idősor adatait a komponensek szorzata alkotja, az összetevők kapcsolatamultiplikatív:

ahol a multiplikatív módon ható szezonális ingadozás,

Page 271: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

261

a multiplikatív módon ható véletlen hatás.

Az alapirányzat szerinti értéket nem befolyásolja a komponensek kapcsolódási módja. A periodikus ingadozás és a véletlen hullámzás viszontlényegesen eltérő módon viselkedik additív és multiplikatív kapcsolat esetén. Ebben az esetben a szezonális (és a véletlen) komponens relatív módon

fejti ki hatását. Az idősor értékét meghatározott arányban téríti el a trendtől. Az összefüggést pozitív tényezők esetén logaritmizálva

a összefüggést kapjuk. Az additív kapcsolatnál elmondott feltételezések ebben az esetben a logaritmusokra vonatkoznak ésmegegyeznek azokkal. Így

Ebből következik, hogy

A gyakorlatban a vizsgált jelenségre vonatkozó ismeretek, valamint az adott idősor grafikus ábrájának áttekintése alapján dönthetjük el, hogy milyenaz idősorban a komponensek kapcsolódási módja. Ha a szezonális hullámzás abszolút nagysága mutat állandóságot, additív, ha a relatív nagysága,akkor multiplikatív modellel állunk szemben.

11.2. TrendszámításA trendszámítás feladata az idősor fő komponensének, az alapirányzatnak a kimutatása.

Az idősor kiegyenlítése, kisimítása a célunk úgy, hogy a periodikus ingadozás és a véletlen ingadozás hatását kiküszöböljük. Az idősorokkiegyenlítése többféle módszerrel történhet, közülük a mozgóátlagolás és az analitikus trendszámítás módszerét ismertetjük. Megemlítjük azalapirányzat meghatározásának előzetes, gyors információszerzésre alkalmazott módszerét, a grafikus becslést. Az idősor vonaldiagramjába #számítás nélkül # becslésszerűen egy kiegyenlítő vonalat rajzolunk, és a vonal értékeit kezeljük alapirányzati értékekként. A módszer önkényes,nem tekintjük megbízható eljárásnak (kivéve az egyszerű eseteket), csak előzetes tájékozódásra alkalmazható.

11.2.1. Trendszámítás mozgóátlagolássalHa a komponenseket illetően additivitást tételezünk fel, akkor a

Page 272: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

262

feltételezésből és a periodicitásból az következik, hogy bármely esetén:

Míg multiplikatív kapcsolat esetén:

Foglalkozzunk csupán az additív esettel. (A multiplikatív eset hasonlóan tárgyalható.)

Ha a mozgóátlag k tagszáma az m-mel vagy annak egész számú többszörösével egyenlő, akkor a felírt összefüggések miatt várható, hogy azátlagban a szezonális és a véletlen komponens már nem szerepel.

A számítás menete a következő. Az fajú adatsorozat 1, 2, ..., k; 2, 3, ..., ; indexű elemeinek kiszámítjuk a számtani átlagát

(multiplikatív esetben a geometriai átlagát) 1 , és ezt az átlagot páratlan k esetén a részsorozat középső elemének tekintjük ( -edik elem).

Ezt mutatja a 11.1. táblázat esetén.

11.1. táblázat - Háromtagú mozgóátlagok számítása ( )

Időszak (időpont) Idősor adata Mozgóösszeg Mozgóátlag

t

1 # #

2

1 Megjegyezzük, hogy a gyakorlatban # a komponensek kapcsolódási módjától függetlenül # a mozgóátlagokat számtani átlaggal számítjuk az itt ismertetett módon.

Page 273: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

263

3

n # #

Itt az valószínűségi változó adott megfigyelésből (mintából) származó értéke, pedig az becslése.

Ha k páros, akkor az nem egész, hanem pl. esetén 2,5; 3,5; 4,5; ...; n – 1,5. Ezért az így kapott átlagokból kéttagú mozgóátlagokképzésével kapjuk az egész indexű elemeket. Ez utóbbi műveletet középre igazításnak vagy centrírozásnak nevezzük. Az eljárást a 11.2. táblázatszemlélteti.

11.2. táblázat - Négytagú mozgóátlagok számítása ( )

Időszak(időpont)

Idősoradata Mozgóösszeg Mozgóátlag Centrírozás ( )

t

1

2

3

4

#

#

# #

#

Page 274: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

264

n #–

A bemutatott sémákból jól látható, hogy a kiegyenlített idősor rövidebb, mint az eredeti idősor. Páratlan tagszám esetén taggal, páros tagszámesetén k taggal kevesebb trendértéket tudunk meghatározni. Célunk, hogy a megrövidült kiegyenlített idősor alkalmas legyen az elemzésre,következtetések levonására, az idősor rövidülése ne okozzon túlzott mértékű információveszteséget. A mozgóátlag tagszámának megválasztásafügg az idősor hosszúságától. Viszonylag rövid idősorból nem célszerű nagy tagszámú mozgóátlagot számolni. Ha az idősor nem tartalmaz szezonálisingadozást, célszerű páratlan tagszámot választani az alapirányzat feltárásához.

Ismételten hangsúlyozzuk, hogy a szezonális hullámzást mutató idősorok esetén a mozgóátlag tagszámát úgy kell megválasztani, hogy az aperióduson belüli szakaszok (szezonok) számával azonos ( ), vagy annak egész számú többszöröse legyen.

Ha egy jelenség értékeit pl. negyedéves bontásban ismerjük, a szezonhatás kiküszöbölése érdekében 4 vagy 8, esetleg 12 tagú mozgóátlagotcélszerű számítani attól függően, hogy mennyire hosszú idősor áll rendelkezésre. A véletlen hatás kiküszöbölése annál hatékonyabb, minélnagyobb tagszámú az átlag, ugyanis annál jobban eltűnnek az egyedi átlagolandó értékekben jelen lévő véletlen ingadozások, hiszen az átlag nagyvalószínűséggel a várható értékkel, nullával lesz egyenlő. Az elmondottakból látható, hogy viszonylag rövid, szezonalitást mutató idősor esetén amozgóátlag tagszáma nem növelhető, amelynek következtében a véletlen komponens értéke nem szűrődik ki teljes egészében az idősorból, dehatása tompított lesz. A mozgóátlagolású trendszámítás előnye a módszer egyszerűségében, széles körű alkalmazhatóságában rejlik. Nem igényelelőzetes feltételezéseket a trend alakjára vonatkozóan. Hátránya, hogy a kiegyenlített idősor megrövidül, továbbá, hogy a módszer közvetlenül nemeredményez analitikusan ismert trendfüggvényt.

Tekintsük a módszer bemutatására a következő példát. (Adatok a 11.3. táblázatban.)

11.3. táblázat - A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedévesbontásban

Adatok: millió m3

I. II. III. IV.Év

negyedév1990 3,5 3,1 2,4 13,91991 6,7 6,4 5,1 17,2

Page 275: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

265

1992 7,4 7,2 5,2 18,01993 8,2 8,1 7,2 18,51994 9,3 8,0 7,2 11,7

Mivel éves periodicitásról és negyedéves szezonalitásról van szó, k csupán 4 vagy annak egész számú többszöröse lehet. Az adatsor mérete miattválasszuk a k-t 4-nek. A számításokat a 11.4. táblázat tartalmazza.

11.4. táblázat - A mozgóátlagolású trendszámítás munkatáblája ( )

Adatok: millió m3

Negyed- Értékesített Négytagú mozgó- Centrírozottév mennyiség összeg átlag átlagÉv

1990

1991

1992

1993

1994

I.

II.

III.

IV.

I.

II.

III.

IV.

I.

II.

III.

IV.

3,5

3,1

2,4

3,9

6,7

6,4

5,1

7,2

7,4

7,2

5,2

8,0

12,9

16,1

19,4

22,1

25,4

26,1

26,9

27,0

27,8

28,6

29,5

31,5

3,225

4,025

4,850

5,525

6,350

6,525

6,725

6,750

6,950

7,150

7,375

7,875

#

#

3,6

4,4

5,2

5,9

6,4

6,6

6,7

6,8

7,0

7,3

Page 276: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

266

I.

II.

III.

IV.

I.

II.

III.

IV.

8,2

8,1

7,2

8,5

9,3

8,0

7,2

11,7

32,0

33,1

33,0

33,0

36,2

8,000

8,275

8,250

8,250

9,050

7,6

7,9

8,1

8,3

8,2

8,7

#

#

A jelenség megfigyelt értékeit és a mozgóátlagolással számított trendértékeket ábrázoltuk a 11.2. ábrán.

Page 277: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

267

11,2. ábra - A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között

11.2.2. Analitikus trendszámításHa a vizsgált jelenség tartós irányzatát az idő függvényében valamilyen regressziós függvénnyel határozzuk meg, analitikus trendszámításrólbeszélünk.

Az analitikus trendszámítás tehát a regressziószámítás egy speciális esete, amennyiben az idősorban bekövetkezett változásokat az időtényező (t)függvényében vizsgáljuk tapasztalati adatok, a valószínűségi változók minden egyes időpontban egyetlen, realizálódott értéke alapján. A vizsgálatbabevont időtáv nagyon ritkán bővíthető, nem képzelhető el a mintavétel megismétlése.

Jelölje az elméleti idősort, az eddigieknek megfelelően pedig a tapasztalati idősort. Az az elméletiidősor értékeinek analitikus függvény segítségével történő becslése.

Page 278: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

268

Első lépésként arról kell döntenünk, hogy milyen típusú függvénnyel becsüljük az alapirányzat értékeit. A jelenség fejlődési tendenciáját legjobbanle#ró függvényre az idősor adatai, annak grafikus ábrája alapján következtetünk. Szakmai ismeretek, a jelenség természetének ismeretébenfeltételezéssel élünk a fejlődés irányvonalára vonatkozóan.

Az alkalmazható függvényekkel már foglalkoztunk a regressziószámítás témakörénél. Trendszámítás során a leggyakrabban alkalmazottfüggvénytípusok:

lineáris trendfüggvény,

exponenciális trendfüggvény,

parabolikus trendfüggvény.

Amennyiben eldöntöttük az alkalmazandó függvény típusát, feladatunk a függvény paramétereinek meghatározása. A függvény paramétereimeghatározásának leggyakrabban

alkalmazott módszere a már jól ismert legkisebb négyzetek módszere.

Lineáris trend

Ha olyan jelenség időbeni változását vizsgáljuk, amelynél azt tapasztaljuk, hogy az időegységenként bekövetkezett változás, növekedés vagycsökkenés abszolút értelemben közel állandó, a változás egyenletes, az alapirányzat értékeit lineáris trenddel határozzuk meg.

Foglalkozzunk először azzal az esettel, amikor nincs szezonális hatás, vagy ami ugyanaz, a szezonális hatást a trend részének tekintjük.

Az idősor tényleges trendfüggvénye:

ahol a és a a lineáris trendfüggvény ismeretlen paraméterei.

Ha a időpontban mintát veszünk, akkor ez valószínűségi változó lesz:

ugyanis tartalmaz egy véletlen változót. A véletlen változóról feltételezzük, hogy a időpontban 0 a várható értéke ( ), és a különböző

időpontok véletlen változói egymástól függetlenek, így , . Ekkor

Page 279: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

269

A időpontokban mért adatokból a legkisebb négyzetek módszerével meghatározhatjuk az

lineáris trendfüggvényt. Itt a a a pedig a értékének egy becslése.

A normálegyenletek # mint azt a 9. fejezetben láttuk # a következők:

A normálegyenleteket itt is egyszerűsíthetjük egy lineáris transzformációval. Az időegységeket kódolhatjuk úgy is, hogy a t értékek összege 0 legyen,

azaz .

Ezt az eljárást csak akkor használhatjuk, ha az idősor egymást követő azonos hosszúságú időszakokra vagy egymástól egyenlő távolságra lévőidőpontokra vonatkozik. A kódolást úgy végezzük, hogy megkeressük a vizsgálatba bevont időtáv középső időegységét, és hozzárendeljük a értéket. Időben előre (a jelen felé) pozitív egész sorszámokat, visszafelé pedig negatív egész sorszámokat írunk.

Amennyiben páros számú a vizsgálatba bevont időegységek száma, nincs konkrét középső időegység. Úgy járunk el, hogy két időszakot (időpontot)tekintünk középsőnek, a jelentől távolabbit -gyel a jelenhez közelebbit -gyel jelöljük. Mivel így két szomszédos időszak kódjának

különbsége nem egységnyi, hanem ( ), a többi időszak távolságát is 2 egységnek vesszük. A jelen felé pozitív páratlan sorszámokat írunk,a múlt felé pedig negatív páratlan számokat rendelünk az egyes időszakokhoz a t értékeként.

Ha egy jelenség értékeit pl. 1989 és 1994 között éves bontásban ismerjük, akkor az időszakok kódolása az alábbi lehet:

1.

Év: 1989 1990 1991 1992 1993 1994t: 1 2 3 4 5 6

Page 280: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

270

2.

Év: 1989 1990 1991 1992 1993 1994t: #5 #3 #1 1 3 5

Ez utóbbi transzformációnak az az előnye, hogy a normálegyenletek módosulnak, egyszerűsödnek:

A paraméterek közvetlenül adódnak:

A paraméterek értelmezése

A paraméterek értékét befolyásolja az időpontok kódolási módja, amelyet azok értelmezésénél figyelembe kell vennünk.

A paraméter az alapirányzat értéke a jelölt időpontban.

Ha , akkor a vizsgálatba bevont időpontot megelőző időpont trend szerinti értéke.

Ha és páratlan az időpontok száma: a középső időpont alapirányzata, és egyben a vizsgált idősor adatainak számtani átlaga.

Ha és páros az időpontok száma, nincs 0-val jelölt időpont, a paraméter az idősor adatainak számtani átlaga.

A paraméter az időegységenkénti átlagos abszolút változás mértéke, előjelétől függően növekedést vagy csökkenést jelez a vizsgálatba bevontidőtartam alatt.

Ha és az időpontok száma páros, akkor az időegységenkénti átlagos abszolút változás mértéke. Jelentését tekintve a lineáris

trendfüggvény paramétere megegyezik az időbeli változás átlagos mértékével, azaz a mutatószámmal. (Lásd I. kötet 2.2.4. pont.)

Page 281: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

271

A lineáris trend számítását a következő példával szemléltetjük. Mint ismeretes, a népesség növekedését (csökkenését) alapvetően a születések ésa halálozások számának viszonya befolyásolja. A halálozások és a születések különbsége az ún. természetes fogyás. Nógrád megyében 1983 és1993 között ez a jelenség a következőképpen alakult (11.5. táblázat):

11.5. táblázat - A népesség természetes fogyásának alakulása Nógrád megyébenÉv Természetes fogyás (fő)

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

332

273

510

505

478

367

700

584

498

828

1100Összesen 6175

Először a számítási módot mutatjuk be. A paraméterek meghatározásához szükséges számításokat a 11.6. táblázat tartalmazza.

11.6. táblázat - Munkatábla a paraméterek meghatározásához

Év t

1983

1984

11

12

1332

1273

332

546

1

4

Page 282: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

272

1985

1986

1987

1988

1989

1990

1991

1992

1993

13

14

15

16

17

18

19

10

11

1510

1505

1478

1367

1700

1584

1498

1828

1100

1530

2020

2390

2202

4900

4672

4482

8280

12 100

9

16

25

36

49

64

81

100

121Összesen 66 6175 43 454 506

Normálegyenletek:

Az egyenletrendszer megoldásával kapott paraméterek:

A természetes fogyás alapirányzatát leíró lineáris trend:

1982-ben az alapirányzat szerinti természetes fogyás 212 fő volt. 1983 és 1993 között Nógrád megye népessége évente átlagosan 58 fővel csökkenta természetes fogyás növekedése következtében.

A módszer alkalmazásához a következő számítások elvégzése szükséges. (Adatok a 11.7. táblázatban.)

Page 283: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

273

11.7. táblázat - Munkatábla a paraméterek meghatározásához

Év t

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

#5

#4

#3

#2

#1

0

1

2

3

4

5

332

273

510

505

478

367

700

584

498

828

1100

#1660

#1092

#1530

#1010

#478

0

700

1168

1494

3312

5500

25

16

9

4

1

0

1

4

9

16

25Összesen 0 6175 6404 110

A paraméter értéke:

A paraméter értéke:

A lineáris trend egyenlete:

A kétféle módszerrel kapott trendfüggvényt összehasonlítva látható, hogy csak a paraméter értéke különbözik. Ennek magyarázata, hogy a

(ahol a függvény a értékét felveszi) más-más időszakhoz tartozik. Ez utóbbi megoldásnál a értékét az idősor átlagos értékeként is értelmezzük.

Page 284: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

274

Számítsuk ki ezek után a trendértékeket! Ha bármelyik trendfüggvénybe behelyettesítjük a megfelelő t értékeket, megkapjuk az idősor

alapirányzatának becsült értékeit, az -ket (Adatok a 11. 8. táblázatban.)

11.8. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításaA természetes fogyás (fő)

Évtényleges

létszám

trend szerinti

létszám 1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

332

273

510

505

478

367

700

584

498

828

1100

270

328

387

445

503

561

620

678

736

794

853

62

#55

123

60

#25

#194

80

#94

#238

34

247

3 844

3 025

15 129

3600

625

37 636

6 400

8 836

56 644

1 156

61 009Összesen 6175 6175 0 197 904

Megfigyelhetjük, hogy a trendfüggvénnyel kapott létszámadatok összege megegyezik a tényleges létszámadatok összegével, 6175 fővel.

Általánosítva is igaz, hogy . Ezt könnyen igazolhatjuk, ugyanis , ami nem más, mint az első

normálegyenlet jobb oldalán álló kifejezés (lásd 11.2.2. pont). E normálegyenlet bal oldalán pedig szerepel.

Page 285: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

275

Így, ha létezik is szezonalitás, abban az esetben, ha a vizsgált időtartam a szezonalitás periódusidejének egész számú többszöröse, és a

szezonalitástól független. A szezonalitás az ( ) különbségekben azonban már jelentkezik.

A táblázat utolsó oszlopában szereplő 197 904 nem más, mint a legkisebb négyzetek módszere szerint minimalizált négyzetösszeg. Példánkban

tehát . Erről a függvényről természetesen csak azt állítjuk, hogy a legjobb a lineáris függvények közül, lehetséges, hogy más

típusú trendfüggvény jobban illeszkedik. Használjuk a továbbiakban is az eddig alkalmazott jelöléseket: (Ha nincs szezonhatás, akkor ez

a mintabeli értéke, ha van, akkor ebben a szezonalitásból származó eltérések is benne vannak.) E négyzetösszeget n-nel osztva a reziduálisszórásnégyzetet kapjuk:

E mutató önmagában nem értelmezhető, legfeljebb más típusú # nem lineáris # függvénnyel való közelítések hasonló módon nyert mutatójávalösszehasonlítva tájékoztat az illeszkedésről. Az a függvény illeszkedik jobban, ahol ez a szórásnégyzet kisebb.

Példánkban:

A négyzetgyökvonással kapott reziduális szórás úgy értelmezhető, mint az idősorértékek trend szerinti értékektől vett eltéréseinek négyzetes átlaga.

Példánkban: fő.

Képezhető a relatív reziduális szórás mutatószáma is: .

Példánkban , tehát a természetes fogyás lineáris trenddel becsült létszámai a valós létszámoktól átlagosan közel 24%-kal térnekel. Különböző típusú trendfüggvények közül a jelenség életpályáját az a függvénytípus jellemzi legjobban, ahol a relatív reziduális szórás értéke alegkisebb.

Page 286: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

276

A trendadatok ismeretében elkészíthető a trendfüggvény grafikonja (11.3. ábra). Figyeljük meg, hogy hogyan illeszkedik a trendvonal az idősortényleges adataihoz. (A változás tendenciáját az idősor első és utolsó adata alapján is bemutatja az ábra.)

11,3. ábra - A népesség természetes fogyásának alakulása Nógrád megyében

A következőkben páros tagszámú idősor lineáris trendjének meghatározását mutatjuk be. A munkanélküliek, de már semmiféle ellátásban nemrészesülők adatait a 11.9. táblázatban adjuk meg.

11.9. táblázat - Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő)

Év I. II. III. IV.negyedév

1991 1,4 1,5 2,2 2,8

Page 287: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

277

1992

1993

1994

3,2

7,4

11,4

3,8

9,0

12,2

5,5

11,1

13,0

6,0

11,1

12,8

11.10. táblázat - Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvénykiszámításához

Létszám Lineáris

Év Negyed-év

(ezer

fő) t t

trend

1991 I.

II.

III.

IV.

1,4

1,5

2,2

2,8

1

2

3

4

1,4

3,0

6,6

11,2

1

4

9

16

#15

#13

#11

#9

#21,0

#19,5

#24,2

#25,2

225

169

121

81

0,4

1,3

2,2

3,11992 I.

II.

III.

IV.

3,2

3,8

5,5

6,0

5

6

7

8

16,0

22,8

38,5

48,0

25

36

49

64

#7

#5

#3

#1

#22,4

#17,5

#16,5

#6,0

49

25

9

1

4,0

4,9

5,8

6,71993 I.

II.

III.

IV.

7,4

9,0

11,1

11,1

9

10

11

12

66,6

90,0

122,1

133,2

81

100

121

144

1

3

5

7

7,4

27,0

55,5

77,7

1

9

25

49

7,6

8,5

9,4

10,31994 I.

II.

11,4

12,2

13

14

148,2

170,8

169

196

9

11

102,6

134,2

81

121

11,2

12,1

Page 288: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

278

III.

IV.

13,0

12,8

15

16

195,0

204,8

225

256

13

15

169,0

187,5

169

225

13,0

13,9Összesen 114,4 136 1278,2 1496 0 608,6 1360 114,4

Normálegyenletek a számítással:

Az egyenletrendszer megoldásával kapott paraméterek:

A lineáris trend függvénye: .

A paraméter példánkban az 1990-es év negyedik negyedévéhez (a t értéke ebben az időpontban lenne nulla) tartozó trend szerinti érték. Ismervea jelenség időbeli alakulását (hogy ui. ebben az időszakban már voltak munkanélküliek, de még nem telt el annyi idő, amennyi után már nem jár amunkanélküli támogatás), el kell fogadnunk a paraméter negatív értékét.

A paraméter azt fejezi ki, hogy a munkanélküli-ellátásban nem részesülők létszáma negyedévenként átlagosan 0,899 ezer fővel, azaz mintegy900 fővel növekedett 1991 és 1994 között.

A módszer alapján a paraméterek értékei:

A trendegyenlet pedig:

Page 289: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

279

A kétféle módszerrel számított trendegyenlet mindkét paramétere különbözik egymástól. A paraméter azért, mert a hely ez utóbbi megoldásnál

az idősor „közepén” van, elvileg az 1992-es év IV. negyedéve és az 1993-as év I. negyedéve között. E megoldásnál a paraméter megoldóképletéből

adódó ( ) gyakorlatiasabb jelentéstartalmat hangsúlyozzuk. Eszerint 1991 és 1994 között az ellátatlan munkanélküliek negyedévenkénti

átlagos száma 7150 fő volt Nógrád megyében. A paraméter értéke azért nem egyezik meg a módszerrel kapott eredménnyel, mert (mivelpáros számú adattal dolgoztunk) az időegységek kétegységnyi távolságra kerültek egymástól. A negyedévenkénti átlagos változást ezért a kapott

paraméter kétszerese fejezi ki. megközelítően 900 fő, jelentéstartalma azonos a már leírtakkal.

A fejlődési tendenciát egyszerűbb módszerrel kiszámítva más eredményt kapunk:

Eszerint 760 fővel nő a munkanélküliek száma negyedévenként átlagosan. A két szélső adatot összekötő egyenes iránytangense jelentősen kisebb,mint a legkisebb négyzetek módszerével illesztett egyenesé. (A 11.4. ábrán látható, hogy az utolsó negyedévben # a folyamatos növekedésselszemben # visszaesés mutatkozik.)

Page 290: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

280

11,4. ábra - Az ellátatlan munkanélküliek létszámának alakulása

A 11.10. táblázat utolsó oszlopában az alapirányzat szerinti létszámok szerepelnek. A trendfüggvénnyel kapott létszámadatok összege megegyezika tényleges létszámadatok összegével. Kisimítottuk az idősort, vizsgáljuk meg, hogy a lehetséges további komponensek összege nulla-e (11.11.táblázat).

A táblázat utolsó oszlopában szereplő 8,64 nem más, mint a legkisebb négyzetek módszere szerint minimalizált négyzetösszeg:

Ebből a reziduális szórás:

Page 291: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

281

A relatív reziduális szórás:

11.11. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblájaTényleges Trend szerinti

létszám, ezer főÉv Negyed-

év

1991 I.

II.

III.

IV.

1,4

1,5

2,2

2,8

0,4

1,3

2,2

3,1

1,0

0,2

0,0

#0,3

1,00

0,04

0,00

0,091992 I.

II.

III.

IV.

3,2

3,8

5,5

6,0

4,0

4,9

5,8

6,7

#0,8

#0,9

#0,3

#0,7

0,64

0,81

0,09

0,491993 I.

II.

III.

IV.

7,4

9,0

11,1

11,1

7,6

8,5

9,4

10,3

#0,2

0,5

1,7

0,8

0,04

0,25

2,89

0,641994 I. 11,4 11,2 0,2 0,04

Page 292: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

282

II.

III.

IV.

12,2

13,0

12,8

12,1

13,0

13,9

0,1

0,0

1,1

0,01

0,00

1,21Összesen 114,4 114,4 0,0 8,64

A munkanélküli-ellátásban nem részesülők lineáris trenddel becsült létszámai a valós létszámoktól átlagosan 735 fővel térnek el. Ez az eltérés az1991 és 1994 közötti negyedévenkénti átlagos létszám alig több mint 10%-a.

Exponenciális trend

A társadalmi-gazdasági folyamatok változó környezetben nem mindig követnek lineáris tendenciát. Ha a vizsgált jelenség egyik időszakról a másikidőszakra megközelítőleg mindig ugyanannyiszorosára, azonos százalékkal nő vagy csökken, azaz az időegységenkénti relatív változás ingadozikegy állandó körül, a tartós irányzatot exponenciális trenddel fejezzük ki.

Az exponenciális trendfüggvény általános alakja:

Az exponenciális függvény pozitív esetén logaritmikus transzformációval lineáris alakra hozható, a paraméterek meghatározása visszavezethetőa lineáris függvényre (a logaritmus alapja tetszőleges lehet):

A transzformáció mutatja, hogy a függvényértékek logaritmusa, és az időegységek, t között lineáris összefüggés van. A időpontban

mért adatokból a legkisebb négyzetek módszerével meghatározhatjuk az exponenciális trendfüggvényt. Itt a a a pedig a

értékének egy realizálódott idősor alapján történt becslése.

A felírt logaritmustranszformációból következik, hogy az idősor adatainak logaritmusai és a t értékek alapján a lineáris trend paramétereinekmegoldására szolgáló normálegyenletek és a megoldóképletek alkalmasak az exponenciális trend paramétereinek a meghatározására. Ezúttal iskétféleképpen választhatjuk meg az időt jelölő t értékeit.

Ha az időszakokat folyamatosan sorszámozzuk, akkor a normálegyenletek a következők lesznek:

Page 293: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

283

A normálegyenletek megoldásai a és értékek.

A logaritmus visszakeresése megadja a és paraméter értékét, és ezek segítségével felírható az eredeti exponenciális trendegyenlet:

A módszerrel pedig a paraméterek logaritmusai az alábbiak:

A paraméterek értelmezése

A paraméter a jelenség alapirányzat szerinti értéke a jelölt időpontban. Ha , és nincs 0-val jelölt időpont, a paraméter az idősoradatainak mértani átlaga.

A paraméter az időegységenkénti átlagos relatív változás mutatószáma. Jelzi, hogy a vizsgált időszak alatt a jelenség értéke időegységenként

átlagosan hányszorosára, hány %-ra ( ) vagy hány %-kal ( , ha növekedés, , ha csökkenés) változott.

Amennyiben a paramétereket páros tagszámú idősorra a eljárással határozzuk meg, a paraméter négyzete ( ) jelzi az időegységenkéntiátlagos relatív változást.

Page 294: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

284

Jelentését tekintve a paraméter megegyezik az jelölt 2 , az időbeli változás átlagos üteme elnevezésű mutatóval. Megbízhatóbbnak tartjuk az

exponenciális trendfüggvény paraméterét, mert azt az idősor minden egyes adatát felhasználva határozzuk meg, míg az az idősor első ésutolsó adata alapján kerül kiszámításra.

Az exponenciális trend számítását a következő példán mutatjuk be (11.12. táblázat).

11.12. táblázat - Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között

Év Létszám (ezer fő) t

1982 135,8 #5 2,1329 #10,6645 251983 151,5 #4 2,1804 #8,7216 161984 157,0 #3 2,1959 #6,5877 91985 165,8 #2 2,2196 #4,4392 41986 182,9 #1 2,2622 #2,2622 11987 188,4 0 2,2751 0 01988 185,3 1 2,2679 2,2679 11989 225,4 2 2,3529 4,7058 41990 341,1 3 2,5329 7,5987 91991 440,4 4 2,6438 10,5752 101992 447,2 5 2,6505 13,2525 25

Összesen 2620,8 0 25,7141 5,7249 110

Az exponenciális trendfüggvényt a módszer alapján írjuk fel.

2 Általános statisztika I. kötet 2.2.4. pont.

Page 295: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

285

Az üdülőövezet vendéglétszámát leíró exponenciális trendfüggvény paraméterének értéke 217,6 ezer fő, amelynek példánkban egyidejűleg kettősjelentése van: egyrészt az idősor adatainak mértani átlaga, másrészt a páratlan tagszámú idősor miatt a nullával jelölt időpont trend szerinti értéke.

Konkrétan: 1982 és 1992 között az üdülőövezet vendéglétszáma évenként átlagosan 217,6 ezer fő volt, és 1987-ben az alapirányzat szerinti létszám

is 217,6 ezer fő. Gyakorlatiasabb a paraméter átlagként való értelmezése.

A paraméter értéke 1,127, ez azt jelenti, hogy 1982 és 1993 között a vendégek száma évenként átlagosan 1,127-szeresére, azaz 12,7 %-kalnövekedett.

A fejlődési tendenciát az egyszerűbb, a fejlődés átlagos üteme mutatóval meghatározva: , amely most éppen a

paraméterrel azonos átlagos relatív növekedést mutat. (A és az „azonossága” véletlenszerűen lehetséges ugyan, de nem jelentheti a kétféleszámítás „egyenértékűségét”.)

Vizsgáljuk meg ezek után, hogy mennyire illeszkedik jól a függvény (adatok a 11.13. táblázatban).

Exponenciális trend esetén a tényleges és a trendértékek logaritmusainak összege egyezik meg, azaz . (Ez az egyenlőség az első

normálegyenlet alapján igazolható.) Az eredeti adatokra nézve nem áll fenn az egyenlőség ( ).

A 11.13. táblázat utolsó oszlopában szerepel a legkisebb négyzetek módszere szerint minimalizált eltérések négyzetösszege (19 266,79), amelyalapján elvégezzük az illeszkedésvizsgálatot.

A reziduális szórásnégyzet: .

A reziduális szórás: .

Page 296: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

286

11.13. táblázat - A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása

Év

1982 135,8 119,7 16,1 259,211983 151,5 134,9 16,6 275,561984 157,0 152,0 5,0 25,001985 165,8 171,3 #5,5 30,251986 182,9 193,1 #10,2 104,041987 188,4 217,6 #29,2 852,641988 185,3 245,2 #59,9 3588,011989 225,4 276,4 #51,0 2601,001990 341,1 311,5 29,6 876,161991 440,4 351,0 89,4 7992,361992 447,2 395,6 51,6 2662,56

Összesen 2620,8 # # 19 266,79

A relatív reziduális szórás: . Az üdülőövezet vendégeinek exponenciális függvénnyel becsült létszámai a tényleges létszámoktólátlagosan 41,85 ezer fővel térnek el.

Az exponenciális függvény szerinti létszámok 17,6%-os hibával illeszkednek a tényleges létszámadatokhoz. Tekintsük meg a 11.5. ábrát, ahol azeredeti idősort és annak exponenciális trendfüggvényét látjuk.

Page 297: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

287

11,5. ábra - A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje

Mint már említettük, a összeg annak eldöntésére is alkalmas, hogy különböző típusú trendfüggvények közül melyik fejezi ki jobban

az idősor alapirányzatát. Példánk adataiból a lineáris trendfüggvényt is meghatároztuk: . Mindkét trendfüggvény alapjánmeghatározva a trendértékeket és a minimalizált négyzetösszeget, a következőket kapjuk (11.14. táblázat).

11.14. táblázat - A trendtől való eltérések összehasonlítása

Tényleges Lineáris trend szerintiÉv létszám (ezer fő)

lineáris exponenciális

Page 298: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

288

1982

1983

1984

1991

1992

135,8

151,5

157,0

440,4

447,2

84,3

115,1

145,9

361,4

392,2

2652,25

1324,96

123,21

2641,00

3025,00

259,21

275,56

25,00

7992,36

2662,56Összesen 2620,8 2620,8 29 231,70 19 266,79

Az utolsó oszlopban szereplő adatokat a 11.13. táblázatból vettük át.

Az exponenciális függvény jobban illeszkedik (19 266,79 < 29 231,70) és minden kiszámítható mutatószám is értelemszerűen kedvezőbb lesz, minta lineáris trendfüggvény

esetén.

Parabolikus trend

A jelenségek idősorai között gyakran találkozhatunk olyan típusokkal is, amelyek fejlődési tendenciájában nem figyelhető meg sem a lineárisfüggvényre jellemző abszolút, sem az exponenciális függvényre jellemző relatív változás állandósága.

Amennyiben az idősorban irányvonal-változást tapasztalunk, növekedésből csökkenést vagy csökkenésből növekedést, az idősor elég jóljellemezhető a parabolikus függvénnyel.

A továbbiakban csak a másodfokú parabolikus trendfüggvénnyel foglalkozunk, amelynek általános alakja:

A paramétereket ebben az esetben is a legkisebb négyzetek módszerével becsüljük.

A normálegyenletek a következők:

Page 299: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

289

A háromismeretlenes egyenletrendszer megoldása helyett általában a már megismert módszert használjuk. Ha akkor t további

páratlan hatványainak összege is nulla. Így a és a tagok kiesése után fennmaradó második normálegyenletből a paraméter:

A és a paraméter értékét pedig az alábbi egyenletrendszer megoldása eredményezi:

(Az első és a harmadik egyenlet „maradványa”.) Ekkor a becslés .

A parabolikus trendfüggvény paramétereinek szakmai jelentést nem tulajdonítunk, az alapirányzat értékei alapján elemezzük a vizsgált jelenséget.

A parabolikus trend számítását a magyarországi urántermelés 5 évenkénti folytonos idősorán mutatjuk be. Az adatokat és a eljárásnakmegfelelő számításokat a 11.15. táblázatban találjuk.

Page 300: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

290

11.15. táblázat - Az urántermelés alakulása Magyarországon

ÉvTermelés

(ezer

tonna) t

1960 380 #3 9 81 #1140 3420 426 #46 21161965 720 #2 4 16 #1440 2880 641 79 62411970 760 #1 1 1 #760 760 780 #20 4001975 850 0 0 0 0 0 844 6 361980 830 1 1 1 830 830 832 #2 41985 690 2 4 16 1380 2760 745 #55 30251990 620 3 9 81 1860 5580 582 38 1444

Összesen 4850 0 28 196 730 16 230 4850 0 13 266

Az egyszerűsödött egyenletrendszer:

Megoldása:

A parabolikus trendfüggvény:

Az urántermelés ötévenkénti adatait és az alapirányzat szerinti értékeit a 11.6. ábra szemlélteti.

Page 301: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

291

11,6. ábra - Az urántermelés parabolikus trendje

Napjainkban nem következett be az urántermelés irányvonalának változása.

A trendfüggvények alkalmazásával kapcsolatban a következőket jegyezzük meg:

1. Tananyagunkban csak a lineáris, az exponenciális és a parabolikus trendfüggvényt ismertettük. A gyakorlatban további függvénytípusokatis alkalmaznak az idősorban lévő tendencia leírására. A számítógépes programcsomagok segítségével bármilyen trendfüggvény könnyenelőállítható a vizsgált adathalmazra. Pl. nemcsak másod-, hanem harmadrendű vagy p-edrendű parabola is használható. Ezek az ún. polinomiálistrendfüggvények.

A polinomiális trendfüggvény az időtényező p-edfokú polinomja:

Page 302: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

292

Tapasztalati adatok alapján a legkisebb négyzetek módszerével számolva:

Ha eltérő fokszámú polinomokat hasonlítunk össze abból a szempontból, hogy melyik illeszkedik jobban az idősorhoz, akkor a reziduális szórásmutatóját a szabadságfokkal korrigálva kell használni. Ennek képlete:

ahol p a polinom fokszáma.

2. A trendfüggvény tárgyalásakor abból indulunk ki, hogy az egy speciális regressziófüggvény, ahol a független változó az időtényező. Felmerülhetbennünk, hogy különböző jelenségek időben megfigyelt adataiból regressziószámítást végezzünk. Az ilyen számításoknak számtalan „buktatója”lehet. Előfordulhat ugyanis, hogy két jelenség időbeli alakulása között akkor is mutatkozik regresszió, ha azok között semmiféle közvetlen okságikapcsolat nincs. Lehetséges továbbá, hogy feltételezhető ugyan sztochasztikus kapcsolat a két jelenség (X és Y) között, de a kiszámított regressziósegyütthatóban a magyarázóváltozó (X) hatása „keveredik” a trendhatással. Ez a keveredés önmagában nem zavar, ha a regressziószámítás főcélkitűzése a függő változó színvonalának előrejelzése, becslése. (Pl. egy áru keresletét akarjuk előre jelezni az áralakulás függvényében.) Haa regressziós együtthatónak is önálló jelentést tulajdonítunk, akkor indokolt a trendhatást kiszűrni. 3 Ennek módszereivel tananyagunkban nemfoglalkozunk.

11.3. A szezonalitás vizsgálataA szezonhatás vizsgálatánál arra keresünk választ, hogy a szezonalitás milyen mértékben vagy arányban téríti el az idősor értékét az alapirányzattól.Vizsgálatánál az idősor adataiból ki kell szűrnünk a trendhatást és a véletlen hatást.

A szezonális komponens eltérő módon viselkedik additív és multiplikatív modell esetén. Additív összefüggés esetén a szezonhatás a trendtőlvaló abszolút eltérés, multiplikatív kapcsolat esetén pedig relatív eltérés formájában jelentkezik. A szezonalitást additív modell esetén szezonáliseltérésekkel, multiplikatív modell esetén szezonindexekkel jellemezzük.

11.3.1. Szezonális eltérések számításaAdditív összefüggés és lineáris trend esetén az idősor megfigyelt értékeit a komponensek összegeként írhatjuk fel:

3 A módszer ismertetését lásd Köves Pál#Párniczky Gábor: Általános statisztika II. Közgazdasági és Jogi Könyvkiadó, Budapest, 1981.

Page 303: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

293

A trendhatást úgy szűrjük ki, hogy az idősor megfigyelt értékeiből rendre kivonjuk a trendértékeket:

Az így nyert különbségeket egyedi szezonális eltéréseknek nevezzük. Ezt követően minden periódusból vesszük a j-edik eltérést ( ) és ezekszámtani átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk:

Ha a trendet nem lineáris függvénnyel határoztuk meg, akkor nem teljesül az a feltétel, hogy a szezonális eltérések összege (illetve átlaga) nullalegyen. Mozgóátlagolással kapott trendértékek esetén ez elméletileg teljesül ugyan, de ha kevés számú megfigyelésünk van, akkor előfordulhat,

hogy .

Ilyen esetben a szezonális eltérések korrekciójára kerül sor. A korrigálás úgy történik, hogy az előbbiekben kiszámított ún. nyers szezonális eltérések

átlagát képezzük, és az átlagot levonjuk az értékekből. A korrigált szezonális eltérések:

A szezonális eltérések azt fejezik ki, hogy adott szezonban a szezonhatás miatt az idősor értéke átlagosan mennyivel magasabb vagy alacsonyabba trend szerinti értéknél.

Tekintsük ismét a 11.3. táblázatban közölt adatokat. A Nógrád megyei háztartások gázfogyasztását és a mozgóátlagolással kimutatott trend szerintifogyasztását a 11.16. táblázatban ismét közöljük.

11.16. táblázat - Az egyedi szezonális eltérések számítási táblázata

Adatok: millió

Page 304: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

294

Év NegyedévÉrtékesített

mennyiség

Mozgóátlagolásútrend

1990

I.

II.

III.

IV.

3,5

3,1

2,4

3,9

#

#

3,6

4,4

#

#

#1,2

#0,5

1991

I.

II.

III.

IV.

6,7

6,4

5,1

7,2

5,2

5,9

6,4

6,6

1,5

0,5

#1,3

0,6

1992

I.

II.

III.

IV.

7,4

7,2

5,2

8,0

6,7

6,8

7,0

7,3

0,7

0,4

#1,8

0,7

1993

I.

II.

III.

IV.

8,2

8,1

7,2

8,5

7,6

7,9

8,1

8,3

0,6

0,2

#0,9

0,2

1994

I.

II.

III.

9,3

8,0

7,2

8,2

8,7

#

1,1

#0,7

#

Page 305: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

295

IV. 11,7 # #

Az egyes negyedévek szezonális eltérései (millió ):

A korrekciós tényező:

A korrigált szezonális eltérések (millió ):

I. II. III. IV.Nyers szezonális eltérés 0,975 0,100 #1,300 0,250#Korrekciós tényező #0,006 #0,006 #0,006 #0,006Korrigált szezonális eltérés 0,969 0,094 #1,306 0,244

Az I. negyedévi szezonális eltérés azt jelenti, hogy a háztartások számára értékesített gázmennyiség 1990 és 1994 között az I. negyedévekben

átlagosan 0,969 millió haladja meg az alapirányzat szerinti mennyiséget. A III. negyedévekben a szezonhatás miatt elmarad az értékesítés az

alapirányzattól, átlagosan 1,306 millió

11.3.2. Szezonindexek számításaMultiplikatív összefüggés és exponenciális trend esetén az idősor megfigyelt értékeit a komponensek szorzataként írhatjuk fel:

Page 306: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

296

A trendhatást úgy szűrjük ki, hogy az idősor megfigyelt értékeit rendre elosztjuk a trendértékekkel:

Az így nyert hányadosokat egyedi szezonindexeknek nevezzük. Ezt követően minden periódusból vesszük a j-edik szezonindexet ( ) és ezekmértani átlagát képezzük. Ezzel a véletlen hatást szűrjük ki, illetve tompítjuk:

Ha a trendet nem exponenciális függvénnyel írtuk le, akkor nem teljesül az a feltétel, hogy . Mozgóátlagolással számított trendértékekfelhasználása esetén is előfordulhat, hogy a véletlen hatás nem szűrődik ki teljes egészében.

Ilyen esetben a szezonindexek korrekciójára kerül sor. A korrigálás úgy történik, hogy az előbbiekben kiszámított ún. nyers szezonindexek mértani

átlagát képezzük, és ezzel az átlaggal elosztjuk az értékeit.

A korrigált szezonindexek:

A szezonindex azt fejezi ki, hogy az adott szezonban a szezonhatás miatt az idősor értéke átlagosan hányszorosa az alapirányzat szerinti értéknek.

A szezonindexek számítását a következő példán mutatjuk be. (Adatok a 11.17. táblázatban.)

11.17. táblázat - Egy márkakereskedő személygépkocsi-értékesítésének adatai

NegyedévÉv I. II. III. IV.

1991 13 10 30 38

Page 307: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

297

1992

1993

1994

21

21

25

17

17

18

42

45

47

22

41

42

Az alapirányzatot az egyenlet fejezi ki, ha

Számítsuk ki az egyedi szezonindexeket! Ehhez először kiszámítjuk a trendértékeket, majd a megfelelő hányadosokat képezzük (11.18. táblázat).

Az egyes negyedévek szezonindexei (%):

A négy szezonindex szorzata:

Példánkban, mivel a trendet lineáris függvénnyel fejeztük ki, a szezonindexek szorzata jelentősen eltér a kívánatos 1-től. Mivel a , ezértkorrekciós tényezőt képezve korrigálnunk kell.

11.18. táblázat - Munkatábla az egyedi szezonindexek kiszámításához

Év Negyedév

1991 I.

II.

13

10

19

20

68,4

50,0

Page 308: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

298

III.

IV.

30

38

21

22

142,9

172,71992 I.

II.

III.

IV.

21

17

42

22

23

25

26

27

91,3

68,0

161,5

81,51993 I.

II.

III.

IV.

21

17

45

41

29

30

31

32

72,4

56,7

145,2

128,11994 I.

II.

III.

IV.

25

18

47

42

34

35

36

38

43,8

51,4

130,6

110,5

A korrekciós tényező: .

A korrigált szezonindexek %-os formában:

(Ezek szorzata: .)

Az eredmények alapján megállapíthatjuk, hogy a személygépkocsi-értékesítés pl. a II. negyedévben átlagosan csak 60,7%-a a trend szerintinek,míg pl. a IV. negyedévben a szezonhatás miatt átlagosan 28,5%-kal meghaladja a trend szerint várható forgalmat.

Page 309: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

299

11.4. Előrejelzés az eredmények alapjánA piaci viszonyokhoz való gyors alkalmazkodás szükségessé teszi, hogy bizonyos jelenségeket rövidebb, hosszabb időszakra előre megbecsüljünk.E tevékenység egyik eszköze a gazdasági előrejelzés, a prognosztika. A gazdasági előrejelzés statisztikai módszertana igen széles körű, ennekegyik fontos területe az idősorok extrapolációja. Ez abban áll, hogy a feltárt törvényszerűségeket előrevetítjük a jövőbe, feltételezve azok továbbifolytatódását.

Az extrapoláció egyik legegyszerűbb módja az, hogy a fejlődés átlagos mértéke ( ) vagy a fejlődés átlagos üteme ( ) alapján végzünk becslést. Haaz abszolút változást tételezzük fel egyenletesnek, akkor lineáris; ha a relatív változást tételezzük fel egyenletesnek, akkor exponenciális extrapolációt

hajtunk végre. Ha az idősor (vagy legalább az első és utolsó) megfigyelt adatát ismerjük, akkor az idősor adatának becslése:

Lineáris extrapolációval:

Exponenciális extrapolációval:

A két adat alapján történő becslés eredménye félrevezető is lehet. Megbízhatóbb előrejelzést végezhetünk a trendfüggvénnyel meghatározottalapirányzat alapján. Az extrapolációt úgy végezzük, hogy az előre jelezni kívánt időegység t értékét behelyettesítjük a trendfüggvénybe.

Végezzünk előrejelzést a 11.12. táblázatban közölt idősorra.

Az exponenciális trendfüggvény: volt, melyet a vendégforgalom 1982-től 1992-ig ismert adataiból számítottunk. Az 1992-es évhez tartozó t érték 5 volt.

Becslés 1996-ra: (A t értékeit „továbbvezettük”.)

Ha az idősor szezonális ingadozást is tartalmaz, az extrapolációnál azt is figyelembe kell venni. Ha megfigyeléseink negyedévekre (vagy hónapokra)vonatkoznak, akkor az ( )-adik periódus j-edik szezonjában az extrapolált érték:

Additív kapcsolatot feltételezve: .

Page 310: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

300

Multiplikatív kapcsolatot feltételezve: .

Példaként tekintsük a személygépkocsi-értékesítés korábban kiszámított adatait. Az 1991. I. negyedéve és 1994. IV. negyedéve közötti időszakotjellemző trendegyenlet:

( és 1992. IV. negyedév , 1993. I. negyedév ).

11.19. táblázat - A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek

Negyedév I. II. III. IV.Szezonindex (%) 82,1 60,7 156,4 128,5

Becslés az 1996-os év egyes negyedéveire:

11.20. táblázat - A trend és a szezonhatás előrejezése

Negyedév t Trendérték (db) Várható értékesítés (db)

Megjegyzés: 1994. IV. negyedév ; kettesével továbbvezetve jutottunk el 1996. I. negyedévére a -höz.

Mint példáinkból látjuk, az előrejelzések egyszerűen végrehajthatók. Óvakodnunk kell azonban az előrejelzések mechanikus alkalmazásától.Megbízható előrejelzést csak akkor tudunk adni, ha az alapirányzatot, a múltbeli tendenciát megbízható adatokat tartalmazó, kellően hosszú idősorokalapján állapítottuk meg.

11.5. Gyakorlófeladatok1. A színházlátogatások számának alakulása Magyarországon:

Page 311: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

301

Év Látogatás (1000)1984

1985

1986

1987

1988

1989

1990

1991

1992

5998

6072

5957

5868

5717

5195

4991

5094

4749

Feladat:

a) Ábrázoljuk az adatokat!

b) Vizsgáljuk meg az idősorban érvényesülő tendenciát lineáris trendfüggvény segítségével!

c) Értelmezzük a paramétereket!

d) Adjunk becslést 1995-re!

2. Egy intézmény létszámának alakulása:

Év Létszám (fő)1990

1991

1992

1993

20

22

25

28

Page 312: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

302

1994

1995

30

34

Feladat:

a) Számítsuk ki a lineáris trendfüggvény paramétereit a , valamint a módszerrel!

b) Számítsuk ki a trendértékeket!

3. A légi szállítás adatai:

Év Szállított utasok(1000 fő)

Utaskilométer(millió)

Díjbevétel(millió Ft)

1986

1987

1988

1989

1990

1991

1992

1197

1320

1310

1472

1517

1045

1213

1143,0

1285,6

1344,3

1576,6

1694,8

1286,7

1478,1

4 124,8

5 032,7

6 160,9

7 873,3

12 230,0

15 717,6

18 779,8

Feladat:

a) Vizsgáljuk a légi szállítás alakulását az 1986-os évhez képest, valamint évről évre!

b) Számítsunk trendfüggvényeket mindhárom idősorra!

c) Adjunk becslést 1995-re:

# az átlagos utazási távolságra,

# az 1 utasra számított átlagos díjbevételre vonatkozóan!

Page 313: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

303

4. Az egyéni vállalkozásokban foglalkoztatottak létszámának alakulása a kereskedelmi ágazatban:

Év Létszám (1000 fő)január 1-jei állapot

1984

1985

1986

1987

1988

1991

1992

43,5

50,9

58,6

67,6

78,0

146,6

201,5

Feladat:

a) Ábrázoljuk az adatokat!

b) Az ábra alapján döntsünk a trendfüggvény típusáról! Számítsuk ki a megfelelő trendfüggvény paramétereit!

c) Számítsuk ki a függvényértékeket, és rajzoljuk be a grafikus ábrába!

d) Adjunk becslést az 1995-ös évre vonatkozóan a trendfüggvény, a fejlődés átlagos mértéke ( ), valamint a fejlődés átlagos üteme ( ) alapján!Hasonlítsuk össze az eredményeket!

5. A lakosság takarékbetét-állományának alakulása Magyarországon:

Év Betétállomány(Mrd Ft)

1980

1981

1982

145,3

160,1

175,7

Page 314: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

304

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

197,1

219,4

244,1

274,9

287,5

312,7

309,5

368,6

466,0

634,7

A megadott adatok alapján kiszámított exponenciális trendfüggvény szerint a betétállomány évente átlagosan 11,2%-kal növekedett.

Ismert továbbá, hogy az 1980-ra becsült trend 140,4 Mrd Ft, 1992-re pedig 501,9 Mrd Ft. A trendfüggvény jellemzésére kiszámított

.

Feladat:

a) Írjuk fel az exponenciális trendfüggvény egyenletét a módszer szerint!

b) Számítsuk ki a lineáris trend paramétereit, és értelmezzük azokat!

c) Adjunk becslést 1995-re a jobb közelítést adó trendfüggvény alapján!

6. A GYES-en, GYED-en lévők számának alakulása Magyarországon:

Év 1000 fő1980

1981

264

254

Page 315: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

305

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

242

233

224

218

220

225

231

241

245

247

272

Feladat:

a) Ábrázoljuk az adatokat! Döntsünk a legmegfelelőbb trendfüggvény típusáról!

b) Számítsuk ki a paramétereket, és írjuk fel a trendfüggvényt!

c) A trendadatok ismeretében rajzoljuk az ábrába a függvényt!

7. Egy áruházlánc boltjaiban értékesített fűszerek forgalmának alakulása:

Év Negyedév Forgalom (millió Ft)1990 I.

II.

III.

IV.

38

23

37

71

Page 316: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

306

1991 I.

II.

III.

IV.

35

27

36

721992 I.

II.

III.

IV.

38

27

41

751993 I.

II.

III.

IV.

41

25

41

80

Feladat:

a) Ábrázoljuk az adatokat!

b) Számítsuk ki a mozgóátlagolású trend adatait!

c) Vizsgáljuk a szezonhatást! Értelmezzük a kapott eredményeket!

d) Mivel a mozgóátlagok alapján nem készíthetünk pontos előrejelzést, számítsunk lineáris trendfüggvényt a centrírozott mozgóátlagokból!

e) Adjunk becslést az 1996-os év fűszerforgalmára vonatkozóan, a szezonalitást is figyelembe véve!

8. Egy építőipari vállalkozás tevékenységének árbevétele a következőképpen alakult (M Ft):

NegyedévÉv

I. II. III. IV.

Page 317: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

307

1991

1992

1993

1994

20

22

25

28

30

33

36

40

40

50

60

70

10

13

15

20

Az alapirányzatot leíró lineáris trend egyenlete:

Feladat:

a) Az összetevők szorzatszerű kapcsolatának feltételezésével vizsgáljuk meg az árbevétel alakulásának szezonalitását!

b) Adjunk becslést az 1995-ös év egyes negyedéveire vonatkozóan!

c) Számítsuk ki, hogy mennyi a véletlen hatás 1994 IV. negyedévében?

9. Egy déligyümölcsöket importáló gazdálkodó szervezet citromforgalmának szezonalitását vizsgáltuk. A trendértéket az függvény alapján becsültük. (Mértékegység: tonna.)

Az egyedi szezonális eltérések táblázata:

NegyedévÉv

I. II. III. IV.1980

1991

1992

1993

1994

158

107

167

206

186

15

#25

#16

44

43

#208

#168

#198

#148

#129

#10

#21

#31

#1

#22

Feladat:

a) Számítsuk ki az egyes negyedévek korrigált szezonális eltérését! Mondjuk meg jelentésüket!

Page 318: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Az idősorok összetevőinek vizsgálata

308

b) Adjunk becslést az 1995-ös év megfelelő negyedéveire a trend- és a szezonhatás ismeretében!

c) Mennyi a véletlen tényezők szerepe 1995 II. negyedévében, ha ismerjük, hogy ennek az időszaknak a tényleges forgalma 680 tonna volt?

Page 319: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

309

A. függelék - Függelék1. táblázat - A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata

x x x x

0,00 0,5000 0,34 0,6331 0,68 0,7517 1,02 0,84610,01 0,5040 0,35 0,6368 0,69 0,7549 1,03 0,84850,02 0,5080 0,36 0,6406 0,70 0,7580 1,04 0,85080,03 0,5120 0,37 0,6443 0,71 0,7611 1,05 0,85310,04 0,5160 0,38 0,6480 0,72 0,7642 1,06 0,85540,05 0,5199 0,39 0,6517 0,73 0,7673 1,07 0,85770,06 0,5239 0,40 0,6554 0,74 0,7704 1,08 0,85990,07 0,5279 0,41 0,6591 0,75 0,7734 1,09 0,86210,08 0,5319 0,42 0,6628 0,76 0,7764 1,10 0,86430,09 0,5359 0,43 0,6664 0,77 0,7794 1,11 0,86650,10 0,5398 0,44 0,6700 0,78 0,7823 1,12 0,86860,11 0,5438 0,45 0,6736 0,79 0,7852 1,13 0,87080,12 0,5478 0,46 0,6772 0,80 0,7881 1,14 0,87290,13 0,5517 0,47 0,6808 0,81 0,7910 1,15 0,87490,14 0,5557 0,48 0,6844 0,82 0,7939 1,16 0,87700,15 0,5596 0,49 0,6879 0,83 0,7967 1,17 0,87900,16 0,5636 0,50 0,6915 0,84 0,7995 1,18 0,88100,17 0,5675 0,51 0,6950 0,85 0,8023 1,19 0,88300,18 0,5714 0,52 0,6985 0,86 0,8051 1,20 0,88490,19 0,5753 0,53 0,7019 0,87 0,8078 1,21 0,88690,20 0,5793 0,54 0,7054 0,88 0,8106 1,22 0,88880,21 0,5832 0,55 0,7088 0,89 0,8133 1,23 0,8907

Page 320: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

310

0,22 0,5871 0,56 0,7123 0,90 0,8159 1,24 0,89250,23 0,5910 0,57 0,7157 0,91 0,8186 1,25 0,89440,24 0,5948 0,58 0,7190 0,92 0,8212 1,26 0,89620,25 0,5987 0,59 0,7224 0,93 0,8238 1,27 0,89800,26 0,6026 0,60 0,7257 0,94 0,8264 1,28 0,89970,27 0,6064 0,61 0,7291 0,95 0,8289 1,29 0,90150,28 0,6103 0,62 0,7324 0,96 0,8315 1,30 0,90320,29 0,6141 0,63 0,7357 0,97 0,8340 1,31 0,90490,30 0,6179 0,64 0,7389 0,98 0,8365 1,32 0,90660,31 0,6217 0,65 0,7422 0,99 0,8389 1,33 0,90820,32 0,6255 0,66 0,7454 1,00 0,8413 1,34 0,90990,33 0,6293 0,67 0,7486 1,01 0,8438 1,35 0,9115

1. táblázat - A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás)

x x x x

1,36 0,9131 1,70 0,9554 2,08 0,9812 2,76 0,99711,37 0,9147 1,71 0,9564 2,10 0,9821 2,78 0,99731,38 0,9162 1,72 0,9573 2,12 0,9830 2,80 0,99741,39 0,9177 1,73 0,9582 2,14 0,9838 2,82 0,99761,40 0,9192 1,74 0,9591 2,16 0,9846 2,84 0,99771,41 0,9207 1,75 0,9599 2,18 0,9854 2,86 0,99791,42 0,9222 1,76 0,9608 2,20 0,9861 2,88 0,99801,43 0,9236 1,77 0,9616 2,22 0,9868 2,90 0,99811,44 0,9251 1,78 0,9625 2,24 0,9875 2,92 0,99821,45 0,9265 1,79 0,9633 2,26 0,9881 2,94 0,99841,46 0,9279 1,80 0,9641 2,28 0,9887 2,96 0,99851,47 0,9292 1,81 0,9649 2,30 0,9893 2,98 0,9986

Page 321: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

311

1,48 0,9306 1,82 0,9656 2,32 0,9898 3,00 0,99871,49 0,9319 1,83 0,9664 2,34 0,9904 3,05 0,99891,50 0,9332 1,84 0,9671 2,36 0,9909 3,10 0,99901,51 0,9345 1,85 0,9678 2,38 0,9913 3,15 0,99921,52 0,9357 1,86 0,9686 2,40 0,9918 3,20 0,99931,53 0,9370 1,87 0,9693 2,42 0,9922 3,25 0,99941,54 0,9382 1,88 0,9699 2,44 0,9927 3,30 0,99951,55 0,9394 1,89 0,9706 2,46 0,9931 3,35 0,99961,56 0,9406 1,90 0,9713 2,48 0,9934 3,40 0,99971,57 0,9418 1,91 0,9719 2,50 0,9938 3,45 0,99971,58 0,9429 1,92 0,9726 2,52 0,9941 3,50 0,99981,59 0,9441 1,93 0,9732 2,54 0,9945 3,55 0,99981,60 0,9452 1,94 0,9738 2,56 0,9948 3,60 0,99981,61 0,9463 1,95 0,9744 2,58 0,9951 3,65 0,99991,62 0,9474 1,96 0,9750 2,60 0,9953 3,70 0,99991,63 0,9484 1,97 0,9756 2,62 0,9956 3,75 0,99991,64 0,9495 1,98 0,9761 2,64 0,9959 3,80 0,99991,65 0,9505 1,99 0,9767 2,66 0,99611,66 0,9515 2,00 0,9772 2,68 0,99631,67 0,9525 2,02 0,9783 2,70 0,99651,68 0,9535 2,04 0,9793 2,72 0,99671,69 0,9545 2,06 0,9803 2,74 0,9969

2. táblázat - A -eloszlás táblázata

szf 0,005 0,01 0,025 0,05 0,1 0,251 0,0000 0,0002 0,0010 0,0039 0,0158 0,1022 0,0100 0,0201 0,0506 0,103 0,211 0,575

Page 322: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

312

3 0,072 0,115 0,216 0,352 0,5844 1,214 0,207 0,297 0,484 0,711 1,06 1,925 0,412 0,554 0,831 1,15 1,61 2,676 0,676 0,872 1,24 1,64 2,20 3,457 0,989 1,24 1,69 2,17 2,83 4,258 1,34 1,65 2,18 2,73 3,49 5,079 1,73 2,09 2,70 3,33 4,17 5,90

10 2,16 2,56 3,25 3,94 4,87 6,7411 2,60 3,05 3,82 4,57 5,58 7,5812 3,07 3,57 4,40 5,23 6,30 8,4413 3,57 4,11 5,01 5,89 7,04 9,3014 4,07 4,66 5,63 6,57 7,79 10,215 4,60 5,23 6,26 7,26 8,55 11,016 5,14 5,81 6,91 7,96 9,31 11,917 5,70 6,41 7,56 8,67 10,1 12,818 6,26 7,01 8,23 9,39 10,9 13,719 6,84 7,63 8,91 10,1 11,7 14,620 7,43 8,26 9,59 10,9 12,4 15,521 8,03 8,90 10,3 11,6 13,2 16,322 8,64 9,54 11,0 12,3 14,0 17,223 9,26 10,2 11,7 13,1 14,8 18,124 9,89 10,9 12,4 13,8 15,7 19,025 10,5 11,5 13,1 14,6 16,5 19,926 11,2 12,2 13,8 15,4 17,3 20,827 11,8 12,9 14,6 16,2 18,1 21,728 12,5 13,6 15,3 16,9 18,9 22,729 13,1 14,3 16,0 17,7 19,8 23,630 13,8 15,0 16,8 18,5 20,6 24,5

Page 323: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

313

40 20,7 22,2 24,4 26,5 29,1 33,750 28,0 29,7 32,4 34,8 37,7 42,960 35,5 37,5 40,5 43,2 46,5 52,380

100

51,2

67,3

53,5

70,1

57,2

74,2

60,4

77,9

64,3

82,4

71,1

90,1200 152,2 156,4 162,7 168,3 174,8 186,2

2. táblázat - A -eloszlás táblázata (folytatás)

szf 0,5 0,75 0,9 0,95 0,975 0,9951 0,455 1,32 2,71 3,84 5,02 7,8792 1,39 2,77 4,61 5,99 7,38 10,63 2,37 4,11 6,25 7,81 9,35 12,84 3,36 5,39 7,78 9,49 11,1 14,95 4,35 6,63 9,24 11,1 12,8 16,76 5,35 7,84 10,6 12,6 14,4 18,57 6,35 9,04 12,0 14,1 16,0 20,38 7,34 10,2 13,4 15,5 17,5 22,09 8,34 11,4 14,7 16,9 19,0 23,6

10 9,34 12,5 16,0 18,3 20,5 25,211 10,3 13,7 17,3 19,7 21,9 26,812 11,3 14,8 18,5 21,0 23,3 28,313 12,3 16,0 19,8 22,4 24,7 29,814 13,3 17,1 21,1 23,7 26,1 31,315 14,3 18,2 22,3 25,0 27,5 32,816 15,3 19,4 23,5 26,3 28,8 34,317 16,3 20,5 24,8 27,6 30,2 35,718 17,3 21,6 26,0 28,9 31,5 37,2

Page 324: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

314

19 18,3 22,7 27,2 30,1 32,9 38,620 19,3 23,8 28,4 31,4 34,2 40,021 20,3 24,9 29,6 32,7 35,5 41,422 21,3 26,0 30,8 33,9 36,8 42,823 22,3 27,1 32,0 35,2 38,1 44,224 23,3 28,2 33,2 36,4 39,4 45,625 24,3 29,3 34,4 37,7 40,6 46,926 25,3 30,4 35,6 38,9 41,9 48,327 26,3 31,5 36,7 40,1 43,2 49,628 27,3 32,6 37,9 41,3 44,5 51,029 28,3 33,7 39,1 42,6 45,7 52,330 29,3 34,8 40,3 43,8 47,0 53,740 39,3 45,6 51,8 55,8 59,3 66,850 49,3 56,3 63,2 67,5 71,4 79,560 59,3 67,0 74,4 79,1 83,3 92,080 79,3 88,1 96,6 101,9 106,6 116,3

100 99,3 109,1 118,5 124,3 129,6 140,2200 199,3 213,1 226,0 234,0 241,1 255,3

3. táblázat - AzF-eloszlás táblázata

1 2 3 4 5 6 7 8 9

1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,542 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,383 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,814 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00

Page 325: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

315

5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,776 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,107 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,688 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,399 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,0211 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,9012 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,8013 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,7114 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,6515 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,5916 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,5417 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,4918 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,4619 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,4220 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,3921 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,3722 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,3423 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,3224 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,3025 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,2826 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,2727 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,2528 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,2429 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,2230 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,2140 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,1250 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07

Page 326: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

316

100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96∞ 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89

3. táblázat - Az F-eloszlás táblázata (folytatás)

10 15 20 30 40 50 100 120 ∞

241,88 245,95 248,02 250,10 251,14 251,77 253,04 253,25 254,19 119,40 19,43 19,45 19,46 19,47 19,48 19,49 19,49 19,49 28,79 8,70 8,66 8,62 8,59 8,58 8,55 8,55 8,53 35,96 5,86 5,80 5,75 5,72 5,70 5,66 5,66 5,63 44,74 4,62 4,56 4,50 4,46 4,44 4,41 4,40 4,37 54,06 3,94 3,87 3,81 3,77 3,75 3,71 3,70 3,67 63,64 3,51 3,44 3,38 3,34 3,32 3,27 3,27 3,23 73,35 3,22 3,15 3,08 3,04 3,02 2,97 2,97 2,93 83,14 3,01 2,94 2,86 2,83 2,80 2,76 2,75 2,71 92,98 2,85 2,77 2,70 2,66 2,64 2,59 2,58 2,54 102,85 2,72 2,65 2,57 2,53 2,51 2,46 2,45 2,41 112,75 2,62 2,54 2,47 2,43 2,40 2,35 2,34 2,30 122,67 2,53 2,46 2,38 2,34 2,31 2,26 2,25 2,21 132,60 2,46 2,39 2,31 2,27 2,24 2,19 2,18 2,14 142,54 2,40 2,33 2,25 2,20 2,18 2,12 2,11 2,07 152,49 2,35 2,28 2,19 2,15 2,12 2,07 2,06 2,02 162,45 2,31 2,23 2,15 2,10 2,08 2,02 2,01 1,97 172,41 2,27 2,19 2,11 2,06 2,04 1,98 1,97 1,92 182,38 2,23 2,16 2,07 2,03 2,00 1,94 1,93 1,88 19

Page 327: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

317

2,35 2,20 2,12 2,04 1,99 1,97 1,91 1,90 1,85 202,32 2,18 2,10 2,01 1,96 1,94 1,88 1,87 1,82 212,30 2,15 2,07 1,98 1,94 1,91 1,85 1,84 1,79 222,27 2,13 2,05 1,96 1,91 1,88 1,82 1,81 1,76 232,25 2,11 2,03 1,94 1,89 1,86 1,80 1,79 1,74 242,24 2,09 2,01 1,92 1,87 1,84 1,78 1,77 1,72 252,22 2,07 1,99 1,90 1,85 1,82 1,76 1,75 1,70 262,20 2,06 1,97 1,88 1,84 1,81 1,74 1,73 1,68 272,19 2,04 1,96 1,87 1,82 1,79 1,73 1,71 1,66 282,18 2,03 1,94 1,85 1,81 1,77 1,71 1,70 1,65 292,16 2,01 1,93 1,84 1,79 1,76 1,70 1,68 1,63 302,08 1,92 1,84 1,74 1,69 1,66 1,59 1,58 1,52 402,03 1,87 1,78 1,69 1,63 1,60 1,52 1,51 1,45 501,93 1,77 1,68 1,57 1,52 1,48 1,39 1,38 1,30 1001,91 1,75 1,66 1,55 1,50 1,46 1,37 1,35 1,27 1201,84 1,68 1,58 1,47 1,41 1,36 1,26 1,24 1,11 ∞

3. táblázat - Az F-eloszlás táblázata (folytatás)

1 2 3 4 5 6 7 8 9

1 647,79 799,48 864,15 899,60 921,83 937,11 948,20 956,64 963,282 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,393 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,474 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,905 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,686 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52

Page 328: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

318

7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,828 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,369 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03

10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,7811 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,5912 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,4413 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,3114 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,2115 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,1216 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,0517 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,9818 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,9319 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,8820 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,8421 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,8022 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,7623 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,7324 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,7025 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,6826 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,6527 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,6328 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,6129 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,5930 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,5740 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,4550 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38

100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22

Page 329: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

319

∞ 5,03 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11

3. táblázat - Az F-eloszlás táblázata (folytatás)

10 15 20 30 40 50 100 120 ∞

968,63 984,87 993,08 1001,4 1005,6 1008,1 1013,2 1014,0 1018,2 139,40 39,43 39,45 39,46 39,47 39,48 39,49 39,49 39,50 214,42 14,25 14,17 14,08 14,04 14,01 13,96 13,95 13,90 38,84 8,66 8,56 8,46 8,41 8,38 8,32 8,31 8,26 46,62 6,43 6,33 6,23 6,18 6,14 6,08 6,07 6,02 55,46 5,27 5,17 5,07 5,01 4,98 4,92 4,90 4,85 64,76 4,57 4,47 4,36 4,31 4,28 4,21 4,20 4,14 74,30 4,10 4,00 3,89 3,84 3,81 3,74 3,73 3,67 83,96 3,77 3,67 3,56 3,51 3,47 3,40 3,39 3,33 93,72 3,52 3,42 3,31 3,26 3,22 3,15 3,14 3,08 103,53 3,33 3,23 3,12 3,06 3,03 2,96 2,94 2,88 113,37 3,18 3,07 2,96 2,91 2,87 2,80 2,79 2,73 123,25 3,05 2,95 2,84 2,78 2,74 2,67 2,66 2,60 133,15 2,95 2,84 2,73 2,67 2,64 2,56 2,55 2,49 143,06 2,86 2,76 2,64 2,59 2,55 2,47 2,46 2,40 152,99 2,79 2,68 2,57 2,51 2,47 2,40 2,38 2,32 162,92 2,72 2,62 2,50 2,44 2,41 2,33 2,32 2,25 172,87 2,67 2,56 2,44 2,38 2,35 2,27 2,26 2,19 182,82 2,62 2,51 2,39 2,33 2,30 2,22 2,20 2,13 192,77 2,57 2,46 2,35 2,29 2,25 2,17 2,16 2,09 202,73 2,53 2,42 2,31 2,25 2,21 2,13 2,11 2,04 21

Page 330: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

320

2,70 2,50 2,39 2,27 2,21 2,17 2,09 2,08 2,00 222,67 2,47 2,36 2,24 2,18 2,14 2,06 2,04 1,97 232,64 2,44 2,33 2,21 2,15 2,11 2,02 2,01 1,94 242,61 2,41 2,30 2,18 2,12 2,08 2,00 1,98 1,91 252,59 2,39 2,28 2,16 2,09 2,05 1,97 1,95 1,88 262,57 2,36 2,25 2,13 2,07 2,03 1,94 1,93 1,85 272,55 2,34 2,23 2,11 2,05 2,01 1,92 1,91 1,83 282,53 2,32 2,21 2,09 2,03 1,99 1,90 1,89 1,81 292,51 2,31 2,20 2,07 2,01 1,97 1,88 1,87 1,79 302,39 2,18 2,07 1,94 1,88 1,83 1,74 1,72 1,64 402,32 2,11 1,99 1,87 1,80 1,75 1,66 1,64 1,55 502,18 1,97 1,85 1,71 1,64 1,59 1,48 1,46 1,35 1002,16 1,94 1,82 1,69 1,61 1,56 1,45 1,43 1,31 1202,05 1,83 1,71 1,57 1,49 1,43 1,30 1,27 1,00 ∞

3. táblázat - Az F-eloszlás táblázata (folytatás)

1 2 3 4 5 6 7 8 9

1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,42 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,393 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,344 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,665 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,166 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,987 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,728 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91

Page 331: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

321

9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,3510 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,9411 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,6312 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,3913 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,1914 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,0315 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,8916 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,7817 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,6818 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,6019 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,5220 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,4621 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,4022 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,3523 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,3024 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,2625 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,2226 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,1827 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,1528 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,1229 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,0930 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,0740 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,8950 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78

100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56∞ 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41

Page 332: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

322

3. táblázat - Az F-eloszlás táblázata (folytatás)

10 15 20 30 40 50 100 120 ∞

6055,9 6157,0 6208,7 6260,4 6286,4 6302,3 6333,9 6339,5 6365,6 199,40 99,43 99,45 99,47 99,48 99,48 99,49 99,49 99,50 227,23 26,87 26,69 26,50 26,41 26,35 26,24 26,22 26,13 314,55 14,20 14,02 13,84 13,75 13,69 13,58 13,56 13,46 410,05 9,72 9,55 9,38 9,29 9,24 9,13 9,11 9,02 57,87 7,56 7,40 7,23 7,14 7,09 6,99 6,97 6,88 66,62 6,31 6,16 5,99 5,91 5,86 5,75 5,74 5,65 75,81 5,52 5,36 5,20 5,12 5,07 4,96 4,95 4,86 85,26 4,96 4,81 4,65 4,57 4,52 4,41 4,40 4,31 94,85 4,56 4,41 4,25 4,17 4,12 4,01 4,00 3,91 104,54 4,25 4,10 3,94 3,86 3,81 3,71 3,69 3,60 114,30 4,01 3,86 3,70 3,62 3,57 3,47 3,45 3,36 124,10 3,82 3,66 3,51 3,43 3,38 3,27 3,25 3,17 133,94 3,66 3,51 3,35 3,27 3,22 3,11 3,09 3,01 143,80 3,52 3,37 3,21 3,13 3,08 2,98 2,96 2,87 153,69 3,41 3,26 3,10 3,02 2,97 2,86 2,84 2,75 163,59 3,31 3,16 3,00 2,92 2,87 2,76 2,75 2,65 173,51 3,23 3,08 2,92 2,84 2,78 2,68 2,66 2,57 183,43 3,15 3,00 2,84 2,76 2,71 2,60 2,58 2,49 193,37 3,09 2,94 2,78 2,69 2,64 2,54 2,52 2,42 203,31 3,03 2,88 2,72 2,64 2,58 2,48 2,46 2,36 213,26 2,98 2,83 2,67 2,58 2,53 2,42 2,40 2,31 223,21 2,93 2,78 2,62 2,54 2,48 2,37 2,35 2,26 23

Page 333: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

323

3,17 2,89 2,74 2,58 2,49 2,44 2,33 2,31 2,21 243,13 2,85 2,70 2,54 2,45 2,40 2,29 2,27 2,17 253,09 2,81 2,66 2,50 2,42 2,36 2,25 2,23 2,13 263,06 2,78 2,63 2,47 2,38 2,33 2,22 2,20 2,10 273,03 2,75 2,60 2,44 2,35 2,30 2,19 2,17 2,07 283,00 2,73 2,57 2,41 2,33 2,27 2,16 2,14 2,04 292,98 2,70 2,55 2,39 2,30 2,25 2,13 2,11 2,01 302,80 2,52 2,37 2,20 2,11 2,06 1,94 1,92 1,81 402,70 2,42 2,27 2,10 2,01 1,95 1,82 1,80 1,68 502,50 2,22 2,07 1,89 1,80 1,74 1,60 1,57 1,43 1002,47 2,19 2,03 1,86 1,76 1,70 1,56 1,53 1,38 1202,32 2,04 1,88 1,70 1,59 1,53 1,36 1,33 1,00 ∞

4. táblázat - A Student-féle t-eloszlás táblázata

szf 0,55 0,6 0,7 0,8 0,90 0,95 0,975 0,9775 0,99 0,9951 0,158 0,325 0,727 1,376 3,08 6,31 12,71 14,12 31,82 63,662 0,142 0,289 0,617 1,061 1,89 2,92 4,30 4,55 6,96 9,923 0,137 0,277 0,584 0,978 1,64 2,35 3,18 3,32 4,54 5,844 0,134 0,271 0,569 0,941 1,53 2,13 2,78 2,88 3,75 4,605 0,132 0,267 0,559 0,920 1,48 2,02 2,57 2,66 3,36 4,036 0,131 0,265 0,553 0,906 1,44 1,94 2,45 2,52 3,14 3,717 0,130 0,263 0,549 0,896 1,41 1,89 2,36 2,44 3,00 3,508 0,130 0,262 0,546 0,889 1,40 1,86 2,31 2,37 2,90 3,369 0,129 0,261 0,543 0,883 1,38 1,83 2,26 2,33 2,82 3,25

10 0,129 0,260 0,542 0,879 1,37 1,81 2,23 2,29 2,76 3,1711 0,129 0,260 0,540 0,876 1,36 1,80 2,20 2,26 2,72 3,1112 0,128 0,259 0,539 0,873 1,36 1,78 2,18 2,24 2,68 3,0513 0,128 0,259 0,538 0,870 1,35 1,77 2,16 2,22 2,65 3,01

Page 334: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Függelék

324

14 0,128 0,258 0,537 0,868 1,35 1,76 2,14 2,20 2,62 2,9815 0,128 0,258 0,536 0,866 1,34 1,75 2,13 2,19 2,60 2,9516 0,128 0,258 0,535 0,865 1,34 1,75 2,12 2,17 2,58 2,9217 0,128 0,257 0,534 0,863 1,33 1,74 2,11 2,16 2,57 2,9018 0,127 0,257 0,534 0,862 1,33 1,73 2,10 2,15 2,55 2,8819 0,127 0,257 0,533 0,861 1,33 1,73 2,09 2,15 2,54 2,8620 0,127 0,257 0,533 0,860 1,33 1,72 2,09 2,14 2,53 2,8521 0,127 0,257 0,532 0,859 1,32 1,72 2,08 2,13 2,52 2,8322 0,127 0,256 0,532 0,858 1,32 1,72 2,07 2,13 2,51 2,8223 0,127 0,256 0,532 0,858 1,32 1,71 2,07 2,12 2,50 2,8124 0,127 0,256 0,531 0,857 1,32 1,71 2,06 2,12 2,49 2,8025 0,127 0,256 0,531 0,856 1,32 1,71 2,06 2,11 2,49 2,7926 0,127 0,256 0,531 0,856 1,31 1,71 2,06 2,11 2,48 2,7827 0,127 0,256 0,531 0,855 1,31 1,70 2,05 2,10 2,47 2,7728 0,127 0,256 0,530 0,855 1,31 1,70 2,05 2,10 2,47 2,7629 0,127 0,256 0,530 0,854 1,31 1,70 2,05 2,10 2,46 2,7630 0,127 0,256 0,530 0,854 1,31 1,70 2,04 2,09 2,46 2,7540 0,126 0,255 0,529 0,851 1,30 1,68 2,02 2,07 2,42 2,7050 0,126 0,255 0,528 0,849 1,30 1,68 2,01 2,06 2,40 2,68

100 0,126 0,254 0,526 0,845 1,29 1,66 1,98 2,03 2,36 2,63120 0,126 0,254 0,526 0,845 1,29 1,66 1,98 2,03 2,36 2,62∞ 0,126 0,253 0,524 0,842 1,28 1,65 1,96 2,01 2,33 2,58

Page 335: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

325

B. függelék - Tárgymutatóbecslés

intervallum#

pont#

sokasági arány

sokasági értékösszeg

sokasági szórásnégyzet

sokasági várható érték

becslőfüggvény

determinációs együttható

elégségesség

elfogadási tartomány

előrejelzés (extrapoláció)

elsőfajú hiba

erőfüggvény

F-próba

függetlenségvizsgálat

hatásosság

hiba

elsőfajú

Page 336: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Tárgymutató

326

#határ

másodfajú

mintavételi

nem mintavételi

standard

hipotézis

alternatív

null#

#-ellenőrzés

#vizsgálat

idősorelemzés

determinisztikus

sztochasztikus

idősorok összetevői

additív

multiplikatív

illeszkedésvizsgálat

becsléses

tiszta

kiválasztási arány

konfidenciaintervallum

Page 337: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Tárgymutató

327

egyedi becslések

paraméterek

konzisztencia

korrekciós tényező

korrelációs együttható

lineáris

parciális

páronkénti

rang#

többszörös

korrelációs mátrix

kovariancia

#mátrix

kritikus érték

kritikus tartomány

bal oldali

jobb oldali

kétoldali

legkisebb négyzetek módszere

lineáris regresszió

másodfajú hiba

Page 338: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Tárgymutató

328

minta

# elemszáma

#jellemző

egyszerű véletlen

független

rétegzett

mintaelosztás

arányos

egyenletes

Neyman-féle

mozgóátlagolás

multikollinearitás

# mérőszáma

normálegyenletek

transzformált

periodikus ingadozás

pontdiagram

próba (teszt)

#függvény

arányra vonatkozó

egymintás t-

Page 339: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Tárgymutató

329

egymintás z-

F-

kétmintás t-

kétmintás z-

χ2 -

szórásra irányuló

regresszió

analitikus

elméleti

standard lineáris

tapasztalati

regressziófüggvény

# abszolút hibája

# relatív hibája

analitikus

exponenciális

hatványkitevős

parabolikus

tapasztalati

regressziós együttható

parciális

Page 340: Általános statisztika II - tankonyvtar.hu...Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Tárgymutató

330

# tesztelése

robusztus becslés

rugalmassági együttható

parciális

standard hiba

szezonális eltérés

szezonindex

szignifikanciaszint

torzítatlanság

aszimptotikus

trend 243

analitikus

exponenciális

lineáris

mozgóátlagolású

parabolikus

polinomiális

útdiagram

varianciaanalízis

#-tábla

variancia-kovariancia mátrix