r egressioonanalüüs

20
Regressioonanalüüs

Upload: maia-benjamin

Post on 30-Dec-2015

77 views

Category:

Documents


0 download

DESCRIPTION

R egressioonanalüüs. Lineaarse regressiooni korral uuritakse sõltuvust kujul. (1). Tegelikult vaadeldud Y i on valemiga (1) arvutatud väärtusest mõnevõrra ( e i võrra) erinev:. Lineaarne regressioon. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: R egressioonanalüüs

Regressioonanalüüs

Page 2: R egressioonanalüüs

Lineaarne regressioon

Ühe tunnuse (juhusliku suuruse) modelleerimisega teise tunnuse abil tegeleb regressioonanalüüs.

kus ja on vähimruutude meetodi abil määratavad parameeetrid e. regressioonikordajad.

Tegelikult vaadeldud Yi on valemiga (1) arvutatud väärtusest mõnevõrra (i võrra) erinev:

iii xY

Lineaarse regressiooni korral uuritakse sõltuvust kujul

xxXYE )|( (1)

Kui tunnuste X ja Y vahel on tugev lineaarne korrelatsioon, siis on võimalik koostada lineaarne mudel, mis väljendab ühe tunnuse keskväärtuse sõltuvust teisest tunnusest.

Page 3: R egressioonanalüüs

Lineaarne regressioonLineaarse mudeli puhul eeldatakse, et

0iE1)

2) (juhuslikud suurused i on sama dispersiooniga)2 iD

3) (juhuslikud suurused i on sõltumatud)jikuiji ,0),cov(

x

y

xi

E(Yi|X=xi )

Page 4: R egressioonanalüüs

Vähimruutude meetod (I)

x

yy = a + bx^

yi^

xi

yi ei

Hälbed: ei = (a + bxi) - yi

Hälvete ruutude summa:

0),()(1

2

1

22

baGybxaesn

iii

n

iir

Vähimruutude meetodi idee kohaselt leitakse kahe muutuja funktsiooni G(a, b) miinimum.

Page 5: R egressioonanalüüs

Vähimruutude meetod (II)

Esmalt leiame kriitilise punktid, võrdsustades osatuletised nulliga:

n

iii ybxa

aaG

1

2)(

n

iii ybxa

a1

2)(

n

iii ybxa

1)(2

0

n

i

n

ii

n

ii ybxa

1 11222

n

ii

n

ii yxban

11222

summa diferentseerimise reegel liitfunktsiooni diferentseerimise reegel

.11

n

ii

n

ii yxbna

Valimi põhjal leitavad konstandid

Lineaarne võrrand a ja b suhtes.

Page 6: R egressioonanalüüs

Vähimruutude meetod (III)

Samuti peab kriitilises punktis nulliga võrduma osatuletis b järgi:

n

iiii xybxa

10)(2

.2

iiii

ii

yxxbxa

yxbna

Sellest süsteemist avaldame a ja b:

,)( 22

2

ii

iiiii

xxn

yxxxya .

)( 22 ii

iiii

xxnyxyxn

b

n

iii ybxa

bbG

1

2)(

.11

2

1

n

iii

n

ii

n

ii yxxbxa

Lineaarne võrrand a ja b suhtes.

Saime kahest tundmatust ja kahest võrrandist koosneva lineaarse võrrandisüsteemi:

Page 7: R egressioonanalüüs

Vähimruutude meetod (IV)Kui süsteem on lahenduv, siis, leides teist järku osatuletised kriitilise punkti kohal, saab näidata, et selles punktis on funktsioonil G(a, b) miinimum.

),(ˆ xxbyy

Regressioonisirge võrrand on avaldatav ka kujul

millest on näha, et regressioonisirge läbib punkti , mida nimetatakse korrelatsiooni keskpunktiks.

),( yx

Page 8: R egressioonanalüüs

DeterminatsioonikordajaDeterminatsioonikordaja mõõdab, kui hästi regressioonisirge lähendab vaatlusandmeid.

Selleks, et determinatsioonikordajat leida, arvutatakse:

1) mõõdetud väärtuste yi aritmeetiline keskmine ; y

2) mõõdetud väärtuste yi koguvariatsioon ; 22 )( yys iv

3) lineaarse regressioonimudeliga selgitatav variatsioon

,)ˆ( 22 yys is

kus on lineaarse regressioonimudeli kohaselt arvutatud väärtus („silutud väärtus“) ;

ii xbay ˆ

4) variatsioon, mis ei ole selgitatav lineaarse regressiooniga:

.)ˆ( 22iir yys

Page 9: R egressioonanalüüs

Determinatsioonikordaja (II)Suurused on seotud valemiga222

rsv sss ja ,

.222rsv sss

5) Determinatsioonikordaja on lineaarse regressioonimudeliga selgitatava variatsiooni ja koguvariatsiooni suhe 2

ss

.2

2

2

22

2

22 1

v

r

v

rv

v

s

ss

sss

ss

r

2vs

Determinatsioonikordaja väärtus rahuldab võrratusi .

10 2 r2rning ta väljendab, kui suur osa sõltuva muutuja Y kogumuudust on selgitatav sõltumatu muutuja X muuduga.

Page 10: R egressioonanalüüs

Näide (I)Mõõdeti aparaatide testimiseks kulutatud aega:

Seadmete arv Aeg (min.)4 1976 2722 1005 2287 3276 2793 1488 3775 2383 1421 665 239

xi2

16364254936964259125

2992 ix

xiyi

7881632

200114022891674

44430161190

42666

1195

14060 ii yx

Lineaarse regressiooni parameetrid:

Aritmeetilised keskmised: 58341255 ,/ x

75217122613 ,/ y

55 ix

2613 iy

12n

y = 44,414x + 14,187

0

50

100

150

200

250

300

350

400

0 2 4 6 8 10

x

y

(x, y)

4139,445529912

2613551406012)( 222

ii

iiii

xxnyxyxn

b

1865145529912

14060552992613222

2

,)(

ii

iiiii

xxn

yxxxya

Page 11: R egressioonanalüüs

Näide (II)

Determinatsioonikordaja:

191,842280,670103,014236,256325,083280,670147,428369,497236,256147,42858,600236,256

ii bxay ˆSeadmete arv Aeg (min.)4 1976 2722 1005 2287 3276 2793 1488 3775 2383 1421 665 239

xi2

16364254936964259125

xiyi

7881632

200114022891674

44430161190

42666

1195

75217122613 ,/ y

430,56252943,062513865,0625105,062511935,56253751,56254865,062525360,5625410,06255738,062523028,0625451,5625

2)( yy i

259288422 ,)( yys iv

2)ˆ( ii yy 26,605875,16249,0855

68,15783,67302,78770,3271

56,29003,0423

29,463954,75477,5308

8833622 ,)ˆ( iir yys

Järeldus. Lineaarne regressioonimudel kirjeldab mõõdetud suurusi väga hästi: 99,6% sõltuva muutuja kogumuudust on kirjeldatud regressioonivõrrandiga.

996402592884

8833611 2

2

2

22 ,

,,

v

r

v

s

ss

ss

r

Page 12: R egressioonanalüüs

Regressioonisirge parameetrite usalduspiirkonnad

));(;;( ktsaktsa aa

Regressioonisirge parameetrite a ja b usalduspiirkondade leidmiseks:1) Leiame prognoosijäägi i standardhälbe hinnangu:

2

2

ns

s re

2) Leiame parameetrite a ja b standardhälvete hinnangud:

22

2

ii

iea

xxn

xss 22 xnx

ss

i

eb

3) Etteantud usaldusnivoo puhul on a ja b usalduspiirkonnad:

)),;(;;( ktsbktsb bb

kus k = n – 2 ja = (1 + ) / 2 ja t(k; on Studenti jaotuse kvantiil.

Page 13: R egressioonanalüüs

Näide

Leiame parameetrite a ja b 95%-lised usalduspiirid.

84740

583412299

8045222

,,

,

xnx

ss

i

eb

Viimativaadeldud näites leidsime:

883362 ,rs n = 12 55 ix 2992 ix

5834,x 186514,a 413944,b

8045212

883362

2

,,

ns

s re1)

2304

5529912299

8045 222

2

,,

ii

iea

xxn

xss2)

Page 14: R egressioonanalüüs

Näide (II)228229501212 ,)/),(;();( tkt 3)

4) vabaliikme a 95%-lised usalduspiirid:

762422822304186514 ,,,,);(alumine ktsaa a

6112322822304186514 ,,,,);(ülemine ktsaa a

5) lineaarliikme kordaja b 95%-lised usalduspiirid:

52642228284740413944 ,,,,);(alumine ktsbb b

30246228284740413944 ,,,,);(ülemine ktsbb b

Page 15: R egressioonanalüüs

Statistilised prognoosid ja nende usaldatavus

Prognoosi usalduspiirid usaldunivooga :

22

21

1xnx

xx

nss

i

peu

)(

Prognoosi punkthinnang:

pp xbay ˆ

Prognoosi punkthinnangu standardhälve:

),(ˆ);,(ˆ ktsyktsy upup

kus = (1 + ja k = n – 2 ja on Studenti jaotuse kvantiil.

),( kt

Page 16: R egressioonanalüüs

Näide

y = 44,414x + 14,187

0

50

100

150

200

250

300

350

400

0 2 4 6 8 10

x

y

(x, y)

Prognoosime eelneva näite põhjal muutuja Y väärtust, kui xp = 6,2.

pp xbay ˆ

55,2892,6414,44187,14

=

Prognoosi punkthinnang:

195,6

583,412299)583,42,6(

121

1804,5)(1

1 2

2

22

2

xnx

xx

nss

i

peu

Prognoosi punkthinnangu standardhälve:

Prognoosi 90%-lised usalduspiirid:812,1)2/%)901(,212(),( tkt

780,300812,1195,655,289),(ˆˆ

325,278812,1195,655,289),(ˆˆülemine

alumine

ktsyy

ktsyy

upp

upp

Page 17: R egressioonanalüüs

Multiregressioon (I)

Kui sõltumatuid muutujaid on rohkem kui üks (näiteks X ja Z) ning nad on lineaarses korrelatiivses seoses sõltuva muutujaga Y, siis võib otsida üldkogumi regressioonimudelit kujul

zxY

kus on viga, mille keskväärtus E = 0.

Üldkogumi regressiooni hindamiseks kasutatakse regressioonitasapinna võrrandit

,ˆ zcxbay

kus kordajad a, b ja c leitakse vähimruutude meetodi abil, minimiseerides hälvete ruutude summa

).,,()( cbaGyczbxaen

iiii

n

ii

1

2

1

2

Page 18: R egressioonanalüüs

Multiregressioon (II)

Parameetrite a, b ja c määramiseks saame lineaarvõrrandite süsteemi

iiiiii

iiiiii

iii

zyzczxbza

yxzxcxbxa

yzcxbna

2

2

Mitmene determinatsioonikordaja arvutatakse analoogselt lihtregressiooni juhuga ning samad valemid kehtivad ka prognoosi täpsuse ning parameetrite usalduspiiride leidmiseks

Page 19: R egressioonanalüüs

Näide

X Z Y2 2 8,742 3 10,532 4 10,992 5 11,973 2 12,743 3 12,833 4 14,693 5 15,34 2 16,114 3 16,314 4 16,464 5 17,65 2 19,655 3 18,865 4 19,935 5 20,51

4 4 4 17,48 17,484 9 6 31,59 21,064 16 8 43,96 21,984 25 10 59,85 23,949 4 6 25,48 38,229 9 9 38,49 38,499 16 12 58,76 44,079 25 15 76,5 45,916 4 8 32,22 64,4416 9 12 48,93 65,2416 16 16 65,84 65,8416 25 20 88 70,425 4 10 39,3 98,2525 9 15 56,58 94,325 16 20 79,72 99,6525 25 25 102,6 102,6

x2 z2 xz yz xy

216 216 196 865,3 911,8

Mõõdetud suurused: X – ettevõtte reklaamikulud meedias; Z - ettevõtte reklaamikulud müügipunktis; Y – müügitulud. Koostame lineaarse mudeli

zcxbay ˆ

56 56 243,2

2,15y

y9,6122510,311311,010311,709312,639313,338314,037314,736315,666316,365317,064317,763318,693319,392320,091320,7903

41,74821,82117,73510,4416,0585,6230,2610,0100,8261,2291,5845,754

19,79113,38622,36128,183196,811

2)( yyi 2)ˆ( ii yy

0,7610,0480,0000,0680,0100,2580,4260,3180,1970,0030,3650,0270,9150,2830,0260,0793,784

Page 20: R egressioonanalüüs

Näide (II)

Võrrandisüsteem a, b ja c määramiseks:

3,86521619656

8,91119621656

2,243565616

cba

cba

cba

Mudel:

a = 2,160; b = 3,027; c = 0,699

zxy 699,0027,3160,2ˆ

Lahend:

Mitmene determinatsioonikordaja:

981,0811,196

784,311 2

22

v

r

ss

r