r egressioonanalüüs
DESCRIPTION
R egressioonanalüüs. Lineaarse regressiooni korral uuritakse sõltuvust kujul. (1). Tegelikult vaadeldud Y i on valemiga (1) arvutatud väärtusest mõnevõrra ( e i võrra) erinev:. Lineaarne regressioon. - PowerPoint PPT PresentationTRANSCRIPT
Regressioonanalüüs
Lineaarne regressioon
Ühe tunnuse (juhusliku suuruse) modelleerimisega teise tunnuse abil tegeleb regressioonanalüüs.
kus ja on vähimruutude meetodi abil määratavad parameeetrid e. regressioonikordajad.
Tegelikult vaadeldud Yi on valemiga (1) arvutatud väärtusest mõnevõrra (i võrra) erinev:
iii xY
Lineaarse regressiooni korral uuritakse sõltuvust kujul
xxXYE )|( (1)
Kui tunnuste X ja Y vahel on tugev lineaarne korrelatsioon, siis on võimalik koostada lineaarne mudel, mis väljendab ühe tunnuse keskväärtuse sõltuvust teisest tunnusest.
Lineaarne regressioonLineaarse mudeli puhul eeldatakse, et
0iE1)
2) (juhuslikud suurused i on sama dispersiooniga)2 iD
3) (juhuslikud suurused i on sõltumatud)jikuiji ,0),cov(
x
y
xi
E(Yi|X=xi )
Vähimruutude meetod (I)
x
yy = a + bx^
yi^
xi
yi ei
Hälbed: ei = (a + bxi) - yi
Hälvete ruutude summa:
0),()(1
2
1
22
baGybxaesn
iii
n
iir
Vähimruutude meetodi idee kohaselt leitakse kahe muutuja funktsiooni G(a, b) miinimum.
Vähimruutude meetod (II)
Esmalt leiame kriitilise punktid, võrdsustades osatuletised nulliga:
n
iii ybxa
aaG
1
2)(
n
iii ybxa
a1
2)(
n
iii ybxa
1)(2
0
n
i
n
ii
n
ii ybxa
1 11222
n
ii
n
ii yxban
11222
summa diferentseerimise reegel liitfunktsiooni diferentseerimise reegel
.11
n
ii
n
ii yxbna
Valimi põhjal leitavad konstandid
Lineaarne võrrand a ja b suhtes.
Vähimruutude meetod (III)
Samuti peab kriitilises punktis nulliga võrduma osatuletis b järgi:
n
iiii xybxa
10)(2
.2
iiii
ii
yxxbxa
yxbna
Sellest süsteemist avaldame a ja b:
,)( 22
2
ii
iiiii
xxn
yxxxya .
)( 22 ii
iiii
xxnyxyxn
b
n
iii ybxa
bbG
1
2)(
.11
2
1
n
iii
n
ii
n
ii yxxbxa
Lineaarne võrrand a ja b suhtes.
Saime kahest tundmatust ja kahest võrrandist koosneva lineaarse võrrandisüsteemi:
Vähimruutude meetod (IV)Kui süsteem on lahenduv, siis, leides teist järku osatuletised kriitilise punkti kohal, saab näidata, et selles punktis on funktsioonil G(a, b) miinimum.
),(ˆ xxbyy
Regressioonisirge võrrand on avaldatav ka kujul
millest on näha, et regressioonisirge läbib punkti , mida nimetatakse korrelatsiooni keskpunktiks.
),( yx
DeterminatsioonikordajaDeterminatsioonikordaja mõõdab, kui hästi regressioonisirge lähendab vaatlusandmeid.
Selleks, et determinatsioonikordajat leida, arvutatakse:
1) mõõdetud väärtuste yi aritmeetiline keskmine ; y
2) mõõdetud väärtuste yi koguvariatsioon ; 22 )( yys iv
3) lineaarse regressioonimudeliga selgitatav variatsioon
,)ˆ( 22 yys is
kus on lineaarse regressioonimudeli kohaselt arvutatud väärtus („silutud väärtus“) ;
ii xbay ˆ
4) variatsioon, mis ei ole selgitatav lineaarse regressiooniga:
.)ˆ( 22iir yys
Determinatsioonikordaja (II)Suurused on seotud valemiga222
rsv sss ja ,
.222rsv sss
5) Determinatsioonikordaja on lineaarse regressioonimudeliga selgitatava variatsiooni ja koguvariatsiooni suhe 2
ss
.2
2
2
22
2
22 1
v
r
v
rv
v
s
ss
sss
ss
r
2vs
Determinatsioonikordaja väärtus rahuldab võrratusi .
10 2 r2rning ta väljendab, kui suur osa sõltuva muutuja Y kogumuudust on selgitatav sõltumatu muutuja X muuduga.
Näide (I)Mõõdeti aparaatide testimiseks kulutatud aega:
Seadmete arv Aeg (min.)4 1976 2722 1005 2287 3276 2793 1488 3775 2383 1421 665 239
xi2
16364254936964259125
2992 ix
xiyi
7881632
200114022891674
44430161190
42666
1195
14060 ii yx
Lineaarse regressiooni parameetrid:
Aritmeetilised keskmised: 58341255 ,/ x
75217122613 ,/ y
55 ix
2613 iy
12n
y = 44,414x + 14,187
0
50
100
150
200
250
300
350
400
0 2 4 6 8 10
x
y
(x, y)
4139,445529912
2613551406012)( 222
ii
iiii
xxnyxyxn
b
1865145529912
14060552992613222
2
,)(
ii
iiiii
xxn
yxxxya
Näide (II)
Determinatsioonikordaja:
191,842280,670103,014236,256325,083280,670147,428369,497236,256147,42858,600236,256
ii bxay ˆSeadmete arv Aeg (min.)4 1976 2722 1005 2287 3276 2793 1488 3775 2383 1421 665 239
xi2
16364254936964259125
xiyi
7881632
200114022891674
44430161190
42666
1195
75217122613 ,/ y
430,56252943,062513865,0625105,062511935,56253751,56254865,062525360,5625410,06255738,062523028,0625451,5625
2)( yy i
259288422 ,)( yys iv
2)ˆ( ii yy 26,605875,16249,0855
68,15783,67302,78770,3271
56,29003,0423
29,463954,75477,5308
8833622 ,)ˆ( iir yys
Järeldus. Lineaarne regressioonimudel kirjeldab mõõdetud suurusi väga hästi: 99,6% sõltuva muutuja kogumuudust on kirjeldatud regressioonivõrrandiga.
996402592884
8833611 2
2
2
22 ,
,,
v
r
v
s
ss
ss
r
Regressioonisirge parameetrite usalduspiirkonnad
));(;;( ktsaktsa aa
Regressioonisirge parameetrite a ja b usalduspiirkondade leidmiseks:1) Leiame prognoosijäägi i standardhälbe hinnangu:
2
2
ns
s re
2) Leiame parameetrite a ja b standardhälvete hinnangud:
22
2
ii
iea
xxn
xss 22 xnx
ss
i
eb
3) Etteantud usaldusnivoo puhul on a ja b usalduspiirkonnad:
)),;(;;( ktsbktsb bb
kus k = n – 2 ja = (1 + ) / 2 ja t(k; on Studenti jaotuse kvantiil.
Näide
Leiame parameetrite a ja b 95%-lised usalduspiirid.
84740
583412299
8045222
,,
,
xnx
ss
i
eb
Viimativaadeldud näites leidsime:
883362 ,rs n = 12 55 ix 2992 ix
5834,x 186514,a 413944,b
8045212
883362
2
,,
ns
s re1)
2304
5529912299
8045 222
2
,,
ii
iea
xxn
xss2)
Näide (II)228229501212 ,)/),(;();( tkt 3)
4) vabaliikme a 95%-lised usalduspiirid:
762422822304186514 ,,,,);(alumine ktsaa a
6112322822304186514 ,,,,);(ülemine ktsaa a
5) lineaarliikme kordaja b 95%-lised usalduspiirid:
52642228284740413944 ,,,,);(alumine ktsbb b
30246228284740413944 ,,,,);(ülemine ktsbb b
Statistilised prognoosid ja nende usaldatavus
Prognoosi usalduspiirid usaldunivooga :
22
21
1xnx
xx
nss
i
peu
)(
Prognoosi punkthinnang:
pp xbay ˆ
Prognoosi punkthinnangu standardhälve:
),(ˆ);,(ˆ ktsyktsy upup
kus = (1 + ja k = n – 2 ja on Studenti jaotuse kvantiil.
),( kt
Näide
y = 44,414x + 14,187
0
50
100
150
200
250
300
350
400
0 2 4 6 8 10
x
y
(x, y)
Prognoosime eelneva näite põhjal muutuja Y väärtust, kui xp = 6,2.
pp xbay ˆ
55,2892,6414,44187,14
=
Prognoosi punkthinnang:
195,6
583,412299)583,42,6(
121
1804,5)(1
1 2
2
22
2
xnx
xx
nss
i
peu
Prognoosi punkthinnangu standardhälve:
Prognoosi 90%-lised usalduspiirid:812,1)2/%)901(,212(),( tkt
780,300812,1195,655,289),(ˆˆ
325,278812,1195,655,289),(ˆˆülemine
alumine
ktsyy
ktsyy
upp
upp
Multiregressioon (I)
Kui sõltumatuid muutujaid on rohkem kui üks (näiteks X ja Z) ning nad on lineaarses korrelatiivses seoses sõltuva muutujaga Y, siis võib otsida üldkogumi regressioonimudelit kujul
zxY
kus on viga, mille keskväärtus E = 0.
Üldkogumi regressiooni hindamiseks kasutatakse regressioonitasapinna võrrandit
,ˆ zcxbay
kus kordajad a, b ja c leitakse vähimruutude meetodi abil, minimiseerides hälvete ruutude summa
).,,()( cbaGyczbxaen
iiii
n
ii
1
2
1
2
Multiregressioon (II)
Parameetrite a, b ja c määramiseks saame lineaarvõrrandite süsteemi
iiiiii
iiiiii
iii
zyzczxbza
yxzxcxbxa
yzcxbna
2
2
Mitmene determinatsioonikordaja arvutatakse analoogselt lihtregressiooni juhuga ning samad valemid kehtivad ka prognoosi täpsuse ning parameetrite usalduspiiride leidmiseks
Näide
X Z Y2 2 8,742 3 10,532 4 10,992 5 11,973 2 12,743 3 12,833 4 14,693 5 15,34 2 16,114 3 16,314 4 16,464 5 17,65 2 19,655 3 18,865 4 19,935 5 20,51
4 4 4 17,48 17,484 9 6 31,59 21,064 16 8 43,96 21,984 25 10 59,85 23,949 4 6 25,48 38,229 9 9 38,49 38,499 16 12 58,76 44,079 25 15 76,5 45,916 4 8 32,22 64,4416 9 12 48,93 65,2416 16 16 65,84 65,8416 25 20 88 70,425 4 10 39,3 98,2525 9 15 56,58 94,325 16 20 79,72 99,6525 25 25 102,6 102,6
x2 z2 xz yz xy
216 216 196 865,3 911,8
Mõõdetud suurused: X – ettevõtte reklaamikulud meedias; Z - ettevõtte reklaamikulud müügipunktis; Y – müügitulud. Koostame lineaarse mudeli
zcxbay ˆ
56 56 243,2
2,15y
y9,6122510,311311,010311,709312,639313,338314,037314,736315,666316,365317,064317,763318,693319,392320,091320,7903
41,74821,82117,73510,4416,0585,6230,2610,0100,8261,2291,5845,754
19,79113,38622,36128,183196,811
2)( yyi 2)ˆ( ii yy
0,7610,0480,0000,0680,0100,2580,4260,3180,1970,0030,3650,0270,9150,2830,0260,0793,784
Näide (II)
Võrrandisüsteem a, b ja c määramiseks:
3,86521619656
8,91119621656
2,243565616
cba
cba
cba
Mudel:
a = 2,160; b = 3,027; c = 0,699
zxy 699,0027,3160,2ˆ
Lahend:
Mitmene determinatsioonikordaja:
981,0811,196
784,311 2
22
v
r
ss
r