diasor a lineáris regresszióhoz
TRANSCRIPT
REGRESSZIÓ 1
Regresszióanalízis
Lineáris regresszió
REGRESSZIÓ 2
Modell:Valamely (pl. fizikai) törvényszerûség értelmében azxfüggetlen változó bizonyos értékénél a függõ változóértékeY = ϕ (x).
Y helyetty értéket mérünk, E(yx) = Y, vagy
y Y= + ε és ( )E ε = 0 ( )Var ε σ= 2
Amennyiben nincsen ismert és igazolt fizikaiösszefüggés, nem lehetünk elõre meggyõzõdve azillesztett függvény alkalmasságáról.
REGRESSZIÓ 3
A regresszióanalízis során feltételezzük, hogy• y azx minden értékénél normális eloszlású, vagyis
az εi mérési hibákN(0,σ2) normális eloszlásúak;
• Var(y) = konstans, illetvey-nak vagyx-nek ismertfüggvénye;
• a különbözõi mérési pontokban elkövetett mérésihibák egymástól függetlenek;
• Y(x) = f(x, α,β,γ, ...) az ismert vagy feltételezettfüggvénykapcsolat alakja, aholα, β, γ a függvénykonstansai (paraméterei).
REGRESSZIÓ 4
Egyváltozós lineáris regresszió ismétlés
nélküli mérések esetén, konstans
( )φ = − =∑ y Yi ii
$ min.2
A becslési kritérium:
σ y i
2
( )$Y b bx a b x xi i i= + = + −0
( )φ = − − =∑ y b bxi ii
0
2min.
b a bx0 = −
( )Y x x xi i i= + = + −β β α β0β α β0 = − x
REGRESSZIÓ 5
[ ]∂φ∂ b
y b bxi i0
02 0= − − − =∑
A normálegyenletek:
[ ]∂φ∂ b
y b bx xi i i= − − − =∑2 00
Átrendezve:
y nb b xi i= + ∑∑ 0
y x b x b xi i i i= +∑ ∑∑ 02
Ha xi ≠∑ 0
a b0 ésb becslésekegymástól nem függetlenek
REGRESSZIÓ 6
A normálegyenletek az ( )Y x xi i= + −α β modell illesztésekor
( )[ ]∂φ∂ a
y a b x xi i= − − − − =∑2 0
( )[ ]( )∂φ∂ b
y a b x x x xi i i= − − − − − =∑2 0
Átrendezve:
( )y na b x xi i= + −∑∑
( ) ( ) ( )y x x a x x b x xi i i i− = − + −∑ ∑∑2
( )x xi − =∑ 0
xx
ni= ∑
Az a ésb becslések egymástól függetlenek, mert
REGRESSZIÓ 7
tehát aza ésb becsült paraméterek egymástólfüggetlenül kaphatók meg a két normálegyenletbõl:
ay
n
ii=∑ ( )
( )by x x
x x
i ii
ii
=−
−
∑
∑2
( ) ( )E Y Y x xi i i$ = = + −α β( )$Y a b x xi= + − ;
y nai =∑ ( ) ( )y x x b x xi i i− = −∑∑2
és
REGRESSZIÓ 8
A becslések tulajdonságai:
( )E a Ey
ni≡
=∑ α
( )E b = β
( ) ( )Var an n
= =∑σ σ2
2
2
( )( )( ) ( )Var bx x
x x x x
i
i i
( ) =−
−=
−∑∑ ∑
2 2
2 2
2
2
σ σ
REGRESSZIÓ 9
( ) ( ) ( ) ( ) ( )( )Var Y Var a x x Var b
n
x x
n x xii
$ = + − = +−
−
∑
2 22
2
1σ
( ) ( )[ ] ( ) ( )( )E Y E a b x x E a E b x x$ = + − = + −
( ) ( )E Y x x Y$ = + − =α β
REGRESSZIÓ 10
ss
nar= ( )
ss
x xb
r
i
=−∑
2
( )( ) ( )s s
n
x x
x xs s x x
Y r
ii
a b$ = +−
−= + −
∑1 2
22 2 2
A konfidenciatartományok a t-eloszlás alapján számíthatók.
( )s s s s xb Y x a b0 0
2 2 2= = +=$
REGRESSZIÓ 11
1. példa
Kísérletileg vizsgálták az x független változó és az y függő változó közötti összefüggést. Az x független változó értéke pontosan beállítható, az y függő változó értéke azonban a Yvalódi érték körül ingadozik. A mérési adatok a következő táblázatban láthatók, az y értéke szerint növekvő sorrendbe rendezve. A tényleges mérési sorrendet a táblázat második oszlopa tartalmazza. Feltételezve, hogy y normális eloszlású, valamint azt hogy az y és x közötti függvénykapcsolat lineáris, adjunk becslést az egyenes paramétereire!
REGRESSZIÓ 12
No mérési sorrend x y1 3 0 0.582 5 0.05 0.73 4 0.08 2.884 2 0.1 3.425 1 0.12 3.536 6 0.15 5.21
REGRESSZIÓ 13
Excel eredmények
sr reziduális szórás
sr2
b0
b
SUMMARY OUTPUT
Regression StatisticsMultiple R 0.95061604R Square 0.90367086Adjusted R Square 0.87958858Standard Error 0.62135527Observations 6
ANOVAdf SS MS F Significance F
Regression 1 14.48747052 14.48747052 37.5243 0.003597945Residual 4 1.544329481 0.38608237Total 5 16.0318
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 0.05195755 0.504033217 0.103083577 0.922858 -1.347465911 1.451381x 32.0165094 5.22658099 6.125708087 0.003598 17.50516417 46.527855
R2
REGRESSZIÓ 14
RSSR
SST
SST SSE
SST
SSE
SST2 1= =
−= −
( )( )R adj
SSE n
SST n2 1
2
1_ = −
−−
Determinációs együttható:“Residual”
“Total”
“Regression”
REGRESSZIÓ 15
R2 = SSR/SST( ) ( ) ( )y y y Y Y yi
ii i i
ii
− = − + −∑ ∑∑2 2 2
$ $
SST = SSE + SSRd.f.: n-1 = n-2 + 1
0 2 4 6 8 100
2
4
6
8
10
R2=0.745
y
x
( )y Yi i− $
( )$Y yi −y
x
y
R2 = 0.745
REGRESSZIÓ 16
0 2 4 6 8 100
2
4
6
8
10
R2=0.034
y
x
( )$Y yi −
( )y Yi i− $
y
R2 = 0.034
x
y
REGRESSZIÓ 17
ANOVAdf SS
Regression 1 14.48747052Residual 4 1.544329481Total 5 16.0318
SSR
SSE
SST
sSSE
nr2
2=
−
n - 2
REGRESSZIÓ 18
$Y y Y− $ ( )y Y sr− $
( )Residual SSE2
1i
n
=∑ =
RESIDUAL OUTPUT
Observation Predicted y Residuals Standard Residuals1 0.05195755 0.528042453 0.8498237312 1.65278302 -0.952783019 -1.533394933 2.6132783 0.266721698 0.4292579654 3.25360849 0.166391509 0.267788045 3.89393868 -0.363938679 -0.5857175396 4.85443396 0.355566038 0.572242734
REGRESSZIÓ 19
ss
nar= ( )
ss
x xb
r
i
=−∑
2
( )( ) ( )s s
n
x x
x xs s x x
Y r
ii
a b$ = +−
−= + −
∑1 2
22 2 2
A konfidenciatartományok a t-eloszlás alapján számíthatók.
( )s s s s xb Y x a b0 0
2 2 2= = +=$
REGRESSZIÓ 20
Coefficients Standard Error t StatP-value Lower 95% Upper 95%Intercept 0.051957547 0.504033217 0 1 -1.347465911 1.451381005x 32.01650943 5.22658099 6 0 17.50516417 46.5278547
( )s sY x b$ = =
0 0
sb 95%-os konfidenciaintervallum a paraméterekre
REGRESSZIÓ 21
( )$ $. / $Y Y t salsó Y
= − 0 05 2 4
( )$ $. / $Y Y t sfölsõ Y
= + 0 05 2 4
x Yhat s_Yhat Yhat_alsó Yhat_fölsõ0 0.05 0.50 -1.35 1.45
0.05 1.65 0.31 0.80 2.510.08 2.61 0.25 1.91 3.320.1 3.25 0.27 2.51 4.00
0.12 3.89 0.32 3.01 4.780.15 4.85 0.43 3.66 6.05
Konfidencia sáv azY(x) valódi értékre
REGRESSZIÓ 22
Jóslási intervallum
(1- α) a valószínűsége annak, hogyx adott értékénél egy későbbi mérés eredménye a számított intervallumba esik.
( )( ) ( )s s
n
x x
x xs s s x x
y Y r
ii
r a b− = + +−
−= + + −
∑$ 1
1 2
22 2 2 2
intervallum: ( )$$Y x t s
y Y± −α 2
REGRESSZIÓ 23
r = .95062
x
y
-0 0 0 0 0 0 0 0 0-3
-2
-1
0
1
2
3
4
5
6
7
95%-os konfidencia sáv
95%-os jóslási sáv
$ . .Y x= +005196 32017
REGRESSZIÓ 24
A mérések sorrendje
mérési sorrend
rezi
duum
-0.5
-0.1
0.3
0.7
0 2 4 6 8 10 12
mérési sorrend
rezi
duum
-0.5
-0.1
0.3
0.7
0 2 4 6 8 10 12
x
0
2
4
6
8
10y
x
0
2
4
6
8
10
12y
0.0
0.2
0.4
0.6
0.8
1.0
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10idõ
et
0.0
0.2
0.4
0.6
0.8
1.0
x1 x2x3 x4x5x6 x7x8x9 x10
idõ
et
REGRESSZIÓ 25
Egyváltozós lineáris regresszió ismételt
mérések esetén, konstansσ y i
2
xi
x
n
n
n
n
y
( )x yi ik,
( )x yi i,
( )x Yi i, $
( )x Yi i,
y yik i−
y Yi i− $
$Y Yi i−
a − α( )Y x x= + −α β
( )$Y a b x x= + −
REGRESSZIÓ 26
SST = SSE + SSR
SST = SSrepl + SSres + SSR
Ismétlésekbõl számítottnégyzetösszeg
Reziduálisnégyzetösszeg
A szabadsági fokok száma:
pii
n
=∑ − =
1
1 ( )pii
n
−=∑ 1
1
+ − +n 2 1
( )spe
ii
2
1=
−∑SSrepl
snr
2
2=
−SSres
REGRESSZIÓ 27
Az csoportokon belülierror szórásnégyzeta variancia torzítatlan becslése, függetlenül azYfüggvény alakjától.
se2
Az reziduális szórásnégyzetcsak akkorbecslése -nak, ha a tapasztalati regressziósfüggvény "megfelelõ alakú", vagyis az elméletiregressziós függvény lineáris. Esetünkben tehátakkor, ha .
σ y2
( )Y x x= + −α β
sr2
REGRESSZIÓ 28
A hipotézis vizsgálatára azF-próbát használjuk:
Fs
s
vr
e
r r
e e
= =2
2
2 2
2 2
χ σχ σ ν
/
/
Ha az arány nem halad meg egyFα kritikusértéket, mondhatjuk, hogy a mérési adatok nemmondanak ellent annak a nullhipotézisnek, amelyszerint az elméleti és tapasztalati regressziós görbematematikailag azonos alakú.
s sr e2 2
REGRESSZIÓ 29
Ha elfogadjuk a nullhipotézist, egyben azt állítjuk, hogy és egyaránt torzítatlan becslései. A kettõ együtt több információt nyújt, mint bármelyikkülön-külön, mivel az így egyesített szórásnégyzetnagyobb szabadsági fokú (tehát kisebb varianciájú) becslése -nak, mint akár , akár . Célszerű tehát a két becslést egyesíteni.
sr2se
2 σ 2
σ 2 se2 sr
2
( ) ( )( ) ( )
$
$
σν νν ν
2 22 2
2 2
2= =
++
=− + −
− + −
∑ ∑∑
∑s
s sy y p y Y
p n ne e r r
e r
ik ik
i i iii
i
REGRESSZIÓ 30
2. példa
Kalibrációs eljárás során a táblázatban közölt adatokatmérték, x a koncentráció, y a mért jel. Illesszünk egyenest a mérési adatokra.
yik
xi i ha k pi
1 2 3 4 520 1 2.0046 2.1167 2.0059 2.1028 2.1053 514 2 1.5404 1.4737 1.5205 1.5372 1.4512 510 3 1.0043 1.0059 1.1068 1.0036 - 4 5 4 0.5756 0.6248 0.5701 0.6275 - 4 1.25 5 0.1952 0.2362 0.1954 0.2437 0.2455 5
pi =∑ 23
REGRESSZIÓ 31
x y5 0.6248
20 2.10531.25 0.1954
14 1.540420 2.0059
1.25 0.195220 2.11675 0.5756
1.25 0.23625 0.6275
14 1.45121.25 0.2455
20 2.00465 0.5701
10 1.005910 1.003610 1.1068
1.25 0.243710 1.004320 2.102814 1.520514 1.537214 1.4737
Az adatok a mérési sorrendjébenkerülnek be az input file-ba, teháta programok számára általábanugyanaz az x - y adatokszerkezete, mint ismétlés nélkülimérések esetén.
REGRESSZIÓ 32
SUMMARY OUTPUT
Regression StatisticsMultiple R 0.997696R Square 0.995398Adjusted R Square 0.995179Standard Error 0.04772Observations 23
ANOVAdf SS MS F Significance F
Regression 1 10.34309 10.34309 4542.0869 4.98E-26Residual 21 0.0478205 0.002277Total 22 10.39091
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 0.09427 0.0180397 5.225696 3.524E-05 0.056754 0.131786x 0.098729 0.0014649 67.39501 4.985E-26 0.095682 0.101775
spi
i
2
2=
+−∑
SSrepl SSres
REGRESSZIÓ 33
x =⋅ + ⋅ + ⋅ + ⋅ + ⋅
=5 20 5 14 4 10 4 5 5 125
2310 2717
..
ap y
pi i
i
= = =∑∑
25 4933
23110839
..
( )( )b
p y x x
p x x
i i i
i i
=−
−= =∑
∑2
104 7655
106111410 09873
.
..
( )$ . . . . .Y x x= + − = +110839 0 09873 10 2717 0 0943 0 09873
REGRESSZIÓ 34
( )s
y y
p ne
ik iki
ii
2
2
30 032587
23 51810 10=
−
−=
−= ⋅
∑∑
∑−.
.
Annak ellenõrzésére, hogy az alkalmazott lineáris modellmegfelelõ-e, F-próbát végzünk. Az Excel táblázat segítségével számítsuk ki a reziduális szórásnégyzetet, majd végezzük el a próbát!
( ) ( )p s s p n sii
e i r−
= −
+ −∑ ∑2 1 22 2 2
21 0 002277 18 1810 10 33 2⋅ = ⋅ ⋅ +−. . sr
sr2 35 070 10= ⋅ −.
REGRESSZIÓ 35
F0
3
3
5 070 10
1810 102 804=
⋅⋅
=−
−
.
..
Az F-eloszlás kritikus értéke 95 % -os egyoldaliszinten ( α = 0.05), ha a számláló szabadsági foka 3, a nevezõé 18: F0.05(3, 18) = 3.16.
Azt mondhatjuk, hogy a számított egyenes(a tapasztalati regressziós görbe) a mérésipontokat megfelelõen leírja.
REGRESSZIÓ 36
( )ss
p x xb
y
i i
22
2
362 277 10
1061112146 10=
−=
⋅= ⋅
∑
−−.
..
sb = ⋅ −146 10 3.
ss
pa
y
i
22 3
52 277 10
239 901 10= =
⋅= ⋅
∑
−−.
.
sa = ⋅ −9 95 10 3.
REGRESSZIÓ 37
( )s s s x xY a b$
2 2 2 2= + − =( )= ⋅ + ⋅ ⋅ −− −9 901 10 2 146 10 10 27175 6 2. . .x
( )sY x$ . . . .=
− − −= ⋅ + ⋅ ⋅ = ⋅0
2 5 6 2 49 901 10 2146 10 10 2717 3 254 10
( )s sb Y x0 00 01804= ==$ .
REGRESSZIÓ 38
Egyváltozós lineáris regresszió ismételt
mérések esetén, nem konstans
y Yik i
yki i
−
=∑∑
$min.
σ
2
A becslési kritérium:
σ yi
2
A négyzetösszeg felbontható:
y yp
y Yik i
ykii
i i
yii i
−
+
−
=∑∑ ∑σ σ
2 2$
min.
σσy
iy
i
ip
2
2=
REGRESSZIÓ 39
A variancia nem konstans, hanemx-nek ismert függvénye:
[ ] ( )Var y x h xi y ii= =σ σ2 2 2
ahol x -tõl független konstans.σ 2
A minimalizálandó függvény:
( )( ) ( )p
y Y
h xw p y Yi
i i
iii i i i
i
−= −∑ ∑
$$
2
2 2 2
21
σ σ
( ) ( )[ ]w p y Y w p y a b x xi i i ii
i i i ii
− = − − − =∑ ∑$ min2 2
( )wh xi
y ii
= =σσ
2
2 2
1aholwi az ún. súly:
REGRESSZIÓ 40
xw p x
w pi i i
i i
= ∑∑
aza ésb becsült paraméterek egymástól függetlenülkaphatók meg a két normálegyenletbõl:
Ha
aw p y
w p
i i ii
i ii
=∑
∑( )
( )bw p y x x
w p x x
i i i ii
i i ii
=−
−
∑
∑2
REGRESSZIÓ 41
Kalibrációs egyenes:a regressziós egyenlet megoldása a független változóra
Az egyenes egyenlete: ( )$Y a b x x= + −
Most y a független, de sztochasztikus változó (ötször mérve 5 különbözõ abszorbanciát kapunk), x a függõ változó, amelynekbecslése
( )$ $x x y xy a
b= = +
−
várható értéke (és valódi értéke) X. (Az becslésvalószínûségi változó, mively, a ésb valószínûségiváltozók.)
$x
REGRESSZIÓ 42
konfidencia-intervalluma:$x
( )z y a b X x≡ − − −segédváltozó
( ) ( )tz E z
sp
zi=
−= −∑ν 2
( ) ( )E z Y X x= − − − =α β 0
( ) ( ) ( ) ( ) ( )Var z Var y Var a X x Var b= + + − 2
Ha y nmérés átlagértéke, értelemszerûen írandóy helyébe, és ( ) ( )
Var yVar y
n=
REGRESSZIÓ 43
( ) ( )( )Var z
wn w p
X x
w p x xi i i i i
= + +−
−
∑ ∑
σ 22
2
1 1
Az becslést úgy kapjuk, hogyVar(z)elõbbi kifejezésében a w súlyok helyett beírjuk a h2(x) függvény reciprokánakbecslését, becsléséül pedig azs2-statisztikát használhatjuk.
sz2
σ 2
( )P t t t− < < = −α α α/ /2 2 1( )
tz
s
y a b X x
sz z
=−
=− − −0;
REGRESSZIÓ 44
Az X-re másodfokú kifejezés átrendezése után a
konfidenciaintervallum
( )( )x
y a
bt
s
b wn w p
b
b
x x
w p x xX
i i i i i
+−
− +
+
−−
< <∑ ∑α
αα
α
//
/
/ $
22
2
22
2
1 1
( )( )< +
−+ +
+
−−∑ ∑
xy a
bt
s
b wn w p
b
b
x x
w p x xi i i i iαα
α
α
//
/
/ $
22
2
22
2
1 1
b bt s
bb
αα
//
22
2 2
= −
ahol
REGRESSZIÓ 45
P xy a
bX x
y a
b+
−− < < +
−+
= −
α αα
/ /2 2
1∆ ∆
Az X-re másodfokú kifejezés átrendezése után a
konfidenciaintervallum
ahol
( ) ( )( )∆ = +
+ −−∑ ∑
t
bh x s
s
w p
b
bx x
s
w p x xi ii
i i ii
α
α
α/
/
/$ $
2
2
2 2
2
2 22
2
b bt s
bb
αα
//
22
2 2
21= −
és
REGRESSZIÓ 46
sa2 -val és sb
2-vel kifejezve
( )( ) ( )∆ = + + −t
bh x s s
b
bs x xa b
α
α
α/
/
/$ $
2
2
2 2 2 2 2 2
b sb>>Ha b bα /2 ≅,
( )P x X x$ $− < ≤ + = −∆ ∆ 1 α
, így az elõzõ kifejezés egyszerûsödik
( ) ( )∆ = + + −t
bh x
s
ns s x xa b
α /$ $
2 22
2 2 2
ahol
REGRESSZIÓ 47
Az összefüggések felhasználásával, ha :
s s xb b0, ,
( )$ ; $ $xy b
bP x X x=
−− < < − = −0 1∆ ∆ α
ahol
b sb>>
( ) ( )∆ = + + −t
bh x
s
ns s x xx
y
b bα /
$ $ $2 2
22 2 2
02
REGRESSZIÓ 48
3. példaA 2. példában kapott regressziós egyenest kalibrációsösszefüggésként használjuk. Az ismeretlen koncentrációjúoldattal végzett 5 mérés átlagértéke 1.25. Adjunk becslést és95 %-os konfidencia-intervallumot az oldat koncentrációjára(X-re ).
y = 125.
$. .
..x
y b
b=
−=
−=0 125 0 09427
0 0987311706
sb2 62146 10= ⋅ −. ( )t0 05 2 21 2080. / .=
t s
bbα / .2
2 249 52 10= ⋅ −
; ;
n = 5
REGRESSZIÓ 49
s s xb b0, ,
( ) ( )( )∆ =⋅
+ + ⋅ − ⋅ ⋅−
−2 0800 09873
2 277 105
0 01804 1465 10 117061 2 117061 10 27173
2 3 2..
.. . . . .
∆ = 1028.
( )P X10 7 11 7 0 95. . .< < =
A konfidencia-intervallum:
felhasználásával:
( )P X11 706 1 028 11 706 1 028 0 95. . . . .− < < + =
b bt s
bb
αα
// .22
2 2
0 09864= − = b
bα /2 1≈ ( )h x2 1=
REGRESSZIÓ 50
A regresszió feltételeinek ellenõrzése; a reziduumok vizsgálata
A regresszióanalízis során feltételeztük, hogy
• y azx minden értékénél normális eloszlású, vagyis azε mérési hibákN(0,σ2) normális eloszlásúak;
• Var(y) = Var(yx) = konstans, illetvey-nak vagyx-nekismert függvénye;
• a különbözõi mérési pontokban elkövetett mérési hibákegymástól függetlenek;
• E(yx) = Y(x) = f(x, α,β,γ, ...) az ismert vagy feltételezettfüggvénykapcsolat alakja, aholα, β, γ a függvénykonstansai (paraméterei).
REGRESSZIÓ 51
Reziduumok a mérések sorszámának függvényében:extrém értékek
A mérés sorszáma
-3
-2
-1
0
1
2
3
0 5 10 15 20 25 30 35 40
y i-Y i
sr
1.
REGRESSZIÓ 52
Reziduumok a mérések sorszámának függvényében:trend
2.
A mérés sorszáma
-3
-2
-1
0
1
2
3
0 5 10 15 20 25 30 35 40
y i-Y i
sr
REGRESSZIÓ 53
3. Ugrás (Szintváltozás a reziduumok vizsgálatánál)
A mérés sorszáma
-3
-2
-1
0
1
2
3
0 5 10 15 20 25 30 35 40
y i-Y i
sr
REGRESSZIÓ 54
4. A szórás (variancia, mérési pontosság) változása
Y
y i-Y i
REGRESSZIÓ 55
A függvény megfelelõen írja le változását:( )h x2
y i-Y i
h(xi)
Y
REGRESSZIÓ 56
5. Normalitás
Az közelítõleg zérus várható értékû normális
eloszlású kell legyen az 1…4. feltételezések szerint. ( )
y Y
h xi i− $
A normalitást úgy is vizsgálhatjuk, hogy ún. valószínû-
ségi papíron (Gauss hálón) ábrázoljuk értékét( )y Y
h xi i− $
A normalitást statisztikai próbával vizsgálhatjuk(χ2 -próba, Kolmogorov – Szmirnov próba).
REGRESSZIÓ 57
A reziduumok eloszlása nem normális, az illesztett modellnem megfelelõ:
0
yi-Y
i
h(xi)
Y
REGRESSZIÓ 58
A reziduum értékek ábrázolása Gauss-hálón.
Residuals
Exp
ecte
d N
orm
al V
alue
-2.5
-1.5
-0.5
0.5
1.5
2.5
-2 -1 0 1 2 3 4 5
elméletieloszlás
a reziduumoknem normáliseloszlásúak
REGRESSZIÓ 59
A reziduum értékek ábrázolása Gauss-hálón.
a reziduumoknormáliseloszlásúak
Residuals
Exp
ecte
d N
orm
al V
alue
-2.5
-1.5
-0.5
0.5
1.5
2.5
-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5
REGRESSZIÓ 60
Kétváltozós lineáris regresszió
Az elméleti regressziós függvény:
( ) ( )Y x x x x= + − + −α β β1 1 1 2 2 2
A becslési kritérium:
( ) ( ) ( )[ ]φ = − = − − − − − =∑ ∑y Y y a b x x b x xi ii
i i ii
$ min.2
1 1 1 2 2 2
2
A becsülendõ paraméterek szerint deriválva, és a deriváltakatnullával egyenlõvé téve kapjuk a normálegyenleteket:
REGRESSZIÓ 61
( ) ( )na b x x b x x yi i i+ − + − =∑ ∑ ∑1 1 1 2 2 2
( ) ( ) ( )( ) ( )a x x b x x b x x x x y x xi i i i i i1 1 1 1 1
2
2 1 1 2 2 1 1− + − + − − = −∑ ∑ ∑ ∑
( ) ( )( ) ( ) ( )a x x b x x x x b x x y x xi i i i i i2 2 1 1 1 2 2 2 2 2
2
2 2− + − − + − = −∑ ∑ ∑ ∑
( )x xii
1 1 0− =∑
A becsült paraméterek akkor függetlenek egymástól, ha
( )x xii
2 2 0− =∑
( )( )x x x xi ii
1 1 2 2 0− − =∑
;
és
;
ortogonáliskísérleti terv
REGRESSZIÓ 62
Szempontok a független változók értékeinek megválasztásához
Egymástól független becsült paraméterek (ortogonalitás)
-1
1
1-1
0
0
0
50
100
150
200
250
300
350
400
450
500
0 10 20 30 40 50 60
T, °C
P, k
Pa
x2
x1
REGRESSZIÓ 63
A paraméter minél pontosabb becslése
-1 0 1
-1 0 1
-1 0 1
a)
b)
c)
sb
σ= 0 43.
sb
σ= 029.
sb
σ= 0 27.
REGRESSZIÓ 64
Többváltozós lineáris regresszió
Legyenr a független változók száma. A kísérletsorozateredményeit a következő táblázatos formában szokásos írni:
x x x x y
x x x x y
x x x x y
x x x x y
j r
j r
i i ji ri r
n n jn rn n
11 21 1 1 1
12 22 2 2 2
1 2
1 2
L L
L L
M M M M M
L L
M M M M M
L L
REGRESSZIÓ 65
Y x x x xi i i i r ri= + + + +β β β β0 0 1 1 2 2 K
A modell
aholx0i az általános írásmód érdekében bevezetett fiktív változó.
Az x0i elemek értéke 1.
A tapasztalati regressziós egyenes
$Y b x b x b x b xi i i i r ri= + + + +0 0 1 1 2 2 K
A kétváltozós regressziónál mondottakhoz hasonlóan a bj
becslések egymástól nem függetlenek.
REGRESSZIÓ 66
Az egyes változók szignifikanciájának vizsgálata
Eldöntendõ, hogyq < r változó figyelembevételer változóhozképest nem rontja-e a közelítést.
A q ill. r számú változóra a mért pontok és a becsült sík közöttieltérések négyzetösszege, ha mindeni pontban csak egyymérés van:
S y b xq i jq jij
q
i
= −
=∑∑
0
2
S y b xr i jr jij
r
i
= −
=∑∑
0
2
( )$Y q ( )$Y r
REGRESSZIÓ 67
Tegyük fel, hogyr változó biztosan elég (hibátlan a regressziósegyenlet alakja), ekkor az
( )[ ]y Y ri i− $
eltérések normális eloszlásúak, (konstansnak feltételezett) varianciával; az eltérésekSr négyzetösszegének szabadsági fokan-(r+1)
σ y2
Ha q változó is elég (H0 nullhipotézis), az ( )[ ]y Y qi i− $
eltérések is normális eloszlásúak, varianciával; az eltérésekSq négyzetösszegének szabadsági fokan-(q+1)
σ y2
REGRESSZIÓ 68
Ha a nullhipotézis igaz, az
( )( )F
s
s
S n q
S n rq
r
q
r0
2
2
1
1= =
− −− −
/
/
hányadosF-eloszlásún – q – 1 ésn – r – 1 szabadsági fokkal.
F-próba
REGRESSZIÓ 69
Sq és Sr különbsége szintén normális eloszlású eltéréseknégyzetösszege, szabadsági fokar – q:
( ) ( )( )F
s
s
S S r q
S n rr q
r
q r
r0
2
2 1= =
− −− −
− /
/
F-próba
Bármelyik módszerrel elvégezhetõ azF-próba, a második érzékenyebb (általános regressziós próba).
REGRESSZIÓ 70
Ha az arány a kritikusF értéket meghaladja, el kell vetnünk a nullhipotézist, amely szerintr – q változó hatása nemszignifikáns. Természetesenr – q = 1 is lehet, ekkor azt vizsgáljuk, hogyadott egyetlen változó hatásának (lineáris) figyelembevételejavítja-e a közelítést.
Ha a normális eloszlás feltételezése nem jogos, az itt leírtvizsgálati módszer hamis eredményeket ad!
Minthogy a becslések egymástól nem függetlenek, az elõbbivizsgálatt-próbával nem végezhetõ el.
REGRESSZIÓ 71
Regresszió más, a független változóban nemlineáris, de a paraméterekben lineáris függvényekkel
( )Y zz
z= + + −
+β β β β0 1 2
2
32exp log
Vezessük be a következõ jelöléseket:
x z1 = xz
2
2
2= −
exp ( )x z3 = log
Ezekkel Y xj jj
=∑ β
A becslési probléma és az eredmények statisztikaielemzése teljesen azonos a többváltozós lineárisregressziónál leírtakkal.
REGRESSZIÓ 72
Polinom illesztéseLegyenek olyan mérési adataink, amelyeknél azy függõ változónem lineáris, hanem polinommal leírható függvénye a zfüggetlen változónak. Mivel a z független változó értéke pontosan beállítható és nemterheli mérési hiba, tetszõleges hatványa is pontosan ismert, tehát determinisztikus független változóként kezelhetõ.
Bevezetve azx1 = z, x2 = z2 , ..., xk = zk jelöléseket, a feladat a többváltozós lineáris regresszióra vezethetõ vissza.
$ ... ...Y b b z b z b z b b x b x b xkk
k k= + + + + = + + + +0 1 22
0 1 1 2 2
Mivel xj értékek nem függetlenek egymástól, a becsültbj együtthatókerõsen korreláltak lesznek.