diasor a lineáris regresszióhoz

36
REGRESSZIÓ 1 Regresszióanalízis Lineáris regresszió REGRESSZIÓ 2 Modell: Valamely (pl. fizikai) törvényszerûség értelmében az x független változó bizonyos értékénél a függõ változó értéke Y = ϕ (x). Y helyett y értéket mérünk, E(yx) = Y, vagy y Y = ε és ( E ε = 0 ( Var ε σ = 2 Amennyiben nincsen ismert és igazolt fizikai összefüggés, nem lehetünk elõre meggyõzõdve az illesztett függvény alkalmasságáról.

Upload: phungdieu

Post on 01-Jan-2017

227 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: Diasor a lineáris regresszióhoz

REGRESSZIÓ 1

Regresszióanalízis

Lineáris regresszió

REGRESSZIÓ 2

Modell:Valamely (pl. fizikai) törvényszerûség értelmében azxfüggetlen változó bizonyos értékénél a függõ változóértékeY = ϕ (x).

Y helyetty értéket mérünk, E(yx) = Y, vagy

y Y= + ε és ( )E ε = 0 ( )Var ε σ= 2

Amennyiben nincsen ismert és igazolt fizikaiösszefüggés, nem lehetünk elõre meggyõzõdve azillesztett függvény alkalmasságáról.

Page 2: Diasor a lineáris regresszióhoz

REGRESSZIÓ 3

A regresszióanalízis során feltételezzük, hogy• y azx minden értékénél normális eloszlású, vagyis

az εi mérési hibákN(0,σ2) normális eloszlásúak;

• Var(y) = konstans, illetvey-nak vagyx-nek ismertfüggvénye;

• a különbözõi mérési pontokban elkövetett mérésihibák egymástól függetlenek;

• Y(x) = f(x, α,β,γ, ...) az ismert vagy feltételezettfüggvénykapcsolat alakja, aholα, β, γ a függvénykonstansai (paraméterei).

REGRESSZIÓ 4

Egyváltozós lineáris regresszió ismétlés

nélküli mérések esetén, konstans

( )φ = − =∑ y Yi ii

$ min.2

A becslési kritérium:

σ y i

2

( )$Y b bx a b x xi i i= + = + −0

( )φ = − − =∑ y b bxi ii

0

2min.

b a bx0 = −

( )Y x x xi i i= + = + −β β α β0β α β0 = − x

Page 3: Diasor a lineáris regresszióhoz

REGRESSZIÓ 5

[ ]∂φ∂ b

y b bxi i0

02 0= − − − =∑

A normálegyenletek:

[ ]∂φ∂ b

y b bx xi i i= − − − =∑2 00

Átrendezve:

y nb b xi i= + ∑∑ 0

y x b x b xi i i i= +∑ ∑∑ 02

Ha xi ≠∑ 0

a b0 ésb becslésekegymástól nem függetlenek

REGRESSZIÓ 6

A normálegyenletek az ( )Y x xi i= + −α β modell illesztésekor

( )[ ]∂φ∂ a

y a b x xi i= − − − − =∑2 0

( )[ ]( )∂φ∂ b

y a b x x x xi i i= − − − − − =∑2 0

Átrendezve:

( )y na b x xi i= + −∑∑

( ) ( ) ( )y x x a x x b x xi i i i− = − + −∑ ∑∑2

( )x xi − =∑ 0

xx

ni= ∑

Az a ésb becslések egymástól függetlenek, mert

Page 4: Diasor a lineáris regresszióhoz

REGRESSZIÓ 7

tehát aza ésb becsült paraméterek egymástólfüggetlenül kaphatók meg a két normálegyenletbõl:

ay

n

ii=∑ ( )

( )by x x

x x

i ii

ii

=−

∑2

( ) ( )E Y Y x xi i i$ = = + −α β( )$Y a b x xi= + − ;

y nai =∑ ( ) ( )y x x b x xi i i− = −∑∑2

és

REGRESSZIÓ 8

A becslések tulajdonságai:

( )E a Ey

ni≡

=∑ α

( )E b = β

( ) ( )Var an n

= =∑σ σ2

2

2

( )( )( ) ( )Var bx x

x x x x

i

i i

( ) =−

−=

−∑∑ ∑

2 2

2 2

2

2

σ σ

Page 5: Diasor a lineáris regresszióhoz

REGRESSZIÓ 9

( ) ( ) ( ) ( ) ( )( )Var Y Var a x x Var b

n

x x

n x xii

$ = + − = +−

2 22

2

( ) ( )[ ] ( ) ( )( )E Y E a b x x E a E b x x$ = + − = + −

( ) ( )E Y x x Y$ = + − =α β

REGRESSZIÓ 10

ss

nar= ( )

ss

x xb

r

i

=−∑

2

( )( ) ( )s s

n

x x

x xs s x x

Y r

ii

a b$ = +−

−= + −

∑1 2

22 2 2

A konfidenciatartományok a t-eloszlás alapján számíthatók.

( )s s s s xb Y x a b0 0

2 2 2= = +=$

Page 6: Diasor a lineáris regresszióhoz

REGRESSZIÓ 11

1. példa

Kísérletileg vizsgálták az x független változó és az y függő változó közötti összefüggést. Az x független változó értéke pontosan beállítható, az y függő változó értéke azonban a Yvalódi érték körül ingadozik. A mérési adatok a következő táblázatban láthatók, az y értéke szerint növekvő sorrendbe rendezve. A tényleges mérési sorrendet a táblázat második oszlopa tartalmazza. Feltételezve, hogy y normális eloszlású, valamint azt hogy az y és x közötti függvénykapcsolat lineáris, adjunk becslést az egyenes paramétereire!

REGRESSZIÓ 12

No mérési sorrend x y1 3 0 0.582 5 0.05 0.73 4 0.08 2.884 2 0.1 3.425 1 0.12 3.536 6 0.15 5.21

Page 7: Diasor a lineáris regresszióhoz

REGRESSZIÓ 13

Excel eredmények

sr reziduális szórás

sr2

b0

b

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.95061604R Square 0.90367086Adjusted R Square 0.87958858Standard Error 0.62135527Observations 6

ANOVAdf SS MS F Significance F

Regression 1 14.48747052 14.48747052 37.5243 0.003597945Residual 4 1.544329481 0.38608237Total 5 16.0318

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 0.05195755 0.504033217 0.103083577 0.922858 -1.347465911 1.451381x 32.0165094 5.22658099 6.125708087 0.003598 17.50516417 46.527855

R2

REGRESSZIÓ 14

RSSR

SST

SST SSE

SST

SSE

SST2 1= =

−= −

( )( )R adj

SSE n

SST n2 1

2

1_ = −

−−

Determinációs együttható:“Residual”

“Total”

“Regression”

Page 8: Diasor a lineáris regresszióhoz

REGRESSZIÓ 15

R2 = SSR/SST( ) ( ) ( )y y y Y Y yi

ii i i

ii

− = − + −∑ ∑∑2 2 2

$ $

SST = SSE + SSRd.f.: n-1 = n-2 + 1

0 2 4 6 8 100

2

4

6

8

10

R2=0.745

y

x

( )y Yi i− $

( )$Y yi −y

x

y

R2 = 0.745

REGRESSZIÓ 16

0 2 4 6 8 100

2

4

6

8

10

R2=0.034

y

x

( )$Y yi −

( )y Yi i− $

y

R2 = 0.034

x

y

Page 9: Diasor a lineáris regresszióhoz

REGRESSZIÓ 17

ANOVAdf SS

Regression 1 14.48747052Residual 4 1.544329481Total 5 16.0318

SSR

SSE

SST

sSSE

nr2

2=

n - 2

REGRESSZIÓ 18

$Y y Y− $ ( )y Y sr− $

( )Residual SSE2

1i

n

=∑ =

RESIDUAL OUTPUT

Observation Predicted y Residuals Standard Residuals1 0.05195755 0.528042453 0.8498237312 1.65278302 -0.952783019 -1.533394933 2.6132783 0.266721698 0.4292579654 3.25360849 0.166391509 0.267788045 3.89393868 -0.363938679 -0.5857175396 4.85443396 0.355566038 0.572242734

Page 10: Diasor a lineáris regresszióhoz

REGRESSZIÓ 19

ss

nar= ( )

ss

x xb

r

i

=−∑

2

( )( ) ( )s s

n

x x

x xs s x x

Y r

ii

a b$ = +−

−= + −

∑1 2

22 2 2

A konfidenciatartományok a t-eloszlás alapján számíthatók.

( )s s s s xb Y x a b0 0

2 2 2= = +=$

REGRESSZIÓ 20

Coefficients Standard Error t StatP-value Lower 95% Upper 95%Intercept 0.051957547 0.504033217 0 1 -1.347465911 1.451381005x 32.01650943 5.22658099 6 0 17.50516417 46.5278547

( )s sY x b$ = =

0 0

sb 95%-os konfidenciaintervallum a paraméterekre

Page 11: Diasor a lineáris regresszióhoz

REGRESSZIÓ 21

( )$ $. / $Y Y t salsó Y

= − 0 05 2 4

( )$ $. / $Y Y t sfölsõ Y

= + 0 05 2 4

x Yhat s_Yhat Yhat_alsó Yhat_fölsõ0 0.05 0.50 -1.35 1.45

0.05 1.65 0.31 0.80 2.510.08 2.61 0.25 1.91 3.320.1 3.25 0.27 2.51 4.00

0.12 3.89 0.32 3.01 4.780.15 4.85 0.43 3.66 6.05

Konfidencia sáv azY(x) valódi értékre

REGRESSZIÓ 22

Jóslási intervallum

(1- α) a valószínűsége annak, hogyx adott értékénél egy későbbi mérés eredménye a számított intervallumba esik.

( )( ) ( )s s

n

x x

x xs s s x x

y Y r

ii

r a b− = + +−

−= + + −

∑$ 1

1 2

22 2 2 2

intervallum: ( )$$Y x t s

y Y± −α 2

Page 12: Diasor a lineáris regresszióhoz

REGRESSZIÓ 23

r = .95062

x

y

-0 0 0 0 0 0 0 0 0-3

-2

-1

0

1

2

3

4

5

6

7

95%-os konfidencia sáv

95%-os jóslási sáv

$ . .Y x= +005196 32017

REGRESSZIÓ 24

A mérések sorrendje

mérési sorrend

rezi

duum

-0.5

-0.1

0.3

0.7

0 2 4 6 8 10 12

mérési sorrend

rezi

duum

-0.5

-0.1

0.3

0.7

0 2 4 6 8 10 12

x

0

2

4

6

8

10y

x

0

2

4

6

8

10

12y

0.0

0.2

0.4

0.6

0.8

1.0

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10idõ

et

0.0

0.2

0.4

0.6

0.8

1.0

x1 x2x3 x4x5x6 x7x8x9 x10

idõ

et

Page 13: Diasor a lineáris regresszióhoz

REGRESSZIÓ 25

Egyváltozós lineáris regresszió ismételt

mérések esetén, konstansσ y i

2

xi

x

n

n

n

n

y

( )x yi ik,

( )x yi i,

( )x Yi i, $

( )x Yi i,

y yik i−

y Yi i− $

$Y Yi i−

a − α( )Y x x= + −α β

( )$Y a b x x= + −

REGRESSZIÓ 26

SST = SSE + SSR

SST = SSrepl + SSres + SSR

Ismétlésekbõl számítottnégyzetösszeg

Reziduálisnégyzetösszeg

A szabadsági fokok száma:

pii

n

=∑ − =

1

1 ( )pii

n

−=∑ 1

1

+ − +n 2 1

( )spe

ii

2

1=

−∑SSrepl

snr

2

2=

−SSres

Page 14: Diasor a lineáris regresszióhoz

REGRESSZIÓ 27

Az csoportokon belülierror szórásnégyzeta variancia torzítatlan becslése, függetlenül azYfüggvény alakjától.

se2

Az reziduális szórásnégyzetcsak akkorbecslése -nak, ha a tapasztalati regressziósfüggvény "megfelelõ alakú", vagyis az elméletiregressziós függvény lineáris. Esetünkben tehátakkor, ha .

σ y2

( )Y x x= + −α β

sr2

REGRESSZIÓ 28

A hipotézis vizsgálatára azF-próbát használjuk:

Fs

s

vr

e

r r

e e

= =2

2

2 2

2 2

χ σχ σ ν

/

/

Ha az arány nem halad meg egyFα kritikusértéket, mondhatjuk, hogy a mérési adatok nemmondanak ellent annak a nullhipotézisnek, amelyszerint az elméleti és tapasztalati regressziós görbematematikailag azonos alakú.

s sr e2 2

Page 15: Diasor a lineáris regresszióhoz

REGRESSZIÓ 29

Ha elfogadjuk a nullhipotézist, egyben azt állítjuk, hogy és egyaránt torzítatlan becslései. A kettõ együtt több információt nyújt, mint bármelyikkülön-külön, mivel az így egyesített szórásnégyzetnagyobb szabadsági fokú (tehát kisebb varianciájú) becslése -nak, mint akár , akár . Célszerű tehát a két becslést egyesíteni.

sr2se

2 σ 2

σ 2 se2 sr

2

( ) ( )( ) ( )

$

$

σν νν ν

2 22 2

2 2

2= =

++

=− + −

− + −

∑ ∑∑

∑s

s sy y p y Y

p n ne e r r

e r

ik ik

i i iii

i

REGRESSZIÓ 30

2. példa

Kalibrációs eljárás során a táblázatban közölt adatokatmérték, x a koncentráció, y a mért jel. Illesszünk egyenest a mérési adatokra.

yik

xi i ha k pi

1 2 3 4 520 1 2.0046 2.1167 2.0059 2.1028 2.1053 514 2 1.5404 1.4737 1.5205 1.5372 1.4512 510 3 1.0043 1.0059 1.1068 1.0036 - 4 5 4 0.5756 0.6248 0.5701 0.6275 - 4 1.25 5 0.1952 0.2362 0.1954 0.2437 0.2455 5

pi =∑ 23

Page 16: Diasor a lineáris regresszióhoz

REGRESSZIÓ 31

x y5 0.6248

20 2.10531.25 0.1954

14 1.540420 2.0059

1.25 0.195220 2.11675 0.5756

1.25 0.23625 0.6275

14 1.45121.25 0.2455

20 2.00465 0.5701

10 1.005910 1.003610 1.1068

1.25 0.243710 1.004320 2.102814 1.520514 1.537214 1.4737

Az adatok a mérési sorrendjébenkerülnek be az input file-ba, teháta programok számára általábanugyanaz az x - y adatokszerkezete, mint ismétlés nélkülimérések esetén.

REGRESSZIÓ 32

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.997696R Square 0.995398Adjusted R Square 0.995179Standard Error 0.04772Observations 23

ANOVAdf SS MS F Significance F

Regression 1 10.34309 10.34309 4542.0869 4.98E-26Residual 21 0.0478205 0.002277Total 22 10.39091

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 0.09427 0.0180397 5.225696 3.524E-05 0.056754 0.131786x 0.098729 0.0014649 67.39501 4.985E-26 0.095682 0.101775

spi

i

2

2=

+−∑

SSrepl SSres

Page 17: Diasor a lineáris regresszióhoz

REGRESSZIÓ 33

x =⋅ + ⋅ + ⋅ + ⋅ + ⋅

=5 20 5 14 4 10 4 5 5 125

2310 2717

..

ap y

pi i

i

= = =∑∑

25 4933

23110839

..

( )( )b

p y x x

p x x

i i i

i i

=−

−= =∑

∑2

104 7655

106111410 09873

.

..

( )$ . . . . .Y x x= + − = +110839 0 09873 10 2717 0 0943 0 09873

REGRESSZIÓ 34

( )s

y y

p ne

ik iki

ii

2

2

30 032587

23 51810 10=

−=

−= ⋅

∑∑

∑−.

.

Annak ellenõrzésére, hogy az alkalmazott lineáris modellmegfelelõ-e, F-próbát végzünk. Az Excel táblázat segítségével számítsuk ki a reziduális szórásnégyzetet, majd végezzük el a próbát!

( ) ( )p s s p n sii

e i r−

= −

+ −∑ ∑2 1 22 2 2

21 0 002277 18 1810 10 33 2⋅ = ⋅ ⋅ +−. . sr

sr2 35 070 10= ⋅ −.

Page 18: Diasor a lineáris regresszióhoz

REGRESSZIÓ 35

F0

3

3

5 070 10

1810 102 804=

⋅⋅

=−

.

..

Az F-eloszlás kritikus értéke 95 % -os egyoldaliszinten ( α = 0.05), ha a számláló szabadsági foka 3, a nevezõé 18: F0.05(3, 18) = 3.16.

Azt mondhatjuk, hogy a számított egyenes(a tapasztalati regressziós görbe) a mérésipontokat megfelelõen leírja.

REGRESSZIÓ 36

( )ss

p x xb

y

i i

22

2

362 277 10

1061112146 10=

−=

⋅= ⋅

−−.

..

sb = ⋅ −146 10 3.

ss

pa

y

i

22 3

52 277 10

239 901 10= =

⋅= ⋅

−−.

.

sa = ⋅ −9 95 10 3.

Page 19: Diasor a lineáris regresszióhoz

REGRESSZIÓ 37

( )s s s x xY a b$

2 2 2 2= + − =( )= ⋅ + ⋅ ⋅ −− −9 901 10 2 146 10 10 27175 6 2. . .x

( )sY x$ . . . .=

− − −= ⋅ + ⋅ ⋅ = ⋅0

2 5 6 2 49 901 10 2146 10 10 2717 3 254 10

( )s sb Y x0 00 01804= ==$ .

REGRESSZIÓ 38

Egyváltozós lineáris regresszió ismételt

mérések esetén, nem konstans

y Yik i

yki i

=∑∑

$min.

σ

2

A becslési kritérium:

σ yi

2

A négyzetösszeg felbontható:

y yp

y Yik i

ykii

i i

yii i

+

=∑∑ ∑σ σ

2 2$

min.

σσy

iy

i

ip

2

2=

Page 20: Diasor a lineáris regresszióhoz

REGRESSZIÓ 39

A variancia nem konstans, hanemx-nek ismert függvénye:

[ ] ( )Var y x h xi y ii= =σ σ2 2 2

ahol x -tõl független konstans.σ 2

A minimalizálandó függvény:

( )( ) ( )p

y Y

h xw p y Yi

i i

iii i i i

i

−= −∑ ∑

$$

2

2 2 2

21

σ σ

( ) ( )[ ]w p y Y w p y a b x xi i i ii

i i i ii

− = − − − =∑ ∑$ min2 2

( )wh xi

y ii

= =σσ

2

2 2

1aholwi az ún. súly:

REGRESSZIÓ 40

xw p x

w pi i i

i i

= ∑∑

aza ésb becsült paraméterek egymástól függetlenülkaphatók meg a két normálegyenletbõl:

Ha

aw p y

w p

i i ii

i ii

=∑

∑( )

( )bw p y x x

w p x x

i i i ii

i i ii

=−

∑2

Page 21: Diasor a lineáris regresszióhoz

REGRESSZIÓ 41

Kalibrációs egyenes:a regressziós egyenlet megoldása a független változóra

Az egyenes egyenlete: ( )$Y a b x x= + −

Most y a független, de sztochasztikus változó (ötször mérve 5 különbözõ abszorbanciát kapunk), x a függõ változó, amelynekbecslése

( )$ $x x y xy a

b= = +

várható értéke (és valódi értéke) X. (Az becslésvalószínûségi változó, mively, a ésb valószínûségiváltozók.)

$x

REGRESSZIÓ 42

konfidencia-intervalluma:$x

( )z y a b X x≡ − − −segédváltozó

( ) ( )tz E z

sp

zi=

−= −∑ν 2

( ) ( )E z Y X x= − − − =α β 0

( ) ( ) ( ) ( ) ( )Var z Var y Var a X x Var b= + + − 2

Ha y nmérés átlagértéke, értelemszerûen írandóy helyébe, és ( ) ( )

Var yVar y

n=

Page 22: Diasor a lineáris regresszióhoz

REGRESSZIÓ 43

( ) ( )( )Var z

wn w p

X x

w p x xi i i i i

= + +−

∑ ∑

σ 22

2

1 1

Az becslést úgy kapjuk, hogyVar(z)elõbbi kifejezésében a w súlyok helyett beírjuk a h2(x) függvény reciprokánakbecslését, becsléséül pedig azs2-statisztikát használhatjuk.

sz2

σ 2

( )P t t t− < < = −α α α/ /2 2 1( )

tz

s

y a b X x

sz z

=−

=− − −0;

REGRESSZIÓ 44

Az X-re másodfokú kifejezés átrendezése után a

konfidenciaintervallum

( )( )x

y a

bt

s

b wn w p

b

b

x x

w p x xX

i i i i i

+−

− +

+

−−

< <∑ ∑α

αα

α

//

/

/ $

22

2

22

2

1 1

( )( )< +

−+ +

+

−−∑ ∑

xy a

bt

s

b wn w p

b

b

x x

w p x xi i i i iαα

α

α

//

/

/ $

22

2

22

2

1 1

b bt s

bb

αα

//

22

2 2

= −

ahol

Page 23: Diasor a lineáris regresszióhoz

REGRESSZIÓ 45

P xy a

bX x

y a

b+

−− < < +

−+

= −

α αα

/ /2 2

1∆ ∆

Az X-re másodfokú kifejezés átrendezése után a

konfidenciaintervallum

ahol

( ) ( )( )∆ = +

+ −−∑ ∑

t

bh x s

s

w p

b

bx x

s

w p x xi ii

i i ii

α

α

α/

/

/$ $

2

2

2 2

2

2 22

2

b bt s

bb

αα

//

22

2 2

21= −

és

REGRESSZIÓ 46

sa2 -val és sb

2-vel kifejezve

( )( ) ( )∆ = + + −t

bh x s s

b

bs x xa b

α

α

α/

/

/$ $

2

2

2 2 2 2 2 2

b sb>>Ha b bα /2 ≅,

( )P x X x$ $− < ≤ + = −∆ ∆ 1 α

, így az elõzõ kifejezés egyszerûsödik

( ) ( )∆ = + + −t

bh x

s

ns s x xa b

α /$ $

2 22

2 2 2

ahol

Page 24: Diasor a lineáris regresszióhoz

REGRESSZIÓ 47

Az összefüggések felhasználásával, ha :

s s xb b0, ,

( )$ ; $ $xy b

bP x X x=

−− < < − = −0 1∆ ∆ α

ahol

b sb>>

( ) ( )∆ = + + −t

bh x

s

ns s x xx

y

b bα /

$ $ $2 2

22 2 2

02

REGRESSZIÓ 48

3. példaA 2. példában kapott regressziós egyenest kalibrációsösszefüggésként használjuk. Az ismeretlen koncentrációjúoldattal végzett 5 mérés átlagértéke 1.25. Adjunk becslést és95 %-os konfidencia-intervallumot az oldat koncentrációjára(X-re ).

y = 125.

$. .

..x

y b

b=

−=

−=0 125 0 09427

0 0987311706

sb2 62146 10= ⋅ −. ( )t0 05 2 21 2080. / .=

t s

bbα / .2

2 249 52 10= ⋅ −

; ;

n = 5

Page 25: Diasor a lineáris regresszióhoz

REGRESSZIÓ 49

s s xb b0, ,

( ) ( )( )∆ =⋅

+ + ⋅ − ⋅ ⋅−

−2 0800 09873

2 277 105

0 01804 1465 10 117061 2 117061 10 27173

2 3 2..

.. . . . .

∆ = 1028.

( )P X10 7 11 7 0 95. . .< < =

A konfidencia-intervallum:

felhasználásával:

( )P X11 706 1 028 11 706 1 028 0 95. . . . .− < < + =

b bt s

bb

αα

// .22

2 2

0 09864= − = b

bα /2 1≈ ( )h x2 1=

REGRESSZIÓ 50

A regresszió feltételeinek ellenõrzése; a reziduumok vizsgálata

A regresszióanalízis során feltételeztük, hogy

• y azx minden értékénél normális eloszlású, vagyis azε mérési hibákN(0,σ2) normális eloszlásúak;

• Var(y) = Var(yx) = konstans, illetvey-nak vagyx-nekismert függvénye;

• a különbözõi mérési pontokban elkövetett mérési hibákegymástól függetlenek;

• E(yx) = Y(x) = f(x, α,β,γ, ...) az ismert vagy feltételezettfüggvénykapcsolat alakja, aholα, β, γ a függvénykonstansai (paraméterei).

Page 26: Diasor a lineáris regresszióhoz

REGRESSZIÓ 51

Reziduumok a mérések sorszámának függvényében:extrém értékek

A mérés sorszáma

-3

-2

-1

0

1

2

3

0 5 10 15 20 25 30 35 40

y i-Y i

sr

1.

REGRESSZIÓ 52

Reziduumok a mérések sorszámának függvényében:trend

2.

A mérés sorszáma

-3

-2

-1

0

1

2

3

0 5 10 15 20 25 30 35 40

y i-Y i

sr

Page 27: Diasor a lineáris regresszióhoz

REGRESSZIÓ 53

3. Ugrás (Szintváltozás a reziduumok vizsgálatánál)

A mérés sorszáma

-3

-2

-1

0

1

2

3

0 5 10 15 20 25 30 35 40

y i-Y i

sr

REGRESSZIÓ 54

4. A szórás (variancia, mérési pontosság) változása

Y

y i-Y i

Page 28: Diasor a lineáris regresszióhoz

REGRESSZIÓ 55

A függvény megfelelõen írja le változását:( )h x2

y i-Y i

h(xi)

Y

REGRESSZIÓ 56

5. Normalitás

Az közelítõleg zérus várható értékû normális

eloszlású kell legyen az 1…4. feltételezések szerint. ( )

y Y

h xi i− $

A normalitást úgy is vizsgálhatjuk, hogy ún. valószínû-

ségi papíron (Gauss hálón) ábrázoljuk értékét( )y Y

h xi i− $

A normalitást statisztikai próbával vizsgálhatjuk(χ2 -próba, Kolmogorov – Szmirnov próba).

Page 29: Diasor a lineáris regresszióhoz

REGRESSZIÓ 57

A reziduumok eloszlása nem normális, az illesztett modellnem megfelelõ:

0

yi-Y

i

h(xi)

Y

REGRESSZIÓ 58

A reziduum értékek ábrázolása Gauss-hálón.

Residuals

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-2 -1 0 1 2 3 4 5

elméletieloszlás

a reziduumoknem normáliseloszlásúak

Page 30: Diasor a lineáris regresszióhoz

REGRESSZIÓ 59

A reziduum értékek ábrázolása Gauss-hálón.

a reziduumoknormáliseloszlásúak

Residuals

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5

REGRESSZIÓ 60

Kétváltozós lineáris regresszió

Az elméleti regressziós függvény:

( ) ( )Y x x x x= + − + −α β β1 1 1 2 2 2

A becslési kritérium:

( ) ( ) ( )[ ]φ = − = − − − − − =∑ ∑y Y y a b x x b x xi ii

i i ii

$ min.2

1 1 1 2 2 2

2

A becsülendõ paraméterek szerint deriválva, és a deriváltakatnullával egyenlõvé téve kapjuk a normálegyenleteket:

Page 31: Diasor a lineáris regresszióhoz

REGRESSZIÓ 61

( ) ( )na b x x b x x yi i i+ − + − =∑ ∑ ∑1 1 1 2 2 2

( ) ( ) ( )( ) ( )a x x b x x b x x x x y x xi i i i i i1 1 1 1 1

2

2 1 1 2 2 1 1− + − + − − = −∑ ∑ ∑ ∑

( ) ( )( ) ( ) ( )a x x b x x x x b x x y x xi i i i i i2 2 1 1 1 2 2 2 2 2

2

2 2− + − − + − = −∑ ∑ ∑ ∑

( )x xii

1 1 0− =∑

A becsült paraméterek akkor függetlenek egymástól, ha

( )x xii

2 2 0− =∑

( )( )x x x xi ii

1 1 2 2 0− − =∑

;

és

;

ortogonáliskísérleti terv

REGRESSZIÓ 62

Szempontok a független változók értékeinek megválasztásához

Egymástól független becsült paraméterek (ortogonalitás)

-1

1

1-1

0

0

0

50

100

150

200

250

300

350

400

450

500

0 10 20 30 40 50 60

T, °C

P, k

Pa

x2

x1

Page 32: Diasor a lineáris regresszióhoz

REGRESSZIÓ 63

A paraméter minél pontosabb becslése

-1 0 1

-1 0 1

-1 0 1

a)

b)

c)

sb

σ= 0 43.

sb

σ= 029.

sb

σ= 0 27.

REGRESSZIÓ 64

Többváltozós lineáris regresszió

Legyenr a független változók száma. A kísérletsorozateredményeit a következő táblázatos formában szokásos írni:

x x x x y

x x x x y

x x x x y

x x x x y

j r

j r

i i ji ri r

n n jn rn n

11 21 1 1 1

12 22 2 2 2

1 2

1 2

L L

L L

M M M M M

L L

M M M M M

L L

Page 33: Diasor a lineáris regresszióhoz

REGRESSZIÓ 65

Y x x x xi i i i r ri= + + + +β β β β0 0 1 1 2 2 K

A modell

aholx0i az általános írásmód érdekében bevezetett fiktív változó.

Az x0i elemek értéke 1.

A tapasztalati regressziós egyenes

$Y b x b x b x b xi i i i r ri= + + + +0 0 1 1 2 2 K

A kétváltozós regressziónál mondottakhoz hasonlóan a bj

becslések egymástól nem függetlenek.

REGRESSZIÓ 66

Az egyes változók szignifikanciájának vizsgálata

Eldöntendõ, hogyq < r változó figyelembevételer változóhozképest nem rontja-e a közelítést.

A q ill. r számú változóra a mért pontok és a becsült sík közöttieltérések négyzetösszege, ha mindeni pontban csak egyymérés van:

S y b xq i jq jij

q

i

= −

=∑∑

0

2

S y b xr i jr jij

r

i

= −

=∑∑

0

2

( )$Y q ( )$Y r

Page 34: Diasor a lineáris regresszióhoz

REGRESSZIÓ 67

Tegyük fel, hogyr változó biztosan elég (hibátlan a regressziósegyenlet alakja), ekkor az

( )[ ]y Y ri i− $

eltérések normális eloszlásúak, (konstansnak feltételezett) varianciával; az eltérésekSr négyzetösszegének szabadsági fokan-(r+1)

σ y2

Ha q változó is elég (H0 nullhipotézis), az ( )[ ]y Y qi i− $

eltérések is normális eloszlásúak, varianciával; az eltérésekSq négyzetösszegének szabadsági fokan-(q+1)

σ y2

REGRESSZIÓ 68

Ha a nullhipotézis igaz, az

( )( )F

s

s

S n q

S n rq

r

q

r0

2

2

1

1= =

− −− −

/

/

hányadosF-eloszlásún – q – 1 ésn – r – 1 szabadsági fokkal.

F-próba

Page 35: Diasor a lineáris regresszióhoz

REGRESSZIÓ 69

Sq és Sr különbsége szintén normális eloszlású eltéréseknégyzetösszege, szabadsági fokar – q:

( ) ( )( )F

s

s

S S r q

S n rr q

r

q r

r0

2

2 1= =

− −− −

− /

/

F-próba

Bármelyik módszerrel elvégezhetõ azF-próba, a második érzékenyebb (általános regressziós próba).

REGRESSZIÓ 70

Ha az arány a kritikusF értéket meghaladja, el kell vetnünk a nullhipotézist, amely szerintr – q változó hatása nemszignifikáns. Természetesenr – q = 1 is lehet, ekkor azt vizsgáljuk, hogyadott egyetlen változó hatásának (lineáris) figyelembevételejavítja-e a közelítést.

Ha a normális eloszlás feltételezése nem jogos, az itt leírtvizsgálati módszer hamis eredményeket ad!

Minthogy a becslések egymástól nem függetlenek, az elõbbivizsgálatt-próbával nem végezhetõ el.

Page 36: Diasor a lineáris regresszióhoz

REGRESSZIÓ 71

Regresszió más, a független változóban nemlineáris, de a paraméterekben lineáris függvényekkel

( )Y zz

z= + + −

+β β β β0 1 2

2

32exp log

Vezessük be a következõ jelöléseket:

x z1 = xz

2

2

2= −

exp ( )x z3 = log

Ezekkel Y xj jj

=∑ β

A becslési probléma és az eredmények statisztikaielemzése teljesen azonos a többváltozós lineárisregressziónál leírtakkal.

REGRESSZIÓ 72

Polinom illesztéseLegyenek olyan mérési adataink, amelyeknél azy függõ változónem lineáris, hanem polinommal leírható függvénye a zfüggetlen változónak. Mivel a z független változó értéke pontosan beállítható és nemterheli mérési hiba, tetszõleges hatványa is pontosan ismert, tehát determinisztikus független változóként kezelhetõ.

Bevezetve azx1 = z, x2 = z2 , ..., xk = zk jelöléseket, a feladat a többváltozós lineáris regresszióra vezethetõ vissza.

$ ... ...Y b b z b z b z b b x b x b xkk

k k= + + + + = + + + +0 1 22

0 1 1 2 2

Mivel xj értékek nem függetlenek egymástól, a becsültbj együtthatókerõsen korreláltak lesznek.