6. modelli statistici: analisi della regressione lineare · marta blangiardo – analisi della...

55
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.1 6. ANALISI DELLA REGRESSIONE LINEARE 6. Modelli statistici: analisi della regressione lineare BIOSTATISTICA Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected]

Upload: hoangtruc

Post on 25-Jan-2019

240 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.1

6. ANALISI DELLA REGRESSIONE LINEARE

6. Modelli statistici: analisi della regressione

lineare

BIOSTATISTICA

Marta Blangiardo, Imperial College, London

Department of Epidemiology and Public Health

[email protected]

Page 2: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.2

6. ANALISI DELLA REGRESSIONE LINEARE

MODELLO STATISTICORappresentazione seplificata, analogica e

necessaria della realtà

Semplificazione della realtà: il modello di un bacino idrologico, di un aereoplano, del flusso finanziario di un Paese ottenutiriproducendo gli aspetti “essenziali” e eliminando quelli ritenuti “superficiali”.

Analogia della realtà: il modello è unariproduzione della realtà

Rappresentazione necessaria della realtà: anche se è semplificato il modello ènecessario per capire la realtà tramite lo studio di relazioni semplici e di maggioreintellegibilità

Page 3: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3

6. ANALISI DELLA REGRESSIONE LINEARE

La specificazione di un modello consistenell’esplicitare un legame tra i fenomeni diinteresse:

Y = f(X1, X2,…,Xp)Dove Y è la variabile da spiegare, mentreX1, X2,…,Xp sono le variabili scelte per spiegare Y tramite la funzione f(.)

Inoltre non è quasi mai plausibile ipotizzareun legame deterministico quindi dobbiamoaggiungere un errore:

Y = f(X1, X2,…,Xp) + εεεε

dove εεεε è una variabile casuale e riassume la nostra ignoranza circa la vera relazione traY e X. Per questo motivo la chiameremovariabile errore.

Page 4: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.4

6. ANALISI DELLA REGRESSIONE LINEARE

In alcuni contesti la specificazione dellarelazione funzionale risulta immediata dallanatura del problema:

1) Se Y è il peso ed X è l’altezza di unapersona adulta la prima relazione daspecificare è quella proporzionale(maggiore il peso, maggiore l’altezza e viceversa) Y= ββββX+ εεεε

2) Se Y è il peso di una mattonellarettangolare per la quale X 1 e X2 sonorispettivamente la lunghezza e la larghezza, allora una relazione funzionale può esserespecificata mediante Y= ββββX1X2+ εεεε

Entrambe le specificazioni evidenziano un parametro ββββ che deve essere determinatoper poter utilizzare il modello specificato

Page 5: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.5

6. ANALISI DELLA REGRESSIONE LINEARE

Modelli

statistici

Non lineari

Multivariati

(più di una X

e più di una Y)

Semplici (una X e una Y)

Multipli (più diuna X ma una Y)

Lineari

Page 6: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.6

6. ANALISI DELLA REGRESSIONE LINEARE

TerminologiaY = f(X1, X2,…,Xp)

Y: variabile dipendenteX1,…,Xp: variabili esplicative

εεεε: variabile casuale errore

NOTA: il legame statistico implicato dalmodello non è simmetrico. Sono le variabiliesplicative a “determinare” la variabiledipendente e NON viceversa.

X: precipitazione giornaliera di un bacinoidrograficoY: livello del fiume che si origina dal bacinoRelazione: X Y ma NON Y X

X: dose di concime somministrato in un campo di granoY: resa di grano in quel terrenoRelazione: X Y ma NON Y X

Page 7: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.7

6. ANALISI DELLA REGRESSIONE LINEARE

Modello di regressione lineare

Il termine REGRESSIONE derivadall’applicazione svolta dal biologo Galton che nel 1886 esaminò altezze dei figli (Y) in funzione delle altezze dei genitori (X) in Inghilterra e notò una relazione funzionaletra le due variabili: più alti i genitori, più alti i figli e viceversa.Tuttavia ai genitori che si collocavano agliestremi (molto bassi o molto alti) non corrispondevano figli altrettanto estremi, ovvero Galton osservò che l’altezza dei figlisi spostava verso la media e quindiconcluse che questo costituiva unaregression towards mediocrity e la relazionefunzionale fu chiamata “modello diregressione”.

Page 8: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.8

6. ANALISI DELLA REGRESSIONE LINEARE

Oggi il termine regressione è divenutosignificato di “relazione funzionale travariabili ottenuta con metodi statistici” e la frase “regredire Y su (X1,…,Xp)” significaricercare una relazione statistica del tipo:

Y = f(X1, X2,…,Xp) + εεεε

Il modello di regressione semplice èspecificato dalla relazione:

yi = f(xi;ββββ) + εεεεi

La funzione f(xi;ββββ) può essere di primo grado, ad esempio:

yi = b0 + b1xi + εεεεi

Oppure di grado superiore al primo, ad esempio di secondo grado:

yi = b0 + b1xi + b2xi2 + εεεεi

Page 9: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.9

6. ANALISI DELLA REGRESSIONE LINEARE

X = velocità di un autoveicolo

Y = spazio difrenata

Modello di regressione lineare sempliceyi = ββββ0 + ββββ1xi + εεεεi

Identifica una retta, nota come la retta diregressione:ββββ0: intercetta, il valore di Yi quando xi=0ββββ1: pendenza, di quanto cambia Yi quandoxi incrementa di un’unitàεεεεi: l’errore che si commette nellaspiegazione dellavariabile yi tramite unafunzione lineare di xi

X

Y

Page 10: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.10

6. ANALISI DELLA REGRESSIONE LINEARE

X

Y

Che relazione c’è tra X e Y?

X

Y

X

Y

Covarianopositivamente

Covarianonegativamente

Non covariano

Page 11: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.11

6. ANALISI DELLA REGRESSIONE LINEARE

La covarianza misura l’attitudine a covariare di due caratteri

6

3

-3

-2

1

-1

-4

Y-Y

24

21

15

16

19

17

14

Y

3

1

-3

-1

5

0

-5

X-X

2010

015

520

214

912

316

1818

(X-X)(Y-Y)X

Cov(X,Y) =

Σi=1(x – x )(y – y )n

n-1

x =15 y =18

Cov(X,Y) = 20+0+5+2+9+3+18

7-1= 9.5

Page 12: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.12

6. ANALISI DELLA REGRESSIONE LINEARE

Cov(X,Y) =

Σi=1(x – x )(y – y )n

n-1

Cov(X,Y)> 0

X

Y

Cov(X,Y)= 0 Cov(X,Y)< 0

X

Y

X

Y

Page 13: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.13

6. ANALISI DELLA REGRESSIONE LINEARE

0

5

10

15

20

25

30

9 11 13 15 17 19 21X

Y

2418

2116

1512

1614

1920

1715

1410

YX

Cov(X,Y)=9.5 > 0

Page 14: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.14

6. ANALISI DELLA REGRESSIONE LINEARE

ρρρρ =Cov(X,Y)

sd(X) . sd(Y)

Deviazionestandard

Deviazionestandard

COVARIANZA

E’ utile costruire una misura STANDARDIZZATA che esprima quanto I due caratteri covariano

COEFFICIENTE DI CORRELAZIONE

-1 1

Cov(X,Y)=0Cov(X,Y)=

sd(X) . sd(Y)NON c’è

correlazione PERFETTA

CorrelazionePOSITIVA

0Cov(X,Y)=

- sd(X) . sd(Y)

PERFETTA

CorrelazioneNEGATIVA

Page 15: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.15

6. ANALISI DELLA REGRESSIONE LINEARE

X

Y

ββββ1111>0

x x+1

1

X

Y

1

ββββ1111<0

x x+1

X

Y

x x+1

1

ββββ1111=0

yi = ββββ0 + ββββ1xi + εεεεi yi = ββββ0 - ββββ1xi + εεεεi

yi = ββββ0 + εεεεi

yi = ββββ0 + ββββ1xi + εεεεi

Modello di regressione lineare semplice

Page 16: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.16

6. ANALISI DELLA REGRESSIONE LINEARE

Per un insieme di punti possono passareinfinite rette!

Come scegliere la retta “migliore”?

X

Y

Metodo dei Minimi Quadrati

Page 17: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.17

6. ANALISI DELLA REGRESSIONE LINEARE

xˆˆy 10 β+β=

X

Y

ŷi

yi

L’idea dei minimi quadrati è quella discegliere la retta che minimizza la sommadegli scarti dalla retta di regressione

Scarti: εεεεi = yi - ŷi

RSS=Σi εεεεi2 = Σi (yi - ŷi)2 = Σi (yi - ββββ0 – ββββ1xi)2

Page 18: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.18

6. ANALISI DELLA REGRESSIONE LINEARE

Si può dimostrare che i parametri cheminimizzano la somma degli scarti dallamedia al quadrato sono i seguenti:

dove

1

))((Y)Cov(X, ;)(

1

1)(

;1

;1

n

1i

1

2

−−=−

−=

==

∑∑

∑∑

=

= n

yyxxxx

nXVar

yn

yxn

x

iin

ii

ii

xˆyˆ

)X(Var)Y,X(Cov

)xx(

)yy)(xx(ˆ

10

n

1i

2i

n

1iii

1

β−=β

=−

−−=β∑∑

=

=

Page 19: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.19

6. ANALISI DELLA REGRESSIONE LINEARE

Coefficiente dicorrelazione

ββββ1?

ρρρρ =Cov(X,Y)

sd(X) . sd(Y)ββββ1111 =

Cov(X,Y)

Var(X)

ρρρρ = ββββ1

sd(X)

sd(Y)

1) Ricavo ρρρρ da ββββ1

2) Ricavo ββββ1111 da ρρρρ

ββββ1111 = ρρρρsd(Y)

sd(X)

Page 20: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.20

6. ANALISI DELLA REGRESSIONE LINEARE

Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà cordiformesui quali misuriamo la variabile X (peso vivo) e Y (peso secco). Otteniamo i seguenti valori:

2.2747.910

3.3088.879

4.34011.160

1.9485.295

3.7158.421

5.34012.232

2.2125.422

2.5129.900

5.27712.441

3.2918.424

4.26910.296

4.80912.476

2.9558.459

3.1307.267

3.8169.705

YX

Trovare la retta di regressione dei minimiquadrati che spiega Y in funzione di X

Page 21: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.21

6. ANALISI DELLA REGRESSIONE LINEARE

Dal campione si calcolano le seguentiquantità

x = 9.2191 y = 3.5464

s2x = 5.2140 s2

y = 1.1949

n=15

X

0

1

2

3

4

5

6

0 2 4 6 8 10 12 14

Y

Page 22: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.22

6. ANALISI DELLA REGRESSIONE LINEARE

Per ottenere i parametri della retta diregressione si devono usare le formuleseguenti:

ββββ1111 =Cov(X,Y)

Var(X) ββββ0000 = y – ββββ1x

Cov(X,Y) =(9.705 – 9.2191) . (3.816 – 3.5464) + …

+ (12.441 – 9.2191) . (5.277 – 3.5464)

15-1

Cov(X,Y) = 2.2324

Var(X) = 5.2140

ββββ1111 = 2.2324 / 5.2140 = 0.4282

ββββ0000 = 3.5464 – 0.4282 . 9.2191= - 0.4009

Page 23: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.23

6. ANALISI DELLA REGRESSIONE LINEARE

X

0

1

2

3

4

5

6

0 2 4 6 8 10 12 14

Y

La retta di regressione che minimizza i quadrati degli scarti dalla media è la

seguente:y = β= β= β= β0 + ββββ1 1 1 1 x

y = - 0.4009 + 0.4282 . x

Per disegnarla mi servono due punti

1) Quando y = 0

2) Quando x = 10

0 = - 0.4009 + 0.4282 . x

x = 0.4009 / 0.4282 = 0.9363

y = - 0.4009 + 0.4282 . 10

y = - 0.4009 + 4.282

= 3.8807

Page 24: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.24

6. ANALISI DELLA REGRESSIONE LINEARE

Punto 1 :

x=-0.4009, y=0

Punto 2 :

x=10, y=3.8807

X

0

1

2

3

4

5

6

-1 1 3 5 7 9 11 13

Y

Page 25: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.25

6. ANALISI DELLA REGRESSIONE LINEARE

y = β= β= β= β0 + ββββ1 1 1 1 x

Come interpretare i due coefficienti del modello di regressione?

Intercetta:

•valore che assume y quando x=0

•punto nel quale la rettaincorcia l’asse delle y

Pendenza:

•indica di quanto varia y al variare di un’unità di x

•Il segno indica il verso dell’inclinazione

Page 26: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.26

6. ANALISI DELLA REGRESSIONE LINEARE

Assunzioni del modello di regressione

yi = ββββ0 + ββββ1xi + εεεεi

1. I dati sperimentali siano un campionecasuale estratto da una popolazione diunità x,y per i quali vige la relazione

tenendo conto di eventuali cause accidentali

Nel ipotizzare un modello di regressionestiamo assumendo che:

Page 27: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.27

6. ANALISI DELLA REGRESSIONE LINEARE

2. Fissato un valore di X abbiamo unapopolazione di valori di Y distribuitinormalmente con media situata sullaretta di regressione

Assunzioni del modello di regressione

Y

Xx1 x2 x3

ββββ0+ββββ1x1

ββββ0+ββββ1x2

ββββ0+ββββ1x3

Normaleper Y quandoX=x1

Normaleper Y quandoX=x2

Normaleper Y quandoX=x3

Y|X=x1 ~ N(β0+β1x1,σ2)Y|X=x2 ~ N(β0+β1x2,σ2)Y|X=x3 ~ N(β0+β1x3,σ2)

Page 28: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.28

6. ANALISI DELLA REGRESSIONE LINEARE

Y|X=xi ~ N(β0+β1xi, σ2 )

3. La varianza rimane la stessaindipendentemente da X

Omoschedasticità

Var(yi) = σσσσ2

Assunzioni del modello di regressione

Page 29: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.29

6. ANALISI DELLA REGRESSIONE LINEARE

Assunzioni del modello di regressione

Scarti (Residui):

εεεεi = yi – (ββββ0+ββββ1x i)

yi = ββββ0 + ββββ1xi + εεεεi

εεεεi ~ N(0,σσσσ2) Stessa variabilità di Y

εεεεi

0

Assunzione rispettata

εεεεi

0

Assunzione violata

Page 30: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.30

6. ANALISI DELLA REGRESSIONE LINEARE

CAMPIONE

PARAMETRIUNIVERSO

STIMATORI

Siamo interessati a valutare l’esistenza di unarelazione tra peso vivo e peso secco nella

popolazione delle camelie tramite un modellodi regressione.

Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà

cordiforme sui quali misuriamo il peso vivo e il peso secco.

Page 31: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.31

6. ANALISI DELLA REGRESSIONE LINEARE

La retta di regressione dei minimiquadrati è la seguente:

y = - 0.4009 + 0.4282 . x

Come valutiamo se la relazione tra le due variabili è significativa o no?

CAMPIONE STIMATORI

Facciamo INFERENZA sui parametridella retta di regressione.

Page 32: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.32

6. ANALISI DELLA REGRESSIONE LINEARE

Media campionariaββββ0

ΒΒΒΒ0 ~ T(ββββ0000,σσσσ2ββββ0

)

POPOLAZIONE BERSAGLIO

Tutti i possibili campioni

Page 33: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.33

6. ANALISI DELLA REGRESSIONE LINEARE

Media campionariaββββ1

ΒΒΒΒ1 ~ T(ββββ1111,σσσσ2ββββ1

)

POPOLAZIONE BERSAGLIO

Tutti i possibili campioni

Page 34: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.34

6. ANALISI DELLA REGRESSIONE LINEARE

Usiamo β0 e β1 per stimare i veri valori deiparametri β0 e β1.

β0 T(ββββ0000,σσσσ2ββββ0

)

Test del T diStudent

Ipotesi nulla:

H0: β0 = 0 La retta di regressione passaper il punto di coordinate (0,0)

ββββ0000 = y – ββββ1x

Dal campione:

Stima campionaria

Deviazione standard campionarias

1

n+

(x)2

Dev(x)se(ββββ0) =

Page 35: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.35

6. ANALISI DELLA REGRESSIONE LINEARE

Usiamo β0 e β1 per stimare i veri valori deiparametri β0 e β1.

β1 T(ββββ1111,σσσσ2ββββ1

)

Test del T diStudent

Ipotesi nulla:

H1: β1 = 0 La retta di regressione ha pendeza 0

Dal campione:

Stima campionaria

Deviazione standard campionaria

ββββ1111 =Cov(x,y)

Var(x)

s

Dev(x)se(ββββ1) =

Page 36: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.36

6. ANALISI DELLA REGRESSIONE LINEARE

L’errore standard di entrambi i parametri èfunzione di s

s =(n-1) s2

y (1 – ρρρρ2xy)

n-2

I valori empirici per il test T di student sono

β1

β1-0

es(β1)=

β1-0

s

Dev(x)

tg=

n-2

β0

β0-0

es(β0)=

β0-0

n-2

tg=

s1

n+

(x)2

Dev(x)

Page 37: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.37

6. ANALISI DELLA REGRESSIONE LINEARE

P-value=0.03

ββββ0 = 0

P-Value: probabilità di ottenere un risultato campionario altrettanto o piùestremo di quello osservato, se H 0 èvera

P-value = Pr ( B 0 >ββββ0 sotto H 0)

Più piccolo è il valore del p-value,

1) più “estremo” è ilvalore osservato

2) Più bassal’evidenza che i datisiano coerenti con la distribuzione sotto

l’ipotesi nulla

ββββ0 ββββ0

P-value=0.25

Page 38: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.38

6. ANALISI DELLA REGRESSIONE LINEARE

P-value=0.03

ββββ0

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

ββββ0 = 0

PROBLEMA: l’ipotesi è bidirezionale

P-value = Pr ( B 0 >ββββ0 sotto H 0)

H0: ββββ0000 = 0 H1: ββββ0 = 0vs

Unidirezionale

Bidirezionale

2*P-value

-ββββ0

P-value=0.03

P-value=0.06

Page 39: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.39

6. ANALISI DELLA REGRESSIONE LINEARE

P-value=0.03

ββββ1 = 0

P-Value: probabilità di ottenere un risultato campionario altrettanto o piùestremo di quello osservato, se H 0 èvera

P-value = Pr ( B 1 >ββββ1 sotto H 0)

Più piccolo è il valore del p-value,

1) più “estremo” è ilvalore osservato

2) Più bassal’evidenza che i datisiano coerenti con la distribuzione sotto

l’ipotesi nulla

ββββ1 ββββ1

P-value=0.25

Page 40: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.40

6. ANALISI DELLA REGRESSIONE LINEARE

P-value=0.03

ββββ1

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI

ββββ1 = 0

PROBLEMA: l’ipotesi è bidirezionale

P-value = Pr ( B 1 >ββββ1 sotto H 0)

H0: ββββ1111 = 0 H1: ββββ1 = 0vs

Unidirezionale

Bidirezionale

2*P-value

-ββββ1

P-value=0.03

P-value=0.06

Page 41: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.41

6. ANALISI DELLA REGRESSIONE LINEARE

2.2747.910

3.3088.879

4.34011.160

1.9485.295

3.7158.421

5.34012.232

2.2125.422

2.5129.900

5.27712.441

3.2918.424

4.26910.296

4.80912.476

2.9558.459

3.1307.267

3.8169.705

YX

Siamo interessati a valutare l’esistenza di unarelazione tra peso vivo e peso secco nella

popolazione delle camelie tramite un modellodi regressione.

Campione

n=15

Page 42: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.42

6. ANALISI DELLA REGRESSIONE LINEARE

69.6

1ˆ1

21

=

β=β)es

tg

Dal campione otteniamo le seguentiinformazioni

Misura divariabilità

Stimatore

5464.3 =

=∑

n

yy i

i

2191.9 =

=∑

n

xx i

i

4009.0

ˆˆ10

−=β−=β xy

4282.0

),(ˆ21

=

=βxs

yxCov

1773.1 1

)( 2

=−

−=∑

n

yys i

i

y

Deviazione standard

2140.5 1

)( 2

2

=−

−=∑

n

xxs i

i

x

Varianza

722.2

)(1 22

0

=

+=βxDev

x

nses

Errore standard

Errore standard

064.0

2

1

=

=βxDev

ses

14.0

1ˆ0

20

−=

β=β)es

tg

5465.0 2

)1()1( 22

=−

ρ−−=

n

sns xyy

Page 43: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.43

6. ANALISI DELLA REGRESSIONE LINEARE

P-value( ββββ0) = Pr ( B0 >ββββ0 sotto H 0)

2*P-value( ββββ0) >2*0.4 che trovo sulletavole

Non ho sufficiente evidenza per rifiutare H0

Concludo che ββββ0 non è significativamentediverso da 0

Page 44: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.44

6. ANALISI DELLA REGRESSIONE LINEARE

P-value( ββββ1) = Pr ( B1>ββββ1 sotto H 0)

2*P-value( ββββ1) < 2*0.0005

Rifiuto H0

Concludo che ββββ1 è significativamentediverso da 0

Page 45: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.45

6. ANALISI DELLA REGRESSIONE LINEARE

Punto 1 :

x=-0.4009, y=0

Punto 2 :

x=10, y=3.8807

X

0

1

2

3

4

5

6

-1 1 3 5 7 9 11 13

Y

Page 46: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.46

6. ANALISI DELLA REGRESSIONE LINEARE

Se concludo che ββββ1=0

Il modello di regressione lineare non è adatto ad interpretare la relazione

tra X e Y.

C’è un modo per valutare analiticamentela bontà di adattamento del modello?

H0: il modello non si adatta ai dati

Page 47: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.47

6. ANALISI DELLA REGRESSIONE LINEARE

y

yi

xi

Devianza totale:

Σi (yi – y)2DevTOT=

yi-y

Page 48: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.48

6. ANALISI DELLA REGRESSIONE LINEARE

Devianza totale =

= (3.816-3.5464)2 + (3.130-3.5464)2 +...

...+ (2.512-3.5464)2 + (5.277-3.5464)2 =

= 16.7289

ΣΣΣΣ (yi – y )2i

2.2747.910

3.3088.879

4.34011.160

1.9485.295

3.7158.421

5.34012.232

2.2125.422

2.5129.900

5.27712.441

3.2918.424

4.26910.296

4.80912.476

2.9558.459

3.1307.267

3.8169.705

YX

Campione

n=15

y = 3.5464

Page 49: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.49

6. ANALISI DELLA REGRESSIONE LINEARE

y

yi = ββββ0 + ββββ1 xi

xi

Devianza RESIDUA:

Σi (yi – yi)2DevR=

yi-yi

Quanta parte della variabilità totale èresidua?

yi

Page 50: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.50

6. ANALISI DELLA REGRESSIONE LINEARE

Devianza residua =

= (3.816-3.754)2 + (3.130-2.711)2 +...

...+ (2.512-3.838)2 + (5.277-4.926)2 =

= 3.3472

ΣΣΣΣ (yi – yi )2i

5.277

2.512

2.212

5.340

3.715

1.948

4.340

3.308

2.274

3.291

4.269

4.809

2.955

3.130

3.816

Y

2.9867.910

3.4018.879

4.37711.160

1.8665.295

3.2058.421

4.83612.232

1.9215.422

3.8389.900

4.92612.441

3.2068.424

4.00710.296

4.94112.476

3.2218.459

2.7117.267

3.7549.705

YX yi = ββββ0 + ββββ1 xi

-0.4007 + 0.4282 . 9.705 = 3.754

.

.

.

.

.

.

.

-0.4007 + 0.4282 . 12.441 = 4.836

Page 51: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.51

6. ANALISI DELLA REGRESSIONE LINEARE

y

yi = ββββ0 + ββββ1 xi

xi

Devianza SPIEGATA dal modello :

Σi (yi – y)2DevS=

Quanta parte della variabilità totale èspiegata dal modello di regressione?

yi

yi - y

Page 52: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.52

6. ANALISI DELLA REGRESSIONE LINEARE

Devianza spiegata =

= (3.754-3.5464)2 + (2.711-2.5464)2 +...

...+ (3.838-3.5464)2 + (4.926-3.5464)2 =

= 13.3817

ΣΣΣΣ (yi – y )2i

5.277

2.512

2.212

5.340

3.715

1.948

4.340

3.308

2.274

3.291

4.269

4.809

2.955

3.130

3.816

Y

2.9867.910

3.4018.879

4.37711.160

1.8665.295

3.2058.421

4.83612.232

1.9215.422

3.8389.900

4.92612.441

3.2068.424

4.00710.296

4.94112.476

3.2218.459

2.7117.267

3.7549.705

YX yi = ββββ0 + ββββ1 xi

y = 3.5464

Page 53: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.53

6. ANALISI DELLA REGRESSIONE LINEARE

Spiegata dal modello

13.3817 +

Residua 3.3472 =

Fonti di variabilità devianza

Totale 16.7289

k-1 = 1

n-k = 13

Gradi di libertà

n-1=14

13.3817

0.2575

varianza

F1, 13 =Varianza spiegata

Varianza residua

13.3817

0.2575= = 51.97

Page 54: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.54

6. ANALISI DELLA REGRESSIONE LINEARE

Distribuzione F 1,13

51.97

Valore empirico

rifiutiamo H 0 ovvero la relazione tra le due variabili è ben spiegata da un modello di regressione lineare

p < 0.05

4.6672

0.95 0.05

Valore tabulato

Area di accettazioneArea di rifiuto

Page 55: 6. Modelli statistici: analisi della regressione lineare · MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3 6. ANALISI DELLA REGRESSIONE LINEARE La specificazione di un

MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.55

6. ANALISI DELLA REGRESSIONE LINEARE

Esercizio di riepilogo

Si vuole valutare la relazione tra peso allanascita e settimane di gestazione in UK. A tal fine si estrae un campione di 26 bambini nati a University College Hospital di Londra, della stessa razza e dello stessogenere. I dati sono I seguenti:

X: 42 41 39 40 40 40 39 39 41 42 41 43 43 41 38 37 38 43 35 37 35 38 40 42 39 34

Y: 3.180 2.780 3.630 3.900 3.310 2.896 2.780 3.800 3.900 4.020 4.180 3.460 4.400 3.800 2.990 3.160 2.720 3.560 2.640 2.400 2.320 2.910 3.200 3.800 3.560 2.538

Stimare i parametri della retta di regressionedei minimi quadrati.