regressione lineare - economia.uniba.it didattico/statistica ii (prof. d... · la relazione lineare...

26
REGRESSIONE LINEARE Ha un obiettivo importante: investigare sulle relazioni empiriche tra variabili allo scopo di analizzare le cause che possono spiegare un determinato fenomeno È caratterizzata da semplicità: i modelli utilizzati sono basati essenzialmente su funzioni lineari Anche in caso di relazioni non lineari, una prima analisi fondata su forme funzionali semplici (lineari) è un punto di partenza per passare poi ad eventuali modelli più complessi

Upload: vukhanh

Post on 16-Feb-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

REGRESSIONE LINEARE

Ha un obiettivo importante: investigare sulle relazioni empiriche tra variabili allo scopo di analizzare le cause che possono spiegare un determinato fenomeno

È caratterizzata da semplicità: i modelli utilizzati sono basati essenzialmente su funzioni lineari

Anche in caso di relazioni non lineari, una prima analisi fondata su forme funzionali semplici (lineari) è un punto di partenza per passare poi ad eventuali modelli più complessi

REGRESSIONE LINEARE

Esempio

per prevedere le vendite di un nuovo punto vendita il responsabile di una catena di supermercati ha rilevato da un campione di supermercati:

•il volume delle vendite

•la dimensione

•la densità della popolazione

•la spesa per promozione

Quesiti: c’è una relazione tra il volume delle vendite e quelle variabili ?

sulla base di tale relazione come posso prevedere il volume delle vendite del nuovo punto vendita ?

Le principali fasi

1. Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (indipendenti o esplicative)

2. Si stimano i parametri di tale relazione funzionale sulla base dei dati campionari a disposizione

3. Si effettuano i test statistici sulla significatività dei parametri e si valuta la bontà dell’adattamento del modello ai dati

4. Si effettuano altre analisi di conferma sulla validità delle assunzioni su cui si basa la stima del modello (linearità e altre assunzioni)

I MODELLI DI REGRESSIONE LINEARE

Modelli di dipendenza per la rappresentazione di relazioni non

simmetriche tra le variabili

•Y “variabile dipendente” (variabile target da spiegare)

•X1,…,Xp “variabili indipendenti” (variabili esplicative o regressori)

Si vuole descrivere la relazione tra Y e X1,…,Xp con una funzione

lineare

•se p=1 osservazioni in uno spazio a due dimensioni (i=1,…,n)

•se p>1 osservazioni in uno spazio a p+1 dimensioni (i=1,…,n)

Yi = f (Xi1)

Yi = g(Xi1,..., Xip)

I MODELLI DI REGRESSIONE LINEARE

• se p=1 spazio a due dimensioni retta di regressione lineare

semplice

Y

X

Il modello di regressione lineare

• se p>1 spazio a p+1 dimensioni “piano” di regressione lineare

Y

X1

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Esempio

per prevedere le vendite di un nuovo punto vendita vengono rilevati da un campione di supermercati:

• Il volume delle vendite

• La dimensione

Campione di supermercati Diagramma di dispersione (scatter)

0

50

100

150

200

250

300

350

0,0 50,0 100,0 150,0 200,0

Spazio espositivo

V

o

l

u

m

e

v

e

n

d

i

t

e

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Relazione lineare ipotizzata:

α e β : parametri del modello di regressione

α : intercetta; β : coefficiente di regressione

La relazione lineare non vale con esattezza: discrepanze tra valori osservati di Y e quelli derivanti da una relazione esatta con X

Cause delle discrepanze:

•Errori di specificazione (altre variabili esplicative non considerate nel

modello);

•Errori di misura o di risposta presenti nella variabile Y

niuXY iii ,...2,1        

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Il termine di errore u rappresenta le discrepanze e distingue una

relazione statistica (o stocastica) da una deterministica

ui : variabili casuali che si ipotizzano

•Indipendenti

•distribuite normalmente

•con media E(ui) = 0

•e varianza costante E(ui2) = σ2

u

niuXY iii ,...2,1        

Stimando la retta di regressione si commette un errore di

previsione: Metodo dei Minimi Quadrati

Y

X

iY

VALORE

STIMATO

VALORE

OSS.

iY

ERRORE

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

In base alle n osservazioni campionarie: stime dei parametri α e β del modello di regressione, indicate con a e b

Stimati i parametri, la relazione che lega le due variabili corrisponde a una particolare retta nel piano:

dove:

indica l’ordinata teorica corrispondente ad un dato valore di X il coefficiente a - o intercetta - rappresenta l’ordinata all’origine della retta

il coefficiente di regressione b è il coefficiente angolare della retta

Y = a+bX         Retta di regressione stimata

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

La retta di regressione stimata è tanto più adatta a descrivere la

relazione tra le due variabili quanto più i punti osservati sono vicini a

tale retta

Esempio:

0

50

100

150

200

250

0 50 100 150 200 250 300 350

Spazio espositivo

V

o

l

u

m

e

v

e

n

d

i

t

e

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

Residui campionari:

Criterio dei minimi quadrati (OLS): a e b sono scelti in modo da

minimizzare la somma dei quadrati dei residui campionari

Le stime si ottengono uguagliando a zero le derivate parziali:

ˆi i i i ie Y Y Y a bX

22

1 1

( , )n n

i i i

i i

f a b e Y a bX

( , ) ( , )0; 0

f a b f a b

a b

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

risolvendo abbiamo:

IL COEFFICIENTE DI REGRESSIONE ESPRIME DI QUANTO, IN

MEDIA, VARIA IL CARATTERE DIPENDENTE ALL’AUMENTARE

DI UNA UNITA’ DEL CARATTERE INDIPENDENTE.

        

1

2

1

n

i

i

n

i

ii

xx

yyxx

b

xbya

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

La stima del modello

Esempio:

0

50

100

150

200

250

0 50 100 150 200 250 300 350

Spazio espositivo

V

o

l

u

m

e

v

e

n

d

i

t

e

Parametri Stima

a -10.19

b 0.67 ˆ 10,19 0,67Y X

il coefficiente di regressione ci dice che ad un incremento unitario della variabile X (un m2 nella superficie) la variabile Y subisce un incremento di 0,67 (centinaia di euro di vendite: 67 euro

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Distribuzione dei parametri

Gli stimatori a e b - entrambi funzioni lineari della variabile casuale Y, distribuita come il termine di errore u, hanno anch’essi distribuzione di probabilità normale:

Da cui le seguenti variabili standardizzate:

2 2

1

;n

u i

i

b N x

2

1

(0,1)n

u i

i

bN

x

2 2

1

(0,1)

1n

u i

i

aN

n X x

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Distribuzione dei parametri

Sostituita la varianza incognita dell’errore σ2u con un suo stimatore

corretto s2 :

dalle distribuzioni normali standardizzate si passa alle

distribuzioni t di Student:

Nei denominatori figurano gli errori standard dei parametri

2 2

1

( ) / ( 2)n

i

i

s e n

( 2)

2

1

nn

i

i

bt

s x

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Inferenza sui singoli parametri

Sistema d’ipotesi:

La statistica test: rapporto tra stima e suo errore standard

0:

0:

1

0

H

H

2,2

1

2

n

n

i

i

t

x

s

b

sì si respinge H0 β =0

si accetta H0

β =0

no

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Inferenza sui singoli parametri

Esempio (precedente):

ˆ 10,19 0,67Y X

0

50

100

150

200

250

0 50 100 150 200 250 300 350

Spazio espositivo

V

o

l

u

m

e

v

e

n

d

i

t

e

il p-value ci dice che il test è significativo: il suo valore ha staccato

un’area di probabilità pari a 0,0005 sulla coda della distribuzione; ci troviamo

quindi nella regione di rifiuto del test

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

Caso di due variabili indipendenti X1 e X2 :

dove α, β1 e β2 sono i parametri del modello di regressione

e ui è la componente di errore

Attraverso le stime a, b1 e b2 dei parametri viene definito il piano di regressione stimato nello spazio a 3 dimensioni:

Caso generale:

iiii uxxy 21

Y = a+b1X

1+b

2X

2

1 2 2 ...i i k ik iY X X u (i =1,...,n)

L’errore presente nel modello si ipotizza essere di natura

casuale. Può essere determinato da:

• variabili non considerate

• problemi di misurazione

• modello inadeguato

• effetti puramente casuali

Il modello di regressione lineare Le ipotesi del modello

IL MODELLO LINEARE NORMALE

Quando si parla di “modello lineare generale” si intende fare riferimento ad

n modello atto a formalizzare e studiare

LA DIPENDENZA IN MEDIA

di una v.c. Y da k variabili matematiche (non casuali) X1,, X2……., Xk,

In termini matriciali: Y = XB + ε

nk

knn

k

k

knnn

k

k

n

B

xx

xx

xx

xxx

xxx

xxx

X

Y

Y

Y

Y

...

...

...

..............

...

...

...

..............

...

...

...

1

0

1

0

1

212

111

10

21202

11101

2

1

1

1

1

0)( E

nICov 2)(

0),( jiCov

1. Errori a media nulla

2. Errori con varianza costante

(omoschedasticità)

3. Errori non correlati

(per ogni i≠j)

4. Errori con distribuzione Normale ),0(~ nIN

* 1 – 3 hp deboli

1 – 4 hp forti

Il modello di regressione lineare Le ipotesi del modello

Da un punto di vista statistico

• Y è un vettore aleatorio di cui si osserva una specifica

realizzazione campionaria hp sulla distribuzione

• X è una matrice costante con valore noto no hp sulla

distribuzione

• beta è un vettore costante non noto

• l’errore è un vettore aleatorio di cui si osserva una

specifica realizzazione campionaria hp sulla

distribuzione

Il modello di regressione lineare Le ipotesi del modello

XYE )(

• ogni osservazione di Y è uguale ad una combinazione

lineare dei regressori con pesi=coefficienti beta + un

termine di errore

XY

• in media Y può essere rappresentata come funzione

lineare delle sole (X1,…,Xp)

Il modello di regressione lineare Le ipotesi del modello

26

Indice di Determinazione

DEVIANZA TOTALE

DEVIANZA DI REGRESSIONE

DEVIANZA RESIDUA

L’INDICE DI DETERMINAZIONE, esprime QUANTA PARTE

DELLA DEVIANZA TOTALE DI Y E’ DETERMINATA o SPIEGATA DALLA

RETTA DI REGRESSIONE

Assume valore 0 quando la Devianza di Regressione è nulla (b=0)

Assume valore 1 quando la Devianza Residua è nulla ossia quando i punti

sono allineati e giacciono sulla retta di Regressione.