dipartimento di economia università degli studi di cagliari ___________________________ corso di...

46
Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana Lez. 3 – Il processo di inferenza statistica

Upload: fina-piccolo

Post on 01-May-2015

233 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Dipartimento di Economia

Università degli Studi di Cagliari

___________________________ CORSO DI ECONOMETRIA___________________________

Prof. Paolo Mattana

Lez. 3 – Il processo di inferenza statistica

Page 2: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Differenza fondamentale tra popolazione e campione

Popolazione (o spazio campionario):

In termini tecnici è costituita da tutte le possibili realizzazioni di una variabile casuale

Nel caso di dati economici è costituita da tutte le osservazioni possibili su una variabile (passate, presenti e future). Raramente si arriva a conoscere la popolazione (con variabili di natura economica)

Ciò che si fà, è estrarre un campione da una popolazione (che resta sconosciuta).

NOZIONI DI BASE

Page 3: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Campione:

Un campione può essere definito come un’estrazione di n “oggetti” da una popolazione

E’ detto casuale, o stocastico, se ogni possibile combinazione di n oggetti ha la stessa probabilità di essere selezionata.

Poiché le popolazioni sono spesso inaccessibili (o perché materialmente impossibili da raggiungere o per via dei costi elevati implicati), i campioni restano l’unica fonte di informazione a disposizione dell’econometrico

NOZIONI DI BASE

Page 4: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

media campionaria

Quesito cruciale:

Che relazione esiste tra media campionaria e media della popolazione?

Si ricordi che

PRINCIPALI MOMENTI CAMPIONARI

NB:

La media campionaria può essere ben diversa in campione ripetuti (Variabilità campionaria).

E(X)μ

ixn

X 1

Page 5: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

PRINCIPALI MOMENTI CAMPIONARI

La media campionaria

La varianza campionaria

ix

nX

1

n

)X(Xv

2

2

Page 6: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

PRINCIPALI MOMENTI CAMPIONARI

La covarianza campionaria

La correlazione campionaria

In contesti bivariati

n

)Y)(YX(Xs XY

22 )Y(Y)X(X

Y))(YX(X

sss

rYx

XYXY

Page 7: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Problema dell’inferenza:

cosa sappiamo dire sulla popolazione partendo dal campione? NB:

Se il campione riproducesse esattamente i singoli momenti della popolazione di appartenenza la soluzione al problema dell’inferenza sarebbe facile da risolvere. Poiché, invece, ciò non accade sono necessari accorgimenti "tecnici" per capire e utilizzare le informazioni derivabili dai campioni.In particolare, sappiamo “molto” su come si comportano i momenti principali dei campioni rispetto ai corrispondenti valori delle popolazioni

L’INFERENZA STATISTICA

Page 8: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Il nostro problema sarà quello di “fare inferenza” sui parametri della popolazione (a noi sconosciuti) sulla base delle osservazioni campionarie. Come possiamo operare?

Abbiamo tre diverse livelli di intervento. Possiamo richiedere:

• una stima puntuale dei parametri della popolazione (point estimation);

• una prob. che tali parametri si collochino entro due valori limite (interval estimation);

• un’indicazione prob. sul fatto che un particolare parametro della popolazione esibisca determinate caratteristiche (hypothesys testing).

L’INFERENZA STATISTICA

Page 9: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

)X...,,X,(Xθ n21ˆ

Costruiamo una funzione

delle osservazioni chiamata stimatore.

Stimatore: variabile casuale che rappresenta il nostro ”miglior” tentativo di catturare il valore vero appartenente alla popolazione.

Come costruiamo stime puntuali?

Esempi di inferenza univariata: come faccio a inferire il valore della media o della varianza di una popolazione generica?

L’INFERENZA STATISTICA

Point estimation

Page 10: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Abbiamo già visto che

Possiamo quindi immaginare di utilizzare la media campionaria come (stimatore non distorto della media (vera) della popolazione).

Stiamo, cioè, costruendo una funzione delle osservazioni (stimatore) per “catturare” il valore vero .

La funzione dei parametri (stimatore), in questo caso, è

μ )XE(

L’INFERENZA STATISTICA

Esempi di stime puntuali

μ)X...XE(Xn

XEn

)XE( ni 21

11

Page 11: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

E’ molto interessante studiare le proprietà della media campionaria.

Già sappiamo che:

μXE

L’INFERENZA STATISTICA

Se infiniti campioni casuali di dimensione n sono tratti da unapopolazione generica , allora:),(~ 2σμ

22 1σ

X

Page 12: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Dimostrazione:

L’INFERENZA STATISTICA

NB:

è indicato come standard error della mediaσn

1

(Che fine fanno le covarianze?)

)X...XVar(Xn

)Var(Xn

)XVar(σ niX 21222 11

)(nσn

)σσσ(σn

22

22222

2

11

Page 13: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Standard deviation Standard error

Popolazione Medie campionarie

L’INFERENZA STATISTICA

Page 14: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

L’INFERENZA STATISTICA

Possiamo ora produrre ulteriori indicazioni sulla media campionaria

Si supponga che la popolazione parentale sia

Allora,

2σμ,N~

/nσμ, N~X 2

Dimostrazione:

Essendo la media campionaria una sommatoria di variabili casuali per assunzione

Allora, essa conserverà le proprietà statistico/distributive della popolazione originaria

/nσμ, N~ 2

Page 15: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Cosa succede se non abbiamo informazioni sulla distribuzione

della popolazione originaria?

Teorema del limite centrale

In grandi campioni, la media campionaria si distribuisce secondo una normale centrata sulla media vera e con varianza pari aindipendentemente dalla forma della distribuzione dellapopolazione originariaSito divertente:

http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html

2(1/n)σ

L’INFERENZA STATISTICA

Page 16: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Popolazione Campione

X6.18

6.186.18

6.18

X X

X

L’INFERENZA STATISTICA

Page 17: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Inferenza sulla varianza della popolazione

Posso usare:

L’INFERENZA STATISTICA

Per la dimostrazione useremo il sito:

http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html

1

22

n

)X(Xs

Page 18: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Né accurato, né preciso Preciso e accurato

L’INFERENZA STATISTICA

Page 19: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Preciso, non accurato Accurato, non preciso

L’INFERENZA STATISTICA

Page 20: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Preciso e accurato

Accurato, non preciso

L’INFERENZA STATISTICA

Page 21: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Bias

Né accurato, né precisoPreciso, non accurato

L’INFERENZA STATISTICA

Page 22: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

e diciamo che il valore vero θ giace fra i due estremi θ1 e θ2 con una certa probabilità. Gli intervalli di confidenza al 95% e 99% sono quelli più usati

( )nX...,X,Xθ ,ˆ211

( )nX...,X,Xθ ,ˆ212

Possiamo, alternativamente, immaginare di essere interessati a

Conoscere la probabilità che la media della popolazione si trovi fra due intervalli. Costruiamo ora due funzioni delle osservazioni:

Interval estimation

L’INFERENZA STATISTICA

Page 23: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Intervalli di confidenza nel caso della media campionaria

Sappiamo che:

• La media campionaria si distribuisce secondo una normale (teorema del limite centrale);

• Per ogni distribuzione normale: il 95% delle osservazioni è compreso all’interno dell’intervallo:

X

_

σX 1.96

dovenσ/σ X

Quindi, il 95% delle medie sarà compreso nell’intervallo:

nσX 1.96_

L’INFERENZA STATISTICA

Page 24: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Ovviamente, gli intervalli di confidenza possono essere costruitiper ogni parametro stimato, non solo per μ.

Media (σ noto)Media (σ stimato)Differenza tra medie (σ noto)Differenza tra medie (σ stimato)Differenza tra correlazioni

Interval estimation

L’INFERENZA STATISTICA

Page 25: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Se fosse conosciuto potremmo "fare inferenza" sulla popolazione utilizzando le proprietà della distribuzione normale.

Tuttavia, anche quando è sconosciuto possiamo sostituirlo con la DS del campione s, a patto che si abbia a che fare con un campione "grande” .

Cosa possiamo fare per campioni piccoli?

L’INFERENZA STATISTICA

Page 26: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Problema quando il campione è piccolo e non si conosce

• Non possiamo utilizzare la distribuzione normale per formare IC • Possiamo stimare il valore di dal campione

• Dobbiamo però usare la distribuzione t

L’INFERENZA STATISTICA

Page 27: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

La t è una FDP che presenta una forma schiacciata rispetto alla Z

E’ stata calcolata dal matematico inglese Gosset (1908), che la pubblicò sotto lo pseudonimo di Student

La sua forma esatta dipende dai gradi di libertà:

GdL = n – parametri da stimare

dove n è la dimensione del campione

I valori della t sono tabulati (oppure si può usare la rete…)

L’INFERENZA STATISTICA

Page 28: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

.

Per campioni molto grandi, il valore di s oscilla poco intorno al suovalore medio .

Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di Z ed arriva a coincidere per infiniti gradi di libertà.

Per piccoli campioni le differenze sono notevoli, data l’oscillazione casuale di s intorno a

NB: In generale, la distribuzione t è rilevante ogniqualvolta si abbia:

DISTRIBUZIONE t

n

i

i

nz

/Zt1

2

0

Page 29: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

etc15

3.02.151.7.6914

3.02.21.8.6913

……………

9.94.32.9.812

63.712.76.31.01

0.010.050.10.5

Parte della distribuzioneche cade all’esterno dei valori tabulati

Valore critico di t perdf=14 (con valore critico al 5%)

Gra

di

di

lib

ertà

DISTRIBUZIONE t

Page 30: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Usiamo 2.15 al posto di 1.96.

NB:

i valori tabulati della distribuzione t sono più grandi di quelli della distribuzione normale

Quindi, per n = 15, l’intervallo di confidenza del 95% sarà pari a:

ns/mediaIC 2.15

DISTRIBUZIONE t

Page 31: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Esercizio 3.6

135$X 38n 22s

Intervallo al 99%

1) Campione grande

2) 2.58 -1 θ

2.582 θ

Tavole normale standardizzata

Affitto medio

L’INFERENZA STATISTICA

9.2113538

222.58135

38

222.58135 μ

Page 32: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Trovare ora la dimensione del campione che comporta un

Intervallo di confidenza di 2$

222

2.58 n 805X

L’INFERENZA STATISTICA

Page 33: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Esercizio 3.5

Gli onorari orari in un campione di 40 studi risultano in media pari a 25$ con s = 3,7.

Si ottenga un intervallo di confidenza al 95% per tutti i professionisti.

i) Suppongo che il campione sia "grande" posso trovare una Z ~N(0,1) tale che:

0.9521 )θZP(θ

L’INFERENZA STATISTICA

Page 34: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

ii) Controllo le tavole (già sappiamo che 1 = - 1,96 ; 2 = 1,96)

iii) Se il campione è piccolo, cosa succede?

L’INFERENZA STATISTICA

ns/μns/ 1.96251.9625

0.95

1.961.96-

ns

μXP i

1.146625

Page 35: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Cosa sappiamo sulla distribuzione della popolazione?

Normale Non normale

Conosciamo σ? Dimensione del campioneGrande?

Piccola?

No Si

Dimensionedel campione

StopPiccola

Grande

ns

μ-Xt

_

=

nsμ-X

Z

_

=

RIEPILOGANDO….

Page 36: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

DISTRIBUZIONE CHI-QUADRATO

22

2 =)(=∑ χσμ-X

Zi

i∑

URL utile: http://www.statlets.com/free/pdist.htm-

Se Z1, Z2,…., Zn sono N(0, 1), allora:

Es: sotto H0 si distribuisce secondo un( )

2

21

σ

s-n

Infatti:( ) ( )

∑∑∑ 22

2

2

2

2

=)(==1

X-X

σ

X-X

σ

s-n ii

Useremo spesso per fare RSSR - RSSUUR

Page 37: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

DISTRIBUZIONE CHI-QUADRATO

(v = 1 o 2)

0

0

(v = 3 o 5)NB: la distribuzione

approssima una normale

man mano che v sale

Page 38: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

uχ vu

22

DISTRIBUZIONE “ F “ di Fischer

URL utile: http://www.statlets.com/free/pdist.htm-

Se u e v sono due variabili casuali distribuite indipendentemente

secondo un , allora:

Es: sotto H0

si distribuisce secondo una F con u GL al numeratore e v GL al denominatore

2

22

2

21=

σ

s

σ

sF

Page 39: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

DISTRIBUZIONE “ F “ di Fischer

0 1 2 3 4 50.00.10.20.30.40.50.60.70.8

d.f.N = 8d.f.D = 20

Page 40: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

In questo caso si suggeriscono alcune ipotesi su θ e si accetta o si rifiuta questa ipotesi sulla base dei dati

Teoria

Ipotesi

Deduzione

La teoria è collegata all’ipotesi attraverso la deduzione logica.Deduciamo le ipotesi a partire dalla teoriaSe la teoria è vera, l’ipotesi sarà vera

L’INFERENZA STATISTICA

Hypothesis testing

Page 41: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Nei modelli statistici distinguiamo due tipi di ipotesi

Quelle riguardanti la struttura del modello:

Forma della distribuzione;Modelli di campionamento.

Quelle riguardanti i valori assunti dai parametri delmodello data la sua struttura.

TEST DELLE IPOTESI

Page 42: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

I test sull’adeguatezza della struttura del modello sono detti

Test diagnostici

O

Test di cattiva specificazione

I test sui parametri sono detti

Test di specificazione

TEST DELLE IPOTESI

Page 43: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Definizioni

Ipotesi nulla: (H0) ipotesi (tentativo) intorno a un parametro della popolazione

Ipotesi alternativa: (H1) solitamente il complemento rispetto all’universo

Statistica: Una statistica è una quantità numerica calcolata in un campione.

Livello di significatività: il livello di significatività è il criterio usato per rigettare l’ipotesi nulla

TEST DELLE IPOTESI

Page 44: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Approccio di Neyman – Pearson (1933)

Specificare un ipotesi nulla (H0) e un ipotesi alternativa (H1)

Scegliere un livello di significatività α

Calcolare una statistica

Calcolare il p value della distribuzione appropriata sotto H0

Confrontare il p value con α

se p value ≤ α rifiutiamo l’ipotesi nulla;se p value > α non rifiutiamo l’ipotesi nulla.

TEST DELLE IPOTESI

Page 45: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

I test di significatività statistica si conducono per stabilire se una ipotesi nulla può essere accettata

Se H0 è rifiutata significatività statistica

Se H0 è non rifiutata assenza di significatività statistica

La scelta di α determina la probabilità di errore di Iª specie

NB:

La significatività statistica di un coefficiente non implica la sua significatività pratica.

TEST DELLE IPOTESI

Page 46: Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana

Errore di Iª specie (α):

Probabilità di rigettare l’ipotesi nulla quando è vera

Errore di IIª specie (β)

Probabilità di non rigettare l’ipotesi nulla quando è falsa

TEST DELLE IPOTESI