lezioni di analisi econometrica

151
1 LEZIONI DI ANALISI ECONOMETRICA Indice Lista degli esempi applicativi 1 Introduzione 2 Il modello lineare 2.1 Analisi economica ed analisi econometrica Primi obiettivi dell’Econometria 2.2 I modelli e il lungo periodo Modelli statici e dinamici Il sentiero di equilibrio di lungo periodo La tendenza di lungo periodo come modello semilogaritimico Approssimazione del saggio di crescita Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo 2.3 La stima dei minimi quadrati (OLS) della tendenza lineare 2.4 I residui 2.5 Il breve e il lungo periodo 2.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice 2.7 L’interpretazione statistica 2.8 La scomposizione della devianza e il coefficiente di determinazione Il coefficiente di determinazione non centrato Cautela nell’uso del coefficiente di determinazione Eliminazione della tendenza lineare con una differenza prima 2.9 Stima di una funzione del consumo Coefficiente di determinazione e scelta del modello Omogeneità dei dati Non linearità rispetto alle variabili 2.10 Propensione media ed elasticità

Upload: mariojorizzo

Post on 29-Jun-2015

1.978 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Lezioni di analisi econometrica

1

LEZIONI DI ANALISI ECONOMETRICA

Indice Lista degli esempi applicativi 1 Introduzione 2 Il modello lineare 2.1 Analisi economica ed analisi econometrica Primi obiettivi dell’Econometria 2.2 I modelli e il lungo periodo Modelli statici e dinamici

Il sentiero di equilibrio di lungo periodo La tendenza di lungo periodo come modello semilogaritimico Approssimazione del saggio di crescita Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo

2.3 La stima dei minimi quadrati (OLS) della tendenza lineare 2.4 I residui 2.5 Il breve e il lungo periodo 2.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice 2.7 L’interpretazione statistica 2.8 La scomposizione della devianza e il coefficiente di determinazione

Il coefficiente di determinazione non centrato Cautela nell’uso del coefficiente di determinazione

Eliminazione della tendenza lineare con una differenza prima 2.9 Stima di una funzione del consumo

Coefficiente di determinazione e scelta del modello Omogeneità dei dati Non linearità rispetto alle variabili

2.10 Propensione media ed elasticità

Page 2: Lezioni di analisi econometrica

2

L’elasticità 2.11 Altri esempi

La legge di Okun Relazione tra tasso di cambio nominale e prezzi relativi

Appendice 2.1 Serie storiche, dati sezionali e longitudinali Dati longitudinali

Appendice 2.2 Complementi analitici Differenza prima logaritmica Le condizioni sufficienti per la stima dei minimi quadrati Nullità del termine misto nella scomposizione della devianza totale

Appendice 2.3 Appendice 2.4 3 L’ambiente stocastico 3.1 I residui come enti aleatori: le ipotesi deboli 3.2 Definizioni e risultati nell’approccio stocastico

Stime e stimatori dei minimi quadrati Il teorema di Gauss-Markov

3.3 La correlazione tra le variabili e tra gli stimatori dei parametri La correlazione tra gli stimatori dei parametri

3.4 Le ipotesi forti sui residui Intervalli di confidenza Stima intervallare Verifiche (o test) di ipotesi Residui normali Indipendenza in probabilità

3.5 Inferenza statistica per i parametri del modello lineare semplice Verifica di ipotesi

3.6 Inferenza statistica per la varianza dei residui

Stima intervallare per 2σ

Verifica di ipotesi lineari semplici per 2σ

3.7 Inferenza statistica per i parametri del modello lineare semplice con 2σ ignoto Errori standard delle stime Verifica di ipotesi

3.8 Tre esempi Retta interpolante il logaritmo dei consumi

Page 3: Lezioni di analisi econometrica

3

Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi

Appendice 3.1 Complementi analitici La varianza di una somma di variabili aleatorie

La struttura di varianza – covarianza invariante rispetto ad una costante additiva Gli stimatori dei minimi quadrati Le varianze degli stimatori dei minimi quadrati La covarianza tra gli stimatori dei minimi quadrati Campo di variazione del coefficiente di correlazione Indipendenza stocastica del numeratore e del denominatore nelle t di Student

Appendice 3.2 Distribuzioni di probabilità rilevanti Distribuzione normale Distribuzione del chi quadrato Distribuzione della t di Student Distribuzione della F di Fisher

4 La proiezione 4.1 Proiezione e proiettore nei modelli lineari 4.2 La proiezione con il criterio dei minimi quadrati

L’errore di proiezione Proiezioni ex post ed ex ante L’errore quadratico medio di proiezione

4.3 Intervalli di confidenza per le proiezioni 4.4 Tre esempi

Retta interpolante il logaritmo dei consumi Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi

4.5 Indicatori dell’accuratezza delle proiezioni Appendice 4.1 Complementi analitici

La varianza dell’errore di proiezione 5 La malaspecificazione 5.1 Aspetti variegati della malaspecificazione 5.2 Eteroschedasticità dei residui

La stima dei minimi quadrati ponderati (WLS) 5.3 Test di omoschedasticità

Page 4: Lezioni di analisi econometrica

4

Il test di Breusch e Pagan Il test del chi quadrato La formulazione di Koenker

5.4 La correzione per l’eteroschedasticità di White

5.5 Fonti e conseguenze dell’autocorrelazione

5.6 Test di autocorrelazione dei residui

Il test di Durbin e Watson

Tre esempi 5.7 Il trattamento dell’autocorrelazione di ordine uno

ϕ determinato dalla statistica di Durbin e Watson

Il metodo di Cochrane e Orcutt

5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow)

Il caso 1n k> , 2n k>

Il test della F di Fisher

Il caso 1n k> , 2n k≤

5.9 Il test di normalità di Jarque–Bera Appendice 5.1 Complementi analitici

Uguaglianza tra coefficiente di autoregressione del primo ordine e ρ

6 Il modello lineare multiplo 6.1 I vettori e la moltiplicazione righe per colonne 6.2 Il modello lineare multiplo 6.3 I minimi quadrati nel modello lineare multiplo 6.4 Vettori e matrici Vettori Operazioni tra vettori Matrici 6.5 Operazioni tra matrici

La matrice inversa Il determinante

6.6 Le stime dei minimi quadrati Le stime dei residui

6.7 Il coefficiente di determinazione corretto

Page 5: Lezioni di analisi econometrica

5

Appendice 6.1 Complementi analitici Condizioni per la minimizzazione della devianza residuale

Ortogonalità dei residui stimati rispetto alle variabili esplicative Appendice 6.2 L’inversa di una matrice Il determinante di una matrice quadrata L’aggiunta di una matrice quadrata

Il modello lineare semplice in termini matriciali

Lista degli esempi applicativi 1. (Esempio 2.1) Tendenza lineare del logaritmo dei consumi privati nominali in

Italia 2. (Esempio 2.1) Tendenza esponenziale dei consumi privati nominali in Italia 3. (Esempio 2.2) Tendenza lineare dei consumi privati nominali in Italia 4. (Esempio 2.3) PIL e propensione media al consumo (ipotesi del Duesenberry) 5. Funzione del consumo (rispetto al reddito corrente) in Italia 6. (Esempio 2.1) Elasticità del consumo privato rispetto al reddito e al reddito

disponibile in Italia 7. Legge di Okun per gli USA e per l’Italia

8. Relazione tra tasso di cambio nominale (valuta italiana/$) e prezzi relativi

Page 6: Lezioni di analisi econometrica

6

CAPITOLO I

INTRODUZIONE

Per oltre cinque lustri i miei studenti del corso quadriennale di Econometria nella Facoltà di Economia de “La Sapienza” si sono preparati essenzialmente sulla “Traccia”, dispense disponibili sia sulla rete che in forma cartacea, fotocopiabile. Anno dopo anno questo testo si è ingrandito, fino a raggiungere un migliaio di pagine, comprendendo anche temi non trattati nel corso ma dichiaratamente utili agli studenti più avanzati, come i modelli di serie storiche, lineari e non, quelli autoregressivi vettoriali, o l’analisi spettrale.

Passando dal vecchio al nuovo ordinamento, la didattica ha dovuto essere cambiata, nel senso di dover essere basata su temi più circoscritti, direttamente

operativi, fruibili da studenti interessati a settori variegati dell’Economia, da

quella macro all’aziendale, dalle ricerche di mercato alla finanza. Così è nata l’esigenza di fornire agli studenti del corso semestrale di base di Econometria un

testo che assemblasse gli elementi introduttivi della “Traccia”, curandone in particolare gli aspetti interpretativi e quelli empirici, e relegando in appendice la

materia analiticamente più avanzata. Queste “Lezioni” costituiscono tale testo.

La “Traccia”, tuttora disponibile in rete, raccoglie temi di Econometria esposti in forma a volte tendenzialmente metodologica e altre volte più orientata

alle applicazioni; queste Lezioni sono viceversa più omogenee e finalizzate a rendere semplice e appetibile l’apprendimento di una materia che di per sé è

complessa.

La didattica, dunque, ne costituisce uno degli aspetti dominanti; con tre

caratteristiche che mi preme rimarcare. Prima: le nozioni che vengono esposte

inizialmente lo sono in termini più elementari e distesi; man mano che il testo procede, l’esposizione è fatta in forma più compatta e immediata. Questo affinché

lo studente sia facilitato nell’impatto iniziale dello studio di una materia non semplice; assuefatto al metodo e agli strumenti, può apprendere ulteriori nozioni

in modo più diretto.

Seconda: generalmente, nei libri di testo di carattere analitico l’esposizione di un argomento è accompagnata da un’ampia e il più possibile esaustiva sequela

Page 7: Lezioni di analisi econometrica

7

di specificazioni, complementi, corollari; in queste Lezioni si segue, viceversa, il

criterio di esporre i concetti accompagnati soltanto dalle caratterizzazioni che

servono al momento. Si rinunzia alla completezza scientifica a favore dell’efficacia didattica: prima di imparare le specificazioni, i complementi, i

corollari di un argomento, sia esso un concetto o un criterio o un teorema, lo studente deve averne ben chiari la motivazione, l’interpretazione, il dominio di

applicabilità.

Terza: l’Econometria è una branca dell’Economia spiccatamente interdisciplinare; comprende parti rilevanti anche della Teoria delle probabilità,

dell’Inferenza statistica, dell’Analisi matematica (ottimizzazione e algebra matriciale) e della Statistica economica, che spesso sono sintetizzate in capitoli o

in appendici specifici. In queste Lezioni, al contrario, le nozioni (quelle strettamente necessarie) di queste branche sono disseminate nel testo là dove

servono, con l’idea di non considerare l’Econometria come somma di pezzi di

discipline distinte, ma come integrazione naturale di concetti che soltanto per

convenzione o convenienza sono attribuiti a settori disciplinari diversi.

E così, e questa potrebbe essere considerata come una quarta caratteristica didattica, sono anche aggiunte, spesso in specifici Box, nozioni probabilistiche, di

Inferenza statistica, di Algebra delle matrici, in forma non sempre completa ma

immediatamente comprensibile, inadatta forse a probabilisti, statistici e matematici ma appositamente elaborata per chi deve occuparsi di Scienze

umane. Curiosamente, oggi l’Econometria è ritenuta una raccolta di metodi;

operativamente poi, diventa un’altra cosa, l’Econometria applicata. Esistono

molti buoni testi, in inglese e anche in italiano, scritti da italiani, di Econometria metodologica; alcuni sono di tipo enciclopedico, altri monografici, altri ancora

privilegianti l’aspetto probabilistico o il rigore matematico. Esistono altri ottimi

testi, generalmente in inglese, di applicazioni. Queste Lezioni, al contrario, si

pongono un obiettivo molto più limitato: insegnare l’Econometria. Non i suoi metodi, ma come l’intese il suo fondatore, Ragnar Frisch, una settantina d’anni

fa.

Page 8: Lezioni di analisi econometrica

8

Nello scrivere queste Lezioni sono stato estesamente aiutato dalla dott.ssa

Agnieszka Niewinska. A lei va il mio più cordiale ringraziamento.

Page 9: Lezioni di analisi econometrica

9

CAPITOLO II IL MODELLO LINEARE

Page 10: Lezioni di analisi econometrica

10

2.1 Analisi economica e analisi econometrica

Per illustrare con chiarezza il significato e gli obiettivi dell’Econometria è opportuno partire da alcuni contenuti dell’analisi economica ed effettuarne poi un’estensione in termini di elaborazione econometrica; si riesce così più facilmente a metterne in risalto le caratteristiche specifiche e ad evidenziarne le potenzialità.

Un’analisi economica di grande rilevanza fu fatta da J.M. Keynes (1936) quando formulò la relazione tra il consumo c e il reddito y rappresentabile nella forma

c yµ β= + (2.1.1)

dove c ed y sono variabili mentre µ e β sono parametri, e la caratterizzò mediante le

proposizioni seguenti: - la funzione (2.1.1), che possiamo scrivere nella forma generale ( )c f y= , la funzione

del consumo, è stabile nel tempo;

- l’intercetta µ è positiva e la propensione marginale al consumo β è positiva e

inferiore all’unità

0µ > , 10 <β< (2.1.2)

- la propensione β è inferiore alla propensione media yc .

Osservazione 2.1 – La stabilità della (2.1.1) indica che la funzione può essere considerata valida per periodi di tempo relativamente lunghi, ad esempio per alcuni decenni. Questo, ovviamente, in media, perché da un tempo all’altro, ad esempio da un anno all’altro, ci possono essere leggere discrepanze tra il membro a sinistra e quello a destra.

Osservazione 2.2 – Matematicamente parlando, µ è il termine noto e β è il

coefficiente angolare della retta (2.1.1). In altre parole, µ rappresenta

l’intercetta di c con l’asse 0y = , e β la pendenza della retta, che cresce se

0β > e decresce se 0β < .

Osservazione 2.3 – Sempre matematicamente, la propensione marginale al

consumo è ( )ydyfd

Page 11: Lezioni di analisi econometrica

11

mentre la propensione media è data dal rapporto yc .

Osservazione 2.4 – La forma (2.1.1) è lineare rispetto sia ai parametri che alle

variabili. Per ipotizzare le relazioni (2.1.1)-(2.1.2) il Keynes si basò essenzialmente su

considerazioni teoriche ed il funzionamento reale del sistema economico fu da lui esaminato, a questo proposito, soltanto in maniera descrittiva.

Sempre nell’ambito dell’analisi economica è possibile supporre che la funzione del consumo offra una descrizione migliore della realtà economica se y viene sostituito dal

reddito disponibile che definiamo nella semplice forma

vyy d −= (2.1.3)

dove v è l’imposta complessiva sul reddito

( )c y vµ β= + − (2.1.4)

in quanto un esame anche semplificato del comportamento dei consumatori può condurre a ritenere che essi basino le decisioni di spesa sulla quantità di reddito che hanno effettivamente a disposizione una volta che siano detratte le imposte.

Le relazioni matematiche (2.1.1) e (2.1.4) sono modelli, molto semplici, rappresentativi del modo di consumare di una famiglia, o di un gruppo di persone o di una popolazione. Sono statiche, in quanto legano le variabili c, y e v allo stesso tempo;

ma si può presumere, sempre congetturando in termini di teoria economica, che il consumo c al tempo t sia piuttosto funzione del reddito goduto nei periodi precedenti

come nella relazione seguente

1t tc yµ β −= + 0µ > , 10 <β< (2.1.5)

dove le variabili sono associate ad un indice (o pedice) temporale e tc è funzione lineare

del reddito ritardato di un’unità temporale, oppure nell’altra

0 1 1 2 2t t t tc y y yµ β β β− −= + + + (2.1.6)

dove la variabile y sussiste sia al tempo corrente che a quello ritardato di una e due

unità. La relazione (2.1.6) può essere ulteriormente generalizzata fino a considerare infiniti

ritardi del reddito

0 1 1t t t k t kc y y yµ β β β− −= + + + +K

Page 12: Lezioni di analisi econometrica

12

ma sorge in tal caso un dissidio fra gli aspetti teorici e quelli empirici dell’analisi, dovuto al fatto che il numero di ritardi k, pur essendo relativamente semplice da determinare in termini empirici, è difficile da giustificare in termini teorici (perché k e non k +1 o k -1?). Questa ulteriore estensione ha quindi un aspetto di arbitrarietà (il numero di ritardi k) che risulta difficilmente conciliabile con le esigenze di generalità dell’analisi teorica.

Questo dissidio può essere in parte ricomposto se si generalizza la (2.1.6) fino a considerare infiniti ritardi temporali, ottenendosi lo schema a ritardi distribuiti infiniti

0 1 1 2 20

...t t t t j t jj

c y y y yµ β β β µ β∞

− − −=

= + + + + = + ∑ (2.1.7)

nel quale la motivazione economica consiste nel ritenere che il consumo sia funzione di

tutta la storia passata inerente il reddito, con fattori di proporzionalità jβ decrescenti

all’aumentare della lontananza del tempo.

In realtà la giustificazione della (2.1.7) non è unicamente economica, in quanto è

difficile poter supporre che esistano influenze significative dalle t jy − sulla tc per ritardi

j molto grandi; una parte rilevante di tale motivazione consiste, in effetti, nella facilità

con cui lo schema a ritardi distribuiti può essere trasformato, matematicamente, in modo

da ridurre il numero, infinito, di parametri jβ presenti ed ottenere una relazione molto

parsimoniosa. Infatti, se si fanno le ipotesi

jj ρ⋅β=β , 10 <ρ< (2.1.8)

che sono fortemente vincolanti dal punto di vista economico, sostituendo nella (2.1.7) si ottiene

21 2 ...t t t tc y y yµ β βρ βρ− −= + + + + (2.1.9)

che, ritardata di un’unità temporale, diventa

21 1 2 3 ...t t t tc y y yµ β βρ βρ− − − −= + + + + (2.1.10)

Sottraendo, infine, dalla (2.1.9) la (2.1.10) moltiplicata per ρ si ottiene

( )1 1t t tc c yρ ρ µ β−− = − + (2.1.11)

cioè, ponendo ( )1 ρ µ µ′− = ,

1't t tc c yµ ρ β−= + + (2.1.12)

che mostra come lo schema (2.1.7) con infiniti parametri jβ possa essere trasformato in

un altro contenente soltanto µ , β e ρ .

Page 13: Lezioni di analisi econometrica

13

Dunque, sotto le ipotesi (2.1.8) i due modelli (2.1.7) e (2.1.12) sono equivalenti, sebbene il secondo sia ben più parsimonioso del primo. Dal punto di vista economico, tuttavia, ribadiamo che non è affatto detto che le (2.1.8) siano aderenti alla realtà.

Primi obiettivi dell’Econometria

All’interno della teoria, a questo punto, è difficile, per non dire impossibile, determinare quale sia la relazione migliore, tra quelle esposte, in termini di adeguatezza alla rappresentazione del funzionamento reale del sistema economico; in particolare, la speculazione teorica non è idonea a definire compiutamente la dinamica economica e quindi a discriminare tra le funzioni (2.1.5), (2.1.6) e (2.1.12), che presentano il reddito ed il consumo associati ad indici temporali diversi. Per effettuare una scelta razionale, allora, è necessario esaminare la realtà empirica non più soltanto in forma meramente descrittiva, ma con un’indagine più avanzata, che utilizzi convenientemente i metodi della Statistica1. Questi sono adoperati per stimare (determinare i valori sfruttando dei dati campionari) i parametri µ , β , µ′ , ρ dei tre modelli e per valutarli secondo un

criterio di ottimo prestabilito. Dall’analisi economica si passa, in tal guisa, all’analisi

econometrica. Durante le indagini empiriche accade sovente che si abbiano dei suggerimenti o delle

indicazioni sul come modificare le ipotesi economiche di partenza, che quindi sono soggette ad essere nuovamente dettagliate ed analizzate con la metodologia statistica, oppure, ancora, data una formulazione teorica di partenza, avviene frequentemente che l’uso del procedimento econometrico per convalidarla o per confrontarla con altre ipotesi non tanto conduca ad una sua conferma o negazione ma piuttosto possa suggerire, in virtù dei ritrovati empirici, modificazioni o ampliamenti di carattere teorico che naturalmente soltanto il ricercatore con adeguata preparazione economica può sfruttare integralmente. La conseguenza di queste argomentazioni è che si sviluppa un’analisi econometrica composta da fasi di speculazione economica teorica e da fasi di indagine empirica non separabili bensì fortemente integrate tra di loro.2

1 Dunque non è sufficiente l’uso dei dati osservati, come ad esempio l’asserito da Spanos (1986, p.3), a distinguere l’econometria dalle altre forme di studio dei fenomeni economici. L’analisi descrittiva di questi può esser effettuata all’interno di una speculazione economica ma non è condizione sufficiente a farla denominare econometrica. 2 Non ha ragion d’essere, quindi, idea, purtroppo molto diffusa, secondo la quale la disamina econometrica è soltanto strumentale rispetto a quella economica.

Page 14: Lezioni di analisi econometrica

14

2.2 I modelli e il lungo periodo

Modelli statici e dinamici

Le relazioni (2.1.1) e (2.1.4) tra le variabili c ed y costituiscono, come si è detto, dei

modelli rappresentativi3 di ipotesi economiche, e le disuguaglianze (2.1.2) cui sono soggetti loro parametri µ e β ne costituiscono parte integrante. Questi modelli sono

rappresentazioni formali ed idealizzate delle caratteristiche osservate di regolarità e di stabilità dei fenomeni economici sotto studio e vengono specificati in base al processo interattivo di speculazione teorica ed indagine empirica descritto nel paragrafo precedente. Tali caratteristiche sono anche chiamate fatti stilizzati (si veda più avanti la figura 2.1).

I modelli (2.1.1) ed (2.1.4) sono detti statici poiché vi intervengono solo variabili correnti, cioè associate allo stesso tempo t ; i modelli (2.1.5) (2.1.6) (2.1.7) e (2.1.12) sono

detti dinamici in quanto contengono variabili sia correnti che ritardate di una o più unità temporali.

Il sentiero di equilibrio di lungo periodo

Poiché i fenomeni economici evolvono nel tempo, i modelli dinamici hanno una rilevanza ben più grande degli statici, ma occorre tener presente che questi ultimi possono sovente essere considerati come rappresentativi dei sentieri di equilibrio di

lungo periodo dei modelli dinamici. Se, ad esempio, si considera la relazione dinamica (2.1.12) e si suppone che il consumo cresca al saggio costante di γ per unità di tempo,

cosicché sia

( ) 11t tc cγ −= + (2.2.1)

sostituendo, la (2.1.12) diventa

(1 ) (1 )1 1t tc yγ γ

µ βγ ρ γ ρ+ +′= +

+ − + − (2.2.2)

che è analoga al modello statico (2.1.1); quest’ultimo, dunque, può essere visto come la relazione di equilibrio di lungo periodo tra il consumo ed il reddito nel caso in cui il modello di breve periodo sia quello dinamico (2.1.12) e il comportamento di lungo periodo del consumo sia definito dalla (2.2.1).

3 Il concetto moderno di modello può essere fatto risalire i lavori di R. Frisch [1935-36] e J. Tinbergen [1939].

Page 15: Lezioni di analisi econometrica

15

La (2.2.1) può essere scritta nella forma

1 1t t tc c cγ− −− = ⋅ (2.2.3)

o ancora, più concisamente, nell’altra

1t tc cγ −∆ = ⋅ (2.2.4)

dove l’operatore Δ opera su tc trasformandola nella differenza 1t tc c −− . Dunque, se vale la

(2.2.1) in un certo intervallo di tempo, il consumo aumenta (se 0γ > ) o diminuisce (se

0γ < ) di una porzione di 1tc − in ogni unità temporale, ad esempio in ogni anno se

misuriamo il tempo in anni. La porzione di 1tc − è data appunto dal saggio γ .

La tendenza di lungo periodo come modello semilogaritmico

Soffermiamoci nuovamente sulla (2.2.1) che rappresenta un modo molto frequente di

evolvere nel tempo del consumo tc . Se 0γ > ( 0γ < ), il sentiero di evoluzione di lungo

periodo per il reddito è di crescita (di decrescita), come spesso si ha in economia. Inserendo nella (2.2.1) t = 1, poi t = 2, t = 3, ... , si ottiene

1 0

22 1 0

(1 )

(1 ) (1 )...

c cc c c

γ

γ γ

= +

= + = +

e quindi, sostituendo iterativamente,

0(1 )ttc cγ= + (2.2.5)

dove 0c è una costante, corrispondente al valore che tc assume all’origine dei tempi (t =

0). La 0c è detta rappresentare una condizione iniziale, al di fuori della serie storica

{ } { }1 2, ,...,t nc c c c= (2.2.6)

costituita dalle osservazioni disponibili. La funzione (2.2.5) può essere convenientemente scritta in un altro modo. Se

prendiamo il logaritmo4 dei due membri otteniamo

0ln ln ln(1 )tc c t γ= + ⋅ +

cioè

ln tc tµ β= + ⋅ (2.2.7)

4 In econometria si usano soltanto i logaritmi (naturali) in base e, indicati con “ln” ; “log” indica il logaritmo in base 10.

Page 16: Lezioni di analisi econometrica

16

se chiamiamo le costanti 0ln c µ= e ln(1 )γ β+ = . Il modello (2.2.7), detto

semilogaritmico perché esprime una variabile logaritmizzata (la tc ) in funzione di una

non trasformata (il tempo t ), corrisponde esattamente al (2.2.5) e costituisce un esempio di forma non lineare nelle variabili. Il saggio di crescita γ tra il tempo t–1 e il t è

facilmente ottenuto: infatti, se ln(1 )γ β+ = , segue che

exp( ) 1γ β= − (2.2.8)

La forma (2.2.7) esprime dunque come ln tc evolve in funzione del tempo; ne denota, cioè,

la sua tendenza di lungo periodo.

Approssimazione del saggio di crescita

Il saggio di crescita γ nell’unità di tempo di una variabile tx .

( ) 11 −−−= ttt xxxγ (2.2.9)

può essere convenientemente approssimato da una differenza prima logaritmica

1lnlnln −−=∆ ttt xxx (2.2.10)

dove il simbolo “Δ” denota appunto una differenza prima. La differenza prima

logaritmica di tx è talvolta indicata con la tx sormontata da un punto: tx& .

L’approssimazione di γ con la (2.2.10) è dimostrata analiticamente nell’appendice 2.1.

Questa è molto buona per valori piccoli di γ, diciamo tra 0 e 0.06; per valori superiori a

0.06 lo è meno, come si può vedere dalla tavola 2.1: 7% è approssimato con 6.77%, 8% con 7.69% e così via.

γ 0.000 0.01000 0.0200 0.0300 0.0400 0.0500 0.0600 0.0700 0.0800 0.0900 0.1000

txln∆ 0.000

0.00995 0.0198 0.0296 0.0392 0.0487 0.0583 0.0677 0.0769 0.0862 0.0953

Tavola 2.1 – Approssimazione del saggio di crescita γ con la differenza prima logaritmica.

Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo

La (2.2.7) rappresenta il modo di evolvere lineare della serie storica { }ln tc ; ne

costituisce, cioè, la tendenza lineare. La tendenza, che può essere anche esponenziale, quadratica, cubica, …, a seconda del tipo di funzione che la rappresenta, forma una prima conformazione stilizzata delle serie storiche economiche, ed è ad esempio visibile nelle figure 2.2 (lineare) e 2.3 (esponenziale).

Page 17: Lezioni di analisi econometrica

17

Una seconda conformazione stilizzata molto importante è costituita, nelle serie storiche economiche determinate con una cadenza infraannuale, ad esempio mensile o trimestrale, dal fatto che esistono andamenti infraannuali che si ripetono similmente, nei tempi così come nelle dimensioni, anno dopo anno: le cosiddette stagionalità. Nella figura 3.1 si nota chiaramente il profilo stagionale che si ripete ogni anno (prescindendo dalle ampiezze delle oscillazioni che aumentano costantemente all’aumentare del tempo) nella serie trimestrale.

La terza conformazione stilizzata che per il momento viene considerata nelle serie storiche economiche è costituita dall’alternarsi di fasi di espansione dell’attività con fasi

di recessione, fenomeno che viene indicato con il nome di ciclo economico. La serie storica del PIL italiano depurata della tendenza lineare nella figura 2.8 mette ben in rilievo il ciclo nel periodo 1970 – 2002, con le recessioni (aree in grigio) negli anni 1975 e 1981–1983 (dovute alle crisi petrolifere), e degli altri 1991–1993 (dovuta alla politica monetaria della Germania a seguito della riunificazione). Si può notare che in tutti e tre i casi la recessione sia avvenuta repentinamente (1–3 anni), mentre le fasi di ripresa5 più espansione si siano svolte molto più lentamente (in 5–7 anni). Quest’altro fatto

stilizzato costituisce l’asimmetria del ciclo economico.

5 In inglese: recovery.

Page 18: Lezioni di analisi econometrica

18

2.3 La stima dei minimi quadrati (OLS) della tendenza lineare

Affrontiamo ora il problema di stimare (determinare i valori de) i parametri µ e β

della (2.2.7) a partire da un campione di dati costituita dalla serie storica (2.2.6) e utilizzando il criterio di stima dei minimi quadrati. Questo è facilmente illustrabile se i parametri da stimare appartengono ad un’equazione lineare non solo nei parametri ma anche nelle variabili.

Linearizziamo pertanto la (2.2.7) ponendo ln t tc z= , t = 1, 2, 3, ... , n; si ottiene il

modello lineare semplice

tz tµ β= + 1, 2,...,t n= (2.3.1)

valido nei tempi da 1 fino al generico n.

I dati tz possono essere disegnati in un diagramma cartesiano che ha i tempi sull’asse

delle ascisse, come nella figura 2.1; essi costituiscono una nuvola di punti attraverso la quale passa la retta (2.3.1). Questa, naturalmente, non può toccare tutti i punti (che nella figura 2.1 sono, a titolo di esempio, quattro), che quindi rimangono ad una distanza

(misurata lungo l’asse delle ordinate) generalmente nonnulla tu dalla retta stessa. A

seconda del criterio che vincola queste distanze tu si ottiene una retta (2.3.1) diversa,

contenente cioè valori differenti per i parametri µ e β .

Ovviamente, si tenta di determinare quella retta per la quale le distanze tu siano

“globalmente le più piccole” secondo un dato criterio. Ad esempio, si può pensare di usare

il criterio di minimizzare la somma delle tu

4

1min t

tu

=∑ (2.3.2)

ma questo non è buono perché le tu sotto la retta (negative) si possono compensare con le

tu sopra la retta (positive), e la somma (2.3.2) può essere molto piccola pur in presenza di

distanze tu molto grandi in valore assoluto. La minimizzazione della (2.3.2) costituisce

quindi un criterio che ha poco senso. Si potrebbe pensare al criterio di minimizzare la

somma delle tu prese in valore assoluto 4

1

min tt

u=

∑ (2.3.3)

Page 19: Lezioni di analisi econometrica

19

tz tµ β= +

1u

2u 3u

4u

1 2 3 4

1z

3z

2z

4z

tz

t

evitando quindi il difetto di cui sopra. Questo criterio potrebbe essere valido se non accadesse che la minimizzazione (2.3.3) non è facilmente eseguibile in matematica.

Allora si usa il criterio di minimizzare i quadrati delle tu

∑=

4

1

2mint

tu (2.3.4)

che è matematicamente trattabile in forma semplice e non presenta il difetto della compensazione descritto sopra. È il criterio dei minimi quadrati e determina una retta i cui parametri sono detti stime dei minimi quadrati (OLS)6.

Figura 2.1 – Nuvola di punti tz distanti (lungo l’asse delle ordinate) ut da una generica retta tz tµ β= + . Esempio 2.1 – Estraiamo dal CD dell’OECD (Statistical Compendium, Versione 2004 -1)7

la serie storica { tc } dei consumi privati reali totali8 dell’Italia ITACPV, espressi in

milioni di euro. Moltiplicando la serie per il deflatore dei consumi privati ITAPCP otteniamo la serie dei consumi privati in termini nominali, ne prendiamo il logaritmo e

6 Questi minimi quadrati sono detti ordinari (in inglese Ordinary Least Squares; OLS) per distinguerli da altri meno semplici, ad esempio i non lineari (in inglese Non Linear Least Squares; NLLS) oppure i generalizzati, (in inglese Generalized Least Squares; GLS) che vedremo in seguito. 7 Alcuni cenni sull’uso di questa base di dati sono esposti nell’Appendice 2.3 di questo capitolo 8 In base 1995, quindi reali.

Page 20: Lezioni di analisi econometrica

20

ne costruiamo il modello (2.2.7); se stimiamo9 i parametri del modello (più semplicemente si dice: stimiamo il modello) con gli OLS otteniamo

ln 13.248 0.129tc t= + (2.3.5)

curva disegnata nella figura 2.2 insieme ai punti che definiscono la serie storica { }ln tc .

13

14

15

16

17

1960 1965 1970 1975 1980

t

ln(c t ) ln(consumi)Lineare (ln(consumi))

Figura 2.2 – Serie storica dei logaritmi dei consumi privati totali nominali in Italia interpolati con la retta (2.3.5); anni 1960-1980.

Poiché la stima ˆ 0.129β = , il suo antilogaritmo (cioè il valore della funzione inversa

del logaritmo, che è l’esponenziale) è 1.138 e quindi il saggio di crescita annuale è, per la (2.2.8),

ˆ 1.138 1 0.138γ = − =

cioè il 13.8% (il saggio sembra alto, ma si ricordi che i consumi sono nominali).

Nella figura 2.3 sono esposti i punti tc (quindi gli antilogaritmi dei punti della figura

2.2) e la curva interpolante, che ora non è più una retta ma l’esponenziale che deriva dalla (2.3.5)

{ }exp 13.248 0.129tc t= + (2.3.6)

9 La stima è calcolata con il software EasyReg versione 1.23, scritta da H.J.Bierens, che utilizzeremo in tutto il testo. Esistono molti ottimi programmi di econometria nel mercato ma si è scelto EasyReg perché è gratuito e facilmente scaricabile da Internet. Cenni sul suo uso sono esposti nell’Appendice 2.4.

Page 21: Lezioni di analisi econometrica

21

500

5500

10500

1960 1965 1970 1975 1980t

c t

cons nomEspo. (cons nom)

Figura 2.3 – Serie storica dei consumi privati totali nominali in Italia interpolati con

l’esponenziale (2.3.6); anni 1960-1980; dati in miliardi di euro.

Osservazione 2.5 – Poiché la variabile consumo nominale tc è pari al prodotto

del consumo reale tc per il prezzo tp il suo saggio di crescita è

approssimativamente uguale alla somma dei saggi di crescita di tc e tp .

Infatti

ttt pcc ⋅=

da cui logaritmizzando

ttt pcc lnlnln += (2.3.7)

ed ancora, ritardando di un’unità temporale

111 lnlnln −−− += ttt pcc (2.3.8)

per cui, facendo la differenza tra la (2.3.7) e la (2.3.8), si ottiene

ttt pcc lnlnln ∆+∆=∆

che dimostra, considerando la (2.2.10), l’affermazione precedente. Si lascia al lettore trovare che il saggio di crescita dei consumi privati totali reali in Italia nel periodo 1960 – 1980 è pari a 0.049 e quello del deflatore relativo è pari a 0.085, per cui la loro somma è uguale a 0.134 approssimativamente pari proprio a 0.138 (il saggio di crescita dei consumi privati totali nominali).

Page 22: Lezioni di analisi econometrica

22

L’approssimazione (e la non perfetta uguaglianza) deriva dal fatto che le tre quantità, consumo nominale, consumo reale e deflatore, sono ciascuna una media (calcolata separatamente dalle altre) nel periodo campionario.

Ovviamente questo risultato è del tutto generale: il saggio di crescita del prodotto di più fattori è approssimativamente pari alla somma dei loro saggi di crescita.

Esempio 2.2 E’ istruttivo costruire il modello (2.3.1) senza logaritmizzare

preventivamente i consumi tc , e ponendo quindi direttamente t tz c= nella (2.3.1). Nella

figura 2.4 sono esposti i risultati: i dati sono gli stessi della figura 2.3 ma la curva interpolante è una retta e non più un’esponenziale. Il modello è stato stimato con i

minimi quadrati ma la somma dei quadrati delle distanze tu , che è

212

1t

t

u=∑

essendo n = 21, il numero delle osservazioni disponibili, è molto maggiore: 42103686, invece che 11671187 (caso dell’interpolante (2.3.6)).

-2000

2000

6000

10000

1960 1965 1970 1975 1980t

c tcons nomLineare (cons nom)

Figura 2.4 – Serie storica dei consumi privati totali nominali in Italia interpolati con la funzione lineare; anni 1960-1980, dati in miliardi di euro.

Osservazione 2.6 – Conviene sempre prestare attenzione al numero di cifre significative (diverse dallo zero) che manteniamo nei calcoli. Un numero troppo grande rende farraginosa la scrittura ed è foriero di errori di

Page 23: Lezioni di analisi econometrica

23

imputazione dei dati (ad esempio nei computer); un numero troppo piccolo può condurre ad approssimazioni imprecise. Dal punto di vista statistico della significatività dei dati è difficile che possano servire più di quattro cifre significative (ad esempio 5013 oppure 5.013 o anche 0.5013) perché già con esse si ottiene un’approssimazione inferiore al millesimo. Da quello economico, poi, già tre cifre significative danno un’approssimazione inferiore al centesimo, più che sufficiente per ogni tipo di analisi.

I logaritmi, tuttavia, sono molto sensibili ai decimali ed è quindi consigliabile calcolarli con almeno cinque cifre decimali. Una stima precisa della (2.3.5) fornisce, ad esempio

ln 13.248342 0.129479tc t= +

che può essere convenientemente considerata migliore. Si ricordi, ad ogni modo, di approssimare alla cifra superiore o inferiore a

seconda dei casi (nel caso della (2.3.5) 13.248342 è approssimato a 13.24834 e 0.129479 a 0.12948).

Page 24: Lezioni di analisi econometrica

24

2.4 I residui

Le distanze tu tra i dati osservati tz e quelli con la stessa ascissa sulla retta nella

figura 2.1, detti teorici, sono chiamate in vario modo, il più frequente dei quali è errori, intendendosi per errore il fatto di aver sostituito ai dati osservati altri valori da essi generalmente (ed erroneamente, secondo questa impostazione) diversi. In realtà di sbaglio non si tratta, ma della nostra volontà (perché ciò ci fa comodo) di ridurre la

nuvola dei punti ad una retta; chiamiamo allora meglio le distanze tu residui, derivanti

dall’aver voluto approssimare i punti della nuvola con quelli della retta. Se la realtà è definita, ad esempio minimizzando la somma dei quadrati dei residui

(2.3.4) (cioè con il criterio dei minimi quadrati), sono anche individuate le stime µ e β

dei parametri della retta (2.3.1), che scriviamo nella forma

ˆˆˆtz tµ β= + 1,2,...,t n= (2.4.1)

Anche i residui sono allora determinati e li indichiamo con ˆtu per cui diventano

ˆˆ ˆˆt t t tu z z z tµ β= − = − − 1,2,...,t n= (2.4.2)

distanze tra i valori osservati e quelli teorici dati dalla retta (2.4.1). Dalla (2.4.2) si trae

che ˆtu è determinato una volta che siano determinate µ e β . Se queste ancora non lo

sono, anche ˆtu non lo è, per cui possiamo scrivere

t tu z tµ β= − − 1,2,...,t n= (2.4.3)

oppure

t tz t uµ β= + + 1, 2,...,t n= (2.4.4)

volendosi intendere il residuo tu come quel termine da aggiungere (o sottrarre, se

negativo) al valore teorico ( )tµ β+ per aversi il dato osservato tz .

Le ˆtu , determinate numericamente come differenze tra i valori osservati tz e quelli

teorici ˆtz , possono essere considerate come stime delle tu e quindi residui stimati.

E’ in genere molto utile rappresentare graficamente i residui, al fine di verificare più in dettaglio, sia pure visivo, l’adeguatezza dell’interpolazione. Nelle figure 2.5, 2.6 e 2.7 sono esposti i residui (stimati) delle tre interpolazioni

ln t tc t uµ β= + + (2.4.5)

Page 25: Lezioni di analisi econometrica

25

{ }expt tc t uµ β= + + (2.4.6)

t tc t uµ β= + + (2.4.7)

che ora scriviamo con i residui esplicitati, rappresentate nelle figure 2.2, 2.3 e 2.4, rispettivamente.

-0.6

-0.3

0

0.3

0.6

1960 1965 1970 1975 1980t

u t

residui

Figura 2.5 – Serie storica dei residui stimati { }ˆtu relativi al modello (2.4.5) dei consumi privati totali nominali in Italia; anni 1960 – 1980.

-5000

-2500

0

2500

5000

1960 1965 1970 1975 1980t

u t

Figura 2.6 – Serie storica dei residui stimati { }ˆtu relativi al modello (2.4.6) dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro.

Page 26: Lezioni di analisi econometrica

26

-4000

-2000

0

2000

4000

1960 1965 1970 1975 1980t

u t residui

Figura 2.7 – Serie storica dei residui stimati { }ˆtu relativi al modello (2.4.7) dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro. Box 1 I residui Dati osservati { }1 2 ... nz z z Retta generica interpolante (tendenza lineare) i dati osservati tz tµ β= + Retta interpolante stimata (con un certo criterio) ˆˆˆtz tµ β= + da cui i dati teorici { }1 2ˆ ˆ ˆ... nz z z Residui stimati ˆˆ ˆˆt t t tu z z z tµ β= − = − −

Page 27: Lezioni di analisi econometrica

27

2.5 Il breve e il lungo periodo La differenziazione tra il breve e il lungo periodo assume importanza basilare non soltanto quando si tratta la teoria economica ma anche quando si costruisce un modello econometrico. Si ebbe un esempio di questo concetto quando fu osservato che negli anni compresi tra le due guerre mondiali negli USA la relazione tra il consumo e il reddito, piuttosto che essere del tipo (2.1.1), risultava tale che:

- nel lungo periodo la propensione media al consumo yc era costante;

- nel breve periodo tale rapporto oscillava, aumentando nelle fasi di recessione e diminuendo in quelle di espansione.

Inoltre fu notato che per ogni dato individuo tale rapporto diminuiva all’aumentare del reddito, fatto questo che J.S. Duesenberry [1949] spiegò con la ipotesi del reddito

relativo, secondo la quale la percentuale di reddito consumato da ogni individuo non dipendeva direttamente dal suo reddito assoluto, ma dalla sua posizione, in termini di percentili (si veda il Box 2), nella sua distribuzione; in altre parole, dal suo reddito relativo. Analiticamente questa ipotesi può essere scritta, prescindendo da una eventuale tendenza, nella forma

0t t

t

c yy y

µ β= + , 0µ > , 0<β ; ( )tsyy s <= ;max0 (2.5.1)

dove 0y è il reddito massimo goduto dall’individuo nel passato; nel lungo periodo si può

ritenere che il reddito cresca ad un saggio costante 0>γ per unità di tempo

( ) 11 −γ+= tt yy (2.5.2)

analogamente a quanto ipotizzato nella (2.2.1) per il consumo, per cui è 10

−= tyy , e la

(2.5.1) diviene

( )1t

t

cy

µ β γ= + + (2.5.3)

con rapporto tt yc / costante. Nel breve periodo, d’altro canto, si ha che durante le fasi di

recessione è 0yyt < e quindi tt yc / aumenta, mentre in quelle di espansione è 0yyt >

ed il rapporto consumo su reddito diminuisce.

.

Page 28: Lezioni di analisi econometrica

28

Box 2

I quantili

Per chiarire il significato di percentile (di una distribuzione, che nel caso specifico riguarda i redditi) si pensi di ordinare in senso crescente i redditi, suddivisi in classi, e di associare a ciascuna classe il numero degli individui che lo ottengono. Il dispiegarsi di questo numero in funzione delle classi costituisce la distribuzione dei redditi di questi individui. Il percentile n-esimo di questa distribuzione indica il reddito ottenuto da quell’individuo al di sotto del quale si situa l’n per cento degli individui. Ovviamente n può variare da 1 a 99. Il concetto di percentile può essere esteso a quello di quartile, in cui il reddito è diviso in quattro parti, e in quello di decile, in cui la divisione è in dieci. I quartili sono tre e i decili nove. Il 50° percentile, uguale al 2° quartile e al 5° decile, corrisponde alla mediana della distribuzione. I percentili, i quartili, i decili, e gli altri valori ottenuti dividendo in classi uguali i dati di una distribuzione (qualsiasi, che non necessariamente riguarda i redditi) sono genericamente chiamati quantili. Il secondo decile (corrispondente al 20° percentile) della distribuzione dei redditi può essere preso come indicatore della povertà (o della ricchezza) economica in una popolazione: più è basso (alto) più poveri (ricchi) vi sono.

Esempio 2.3 – Verifichiamo l’ipotesi del Duesenberry per l’Italia negli anni 1970 – 2002

con l’aiuto della figura 2.8. In questa sono raffigurate la serie { }ty del reddito totale

italiano (scala a sinistra) che permette di individuare gli anni di recessione (aree in

grigio) e la serie { }t tc y della propensione media al consumo (scala a destra). Alla serie

del reddito è stata sottratta una tendenza esponenziale, determinata come nell’esempio

2.1, mentre al rapporto t tc y è stata sottratta una tendenza lineare. I periodi di

recessione segnati in grigio sono conseguenze dei due shock petroliferi degli anni settanta (1974 e 1979) e mostrano una chiara tendenza al rialzo della propensione media al consumo, come previsto dall’ipotesi del Duesenberry.

Negli anni di recessione 1991 – 1993 l’ipotesi è ancora convalidata per il 1991 e il 1992; non lo è per il 1993.

Page 29: Lezioni di analisi econometrica

29

Figura 2.8 – Andamento del PIL (scala a sinistra) e della propensione media al consumo (scala a destra) in Italia negli anni 1970 – 2002; ambedue le serie sono state depurate della tendenza con funzioni lineari. Le aree tratteggiate indicano i periodi di recessione degli anni settanta innescati dalle crisi petrolifere; in questi periodi la propensione media aumenta, come previsto dall’ipotesi del Duesenberry.

Page 30: Lezioni di analisi econometrica

30

2.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice

Vediamo ora come si ottengono le stime dei minimi quadrati nel modello lineare (2.4.4) che scriviamo in una forma più generale t t ty x uµ β= + + 1, 2,...,t n= (2.6.1)

ponendo al posto di tz una generica variabile endogena ty e al posto di t una generica

esplicativa tx . Questi due aggettivi derivano dal fatto che nel modello (2.6.1) la tx

spiega la ty , che è determinata endogenamente (all’interno) al modello. Talvolta la tx è

anche detta variabile esogena, in quanto determinata esogenamente (all’esterno) al modello. Il modello lineare (2.6.1) è detto semplice perché contiene una sola variabile esplicativa oltre l’intercetta. Se ne contenesse di più sarebbe multiplo, caso che esamineremo in seguito.

Ovviamente è anche

ˆˆ ˆ ty xµ β= + e ttt yyu ˆˆ −= (2.6.2)

Il criterio di stima dei minimi quadrati consiste nel trovare i valori di µ e di β che

rendono minima la somma dei quadrati dei residui (2.3.4), cosa che nel caso di n dati si scrive

( )2

2

, ,1 1

min minn n

t t tt t

u y xµ β µ β

µ β= =

= − −∑ ∑

(2.6.3)

intendendosi con questa scrittura che la minimizzazione avviene al variare di α e di β .

La somma dei quadrati nella (2.6.3) è una funzione di µ e β che indichiamo con S( µ , β )

e la matematica ci fornisce le condizioni necessarie (ma non sufficienti) per ottenere il minimo (2.6.3): occorre che siano uguali a zero le derivate parziali prime di S rispetto sia ad µ che a β

( )( )

( )( )

1

1

2 1 0

2 0

n

t tt

n

t t tt

S y x

S y x x

µ βµ

µ ββ

=

=

∂= − − − =∂

∂ = − − − =

cioè che sia

Page 31: Lezioni di analisi econometrica

31

1 1

2

1 1 1

n n

t tt tn n n

t t t tt t t

y n x

x y x x

µ β

µ β

= =

= = =

= ⋅ + = +

∑ ∑

∑ ∑ ∑

(2.6.4)

che vengono chiamate equazioni normali. Se si pone

∑=

=n

ttx

nx

1

1 , ∑=

=n

tty

ny

1

1 , ∑=

=n

ttxx x

nm

1

21 , t

n

ttxy yx

nm ∑

=

=1

1 (2.6.5)

dalla prima delle (2.6.4) si ricava, dividendo per n,

y xµ β= + (2.6.6) e dalla seconda, sostituendo il valore di µ dato dalla (2.6.6),

( ) ∑∑∑===

+−=n

tt

n

ttt

n

tt xxxyyx

1

2

11ββ

cioè

( )2xmxym xxxy −+= β

dalle quali si ottiene la stima dei minimi quadrati (ordinari) di β

2ˆ xy

xx

m yxm x

β−

=−

2xmxx ≠

(2.6.7)

e, sostituendo nella (2.6.6), quella di µ

ˆˆ y xµ β= − (2.6.8)

Le condizioni sufficienti affinché µ e β costituiscano il minimo (2.6.3) sono esposte nell’Appendice 2.2.

I due valori µ e β costituiscono il punto di ottimo ( µ β ) nella minimizzazione (2.6.3) e ad essi, tramite la (2.6.1), corrispondono i valori

ˆˆ ˆ ˆt t t t tu y y y xµ β= − = − − 1,2,...,t n= (2.6.9)

dei residui stimati.

Page 32: Lezioni di analisi econometrica

32

Si tenga ben in mente che µ e β possono essere determinate soltanto se 2xmxx ≠ come risulta dalla (2.6.7).

Osservazione 2.7 – Dalla (2.6.6) segue che la retta

t ty xµ β= +

passa sempre nel punto ( )xy, quali che siano i valori di µ e β che soddisfano alle equazioni normali (2.6.4).

Osservazione 2.8 – Si noti che in corrispondenza del punto di ottimo le equazioni normali possono essere scritte come segue

( )

( )1 1

1 1

ˆˆ ˆ 0

ˆˆ ˆ 0

n n

t t tt tn n

t t t t tt t

y x u

y x x u x

µ β

µ β

= =

= =

− − = = − − = =

∑ ∑

∑ ∑ (2.6.10)

La prima di queste mostra che la somma dei residui stimati è nulla; la seconda denota una proprietà dei residui stimati: la loro ortogonalità nei confronti della variabile esplicativa. Osservazione 2.9 – Utilizzeremo nel seguito il risultato che consegue dalla catena di uguaglianze

( )1 1 1

1 1 1ˆ ˆ ˆˆ ˆ ˆ ˆn n n

t t tt t t

y x n x xn n n

µ β µ β µ β= = =

= + = + = +

∑ ∑ ∑

che per l’osservazione 2.7 è pari a y . Quindi si ha

∑∑==

==n

tt

n

tt y

nyy

n 11

1ˆ1 (2.6.11)

Page 33: Lezioni di analisi econometrica

33

2.7 L’interpretazione statistica

Il criterio dei minimi quadrati illustrato nei paragrafi precedenti, che fu sviluppato indipendentemente da K. F. Gauss e A. M. Legendre tra la fine del diciottesimo e gli inizi del diciannovesimo secolo, utilizza concetti puramente matematici (deterministici e non probabilistici). Ad esso, tuttavia, possiamo dare anche un’interpretazione statistica, che riguarda, quindi, solamente i nomi. Il modello (2.6.1) viene detto di regressione, la

somma dei quadrati ( )2

1

,n

tt

u S µ β=

=∑ è la devianza (dei residui o residuale), le serie

storiche { }tx e { }ty costituiscono il campione di dati, i valori x e y sono le medie

aritmetiche delle due variabili tx ed ty , xxm è il momento secondo di tx ed xym il

momento secondo misto. I valori µ e β sono ancora delle stime, ma in senso statistico.

Volendo utilizzare questa interpretazione, allora, la (2.6.7) indica che la stima β è

data dal rapporto (covarianza tra x e y ) / (varianza di x ).

In questo modo la (2.6.11) dell’osservazione precedente può essere letta nel senso: la

media aritmetica della variabile osservata ty è uguale a quella della variabile teorica ˆty .

D’ora in poi utilizzeremo normalmente questa nomenclatura.

Page 34: Lezioni di analisi econometrica

34

2.8 La scomposizione della devianza e il coefficiente di determinazione

Si è visto nel paragrafo 2.3 che la serie del consumo { }tc può essere interpolata sia con

un’esponenziale (figura 2.3) sia con una retta (figura 2.4), dando luogo a stime delle devianze dei residui fortemente diverse, 11671187 nel primo caso e 42103686 nel secondo. Ci domandiamo allora se sia possibile costruire un indicatore basato sulle

devianze che permetta di “misurare” il grado di adattamento (o di accostamento) di un modello al campione di dati. La risposta è positiva e passiamo alla determinazione di uno di tali indicatori, il più importante, chiamato coefficiente di determinazione. Per definirlo supponiamo, ovviamente senza perdere in generalità, che il modello contenga l’intercetta (che, stimata, può anche valere zero) e scomponiamo la devianza (la somma dei quadrati

degli scarti dalla media) delle ty nel seguente modo

∑∑∑

∑∑

===

==

−−+−+−=

=−+−=−

n

tttt

n

tt

n

ttt

n

tttt

n

tt

yyyyyyyy

yyyyyy

11

2

1

2

1

2

1

2

)ˆ)(ˆ(2)ˆ()ˆ(

)ˆˆ()(

(2.8.1)

dove ∑=

=n

tty

ny

1

1 come nelle (2.6.5) e si è tolta e aggiunta la stessa quantità ty . Il termine

misto è nullo, come dimostrato nell’appendice 2.2 per cui vale la scomposizione della

devianza (totale) TSS di ty nella devianza di regressione ESS ed in quella residuale10

RSS, essendo y per la (2.6.11) la media sia delle ty che delle ty ,

2 2 2ˆ ˆ( ) ( ) ( )

Dev. totale Dev. di regress. Dev. residuale

t t t tt t t

y y y y y y− = − + −∑ ∑ ∑

(2.8.2)

Se dividiamo i due membri della (2.8.2) per la devianza totale otteniamo

1 = (Dev. di regressione)/(Dev. totale) + (Dev. residuale)/(Dev. totale)

per mezzo della quale definiamo il coefficiente di determinazione

2 Dev. di regressione Dev. residuale1Dev. totale Dev. totale

R = = − (2.8.3)

10 In lingua inglese: Dev. totale = Total Sum of Squares (TSS); Dev. di regressione = Explained Sum of Squares (ESS); Dev. residuale = Residual Sum of Squares (RSS).

Page 35: Lezioni di analisi econometrica

35

pari al quadrato del coefficiente di correlazione multipla tra ty e l’insieme delle variabili

esplicative.

Quando tutta la variabilità della ty (cioè l’insieme di tutte le sue deviazioni dalla

media) è spiegata da quella di regressione (cioè dall’insieme di tutte le deviazioni della

variabile teorica ˆty dalla media) si ha che l’andamento del modello è perfetto, la

devianza residua è nulla ed R2 = 1; nel caso opposto la parte sistematica del modello non

spiega niente e la variabilità totale coincide con quella residua, per cui R2 = 0. In

generale dunque, si ha

0 ≤ R2 ≤ 1 (2.8.4)

Il coefficiente di determinazione non centrato

La devianza totale (2.8.1) può essere scritta nella forma

( ) 2

1

2

111

2

1

2 2 ynyyyyyyyn

tt

n

tt

n

t

n

tt

n

tt −=−+=− ∑∑∑∑∑

=====

per cui il coefficiente di determinazione (2.8.3) diviene n

2t

2 t 1

2 2t

ˆ1

uR

y ny

== −−

(2.8.5)

ed è detto centrato. Se si elimina 2yn si ottiene il coefficiente di determinazione non

centrato n

2t

2 t 1

2t

ˆ1u

uR

y

== −∑

(2.8.6)

dove il pedice u indica l’aggettivo inglese uncentered, che significa, appunto, non centrato.

Generalmente i programmi di calcolo econometrico forniscono ambedue i coefficienti (2.8.5) e (2.8.6) ma mentre il secondo è utile nell’effettuare particolari diagnosi sul modello, come vedremo in seguito, il primo è direttamente utilizzabile per valutare la bontà di adattamento11 del modello ai dati, cioè per scegliere le variabili da tenere in considerazione.

11 In inglese: goodness of fit.

Page 36: Lezioni di analisi econometrica

36

Esempio 2.4 – I coefficienti di determinazione non centrati per i tre modelli della tendenza nella serie storica dei consumi privati totali nominali in Italia sono esposti nella tavola 2.2.

Tra di essi il più grande è il primo e quindi si può asserire che il modello con migliore bontà di adattamento sia il (2.4.5).

Modello Equazione 2R

ln t tc t uα β= + + (2.4.5) 0.968

{ }expt tc t uα β= + + (2.4.6) 0.931

t tc t uα β= + + (2.4.7) 0.751

Tavola 2.2 – Coefficiente di determinazione non centrato per i tre modelli della tendenza nella serie dei consumi privati totali nominali in Italia.

Cautela nell’uso del coefficiente di determinazione

L’interpretazione dell’ 2R (o dell’ 2uR ) richiede una particolare attenzione,

specialmente se il modello contiene più di due variabili esplicative. Ma anche nel caso del

modello semplice (2.6.1) può accadere che un valore molto alto (prossimo ad 1) di 2R sia

dovuto ad µ e che invece β sia poco significativo, di fatto che sia

t ty uµ= +

che sta ad indicare come ty sia sostanzialmente pari ad una costante e che la variabile

tx (il tempo o una qualsiasi altra variabile esplicativa) sia del tutto ininfluente. In

questo modo il modello lineare semplice (2.6.1) non fornisce alcuna informazione utile

all’analisi economica pur essendo 2R alto.

Questo problema assume una particolare rilevanza anche quando ln ty e l’esplicativa

tx contengono ambedue una tendenza: può accadere che un eventuale 2R alto sia la

conseguenza di questa e non di una effettiva relazione economica tra le due variabili. Una semplice verifica di questo fatto può essere realizzata stimando la (2.6.1) nelle

differenze ed eliminando quindi, come mostreremo tra poco, un’eventuale tendenza lineare. Ritardando, infatti, la (2.6.1) di una unità temporale si ottiene

Page 37: Lezioni di analisi econometrica

37

1 1 1t t ty x uµ β− − −= + + (2.8.7)

e facendo la differenza tra la (2.6.1) e la (2.8.7) si ha

t t ty xβ ε∆ = ∆ + (2.8.8)

con il residuo rappresentato ora da 1t t tu uε −= − . Stimando la (2.8.8) si ottiene un 2R non

influenzato dalla tendenza; se è alto si può dire che sussiste effettivamente una relazione

tra tx e ty .

Eliminazione della tendenza lineare con una differenza prima

E’ semplice verificare che una differenza prima elimina un’eventuale tendenza lineare. Infatti questa eventualità è rappresentabile nella forma

t ty t uµ β= + +

e prendendo la differenza prima si ha

( ) ( )1 11t t t t t ty y y t u t uµ β µ β β ε− −∆ = − = + + − + − + = + (2.8.9)

con 1t t tu uε −= − . La (2.8.9) non contiene più la tendenza lineare ma include il coefficiente

angolare β che ora è diventato il termine noto. Qualora la ty non contenesse una

tendenza lineare, il parametro β sarebbe nullo e nella (2.8.9) semplicemente

mancherebbe. Si lascia al lettore mostrare che una differenza seconda 2∆⋅∆ = ∆ elimina un’eventuale tendenza parabolica (un polinomio di secondo grado in t ) e che in generale una differenza d–esima elimina un’eventuale tendenza rappresentabile mediante un polinomio di grado d nel tempo.

Page 38: Lezioni di analisi econometrica

38

2.9 Stima di una funzione del consumo

E’ utile applicare i concetti esposti in precedenza in relazione non più ad un’equazione del tipo (2.4.4) che esprime il consumo in funzione del tempo (e rappresenta la tendenza interpolante lineare), bensì alla seguente

t t tz y uµ β= + + (2.9.1)

che esprime il consumo reale tz in funzione del reddito reale (come nella (2.1.1)). Al

posto della figura 2.1 si ha la 2.6 che riporta il grafico, detto diagramma di dispersione,

delle coppie di valori ( ,t tz y ) tratti da un campione di osservazioni formato dalle due

serie storiche dei consumi { }nzzz ...21 e dei corrispondenti redditi { }nyyy ...21 , i quali

ultimi prendono il posto dei tempi contenuti nella serie storica { }n...21 . I consumi { }tz

sono costituiti dalla serie ITACPV e il reddito { }ty dall’altra ITAGDPV della base di dati

OCSE, presi per gli anni 1980–2002. Le stime dei due parametri nella (2.9.1) determinano la corrispondente della (2.4.1)

ˆ 53684 0.657t tz y= − + 1,2,...,t n= (2.9.2)

che è costituita da una retta che attraversa la nuvola di punti della figura 2.6 e per mezzo della quale si stimano i residui (2.4.2), rappresentati graficamente nella figura 2.7. Si noti che l’intercetta è negativa, contrariamente a quanto ipotizzato dal Keynes; è questo uno dei tanti casi in cui le ipotesi teoriche non trovano conferma nell’analisi empirica. La devianza residuale (espressa in miliardi di euro) vale

( )23 23

2 2

1 1

ˆˆ 831954t t tt t

z z u= =

− = =∑ ∑

e il coefficiente di determinazione centrato è

2 0.993R = (2.9.3)

Questo coefficiente è molto alto e può venire il dubbio che, come esposto nel paragrafo precedente, sia derivato essenzialmente dalla presenza della tendenza, ben chiara per i consumi nella figura 2.3, nelle serie delle due variabili. Allora calcoliamo le due serie delle differenze e stimiamo l’equazione (2.8.8); otteniamo

Page 39: Lezioni di analisi econometrica

39

ˆ 0.674t tz y∆ = ∆ (2.9.4)

con 2 0.609R = , ma anche questo coefficiente di determinazione è relativamente alto e si

può concludere che effettivamente sussiste una relazione economica tra il reddito e consumi nell’Italia degli anni ’80 e ’90.

funzione del consumo

380

430

480

530

580

630

680

680 730 780 830 880 930 980 1030 1080

yt

zt

Fonte: OECD (2004) Figura 2.6 – Diagramma di dispersione che rappresenta il consumo tz in funzione del reddito ty ; dati annuali reali per l’Italia 1980 – 2002 espressi in miliardi di euro.

-600

-400

-200

0

200

400

600

t

u t

Figura 2.7 – Serie storica dei residui ttt zzu ˆˆ −= della relazione lineare tra il consumo e il reddito reali (annuali) in Italia, anni 1980 – 2002.

Page 40: Lezioni di analisi econometrica

40

Si osservi che l’ 2R è più basso quando si usano le differenze delle variabili al posto

dei loro livelli. Questo fatto è abbastanza generale e quando ad un 2R per un’equazione

dei livelli superiore all’80% corrisponde un 2R nelle differenze superiore al 60% ci si può ritenere soddisfatti. Coefficiente di determinazione e scelta del modello

Si è detto nel paragrafo 2.1 che una funzione del consumo diversa dalla (2.9.2)

potrebbe essere ottenuta sostituendo ad ty il reddito disponibile dty . Facciamolo, con

l’aiuto della serie ITAYDRH tratta anche questa dalla base di dati dell’OCSE. Stimiamo dunque la (2.9.1) con i nuovi dati e otteniamo

ˆ 292775 1.198 dt tz y= − + 1,2,...,t n= (2.9.5)

con un coefficiente di determinazione centrato pari a

2R = 0.837 (2.9.6)

più basso del (2.9.3) per cui è statisticamente preferibile scegliere il (2.9.2) come modello rappresentativo della funzione del consumo. E’ questo un semplice esempio di uso del coefficiente di determinazione per la scelta del modello. Omogeneità dei dati

La stima della funzione del consumo ci permette di fare una considerazione rilevante nell’analisi economica. Abbiamo stimato la (2.9.1) supponendo che essa sia valida, come forma, nell’intero orizzonte campionario 1980–2002 e che i parametri µ e β non varino

troppo in tale periodo; in particolare che la propensione marginale al consumo sia approssimativamente costante. Abbiamo, in ultima analisi, congetturato che il campione sia omogeneo in tale periodo: è un’ipotesi che può valere ma che anche può non valere. Infatti proviamo a dividere il campione in due parti, dal 1980 al 1994, e dal 1990 al 2002 e stimiamo la (2.9.1) con questi due sottocampioni (che in parte si sovrappongono). Otteniamo

ˆ 86408 0.701t tz y= − + (2.9.7)

per gli anni 1980 – 1994, e

ˆ 15545 0.617t tz y= − + (2.9.8)

per gli anni 1990 – 2002. Queste equazioni sono ben diverse dalla (2.9.2) e allora si deve dire che il modello (2.9.2) è sbagliato e deve essere sostituito dalla coppia (2.9.7), (2.9.8)? Non necessariamente.

Page 41: Lezioni di analisi econometrica

41

La scelta dipende infatti dagli obiettivi che l’analista si pone. Se ha la necessità di considerare il periodo 1980–2002 come un tutt’uno e di ottenere un dato medio (ad esempio la propensione marginale media nel periodo), deve preferire la (2.9.2) alla coppia (2.9.7), (2.9.8). Ma la scelta può anche dipendere dalla numerosità del campione: vedremo in seguito che più il campione è numeroso e più precise sono le stime e potrebbe accadere che la suddivisione del campione produca stime diverse sì, ma non affidabili.

Anche la specificazione dell’equazione da stimare dipende dagli obiettivi che ci si propone di conseguire, dal grado di approssimazione che si vuole ottenere, e dal campione di dati disponibili. Non linearità rispetto alle variabili

Un’altra osservazione è pertinente. Si è visto che la propensione marginale al consumo sembra in Italia essere decrescente; allora, volendo essere molto precisi, potremo interpolarla con una retta

tδγβ += (2.9.9)

per cui la funzione del consumo (2.9.1) verrebbe ad essere scritta nella forma

( )t t t tz t y y t yµ γ δ µ γ δ= + + = + + ⋅

non lineare rispetto alle variabili (a causa del prodotto tt y⋅ ). Ma potremo porre t tw t y= ⋅

ottenendosi la forma

t t tz y wµ γ δ= + +

che è lineare anche rispetto alle variabili (e quindi facilmente stimabile) ma contenente tre parametri. 2.10 Propensione media ed elasticità

Stimiamo ora l’equazione

t t tz y uβ= + (2.10.1)

dove β rappresenta una sorta di propensione media al consumo e ci proponiamo di

determinare come questa sia variata in Italia negli ultimi quaranta anni. Prendiamo dalla base di dati dell’OCSE ancora i consumi ITACPV e il reddito GDPV, ma questa volta trimestrali, nel 2° e nel 4° trimestre di ogni anno dal 1965 al 2002, e dividiamo il campione in cinque sottocampioni formati da 16 elementi ciascuno. Stimiamo ed otteniamo

Page 42: Lezioni di analisi econometrica

42

Sottocampione N° osservazioni β R2

1965/1-1972/2 16 0.557 0.986

1973/1-1980/2 16 0.560 0.966

1981/1-1988/2 16 0.585 0.976

1989/1-1996/2 16 0.599 0.603

1995/1-2002/2 16 0.600 0.943

da cui si osserva che la propensione media al consumo è andata sempre aumentando dalla metà degli anni sessanta fino alla fine degli ottanta, dopodiché sembra essersi arrestata. L’elasticità

E’ di grande interesse, nello studio delle relazioni economiche, la determinazione di

quanto una variabile possa cambiare in funzione di una variazione dell’esplicativa ty ; se

i due cambiamenti sono valutati in termini di variazioni percentuali questo equivale a

calcolare l’incremento percentuale di tc indotto dall’incremento percentuale unitario

della variabile esplicativa ty , cioè l’elasticità della prima rispetto alla seconda.

Ricordando che la variazione percentuale è rappresentata dalla differenza logaritmica (2.2.10) si ha che l’elasticità è

lnln

t

t

cy

η∆

≈∆

(2.10.2)

Passando dal discreto al continuo si è più precisi sostituendo al rapporto tra due

incrementi finiti la derivata logaritmica

( )( )ln /ln /

t t t t t

t t t t t

d c d c c y d cd y d y y c d y

η = = = (2.10.3)

corrispondente al parametro β dell’equazione

ln lnt tc yβ=

Page 43: Lezioni di analisi econometrica

43

che in termini stocastici scriviamo nella forma

ln lnt t tc y uβ= + (2.10.4)

Esempio 2.5 – La stima dell’equazione (2.10.1) per l’Italia fornisce

ˆln 0.962 lnt tc y= (2.10.5)

campione 1980-2002, 2 0.975R =

se si utilizza il reddito. L’elasticità del consumo privato totale rispetto al reddito reale è pertanto η = 0.962.

Ad un incremento dell’1% del reddito corrisponde un incremento dello 0.962% del consumo privato. Se si utilizzasse il reddito disponibile reale l’elasticità varrebbe

η = 0.979.

Page 44: Lezioni di analisi econometrica

44

2.11 Altri esempi

La legge di Okun

L’economista statunitense Arthur Okun, basandosi su dati USA relativi al periodo 1947–1960 determinò una relazione tra il tasso di disoccupazione e la crescita economica del tipo

( )t tu xβ γ∆ = −& (2.11.1)

dove

1t t tu u u −∆ = − è la variazione del tasso di disoccupazione

( )1 1t t t tx x x x− −= −& è il tasso di crescita economica

γ è il tasso di crescita (medio) di lungo periodo.

La (2.11.1) è nota come legge di Okun e utilizziamo quanto illustrato finora in questo capitolo per stimarla con dati dapprima relativi agli USA e poi all’Italia.

Osservazione 2.10 – Si noti per inciso che l’equazione stimata dall’Okun è del tipo (2.8.8) e quindi priva dell’intercetta, implicando dunque l’ottenimento di

un 2R non molto alto. Per quanto riguarda l’economia degli USA, utilizzando la serie USAGDPV della base

di dati OCSE dal 1960 al 1980 stimiamo l’equazione

del tutto analoga alla (2.2.7) determinata per il consumo. Si ottiene

dalla quale, per mezzo della (2.2.8), si trae il saggio di crescita di lungo periodo

Si determina poi la variazione annua del tasso di disoccupazione { }tu∆ traendo { }tu

ancora dalla base di dati OCSE (USAUNR) e si stima l’equazione (2.11.1) ottenendosi

ln tx tα β= +

ˆln 14.684 0.036tx t= +

( )exp 0.036 1 1.037 1 0.037γ = − = − =

Page 45: Lezioni di analisi econometrica

45

campione 1960–1980, 2 0.758R = ,

la quale mostra che ogni punto percentuale di crescita del PIL degli USA sopra il 3.7% corrisponde ad una diminuzione del tasso di disoccupazione pari a 0.374. Okun trovò, per il periodo da lui considerato, un valore pari a circa 0.4.

Osservazione 2.11 – Nella (2.11.2) la variazione della disoccupazione tu∆ è

misurata in punti percentuali (3, 5, …) mentre l’esplicativa è misurata in unità (0.03, 0.05), per cui il parametro β della ((2.11.2)) deve essere diviso per

100 al fine di poter essere ricondotto all’unità di misura di tu∆ (essendo

l’esplicativa 100 volte più piccola, β è nella stima 100 volte più grande).

Ripetendo le operazioni per l’economia dell’Italia per gli anni dal 1960 al 1980 otteniamo

campione 1960 – 1980, 2 0.129R =

e per gli anni dal 1981 al 2002

campione 1981 – 2002, 2 0.0288R = .

I due coefficienti di determinazione così come le due diminuzioni del tasso di

disoccupazione sono molto piccoli (per i secondi rispettivamente lo 0.071 e lo 0.106 nei due periodi campionari) per cui si può concludere che la legge di Okun nell’ultimo mezzo secolo non vale per l’Italia. E’ un’ulteriore conferma del fatto che spesso gli assunti economici valgono soltanto per specifiche economie e specifici periodi campionari. Relazione tra tasso di cambio nominale e prezzi relativi

Siano

tω il tasso di cambio (valuta nazionale italiana)/$USA [ITAEXCHUD nella

base di dati OCSE in euro/$]

tx il rapporto tra l’indice dei prezzi al consumo USA [USACPI] e l’indice

dei prezzi al consumo per l’Italia [ITACPI] per gli anni 1970–2002. Si può stimare la relazione tra tasso di cambio nominale e prezzi relativi

ˆ 37.423( 0.037)t tu x∆ = − −& (2.11.2)

ˆ 7.12 ( 0.046)t tu x∆ = − −& (2.11.3)

ˆ 10.594( 0.019)t tu x∆ = − −& (2.11.4)

Page 46: Lezioni di analisi econometrica

46

t txω µ β= + (2.11.5)

che mostra come il primo vari in funzione (lineare) dei secondi. Si ottiene

ˆ 1.156 0.325t txω = − (2.11.6)

campione 1970 – 2002, 2 0.742R =

nella quale il coefficiente angolare 0.325− indica che ad ogni diminuzione unitaria di tx

(che tende a diminuire perché i prezzi dell’Italia crescono più rapidamente di quelli USA) corrisponde un aumento (deprezzamento della valuta italiana rispetto al dollaro USA) del tasso di cambio. Su questo fatto si basa il principio della parità dei poteri d’acquisto (PPP).

Page 47: Lezioni di analisi econometrica

47

Appendice 2.1 – Serie storiche, dati sezionali e longitudinali Fin dall’inizio è stata presa in considerazione la semplice funzione del consumo di derivazione keynesiana (2.1.1) nella quale consumo e reddito, legati da una relazione lineare, possono essere riferiti ad istanti differenti di tempo, t = 1, 2, …, n, oppure ad unità di consumo e di reddito (ad esempio famiglie), i = 1, 2, …, N, considerate allo stesso tempo t. Si possiede, allora, nel primo caso un campione di osservazioni che formano serie

storiche

t tc yµ β= + t = 1, 2, …, n (A.2.1.1)

mentre nel secondo le osservazioni compongono dati sezionali12

i ic yµ β= + i = 1, 2, …, N (A.2.1.2)

Un campione temporale di ampiezza n può essere costruito mediante indagini che si

protraggono nel tempo, oppure tramite una disaggregazione temporale (ad esempio trimestralizzazione o mensilizzazione di dati annuali), mentre un campione sezionale di ampiezza N può essere estratto da un’inchiesta puntuale nel tempo, ad esempio da un’indagine sulla spesa di un gruppo di famiglie oppure da un censimento.

I modelli (A.2.1.1) e (A.2.1.2) sono analoghi e differiscono unicamente nel modo con cui i dati sono stati reperiti. Naturalmente esistono modelli i cui dati sono contemporaneamente sezionali e temporali, come nell’esempio seguente

it i i itc yµ β= + t = 1, 2, …, n; i = 1, 2, …, N (A.2.1.3)

rappresentativo di una funzione del consumo nella quale ciascuna famiglia i possiede

una propria funzione definita dai parametri iµ e iβ , considerati costanti nel periodo di

osservazione campionario, cioè per t = 1, 2, …, n. Se poniamo

∑=

=N

iitt cc

1

, 1

N

ii

µ µ=

= ∑ , ∑=

=N

iitt yy

1

12 Le serie storiche (o temporali) vengono dette in lingua inglese time series mentre i dati sezionali sono detti cross-section data.

Page 48: Lezioni di analisi econometrica

48

e nell’ipotesi che tutte le propensioni marginali al consumo siano uguali,

β=β==β=β N...21 , le equazioni (A.2.1.3) possono essere sommate membro a membro in

modo da dare

t tc yµ β= + t = 1, 2, …, n

costituendo questa l’aggregazione sezionale delle (A.2.1.3). Un altro modo di aggregare le equazioni (A.2.1.3) è quello che si basa sulla

conoscenza della distribuzione del reddito. Se la quota di reddito ty posseduta dalla i -

esima famiglia in ogni tempo è λi , con il vincolo

11

=λ∑=

N

ii

si ha che

tiit yy λ= .... nt ,...,2,1= ; Ni ,...,2,1= (A.2.1.4)

per cui, sostituendo le (A.2.1.4) nelle (A.2.1.3) e tenendo conto del vincolo, si ottiene, sommando membro a membro

0t tc yµ β= +

dove i

N

iiβλ=β ∑

=1

0 , di nuovo del tipo (A.2.1.1) ma con un’altra aggregazione

sezionale.

Dati longitudinali Se il campione di famiglie considerato nella (A.2.1.3) rimane costante negli n tempi, i

dati ad esso relativi, { }itc e { }ity sono chiamati longitudinali, alludendo al fatto che un

campione di più individui viene seguito lungo il tempo13. Per il trattamento dei dati longitudinali si usano procedure econometriche specifiche. 13 In lingua inglese i dati longitudinali vengono generalmente chiamati panel data (dal termine panel, che indica un gruppo di individui).

Page 49: Lezioni di analisi econometrica

49

Appendice 2.2 – Complementi analitici

Differenza prima logaritmica

Dimostriamo che

( )1 1 1ln ln lnt t t t t tx x x x x x− − −∆ = − ≈ − (A.2.2.1)

dove il simbolo " "≈ significa “approssimativamente pari a”.

Sviluppando in serie di Taylor la funzione ( )ln 1 γ+ si ha

( ) ...4321ln 432 +γ−γ+γ−γ=γ+ (A.2.2.2)

e ponendo

11 −=γ −tt xx

si ottiene

( ) ( ) ...ln 111 +−= −−− ttttt xxxxx

cioè la (A.2.21) L’approssimazione (A.2.2.1) è tanto migliore quanto più piccolo è il valore (compreso

tra 0 e 1) di γ : infatti i termini di secondo, terzo, … grado nella (A.2.2.2) sono tanto più

piccoli quanto minore è γ .

Le condizioni sufficienti per la stima dei minimi quadrati

Le stime µ e β costituiscono effettivamente un punto di minimo per ( ),S µ β in quanto

sono soddisfatte anche le condizioni sufficienti, date dalle 2

2 0Sµ

∂>

∂,

2

2 0Sβ

∂>

∂,

22 2 2

2 2 2 2 0S S Sµ β µ β

∂ ∂ ∂⋅ − > ∂ ∂ ∂ ∂

;

Infatti si ha 2

2 2 0S nµ

∂= >

∂,

22

21

2 0n

tt

S xβ =

∂= >

∂ ∑ , 2

2 21

2n

tt

S xµ β =

∂=

∂ ∂ ∑

dalle quali segue che

( ) ( )2

22 2 2

1 1 12 2 2 4 4 0

n n n

t t xx tt t t

n x x n m x n x x= = =

⋅ − = − = − >

∑ ∑ ∑

Page 50: Lezioni di analisi econometrica

50

Nullità del termine misto nella scomposizione della devianza totale

Il termine misto nella (2.8.1) è nullo perché

0ˆˆˆ

ˆˆˆˆˆˆ)ˆ)(ˆ(

111

1 1111 1

∑∑∑

∑ ∑∑∑∑ ∑

===

= ==== =

=−β=

=−

β=−=−−

n

ttt

n

tit

k

ii

n

t

n

tt

k

iitit

n

tt

n

t

n

tttttt

uyux

uyxuuyyuyyyy

avendo applicato ambedue le (2.6.10).

Page 51: Lezioni di analisi econometrica

51

CAPITOLO III L’AMBIENTE STOCASTICO

Page 52: Lezioni di analisi econometrica

52

3.1 I residui come enti aleatori: le ipotesi deboli

Finora i residui tu sono stati considerati come scarti tra i valori osservati e quelli

teorici di una variabile ty per ogni tempo t. In questo approccio deterministico sono state

ricavate le stime dei minimi quadrati dei parametri e quindi esso è stato sufficiente per percorrere molta strada nella costruzione dei modelli econometrici. Molto altro purtuttavia resta ancora da fare: come è possibile stabilire se le stime ottenute sono buone (rispetto ad un dato criterio) oppure cattive? E’ possibile decidere se le stime dei parametri si influenzano reciprocamente? Se i residui sono legati in qualche modo tra di loro? Se il campione è sufficientemente omogeneo?

A queste domande, e ad altre ancora non meno importanti, si può dare risposta se i modelli sono considerati in un ambiente stocastico, non più deterministico. Vediamo di farlo. Si è visto che i residui variano di valore al variare di µ e β ; non sono noti finché

µ e β non vengono fissati; quindi prima di ottenere µ e β essi possono essere

considerati variabili aleatorie tu% 14, t = 1, 2, …,n.

Box 3

Le variabili aleatorie

E’ aleatoria una variabile x~ che può assumere diversi valori e non si sa quale ha

assunto o assumerà. La variabile associata al risultato del lancio di un dado è aleatoria e può assumere il valore da 1 a 6. I valori che una variabile può assumere vengono chiamati realizzazioni; così nell’esempio del dado si possono avere sei realizzazioni. In questo caso ciascuna realizzazione ha la stessa probabilità di realizzarsi; in altri casi alcune hanno maggiore probabilità di altre. Ad esempio l’altezza di un individuo è una variabile aleatoria; se la misuriamo in centimetri, i valori 150, 163, 180, …, sono sue realizzazioni. Quelle comprese tra 160 e 170 hanno, ovviamente, maggiore probabilità di verificarsi di quelle comprese tra 140 e 150. Queste variabili aleatorie sono dette discrete perché le loro realizzazioni possono essere o finite o infinite ma numerabili. Quando le realizzazioni hanno la potenza del continuo (in modo grossolano possiamo dire che appartengono ad un intervallo) le variabili aleatorie sono dette continue.

La media delle realizzazioni ponderate con la probabilità che si verifichino costituisce

14 Indichiamo con una tilde una variabile aleatoria. Tale simbolo è utilizzato soltanto quando la variabile è considerata in un contesto dichiaratamente stocastico (ad esempio sotto il simbolo di valor medio E). In contesti più generali (ad esempio in un modello) è solitamente omesso.

Page 53: Lezioni di analisi econometrica

53

il valor medio della variabile aleatoria ed è indicato con il simbolo ( )tE x% , dove E è

l’iniziale della parola inglese expectation. Dunque il valor medio è un indice di

localizzazione delle realizzazioni. La quantità

( ) 2E x E x − % % (3.1.1)

che è pari alla media dei quadrati degli scarti tra le realizzazioni e il valor medio di x% ,

ponderati con la probabilità che esse si verifichino, ed è chiamata varianza della variabile aleatoria x% , è un indice di dispersione delle realizzazioni intorno al valor

medio. Tanto più grande è la varianza e tanto più sono disperse le realizzazioni di x%

rispetto al suo valor medio. La quantità

( ) ( )E x E x y E y − − % % % % (3.1.2)

chiamata covarianza tra le variabile aleatorie x% e y% , è un indicatore del legame lineare

esistente tra le due variabili aleatorie rilevanti.

La varianza di una variabile aleatoria x% è anche indicata con ( )Var x% ; la covarianza

tra x% e y% con ( ),Cov x y% % .

In appendice si dimostra l’utile risultato

( ) ( ) ( ) ( )2 ,Var x y Var x Var y Cov x y± = + ±% % % % % % (3.1.3)

Se nel modello lineare (2.6.1) i residui sono considerati aleatori il modello stesso è

inserito in un ambiente stocastico e si scrive

t t ty x uµ β= + +% % (3.1.4)

In effetti se tu% è una variabile aleatoria anche il membro a destra della (3.1.3) è

aleatorio, e quindi lo è anche quello a sinistra, cioè la ty% , indicando il segno di

uguaglianza l’uguaglianza delle caratteristiche (anche stocastiche) dei due membri. Queste mutano a seconda del grado di approfondimento con cui si vuole studiare il modello (3.1.4) oppure della diversa conformazione dei dati campionari.

Page 54: Lezioni di analisi econometrica

54

Supponendo che l’equazione (3.1.4) rimanga inalterata nel periodo campionario, l’insieme più semplice di ipotesi stocastiche che possono essere formulate rispetto ad essa è dato da

i) tx valori noti ∀t

ii) 0)~( =tuE ∀t

iii)

≠=

stst

uuE st 2

0)~~(

(3.1.5)

La prima ipotesi indica che la variabile esplicativa x è conosciuta. In particolare,

quindi, essa comporta che la tx , a differenza della ty , sia misurata senza errori.

La seconda ipotesi non è affatto restrittiva in quanto se fosse ( )tE u k=% ≠ 0, ∀t, ci si

potrebbe sempre ricondurre a questo caso di valor medio nullo semplicemente aggiungendo k al termine noto dell’equazione (3.1.4). La prima delle (2.6.10) indica che

l’introduzione dell’intercetta garantisce che i residui stimati abbiano media campionaria nulla, proprietà che è appunto il corrispettivo campionario della seconda delle (3.1.5).

La terza ipotesi delle (3.1.5) è, viceversa, restrittiva in quanto presuppone sia che i residui in tempi diversi non siano legati linearmente tra di loro (la loro covarianza è sempre nulla) o, come si dice, siano incorrelati, sia che abbiano tutti la stessa varianza

2σ . Ambedue queste sottoipotesi sono raramente verificate nella realtà, ma sono molto

utili nell’introduzione didattica della (2.6.1) in ambiente stocastico. E’ l’analogo di quanto si insegna in economia a proposito della concorrenza perfetta: questa sussiste raramente ma fornisce un buon strumento didattico preliminare all’illustrazione dei mercati con concorrenza imperfetta, più realistici ma meno semplici da definire.

Le ipotesi (3.1.5) non presuppongono alcuna forma di distribuzione di probabilità (si

veda il Box 4) per le tu% e sono per questo motivo dette deboli; nel caso contrario, che

esamineremo nel paragrafo 3.4, di assunzione di una distribuzione di probabilità, le ipotesi che vengono assunte sono chiamate forti.

Il Box 5 racchiude alcune semplici nozioni sul valor medio di una distribuzione.

Page 55: Lezioni di analisi econometrica

55

Box 4

Distribuzioni di probabilità

Ogni variabile aleatoria può assumere dei valori, che abbiamo chiamato realizzazioni, ciascuno dei quali si può verificare con una data probabilità. L’insieme di queste forma la distribuzione di probabilità della variabile aleatoria. Nel caso del lancio di un dado, nel quale la variabile aleatoria è costituita dal numero della faccia che si presenta, ognuna delle sei possibili realizzazioni ha la stessa probabilità di uscire e quindi la distribuzione è costituita da

{ }1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6

se per convenzione assumiamo, come in generale viene fatto, che la somma delle probabilità di tutte le realizzazioni possibili sia uno. Questo caso fornisce un esempio di distribuzione discreta. Un altro tipo di distribuzione è quella continua, un esempio del quale è dato da una variabile aleatoria che assume un valore costante in un certo

intervallo; se questo vale b a− tale valore è ( )1/p b a= − qualora, sempre per

convenzione, si assuma che

( ) 1bb

aa

p dx p dx p b a⋅ = = − =∫ ∫

Nel caso discreto la funzione di distribuzione di probabilità indica come questa si ripartisce nelle varie realizzazioni che la variabile aleatoria discreta può assumere. Ad esempio nel caso della variabile aleatoria associata al lancio di un dado tale funzione è

( ) ( ) 1 6 1, 2, ,6i if x P x x i= = = =% K

dove ( )ixxP =~ indica la probabilità dell’evento ixx =~ .

Nel caso continuo, invece, alla funzione di distribuzione di probabilità corrisponde la funzione di densità di probabilità, che ha lo stesso significato ma definisce la probabilità che la variabile aleatoria continua x% assume un valore contenuto in un dato intervallo

( ) ( )x

xP x x x f x dx

′′

′′ ′′≤ < = ⋅∫%

Ad esempio, se consideriamo la variabile aleatoria continua costante, la probabilità

che x% assume un valore contenuto nell’intervallo [ ],x x′ ′′ , con a x x b′ ′′≤ < ≤ , è

( ) 1x

x

x xP x x x dxb a b a

′′

′′ ′−′ ′′≤ < = =− −∫%

Page 56: Lezioni di analisi econometrica

56

Box 5 Valor medio di una distribuzione

Dalle indicazioni date nelle Box 3 e Box 4 si trae che nel caso discreto il valor medio

di una variabile aleatoria è dato da

( ) i ii

E x x p= ⋅∑%

dove la sommatoria è estesa a tutte le realizzazioni possibili ix , ciascuna moltiplicata

per la probabilità ip che si verifichi. Nell’esempio del lancio di un dado

( ) 1 7 26 i

iE x x= =∑%

Nel caso continuo, d’altro canto, è

( ) ( )x

xE x x f x dx

′′

′= ⋅ ⋅∫%

dove x′ e x′′ sono gli estremi dell’intervallo di variazione di x% . Nell’esempio della

variabile costante in [ ],a b

( ) ( )2 21 1 2

2b

a

b aE x x dx a bb a b a

−= ⋅ = = +

− −∫%

Page 57: Lezioni di analisi econometrica

57

3.2 Definizioni e risultati nell’approccio stocastico

Le ipotesi ii) e iii) vengono talora sintetizzate dicendo che il residuo della (3.1.4) è un rumore bianco, dove per rumore bianco si intende appunto una successione temporale di variabili aleatorie incorrelate con valor medio nullo e varianza costante.

Si è detto che l’immersione del modello (2.1.6) nell’ambiente stocastico produce come

risultato che anche ty% deve essere considerata come una variabile aleatoria. L’equazione

(3.1.4) indica chiaramente come l’endogena ty~ sia rappresentata da un modello scisso in

una componente sistematica data dalla combinazione lineare txµ β+ ed in una

componente aleatoria formata dal residuo tu~ . La prima componente è detta sistematica

in quanto rappresenta la struttura di ty in funzione dei parametri, considerati

invariabili nel tempo in virtù dell’omogeneità (nel senso illustrato nel paragrafo 2.9) del campione, e dell’esplicativa, supposta nota per la prima delle (3.1.5) . La componente sistematica quindi non contiene alcun elemento aleatorio e denota i fatti stilizzati della relazione tra la variabile endogena e le esplicative.

Questa considerazione è importante anche perché mette in luce che le ipotesi stocastiche (3.1.5), che per motivi didattici e storici vengono spesso esposte in termini dei

residui non osservabili tu% , in effetti possono essere viste come ipotesi sulle variabili

osservabili ty , considerate come realizzazioni di una variabile aleatoria ty% .

Allora, in virtù della seconda delle (3.1.5) possiamo trovare il valor medio di ty%

( ) ( )t t t tE y E x u xµ β µ β= + + = +% % (3.2.1)

pari cioè alla sua componente sistematica, e dove abbiamo utilizzato il semplice risultato del calcolo delle probabilità che il valor medio di una costante è pari alla costante stessa. Dunque è

( )t t tu y E y= −% % % (3.2.2)

e la varianza ( )tVar y% nonché la covarianza ( ),t sCov y y% % sono

( ) ( )( ) ( )2 2 2t t t tVar y E y E y E u σ = − = =

% % % % (3.2.3)

Page 58: Lezioni di analisi econometrica

58

( ) ( )( ) ( )( )[ ] ( ) stuuEyEyyEyEyyCov stssttst ≠∀==−−= 0~~~~~~~,~ (3.2.4)

Queste due ultime relazioni indicano che la struttura di varianza–covarianza

ipotizzata per la tu% si applica anche alla ty% , dato che le due variabili aleatorie

differiscono soltanto per una costante additiva, la componente sistematica txµ β+ , come

dimostrato nell’appendice 3.1.

L’ipotesi che alcune variabili aleatorie abbiano la stessa varianza è detta di omoschedasticità15, mentre quella alternativa di varianze diverse è chiamata di eteroschedasticità. La (3.2.3) mostra che quando l’una o l’altra di queste ipotesi vale per i residui vale anche per la variabile endogena.

Si è detto che la varianza è un indicatore di dispersione (o di variabilità). Nella figura 3.1, che riporta le retribuzioni lorde complessive trimestrali in Italia dal 1970 al 1996, è

evidenziato il caso, eteroschedastico e molto frequente in economia, di una variabilità (l’ampiezza media della oscillazione) che cresce con il tempo. Si ricordi che spesso, come nella serie della figura 3.1, la crescenza della variabilità è associata alla crescenza della tendenza.

Retribuzioni lordeItalia 1970-1996

0

50000

100000

150000

200000

250000

1970.1 1974.1 1978.1 1982.1 1986.1 1990.1 1994.1

Figura 3.1 – Le retribuzioni lorde complessive in Italia; dati trimestrali grezzi dal 1970 al 1996 (fonte ISTAT). Si può notare che sia la tendenza che la variabilità sono crescenti nel tempo.

15 Dai termini greci οµοιοσ, uguale, e σκεδασισ, dispersione. Una definizione più rigorosa di omoschedasticità richiede l’impiego delle distribuzioni di probabilità condizionate.

Page 59: Lezioni di analisi econometrica

59

Osservazione 3.1 – E’ interessante notare, tuttavia, che da un punto di vista empirico crescenza della tendenza e crescenza della variabilità, pur presentandosi spesso insieme nella stessa serie storica, sono da trattarsi in modo ben diverso, prescindendo dal fatto che una indica la localizzazione e l’altra la dispersione. Infatti la (3.2.1) mostra che un’eventuale tendenza

nella { }ty può essere spiegata dalla componente sistematica per cui

l’ipotesi ( )tE u% può valere; viceversa una variabilità non

approssimativamente costante (eteroschedasticità) nella { }ty si riflette in

una variabilità analoga nei residui.

Stime e stimatori dei minimi quadrati

Le stime dei parametri della (3.1.4) sono ancora quelle date dalle (2.6.7) e (2.6.8) se si utilizza il criterio dei minimi quadrati. Infatti la minimizzazione è la stessa e ciò che

cambia è semplicemente la natura della serie storica dei residui { }1 2 nu u uK , che ora è

costituita da variabili aleatorie. Dunque

2ˆ xy

xx

m yxm x

β−

=−

ˆˆ y xµ β= −% (3.2.5)

con le posizioni (2.6.5). Ma nell’ambito stocastico è anche possibile ritenere che ty% sia

una variabile aleatoria definita dalle (3.1.1) per cui, sostituendo t tx uµ β+ + % al posto

della ty nelle posizioni, si ottiene

( )21

1 1ˆn

t ttxx

x x um x n

β β=

= + − ⋅− ∑ %

(3.2.6)

( )1

1ˆˆn

tt

x un

µ µ β β=

= + ⋅ − + ∑ % (3.2.7)

come mostrato nell’appendice 3.1.

In effetti nelle (3.2.6) e (3.2.7) µ e β sono variabili aleatorie e, seguendo la nostra

convenzione, dovrebbero essere indicate con una tilde, sovrapposta al cappello. Per

semplicità di notazione, però, omettiamo la tilde, per cui µ e β possono indicare, in

funzione del contesto, sia le stime (3.2.5) sia le variabili aleatorie (3.2.6) e (3.2.7). In

questa veste µ e β sono dette stimatori.

Si è detto che l’immersione del criterio dei minimi quadrati nell’ambito stocastico è utile, tra l’altro, a valutare le stime ottenute: la versione stocastica (3.2.6) - (3.2.7) delle

Page 60: Lezioni di analisi econometrica

60

stime ci permette di verificare immediatamente una prima loro buona proprietà, la non

distorsione, definita nel Box 6. Infatti, prendendo i valori medi (dei membri a sinistra e a destra) nelle (3.2.6) e (3.2.7) si ottiene

( )ˆE β β= ( )ˆE µ µ= (3.2.8)

per cui gli stimatori µ e β sono non distorti.

Box 6

La proprietà di non distorsione

Uno stimatore ϑ% del parametro ϑ è detto non distorto se ( )E ϑ% = ϑ . La non distorsione

è una buona proprietà per uno stimatore se, come spesso avviene, la sua distribuzione di probabilità è concentrata intorno al valor medio. In questo caso le stime, che possono essere considerate come realizzazioni dello stimatore, hanno alta probabilità di trovarsi vicino al valore vero θ del parametro.

Le (3.2.8) forniscono d’altra parte i loro valori medi; le loro varianze e la covarianza

sono di calcolo leggermente più complicato per cui vengono determinate nell’appendice 3.1. Il teorema di Gauss–Markov

Gli stimatori OLS per i parametri del modello lineare non soltanto sono non distorti ma godono di un’altra proprietà che spiega la loro diffusa applicazione: essi possiedono variabilità minima nel senso del teorema di Gauss–Markov che enunciamo di seguito e che dimostreremo quando tratteremo i modelli con più di due variabili esplicative. Vale dunque per essi il

Teorema 3.1 (di Gauss–Markov) - Tra tutti gli stimatori lineari rispetto alle ty% e non

distorti, se µ e β sono gli stimatori dei minimi quadrati definiti dalle (3.2.6) e (3.2.7) rispettivamente e µ% e β% sono qualsiasi altri stimatori, si ha

( ) ( )1 2 1 2ˆˆVar c c Var c cµ β µ β+ ≤ + %% (3.2.9)

dove 1c e 2c è una qualsiasi coppia di costanti reali non ambedue nulle.

Page 61: Lezioni di analisi econometrica

61

Si osservi che la proprietà di variabilità minima, data dalla (3.2.9), non riguarda

direttamente i singoli stimatori µ e β ma la loro generica combinazioni lineare poiché

la varianza opera su di una sola variabile aleatoria e non su due (o più). Gli stimatori con variabilità minima nel senso del teorema di Gauss–Markov sono

detti ottimi; sinteticamente essi sono chiamati BLU, dalle iniziali dei termini inglesi Best (ottimi), Linear (lineari), Unbiased (non distorti).

Osservazione 3.2 - La linearità degli stimatori µ e β dei minimi quadrati

rispetto ad y e quindi rispetto alle ty che costituiscono y come somma

ponderata è indicata dalle (2.6.7) e (2.6.8). La loro non distorsione è indicata dalla (3.2.8) e la loro ottimalità dal teorema 3.1.

Page 62: Lezioni di analisi econometrica

62

3.3 La correlazione tra le variabili e tra gli stimatori dei parametri

Si è detto nel Box 3 che la covarianza tra due variabili aleatorie y% e x% denota la

relazione lineare esistente tra di loro; essa tuttavia dipende dalla dimensione delle due variabili e quindi non può essere utilizzata come un indicatore dell’intensità della loro relazione. Se, viceversa, la normalizziamo per escludere la dipendenza dalla dimensione otteniamo un indicatore adimensionale utilizzabile per misurare il loro grado di associazione lineare. La normalizzazione viene effettuata dividendo la covarianza per la radice quadrata del prodotto delle varianze delle due variabili aleatorie

( )( ) ( )

2

2 2

, yx

y x

Cov y xVar y Var x

σρ

σ σ= =

⋅ ⋅

% %

% % (3.3.1)

ottenendosi il coefficiente di correlazione, tale che 1 1ρ− ≤ ≤ (3.3.2)

come dimostrato nell’appendice 3.1. Se ρ è vicino allo zero non vi è relazione lineare tra

le due variabili; se ρ è vicino all’unità la relazione è molto forte e positiva; se ρ è vicino

a -1 è ugualmente forte ma negativa: se una variabile aumenta l’altra diminuisce e viceversa.

Il coefficiente di correlazione può essere stimato a partire da un campione di n

osservazioni per y e di altrettante per x facendo uso delle stime campionarie, analoghe

a quelle dei momenti primi e secondi presentati nella (2.6.5)

• valori medi campionari

1

1 n

tt

x xn =

= ∑ 1

1 n

tt

y yn =

= ∑

• varianze campionarie

( )22 2 2 2

1 1

1 1ˆn n

x t t xxt t

x x x x m xn n

σ= =

= − = − = −∑ ∑

( )22 2 2 2

1 1

1 1ˆn n

y t t yyt t

y y y y m yn n

σ= =

= − = − = −∑ ∑

• covarianza campionaria

( )( )2

1 1

1 1ˆn n

xy t t t t yxt t

y y x x y x y x m y xn n= =

= − − = ⋅ − ⋅ = − ⋅∑ ∑σ

Page 63: Lezioni di analisi econometrica

63

Esempio 3.1 – Si lascia al lettore verificare che il coefficiente di correlazione, stimato, tra

il consumo e il reddito del paragrafo 2.9 vale ˆ 0.998ρ = e quello tra il consumo e il

reddito disponibile ˆ 0.915=ρ .

Esempio 3.2 – Si lascia al lettore verificare che il coefficiente di correlazione tra la variazione della disoccupazione e la crescita del PIL reale dell’Italia vale ˆ 0.405ρ = − .

La correlazione tra gli stimatori dei parametri

E’ di fondamentale importanza che gli stimatori µ e β non siano correlati tra di

loro, altrimenti accade che la stima di un parametro sia influenzata da quella dell’altro,

positivamente se ˆ 0ρ > , negativamente se ˆ 0ρ < . Nella tavola 3.1 si riportano le stime

dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi considerati in precedenza e della funzione del consumo (2.9.1) con il reddito

Modello Equazione ρ

ln t tc t uµ β= + + (2.4.5) -0.876

{ }expt tc t uµ β= + + (2.4.6) -0.522

t tc t uµ β= + + (2.4.7) -0.876

t t tz y uµ β= + + (2.9.1) -0.992

Tavola 3.1 – Stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi e di quello per la funzione del consumo.

Page 64: Lezioni di analisi econometrica

64

3.4 Le ipotesi forti sui residui

È opportuno, a questo punto, riassumere le ipotesi di vario tipo sinora fatte in relazione al modello lineare semplice:

i) il campione è omogeneo e i parametri µ e β sono invariabili nel tempo;

ii) i valori di tx sono noti, cioè non aleatori;

iii) 0)~( =tuE , st,stst

uuE st ∀

=σ≠

=⋅ 0

)~~( 2 (3.4.1)

Con la i) si suppone che la struttura dell’economia rimanga invariata nel periodo campionario e che quindi sia possibile considerare validi per tutti i tempi t = 1, 2,…, n, i

modelli da stimare. La ii) è un’ipotesi semplificatrice, che in seguito elimineremo, che limita gli elementi stocastici del modello al residuo ed alla variabile endogena. Infine, le ipotesi deboli iii) sono utilizzate per determinare alcune caratteristiche degli stimatori: la non distorsione e l’efficienza, nonché le matrici di dispersione e di correlazione, di

quelli dei minimi quadrati e la distorsione della varianza 2σ campionaria dei residui.

Se desideriamo stimare i parametri con il criterio dei minimi quadrati occorre aggiungere la quarta ipotesi (deterministica)

iv) 02 ≠− xmxx (3.4.2)

Le ipotesi stocastiche precedenti, tuttavia, non permettono di effettuare un’inferenza statistica completa sul modello lineare; ad esempio, non sono sufficienti per determinare intervalli di confidenza o per fare verifiche di ipotesi.

Intervalli di confidenza

Ambedue questi concetti sono semplici, sebbene di grande rilevanza. L’intervallo di confidenza riguarda un parametro ϑ ma è conveniente iniziare a definirlo a partire da

uno stimatore ϑ% . In seguito mostreremo come da ϑ% si possa passare a ϑ . In effetti, un

intervallo di confidenza per ϑ% è un indicatore della probabilità p che una realizzazione

di ϑ% , cioè una stima ϑ , sia vicina a ϑ : più l’intervallo è corto, fissato p , maggiore è la

nostra confidenza che esso contenga tale valore vero ϑ . Se indichiamo con ϑ′ e ϑ′′ gli

estremi dell’intervallo e con P la probabilità che un evento si verifichi (in questo caso

che ϑ% sia compresa tra ϑ′ e ϑ′′ ), formalmente scriviamo

Page 65: Lezioni di analisi econometrica

65

( )P pϑ ϑ ϑ′ ′′< ≤ =% (3.4.3)

dove p è un numero compreso tra zero ed uno, essendo la probabilità di un evento

assoggettata per convenzione a tali limiti. Generalmente p viene moltiplicato per 100 ed

espresso in percentuali; allora si dice che l’intervallo è al 100 %p . L’intervallo di

confidenza definito dalla (3.4.3) è generalmente indicato con ( ],ϑ ϑ′ ′′ 16.

L’importanza dell’intervallo di confidenza risiede nel fatto che, fissata la probabilità

p , esso esprime il nostro grado di fiducia (confidenza) sulla bontà della stima ϑ , cioè

sul fatto che essa sia vicina al valore effettivo ϑ .

La probabilità p è generalmente presa (soggettivamente) pari a 0.95; talvolta la si

prende pari a 0.90 e talaltra a 0.99; altri valori sono rari. I due estremi sono determinati in modo tale che la distanza ϑ ϑ′′ ′− sia la più corta.

E’ d’uso, poi, porre 1p α= − , con α quindi che diventa 0.05, 0.01, 0.10; il valore α è

detto rappresentare il livello di significatività dell’intervallo di confidenza. Stima intervallare

Si è visto nel paragrafo 3.2 che una stima ϑ (ad esempio dei minimi quadrati) di un

parametro può essere considerata come una realizzazione di uno stimatore ϑ% (ancora ad

esempio dei minimi quadrati). Ma al posto della stima possiamo utilizzare un suo

intervallo di confidenza ( ],ϑ ϑ′ ′′ che oltre a localizzare ϑ (all’interno dell’intervallo con

probabilità 1 α− ) fornisce un’indicazione (denotata dalla lunghezza ϑ ϑ′′ ′− ) della

precisione di questa localizzazione. Si ottiene allora la stima intervallare (o per intervalli)

( ],ϑ ϑ′ ′′ di ϑ mentre ϑ ne è la sua stima puntuale.

Verifiche (o test) di ipotesi

Le ipotesi che vengono fatte sui modelli di regressione riguardano generalmente i suoi parametri e il campione a disposizione può essere usato per verificare se esso spinge a rendere vera o falsa tale ipotesi. Ad esempio nel modello lineare semplice (3.1.3) ci può interessare verificare l’ipotesi che l’intercetta µ sia uguale a zero oppure che la

pendenza β sia pari a uno. Queste ipotesi sono chiamate nulle e indicate con 0H ; così le

due ipotesi sono, rispettivamente,

16 Con la parentesi tonda si indica che l’intervallo è aperto a sinistra ( )ϑ ϑ′ < % mentre con la quadra

che è chiuso a destra ( )ϑ ϑ′′≤% .

Page 66: Lezioni di analisi econometrica

66

0 : 0H µ = , 0 : 1H β =

e vengono sottoposte a test contro delle ipotesi alternative 1H , ad esempio

1 : 0H µ ≠ , 1 : 1H β ≠

nei due casi. Queste due ipotesi alternative sono dette bilaterali in quanto equivalgono a dire 0µ > (primo lato) oppure 0µ < (secondo lato) nel primo caso, e 1β > oppure 1β <

nel secondo. Se il lato è uno solo, come nel caso della 0 : 0H µ < , l’ipotesi è detta

monolaterale. Più in generale, dunque, e prescindendo dai lati, dato un parametro ϑ , l’ipotesi

(lineare) nulla che si intende verificare è

0 :H rϑ = (3.4.4) mentre l’ipotesi alternativa è

1 :H rϑ ≠

Le verifiche di ipotesi sono più comunemente chiamate test di ipotesi. La standardizzazione dell’intervallo di confidenza

La determinazione dell’intervallo ( ],ϑ ϑ′ ′′ è resa ostica dal fatto che lo stimatore ϑ%

ha un valore medio ( )E ϑ% ed una varianza ( )Var ϑ% che variano ogni volta che si ha a che

fare con un campione diverso. Per ovviare a questa situazione problematica si usa

trasformare ϑ% in modo che abbia un tipo standard di distribuzione di probabilità: si

standardizza ϑ% , cioè le si toglie il valor medio e la si divide per la radice quadrata (presa

con il segno positivo) della varianza

( )( )

Ez

Var

ϑ ϑ

ϑ

−=

% %%

%

La variabile aleatoria standardizzata è chiamata z% e l’intervallo ( ],ϑ ϑ′ ′′ è

trasformato nell’altro ( ],z z′ ′′ , di immediata determinazione poiché gli estremi z′ e z′′

non dipendono dal campione. Si ha allora che z z z′ ′′< ≤%

per la quale è ( )P z z z p′ ′′< ≤ =% dove z′ e z′′ sono presi in modo tale che la distanza

z z′′ ′− sia le più corta. Dunque è

( )E

z zϑ ϑ

σ

−′ ′′< ≤

% %

Page 67: Lezioni di analisi econometrica

67

dove si è posto ( )Var ϑ σ=% . Cioè ancora

( )( )( )

z E z

z E z

z E z

ϑ σ ϑ ϑ σ

ϑ σ ϑ ϑ σ

ϑ σ ϑ ϑ σ

′ ′′− + ⋅ < − ≤ − + ⋅

′ ′′− ⋅ > ≥ − ⋅

′′ ′− ⋅ ≤ < − ⋅

% % %

% % %

% % %

(3.4.5)

che è una doppia disuguaglianza che necessita di due notazioni. Innanzitutto essa

definisce un intervallo di confidenza non più per lo stimatore ϑ% ma per il suo valor

medio ( )E ϑ% , che però è funzione di ϑ ; così l’intervallo di confidenza limita ϑ e non più

ϑ% . In secondo luogo l’intervallo è divenuto aleatorio )ˆ ˆ,z zϑ σ ϑ σ ′′ ′− ⋅ − ⋅ ed è quindi

difficilmente utilizzabile nella pratica. Si usa allora sfruttare il fatto che si possiede una

realizzazione (la stima di ϑ ) di ϑ% e la si sostituisce, ottenendosi al posto della (3.4.5) la

( )ˆ ˆz E zϑ σ ϑ ϑ σ′′ ′− ⋅ ≤ < − ⋅% (3.4.6)

L’intervallo di confidenza per ( )E ϑ% è allora

)ˆ ˆ,z zϑ σ ϑ σ ′′ ′− ⋅ − ⋅ (3.4.7)

Nel Box 7 sono riassunti i passi che portano all’intervallo (3.4.7).

Box 7

L’intervallo di confidenza

Per lo stimatore generico ϑ% di ϑ è ( ],ϑ ϑ′ ′′ tale che

( )P z z z p′ ′′< ≤ =%

Si standardizza ϑ% e si ottiene

( )E

P z z pϑ ϑ

σ

− ′ ′′< ≤ =

% %

da cui si trae l’intervallo di confidenza per ( )E ϑ% , che è aleatorio

( )z E z′′ ′− ⋅ ≤ < − ⋅% % %ϑ σ ϑ ϑ σ

Page 68: Lezioni di analisi econometrica

68

Interessa di più un intervallo per ( )E ϑ% che per ϑ% poiché ( )E ϑ% contiene ϑ . Si

sostituisce, con una forzatura che è utilizzata nella pratica, lo stimatore ϑ% con la stima

ϑ che è una sua realizzazione

( )ˆ ˆz E zϑ σ ϑ ϑ σ′′ ′− ⋅ ≤ < − ⋅%

L’intervallo di confidenza per ( )E ϑ% è dunque )ˆ ˆ,z zϑ σ ϑ σ ′′ ′− ⋅ − ⋅ .

Residui normali

Al fine di effettuare inferenze statistiche sul modello lineare, dunque, non sono sufficienti le ipotesi (3.4.1) ma occorre aggiungere l’ipotesi forte che i residui siano

distribuiti normalmente con media nulla e varianza costante

tu~ ∼ ),0( 2σN ∀t (3.4.8) cioè che la loro funzione di densità di probabilità sia del tipo normale (o di Gauss o gaussiana)

{ }222/12 2/exp)2()( σ−πσ= −tt uuf (3.4.9)

Questa funzione di densità di probabilità può a prima vista sembrare un po’

complicata dal punto di vista matematico, ma in realtà gode di molte proprietà che la rendono facilmente trattabile. E’ funzione di due parametri soltanto: il valor medio della

variabile aleatoria tu% che abbiamo supposto pari a zero [ipotesi iii) nella (3.4.1)], e la sua

varianza che abbiamo supposto uguale a 2σ [ancora ipotesi iii)].

Si noti che se il valor medio di tu% fosse diverso da zero, ( ) 0tE u k= ≠% , la (3.4.9)

assumerebbe la forma più generale (A.3.2.1.). Se 0k = , come nella (3.4.9), e 2 1σ = , la

variabile aleatoria che ne deriva, /tu zσ =% % , è detta standardizzata e la figura 3.2 riporta

il grafico della sua funzione di densità di probabilità quando questa è normale. La motivazione fondamentale per imporre l’ipotesi forte (3.4.8) è costituita dal fatto

che da un lato è necessario per effettuare l’inferenza statistica sui parametri dei modelli lineari (3.1.3) e dall’altro lato non è molto restrittiva in quanto la gran parte dei loro residui si distribuisce appunto normalmente e questo è un derivato di un teorema del calcolo della probabilità che per la sua importanza è detto centrale:

Page 69: Lezioni di analisi econometrica

69

Teorema 3.2 – Dato un numero n di variabili aleatorie indipendenti e identicamente distribuite, la distribuzione (di probabilità) della loro somma tende ad essere normale al tendere di n verso infinito.

Figura 3.2 – Grafico della funzione di densità di probabilità normale standardizzata,

( )0,1N .

E allora, poiché il residuo tu% può essere assimilato ad una somma molto grande di

forze della dinamica economica (variabili aleatorie che supponiamo abbiano la stessa

distribuzione) che hanno effetto sull’endogena ty al di fuori dell’esplicativa tx , ecco che il

teorema centrale può essere applicato17 e da questo deriva la (approssimata) normalità di

tu% .

Indipendenza in probabilità

Nell’enunciato del teorema centrale si è fatta l’ipotesi che le n variabili aleatorie siano

indipendenti (in probabilità). In maniera approssimativa ma chiarificatrice questo vuol dire che non c’è alcun tipo di relazione probabilistica tra di esse; più precisamente si dice che esse sono indipendenti (in probabilità) se la loro distribuzione di probabilità congiunta è uguale al prodotto delle loro distribuzioni semplici, e da questo deriva che la

funzione di densità di probabilità congiunta ( )1 2, , , nf u u uK è uguale al prodotto delle

funzioni di densità semplici

17 Ovviamente in modo approssimato.

Page 70: Lezioni di analisi econometrica

70

( ) ( ) ( ) ( )1 2 1 2, , , n nf u u u f u f u f u= ⋅ ⋅ ⋅K K (3.4.10) Si dimostra in teoria delle probabilità che se due variabili aleatorie sono indipendenti

esse sono anche incorrelate, ma non vale il viceversa a meno che esse abbiano distribuzione normale.

Poiché le ipotesi forti (3.4.8) assumono la normalità dei residui e poiché questi sono incorrelati [ipotesi deboli iii) nella (3.4.1)], deriva dalla succitata dimostrazione che le ipotesi forti (3.4.8) assumono implicitamente che i residui siano indipendenti (in probabilità).

Page 71: Lezioni di analisi econometrica

71

3.5 Inferenza statistica per i parametri del modello lineare semplice

Applichiamo le nozioni del paragrafo precedente, da analizzare con diligenza perché sia gli intervalli di confidenza che i diversi test di ipotesi sono costruiti tutti in modo analogo, al caso del modello lineare (3.1.4) supponendo dapprima, per semplicità

didattica, che 2σ sia noto.

Per determinare gli estremi di un intervallo di confidenza per il parametro µ oppure

il β del modello (3.1.4) occorre determinare innanzitutto la distribuzione di probabilità

degli stimatori µ e β . I loro valori medi sono dati dalla (3.2.8) e le varianze dalle

(A.3.1.3) e (A.3.1.4), che scriviamo per brevità

( ) 2 2ˆVar aββ σ= ⋅ , ( ) 2 2ˆVar aµµ σ= ⋅ (3.5.1)

dove

( )

22

1

xx

an m xβ =

− ,

( )2

22

1

xx

xan n m xµ = +

− (3.5.2)

Sostituendo questi valori nella (3.4.6) si ottiene

ˆ ˆz a z aµ µµ σ µ µ σ′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅ (3.5.3) per l’intercetta µ e

ˆ ˆz a z aβ ββ σ β β σ′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅ (3.5.4) per il parametro β . Si noti che in virtù della non distorsione degli stimatori le (3.5.3) e

(3.5.4) identificano intervalli di confidenza per µ e β .

Gli estremi z′ e z′′ sono facilmente ricavabili dalla tavola statistica dei quantili della

distribuzione normale standardizzata in quanto la distribuzione sia di µ che di β è

normale. Infatti questi stimatori sono combinazioni lineari di variabili aleatorie normali

(distribuite normalmente), e nella teoria delle probabilità si dimostra che quando questo accade le variabili aleatorie che ne sono combinazioni lineari sono anch’esse normali. Allora

( )2 2ˆ ,N aµµ µ σ: , ( )2 2ˆ ,N aββ β σ: (3.5.5)

Page 72: Lezioni di analisi econometrica

72

per cui le due variabili aleatorie trasformate

ˆa

−⋅ µ

µ µσ

e ˆ

a−⋅ β

β βσ

(3.5.6)

hanno la stessa distribuzione ( )0,1N .

I due estremi z′ e z′′ dell’intervallo di confidenza per la variabile aleatoria

standardizzata z% valgono - 0.658 e 0.658 se 0.05α =

-0.678 e 0.678 se 0.01α =

-0.632 e 0.632 se 0.10α =

Le operazioni che conducono agli intervalli di confidenza (3.5.5) e (3.5.6) sono riassunte nel Box 8.

Box 8

Intervalli di confidenza per µ e β

1) Si sceglie il livello di significatività 1 pα = − desiderato.

2) Si traggono dalle tavole della variabile aleatoria normale standardizzata gli

estremi z′ e z′′ .

3) Si standardizzano le variabili aleatorie µ e β , cioè le si trasformano nella

normale standardizzata

ˆaµ

µ µσ

−⋅

, ˆ

β βσ

−⋅

dove aµ e aβ sono definite nelle (A.3.1.3) e (A.3.1.4).

4) Si costruiscono gli intervalli di confidenza

ˆ ˆa z a zµ µµ σ µ µ σ′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅

ˆ ˆa z a zβ ββ σ β β σ′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅

Esempio 3.3 – Costruiamo gli intervalli di confidenza (la stima intervallare) per i parametri µ e β della funzione del consumo (2.9.1) nell’ipotesi di conoscere

2σ = 40000000 Allora tramite le (A. 3.1.4) e (A. 3.1.3) calcoliamo

1.639 , 0.00000019a aµ β= = (3.5.7)

Page 73: Lezioni di analisi econometrica

73

per cui gli intervalli (3.5.5) e (3.5.6) al 95% sono

60505 468630.649 0.665

µβ

− ≤ < −≤ <

e quelli al 99% sono

60712 466560.649 0.665

µβ

− ≤ < −≤ <

Verifica di ipotesi Nella figura 3.3 è riportato nuovamente il grafico della funzione di densità normale

standardizzata, ma questa volta con l’indicazione dell’intervallo di confidenza preso al 95%. Si noti che la probabilità residua pari al 5% è divisa a metà nelle due code.

Figura 3.3 – Grafico della funzione di densità di probabilità normale standardizzata,

( )0,1N , con gli estremi dell’intervallo di confidenza al 95%.

Questo intervallo di confidenza (e gli altri presi con probabilità diverse) può essere utilizzato per costruire un test di ipotesi; anzi l’uso più frequente degli intervalli di confidenza è proprio quello della verifica delle ipotesi. Riprendiamo l’esempio fatto nel paragrafo precedente per mostrare questo uso, che in parte abbiamo anticipato nel paragrafo 3.4.

P( 1.96z ≤ −% )=0.025 P( 1.96z ≤ +% )=0.025

Page 74: Lezioni di analisi econometrica

74

Supponiamo dunque di voler verificare l’ipotesi nulla 0 : 0H µ = contro l’alternativa

1 : 0H µ ≠ . Se è valida l’ipotesi nulla (si dice: sotto 0H ) la prima delle (3.5.6) (che è una

variabile aleatoria) diventa

ˆzaµ

µσ

=⋅

% (3.5.8)

che ha probabilità pari al 95% di cadere nell’intervallo [ ),z z′ ′′ ; e allora si è spinti ad

accettare l’ipotesi nulla 0H se il valore ˆz aµµ σ= ⋅ che si determina con il campione di

dati (ed è quindi una realizzazione di z% ) cade nell’intervallo, mentre si è spinti a

rifiutarla (e quindi ad accettare l’alternativa 1H ) se il valore z che si ottiene cade fuori

dell’intervallo, cioè nelle code. Questo è il test della z , chiamato così per via delle

variabili standardizzate (3.5.6), indicate appunto con una z% . Per ovvi motivi, allora, l’intervallo di confidenza è anche detto regione di accettazione

del test, mentre le due code formano la sua regione di rifiuto. I due estremi z′ e z′′ prendono il nome di valori critici del test.

Il fatto più importante da tenere presente quando si effettua un test di ipotesi è che esso opera in un ambiente stocastico e che la realizzazione z associata all’ipotesi nulla

cade nell’intervallo di accettazione [ ),z z′ ′′ con una certa probabilità (ad esempio il 95%)

ma non con la certezza. E’ per questo motivo che si è detto “si è spinti ad accettare 0H ” e

non “si accetta 0H con certezza”.

In effetti c’è la possibilità che z cada nella regione di rifiuto (cioè in una delle code) e

quindi che si sia spinti a rifiutare 0H nonostante che essa sia vera; in questo caso si

commette un errore, che è detto di I specie, e la probabilità di commettere questo errore è evidentemente α . Ma già che ci siamo definiamo anche l’errore di II specie, che è quello

di accettare 0H nonostante che sia falsa.

L’ipotesi 0 : 0H µ = è stata sottoposta a verifica inserendola nella prima delle (3.5.6)

e controllando quindi che la z che così si ottiene cada nella regione di accettazione o in

quella di rifiuto. Un test del tutto simile può essere fatto quando l’ipotesi 0H riguarda

l’uguaglianza di µ ad una costante qualsiasi m

0 :H mµ = (3.5.9)

Page 75: Lezioni di analisi econometrica

75

Di nuovo, si inserisce la (3.5.9) nella prima delle (3.5.6) e si controlla che

( )ˆz m aµµ σ= − ⋅ cada nell’una o nell’altra regione.

Analogamente, se si vuole verificare l’ipotesi nulla

0 :H bβ = (3.5.10) Le operazioni che conducono a queste verifiche di ipotesi sono riassunte nel Box 9.

Esempio 3.4 – Consideriamo la funzione del consumo (2.9.1) nell’ipotesi di conoscere σ = 6325 e verifichiamo le due ipotesi nulle

0 0: 0 : 1H Hµ β= =

I valori aµ e aβ sono dati dalle (3.5.7) per cui la standardizzazione è semplice e nei

due casi conduce a

( )ˆ 0 51.937z aµµ σ= − ⋅ = ( )ˆ 1 5.178z aββ σ= − ⋅ =

La regione di accettazione al 95% è [ )1.96, 1.96− + e sia la prima z che la seconda ne

sono fuori. Si è quindi spinti a rifiutare ambedue le ipotesi nulle.

Box 9

Test di ipotesi

1) Si debba verificare l’ipotesi nulla 0 :H rϑ = supponendo che ϑ sia uno stimatore

non distorto (di ϑ ) con distribuzione normale di valor medio ϑ e di varianza

(nota) 2ϑσ .

2) Si standardizza ϑ con la trasformazione

( )ˆz ϑϑ ϑ σ= −% (3.5.11)

3) Si pone rϑ = e si sostituisce la stima ϑ al posto del suo stimatore nella (3.5.11)

ottenendosi la realizzazione

( )ˆz r ϑϑ σ= −

4) Si sceglie il livello di significatività α (che ora è del test).

5) Si traggono dalle tavole della variabile aleatoria normale standardizzata i valori

critici z′ e z′′ , e si costruisce la regione di accettazione [ ),z z′ ′′ .

6) Se z ∈ [ ),z z′ ′′ si è spinti ad accettare 0H , altrimenti si è indotti a rifiutarla.

Page 76: Lezioni di analisi econometrica

76

3.6 Inferenza statistica per la varianza dei residui

L’inferenza descritta nel paragrafo precedente è molto valida dal punto di vista

didattico, ma non da quello empirico per il semplice motivo che la varianza 2σ dei

residui non è generalmente nota. Deve essere quindi sostituita con una stima, che può essere quella campionaria

2 2

1

1ˆ ˆn

tt

un

σ=

= ∑ (3.6.1)

che ha però il demerito di essere distorta. Dimostreremo in seguito che nel caso del modello semplice (2.9.1) con due parametri di regressione basta inserire 2n − al posto di

n nella (3.6.1) per ottenere una stima non distorta

2 2

1

1 ˆ2

n

tt

un

σ=

=− ∑ (3.6.2)

Ovviamente, meno i valori dell’endogena ty sono dispersi intorno alla retta di

regressione e più piccola è 2σ (o anche 2σ ) e migliore è l’adattamento della retta alle ty ;

allora la sua radice quadrata σ (o σ ) presa positivamente, chiamata errore standard

(SE) (dei residui) della regressione, può essere utilizzata come un indicatore della bontà

di adattamento del modello ai dati, alla stessa stregua del coefficiente di determinazione 2R . Più piccolo è l’errore standard e meglio la regressione si adatta ai dati per cui,

considerando le stime (3.6.1) oppure (3.6.2), dal punto di vista statistico è conveniente che n sia il più grande possibile.

Il numero ( )2n − indica i gradi di libertà (g.d.l.) con cui si stima 2σ e denota il fatto

che, poiché la stima (3.6.2) dipende dai residui stimati u e questi a loro volta dipendono

dalle due stime µ e β , nel processo che dagli n dati di partenza conduce alla (3.6.2)

sono imposte due restrizioni che limitano ad ( )2n − il numero di dati osservati che

possono essere utilizzati nella stima di 2σ .

Stima intervallare per 2σ

Dimostreremo in seguito che lo stimatore ˆtu ha la stessa distribuzione di tu% , cioè che

è

( )2ˆ 0,tu N σ: t∀

e che le ˆtu sono indipendenti se lo sono tu% . Allora le variabili aleatorie ˆtu σ sono

variabili aleatorie normali standardizzate indipendenti e per la (A.3.2.4) la somma dei

Page 77: Lezioni di analisi econometrica

77

loro quadrati si distribuisce come un 2χ% . Dimostreremo che il numero dei g.d.l. è

( )2n − 18, pertanto

2 222

1

1 ˆn

t nt

u −=∑ %: χ

σ (3.6.3)

da cui l’intervallo di confidenza al livello (di significatività) α per la varianza dei residui

è dato, traendolo direttamente dalla (3.4.3), da

2 2 22 22

1

1 ˆ 1n

n t nt

P u− −=

′ ′′< ≤ = −

∑χ χ ασ

(3.6.4)

dove 22nχ −′ e 2

2nχ −′′ sono i quantili di probabilità 2α e 1 2α− della distribuzione del chi

quadrato con 2n − gradi di libertà. Dalla (3.6.4) si ottiene l’intervallo di confidenza

2 2 2

2 22 2

1 1ˆ ˆt t

n n

u u− −

≤ <′′ ′∑ ∑σ

χ χ

(3.6.5)

che costituisce anche la stima intervallare per 2σ .

Nella figura 3.4 sono riportati i grafici delle funzioni di densità di probabilità del 2χ

per i tre numeri di g.d.l. 2 10, 20, 30n − = .

Per 0.05α = e per i tre numeri di g.d.l. 2 10, 20, 30n − = , i quantili 22nχ −′ valgono

3.51, 9.95 e 17.21, e gli altri 22nχ −′′ 21.72, 35.22 e 47.96 rispettivamente, evidenziando

numericamente il fatto che i quantili a sinistra e a destra nell’intervallo di confidenza

differiscono in valore assoluto (perché, ovviamente, la distribuzione del 2χ è non

simmetrica).

Verifica di ipotesi lineari semplici per 2σ

L’ipotesi nulla 2

0 :H rσ = (3.6.6)

con r costante positiva, può essere verificata contro l’alternativa 21 :H rσ ≠

utilizzando l’intervallo di confidenza (3.6.5): se questo contiene r si è spinti ad accettare

0H , altrimenti si è indotti a rifiutarla e ad accettare l’alternativa.

Si osservi che lo stesso test può essere condotto inserendo 2 rσ = nella (3.6.3)

18 Si dice che la distribuzione del 2χ ha 2n − gradi di libertà.

Page 78: Lezioni di analisi econometrica

78

2 2

1

ˆn

tt

u rχ=

= ∑

(3.6.7)

e verificando che il valore ottenuto 2χ sia compreso nella regione di accettazione per 0H

formato dall’intervallo ( 2 22 2,n n− −

′ ′′

χ χ oppure in quello di rifiuto composto dalle due parti

2 2 2 22 20 n ne− −′ ′′< ≤ >χ χ χ χ (3.6.8)

dove i due quantili 22nχ −′ e 2

2nχ −′′ sono di probabilità 2α e 1 2α− , rispettivamente.

Questo è il test del 2χ per la varianza dei residui. Si noti che nella (3.6.7) le ˆtu sono

considerate come stime mentre nella (3.6.3) come stimatori.

Figura 3.4 – Funzione di densità di probabilità del 2χ per i tre numeri di g.d.l. n-2=10, 20, 30.

Nelle applicazioni, in virtù del fatto che la variabile aleatoria 2%χ assume soltanto

valori non negativi, generalmente si preferisce prendere 22 0nχ −′ = per cui la regione di

accettazione diventa ( 220, n−

′′

χ e quella di rifiuto è composta dal solo intervallo per cui

2 22n−′′>χ χ . Il test diventa quindi monolaterale.

Esempio 3.5 – Riprendiamo la funzione del consumo (2.9.1) e verifichiamo l’ipotesi nulla 2

0 :H σ = 39614436 (3.6.9)

Page 79: Lezioni di analisi econometrica

79

I g.d.l. sono 2n − = 21 ed il test monolaterale fornisce i seguenti intervalli di

accettazione ( ]0, 38.93 , ( ]0, 32.67 e ( ]0, 29.62 per 0.01, 0.05=α e 0.10

rispettivamente.

Il valore 2χ dato dalla (3.6.7) vale

2χ =21.001

che è contenuto in tutti e tre gli intervalli di accettazione per cui si è spinti ad asserire che l’ipotesi nulla (3.6.9) è accettata a tutti e tre i livelli di significatività.

Page 80: Lezioni di analisi econometrica

80

3.7 Inferenza statistica per i parametri del modello lineare semplice con 2σ ignoto

Dunque dobbiamo costruire gli intervalli di confidenza (3.5.3) per µ e (3.5.4) per β

nonché i test di verifica dell’ipotesi (3.5.9) e (3.5.10) nel caso in cui 2σ non sia noto e sia

sostituito da una stima che possiamo prendere non distorta, la (3.6.2). Cominciamo con gli intervalli di confidenza, che si basano sulle standardizzazioni (3.5.6) che ora possiamo scrivere nelle due forme

( )2 2

1

ˆˆ

ˆ 2n

tt

aa

u n

µ

µ

µ µσµ µ

σσ

=

−⋅−

=⋅

⋅ −∑ (3.7.1)

( )2 2

1

ˆˆ

ˆ 2n

tt

aa

u n

β

β

β βσβ β

σσ

=

−⋅−

=⋅

⋅ −∑ (3.7.2)

dalle quali si vede che sia µ che β standardizzati mediante la stima (3.6.2)

corrispondono al rapporto tra una variabile aleatoria normale standardizzata e la radice

quadrata di un'altra variabile aleatoria che per la (3.6.3) ha la distribuzione del 2χ ,

divisa per il numero dei g.d.l. Ma nel calcolo delle probabilità si dimostra che tale rapporto è una variabile aleatoria chiamata t di Student centrale19 , funzione del numero dei g.d.l., se numeratore e denominatore sono variabili aleatorie indipendenti. Ma questa indipendenza è dimostrata nell’appendice 3.1 per cui le due variabili aleatorie (3.7.1) e

(3.7.2) si distribuiscono come una 2nt −%

~ nta −

−⋅

µ µσ

2

ˆ~ nta −

−⋅

β βσ

(3.7.3)

e gli intervalli di confidenza (3.5.3) e (3.5.4) diventano

2 2ˆ ˆn na t a t− −′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅µ µµ σ µ µ σ (3.7.4)

2 2ˆ ˆ

n na t a t− −′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅β ββ σ β β σ (3.7.5)

19 Stabilita nel 1908 da uno statistico della birreria Guinness di Dublino, W. S. Gosset, che pubblicò i suoi ritrovamenti sotto lo pseudonimo Student. Di qui il nome della distribuzione.

Page 81: Lezioni di analisi econometrica

81

dove i due quantili 2nt −′ e 2nt −

′′ sono di probabilità 2α e 1 2α− , rispettivamente.

Errori standard delle stime

I due denominatori aµσ ⋅ e aβσ ⋅ nelle (3.7.3) sono detti errori standard20 di µ e β ,

rispettivamente.

Le operazioni che conducono agli intervalli di confidenza (o stime intervallari) (3.7.4) e (3.7.5) sono riassunte nel Box 10.

Box 10

Intervalli di confidenza per µ e β con 2σ ignoto

1) Si sceglie il livello di significatività 1 pα = − desiderato.

2) Si traggono dalle tavole della t di Student centrale con 2n − g.d.l. i valori critici 2nt −′

e 2nt −′ .

3) Si stima la varianza con la ( )2 2

1

ˆ 2n

tt

u nσ=

= −∑

4) Si calcolano gli errori standard aµσ ⋅ e aβσ ⋅ dove aµ e aβ sono definiti nelle

(A.3.1.3) e (A.3.1.4).

5) Si trasformano le variabili aleatorie µ e β nella t di Student

ˆaµ

µ µσ

−⋅

, ˆ

β βσ

−⋅

6) Si costituiscono gli intervalli di confidenza

2 2ˆ ˆn na t a t− −′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅µ µµ σ µ µ σ

2 2ˆ ˆ

n na t a t− −′′ ′− ⋅ ⋅ ≤ < − ⋅ ⋅β ββ σ β β σ

20 In inglese Standard Error, da cui l’acronimo SE.

Page 82: Lezioni di analisi econometrica

82

Verifica di ipotesi

Per verificare l’ipotesi nulla 0 :H m=µ , oppure l’altra 0 :H b=β , basta inserire

queste ipotesi nelle (3.7.3) e controllare che ( )ˆ m aµµ σ− ⋅ oppure che ( )ˆ m aββ σ− ⋅

siano compresi nell’intervallo [ )2 2,n nt t− −′ ′′ , dove 2nt −′ e 2nt −′ sono dati dalle tavole dei

quantili della distribuzione della t% di Student con 2n − g.d.l.; generalmente tali tavole

sono costruite per i livelli di significatività α pari al 10%, 5% e 1%. Se sono compresi si è

spinti ad accettare le ipotesi nulle; altrimenti si è indotti a rifiutarle e ad accettare le alternative

1 :H mµ ≠ e 1 :H bβ ≠

La distribuzione della t di Student è più schiacciata della normale, alla quale si

avvicina progressivamente all’aumentare dei gradi di libertà.

Dato allora che le “code” della distribuzione della t% sono più alte, i quantili, a parità

di area, sono tanto più esterni rispetto a quelli della normale quanto minore è il numero

di gradi di libertà. Ad esempio, per α = 0.05 i due quantili 2nt −′ e 2nt −′′ valgono ±2.571,

±2.086 e ±1.980 per i tre numeri dei gradi di libertà n−2 = 5, 20, 120, rispettivamente,

mentre i relativi quantili di una normale standardizzata valgono ±1.960 (quindi ai fini

pratici una t120 è praticamente equivalente a una normale standardizzata). Questo

significa che gli intervalli di confidenza e le regioni di accettazione definiti usando la

distribuzione della t sono maggiori di quelli costruiti usando la normale. Questo risultato

ha un fondamento intuitivo, dato che quando il parametro σ2 è ignoto l’incertezza

relativa al modello è maggiore, e quindi i margini di incertezza nelle stime (gli intervalli di confidenza) sono più ampi.

Per ovvi motivi questa verifica di ipotesi è anche detta test della t di Student. Le operazioni che conducono alle verifiche di ipotesi appena esposte sono riassunte nel Box

11.

Page 83: Lezioni di analisi econometrica

83

Box 11

Test di ipotesi con 2σ ignoto

1) Si debba verificare l’ipotesi nulla 0 :H rϑ = supponendo che ϑ sia uno

stimatore non distorto (di ϑ ) con distribuzione normale di valore medio ϑ e di

varianza (non nota) 2ϑσ .

2) Si calcola la varianza campionaria dei residui e l’errore standard SE della stima

ϑ .

3) Si trasforma lo stimatore ϑ con la trasformazione

( )ˆt SEϑ ϑ= −% (3.7.4)

4) Si pone r=ϑ e si sostituisce la stima ϑ al posto del suo stimatore nella (3.7.4)

ottenendosi la realizzazione

( )ˆt r SE= −ϑ

5) Si sceglie il livello di significatività α (che ora è del test!)

6) Si traggono dalle tavole della variabile aleatoria t di Student con 2n − g.d.l. gli

estremi 2nt −′ e 2nt −′′ e si costituisce la regione di accettazione del test [ )2 2,n nt t− −′ ′′ .

7) Se [ )2 2,n nt t t− −′ ′′∈ si è spinti ad accettare 0H , altrimenti si è indotti a rifiutarla.

Page 84: Lezioni di analisi econometrica

84

3.8 Tre esempi

Ogni volta che si stima un’equazione è praticamente obbligatorio verificare l’ipotesi nulla che ciascun parametro sia uguale a zero, in quanto estremamente significativa nell’analisi economica: se si è spinti ad accettare l’ipotesi nulla si è indotti ad eliminare (l’effetto di) una variabile esplicativa! Nel caso del modello lineare semplice che

0 0: 0 , : 0H Hµ β= = (3.8.1)

Inserendo queste ipotesi nelle (3.7.3) si ottengono, supponendo che i dati siano n ,

2 ˆnt SE µµ− = e 2ˆ

nt SEββ− = , dove SEµ e SEβ sono gli errori standard delle due stime.

Se 2nt − è compreso nell’intervallo [ )2 2,n nt t t− −′ ′′∈ si è spinti ad accettare l’ipotesi nulla (il

parametro vale zero e quindi l’intercetta oppure la variabile esplicativa x viene

eliminata), altrimenti a rifiutarla.

Tutti i programmi di calcolo econometrico forniscono il valore 2nt − oltre alla stima del

parametro, oppure il relativo SE; in questo secondo caso il valore 2nt − è immediatamente

determinato dividendo la stima per il suo SE. Naturalmente è lasciato al ricercatore il

compito di effettuare il test di nullità dei parametri, sulla base del valore 2nt − oppure

dell’errore standard.

Di seguito vengono esposti tre esempi illustrativi del modo di presentare i risultati

delle stime di equazioni già esposte in precedenza, comprensivi dei valori 2nt − e degli SE.

Retta interpolante il logaritmo dei consumi

Il modello è il (2.3.5), che ora estendiamo con i risultati inferenziali esposti sinora

ˆln 13.248 0.129tc t= +

SE: ( )0.066 ( )0.052

t: ( )201.610 ( )24.741

(3.8.2)

campione 1960–1980 ; 2 0.970R =

SE dei residui = 0.145 ; RSS = 0.401 ; TSS = 13.310

Tra parentesi tonde, nella prima riga sono riportati gli errori standard delle stime e

nella seconda i valori 2nt − in modo da rendere fattibile l’inferenza sui parametri del

Page 85: Lezioni di analisi econometrica

85

modello. In generale sono riportati soltanto i primi o i secondi, con l’avviso di cosa contengono le parentesi tonde. Dall’ampiezza del campione si trae poi il valore di n .

Per la (3.8.2) 2 19n − = e le tavole statistiche danno le seguenti regioni di

accettazione

[ )2.861, 2.861− se 0.01α =

[ )2.093, 2.093− se 0.05α =

[ )1.729,1.729− se 0.10α =

per la t. Così, sia quella relativa all’intercetta (t = 201.610 ) sia quella relativa a β (t =

24.741 ) cadono fuori da tutte e tre regioni e quindi si è indotti a ritenere che i due parametri siano ambedue nonnulli a tutti e tre i livelli di significatività.

Funzione del consumo

Per il modello (2.9.1) la stima OLS fornisce i risultati seguenti

ˆ 53684 0.657t tz y= − +

SE : (10366) (0.012) t : (-5.179) (55.009)

(3.8.3)

campione 1980–2002, 2R =0.993

SE dei residui =6294 ; RSS =831954500 ; TSS =120710590000

Si lascia al lettore il compito di effettuare il test della t di Student sui parametri.

Relazione tra tasso di cambio nominale e prezzi relativi

Per il modello (2.10.6) la stima OLS fornisce i risultati

ˆ 1.156 0.325t txω = −

SE : (0.056) (0.034) t : (20.543) (-9.444)

(3.8.4)

campione 1970–2002; 2R = 0.742

SE dei residui =0.128 ; RSS =0.511 ; TSS =1.982

Anche in questo caso l’inferenza statistica è lasciata al lettore.

Page 86: Lezioni di analisi econometrica

86

Appendice 3.1 Complementi analitici

La varianza di una somma di variabili aleatorie

Dimostriamo la (3.1.3)

( ) ( ) ( )

( ) ( ){ }( ) ( ) ( ) ( ){ }

( ) ( ) ( )

2

2

2 22

2 ,

Var x y E x y E x E y

E x E x y E y

E x E x E y E y E x E x y E y

Var x Var y Cov x y

+ = + − − =

= − + − =

= − + − + − − = = + + ⋅

% % % % % %

% % % %

% % % % % % % %

% % % %

Analogamente si dimostra che

( ) ( ) ( ) ( )2 ,Var x y Var x Var y Cov x y− = + − ⋅% % % % % %

La struttura di varianza – covarianza invariante rispetto ad una costante additiva

Sia t ty a x= +% % , cioè ty% e tx% differiscano per una costante additiva a . Allora

( ) ( )t tE y a E x= +% %

e

( ) ( ) ( ){ }( ) ( ){ }

( ) ( ){ } ( )

,

,

t s t t s s

t t s s

t t s s t s

Cov y y E y E y y E y

E a x a E x a x a E x

E x E x x E x Cov x x

= − − =

= + − − + − − =

= − − =

% % % % % %

% % % %

% % % % % %

da cui l’invarianza per la covarianza. Se t s= si ha ( ) ( )t tVar y Var x=% % , cioè l’invarianza

per la varianza. Gli stimatori dei minimi quadrati

Dimostriamo le (3.2.6) e (3.2.7)

( ) ( )

( )( )

( )( ) ( )

( )

2 21

21

2 21 1

21

1 1 1ˆ

1 1

1 1 1 1

1 1

n

xy t ttxx xx

n

t t ttxxn n

t t t tt txx xx

n

t ttxx

m yx x x ym x m x n

x x x um x n

x x x x x um x n m x n

x x um x n

β

µ β

µ β

β

=

=

= =

=

= − = − =− −

= − + + =−

= − + + − =− −

= + −−

∑ ∑

%

%

%

(A.3.1.1)

Page 87: Lezioni di analisi econometrica

87

( )

( )1

1 1

1ˆ ˆˆ

1 1ˆ ˆ

n

t tt

n n

t tt t

y x x u xn

x x u x un n

=

= =

= − = + + − =

= + − + = + − +

∑ ∑

%

% %

µ β µ β β

µ β β µ β β

(A.3.1.2)

Le varianze degli stimatori dei minimi quadrati

Calcoliamo la varianza di β partendo dalla (3.2.6)

22

21

2 22

2 212 2 2 2

1 1ˆ ˆ( ) [( ) ] ( )

( )1

( )

n

t ttxx

n

tt

xx xx

Var E E x x um x n

x xa

n m x n m x β

β β β

σσ

σ

=

=

= − = − = −

−= = = ⋅

− −

%

(A.3.1.3)

avendo utilizzato la relazione

)()( 2

1

2 xmnxx xx

n

tt −=−∑

=

e la varianza di µ partendo dalla (3.2.7)

2

2

1

2 2 22

1 1

2 2 22

1 1

1ˆˆ ˆ( ) [( ) ] ( )

1 2ˆ ˆ ( ) ( ) ( )

1 2ˆ ˆ [( ) ] [( ) ] ( ) ( )

n

tt

n n

t tt t

n n

t tt t

Var E E x un

E x u x un n

xx E E u E un n

µ µ µ β β

β β β β

β β β β

=

= =

= =

= − = − + =

= − + + − =

= − + + − ⋅ =

∑ ∑

∑ ∑

%

% %

% %

2 2 2 2 22

2 2 1xx xx

x x an m x n n m x µ

σ σ σσ

= + = + = ⋅ − −

(A.3.1.4)

dove nell’ultimo passaggio si è utilizzato il fatto che

21 1 1

1 1ˆ[( ) ] ( )n n n

t t t tt t txx

E u E x x u um x n

β β= = =

− ⋅ = − − ∑ ∑ ∑% % % =

=

− ∑∑∑

===

n

tt

n

tt

n

ttt

xx

uExuuxEnxm 111

2~~~11 =

σ−σ− ∑

=

n

tt

xx

xnxnxm 1

222

11

dove a sua volta nell’ultimo passaggio è stata impiegata la non correlazione delle tu~ per indici diversi. La covarianza tra gli stimatori dei minimi quadrati

Calcoliamo la covarianza tra µ e β

Page 88: Lezioni di analisi econometrica

88

( ) ( )( ) ( ) ( )

( ) ( ) ( )

1

22

21

1ˆ ˆ ˆ ˆˆ ˆ,

1 ˆ ˆ

n

tt

n

tt xx

Cov E E u xn

E u x E xn n m x

µ β µ µ β β β β β β

σβ β β β

=

=

= − − = − − − =

= − − − = − −

%

%

(A.3.1.5)

dove nel secondo passaggio è stata utilizzata la (A.3.1.2) e nel quarto la (A.3.1.3) nonché il fatto che è

( )1

1 ˆ 0n

tt

E un

β β=

− =

∑ %

Campo di variazione del coefficiente di correlazione

Dimostriamo la doppia disuguaglianza nella (3.3.2). Siano

( )y E yµ = % , ( )t E xµ = % , ( )2y Var yσ = % , ( )2

x Var xσ = % , ( )2 ,yx Cov y xσ = % %

Consideriamo poi la variabile aleatoria

2

y x

y x

y xtµ µ

σ σ

− −+

% %

con t costante reale, e prendiamone il valor medio

( ) ( )( ) ( )

( )( ) ( )

22 22

2 2

2 2

2

,2 1 2 1

y y xy xx

y x y y x x

y y xy xxE t E t t

Cov y xt t t t

Var y Var x

− − − − −− + = + + =

= + + = + +⋅

% % %% %%

% %

% %

µ µ µµ µµσ σ σ σ σ σ

ρ

che è sempre nonnegativa in virtù del quadrato. Allora deve essere sempre 2 1 0ρ − ≤ , da

cui la (3.3.2). Indipendenza stocastica del numeratore e del denominatore nella t di Student

Utilizzando le (2.6.10) ottenute dalle equazioni normali si ha che

( )1 1 1 1

ˆ ˆˆ ˆ ˆ ˆ ˆ ˆ ˆ 0n n n n

t t t t t t tt t t t

y u x u u x uµ β µ β= = = =

= + = + =∑ ∑ ∑ ∑

per cui le stime dei residui sono incorrelate con quelle della parte sistematica e, in particolare, con quelle di µ e di β . Dato poi che gli stimatori sia dei residui che dei

coefficienti sono distribuiti normalmente, la loro non correlazione implica la loro indipendenza stocastica.

Page 89: Lezioni di analisi econometrica

89

Appendice 3.2 Distribuzioni di probabilità rilevanti Distribuzione normale

La distribuzione di probabilità (di una variabile aleatoria x% ) più importante è quella

detta normale (o di Gauss o gaussiana) che ha la forma della sezione di una campana con

i lembi infiniti come nella figura 3.2. Essa dipende da due parametri µ e 2σ che sono

rispettivamente il suo valor medio ( )E xµ = % e la sua varianza ( )22 E x = − %σ µ ; è

simmetrica e quindi il suo punto più alto (la sua moda) si ha in corrispondenza di µ . La

distribuzione di probabilità normale è immediatamente definita dalla sua funzione di densità di probabilità, che matematicamente è

( ) ( ) ( )21 22

22 exp2

xf x

µπσ

σ− − = ⋅ −

(A.3.2.1)

ed è indicata con il simbolo ( )2,N µ σ .

La forma campanulare della distribuzione normale è data dall’esponenziale;

( ) 1 222πσ−

è un fattore di normalizzazione che serve semplicemente a fare in modo che

sia ( ) 1f x dx+∞

−∞⋅ =∫ , convenzione che si segue in tutte le distribuzioni di probabilità.

Di seguito sono esposte alcune proprietà di questa distribuzione, che non dimostriamo:

a) Man mano che ci si allontana dal valor medio µ la probabilità che x% assuma i

valori contenuti in un intervallo infinitesimale a destra o a sinistra di µ

diminuisce. b) Approssimativamente, la superficie che giace sotto la curva normale definita

dalla (A.3.2.1) vale 68 100 nell’intervallo [ ),µ σ µ σ− + ; vale 95 100 in

[ )2 , 2µ σ µ σ− + e 99.7 100 in [ )3 , 3µ σ µ σ− + , come indicato nella figura 3.5.

c) La combinazione lineare di due o più variabili aleatorie normali è normale; in particolare, nel caso di due si ha che se

( )2,x xx N µ σ% : ( )2,y yy N µ σ% :

allora w a x b y= ⋅ + ⋅% % % è una variabile aleatoria normale con valor medio

( ) ( )w x yE a x E b y a bµ µ µ= ⋅ = ⋅ = ⋅ + ⋅% %

e con varianza

Page 90: Lezioni di analisi econometrica

90

( ) ( ) ( ){ }( ) ( ){ } ( ) ( ) ( )

( )

222

2 2 2

2 2 2 2

2 ,

2 ,

w w x y

x y

x y

E w E a x b y a b

a x b y a Var x b Var y ab Cov x y

a b ab Cov x y

= − = ⋅ + ⋅ − ⋅ + ⋅ =

= − + − = ⋅ + ⋅ + ⋅ =

= ⋅ + ⋅ + ⋅

% % %

% % % % % %

% %

σ µ µ µ

µ µ

σ σ

(A.3.2.2)

Da questa relazione si nota che se x% e y% sono incorrelate allora

2 2 2 2 2w x ya bσ σ σ= ⋅ + ⋅

3µ σ− 2µ σ− µ σ− µ µ σ+ 2µ σ+ 3µ σ+

Figura 3.5 – Funzione di densità della distribuzione normale 2( , )N µ σ con l’indicazione del valore approssimato di tre superfici sotto di essa.

d) Minore è la varianza 2σ e più concentrata è la distribuzione normale intorno

al valor medio µ .

e) Se due o più variabili aleatorie normali 1 2, , , kx x x% % %K sono incorrelate tra di

loro, allora sono indipendenti, cioè la loro funzione di densità multivariata è uguale al prodotto delle funzioni di densità singole

( ) ( ) ( ) ( )1 2 1 2, , , k kf x x x f x f x f x= ⋅ ⋅ ⋅K K

≈68/100

≈95/100

≈99.7/100

Page 91: Lezioni di analisi econometrica

91

f) Se 0µ = e 2 1σ = , la variabile aleatoria normale è detta standardizzata e,

ovviamente, è denotata con ( )0,1N .

Distribuzione del chi quadrato

Consideriamo k variabili aleatorie normali standardizzate indipendenti 1 2, , , kz z z% % %K ,

eleviamole al quadrato e sommiamole 2 2 21 2 kz z z w+ + + = %% % %K (A.3.2.3)

Otteniamo una variabile aleatoria che ha una particolare distribuzione, detta del chi

quadrato, che dipende da k , il suo numero dei gradi di libertà (g.d.l.) 2kw χ% : (A.3.2.4)

I grafici delle funzioni di densità di probabilità del 2χ per tre numeri di g.d.l. sono

riportati nella figura 3.4. Alcune proprietà di questa distribuzione, che non dimostriamo, sono:

a) Il valor medio della distribuzione del 2χ con k g.d.l. è k e la sua varianza è

2 k .

b) Se 1w% e 2w% sono due variabili aleatorie indipendenti con distribuzione del 2χ

di 1k e 2k g.d.l. rispettivamente, la loro somma è una variabile aleatoria con

distribuzione del 2χ con g.d.l. pari alla somma 1 2k k+ .

c) Come si vede dalla figura 3.4 la distribuzione del 2χ è asimmetrica, con il

grado di asimmetria che dipende dal numero di g.d.l. Più grande è questo e meno asimmetrica è la distribuzione; al tendere di questo all’ ∞ , la

distribuzione del 2χ tende alla distribuzione normale.

Distribuzione della t di Student

Il rapporto di una variabile aleatoria standardizzata e la radice quadrata di una

variabile aleatoria distribuita come un 2%χ diviso per il suo numero k di g.d.l. possiede

una distribuzione detta t di Student, se le due variabili aleatorie sono indipendenti (in probabilità). Nella figura 3.6 sono disegnate tre funzioni di densità di questo tipo per

10, 30, 120k = g.d.l.

Di seguito sono esposte alcune proprietà di questa distribuzione che non dimostriamo:

a) La distribuzione della t di Student è simmetrica intorno allo zero, che è anche il suo valor medio.

Page 92: Lezioni di analisi econometrica

92

b) La varianza della t di Student è ( )2k k − dove k è il numero dei g.d.l.

c) All’aumentare di k la distribuzione della t di Student si avvicina alla

distribuzione normale standardizzata. Dal punto di vista delle applicazioni la t di Student con 60k > è da considerarsi praticamente uguale alla normale

standardizzata. Distribuzione della F di Fisher

Il rapporto di due variabili aleatorie distribuite come un 2χ , ciascuna divisa per il

proprio numero di g.d.l., possiede una distribuzione detta F di Fisher, se le due variabili

aleatorie sono indipendenti. Questa distribuzione dipende dai due g.d.l. dei 2χ , 1k e 2k ,

ed è quindi indicata con 21,kkF . Nella figura 3.7 sono disegnate tre funzioni di densità di

questo tipo per tre coppie di g.d.l. Alcune proprietà di questa distribuzione, che non dimostriamo, sono:

a) La distribuzione della F di Fisher è asimmetrica, come quella del 2χ .

b) Il suo intervallo di variazione va da zero ad infinito. c) Al tendere ad infinito dei suoi g.d.l. la distribuzione della F di Fisher tende a

quella normale. d) La distribuzione della F di Fisher con 1 e k g.d.l. è uguale a quella del

quadrato di una t di Student con k g.d.l.

Page 93: Lezioni di analisi econometrica

93

CAPITOLO IV

LA PROIEZIONE

Page 94: Lezioni di analisi econometrica

94

4.1 Proiezione e proiettore nei modelli lineari

Riconsideriamo il modello lineare semplice (2.6.1)

t t ty x uµ β= + + (4.1.1)

e poniamoci il problema di proiettare ty fuori dal campione che percorre il tempo

1,2, ,t n= K ; in altre parole vogliamo determinare n hy + per 11, 2, ,h n= K , dove l’intervallo

temporale 11, 2, ,n n n n+ + +K è detto periodo di proiezione. Se utilizziamo il modello

(4.1.1), stimato nel periodo campionario, per proiettare ty e se supponiamo che:

- la struttura dell’economia, già ipotizzata sostanzialmente invariante nel campione, rimanga la stessa nei due periodi, rendendo così possibile l’utilizzazione delle stime anche nella proiezione;

- i valori dell’esplicativa tx per i tempi 11, 2, ,t n n n n= + + +K , siano noti;

- valgano anche per il futuro le ipotesi deboli per i residui

0)~( =+hnuE , 1

2

21 ;

0

)~~(nn...,,,shns

hnsuuE shn +=+≠

+=

σ

=⋅+ (4.1.2)

per ogni h, per cui risulta “naturale” prendere come proiezioni dei residui il loro valor medio, che è

nullo, la proiezione hny +ˆ al tempo n+h è

ˆˆ ˆn h n hy xµ β+ += + 11, 2, ,h n= K (4.1.3)

In effetti hny +ˆ non è tanto la proiezione di ty quanto quella della sua componente

sistematica, poiché la proiezione di tu è stata posta arbitrariamente uguale a zero.

Questa procedura, tuttavia, può essere giustificata in senso probabilistico se si considera, come ad esempio fatto dal de Finetti [1970] in ambito soggettivista, la proiezione di una variabile aleatoria come suo valor medio; in questo caso si ha

ˆn h n hy xµ β+ += + 11, 2, ,h n= K (4.1.4)

e i parametri µ e β , sconosciuti, devono essere sostituiti da stime.

Se nella (4.1.3) i valori µ e β vengono considerati come stimatori e non come stime,

la hny +ˆ diventa una variabile aleatoria che chiamiamo proiettore della parte sistematica

di n hy + (non di tutto n hy + poiché, ripetiamo, n hu + è stato posto arbitrariamente uguale a

zero).

Page 95: Lezioni di analisi econometrica

95

Nelle applicazioni occorre tener sempre presente quali sono le fonti di incertezza per la proiezione (4.1.3):

- i parametri µ e β sono stime e non i valori veri;

- la variabile esplicativa n hx + non è generalmente nota e va sostituita con una sua

propria proiezione;

- nella proiezione hny +ˆ si annulla arbitrariamente il residuo n hu + ma nella realtà

non è affatto detto che valga zero.

Considerando queste si valutano più correttamente le proiezioni che si ottengono.

L’errore di proiezione Rimarchiamo il fatto che, a meno di non accettare l’impostazione del de Finetti, il

proiettore (4.1.3) non è uno stimatore non distorto di n hy + definito dalla (4.1.1), mentre lo

è della sua componente sistematica. Esso, tuttavia, può essere considerato non distorto in un altro senso, che illustriamo facendo ricorso all’errore di proiezione definito nella maniera seguente

( )ˆˆ ˆn h n h n h n h n he y y x uµ µ β β+ + + + += − = − + − + (4.1.5)

Poiché il valor medio dell’errore (4.1.5) considerato come variabile aleatoria è nullo

( ) ( ) ( )ˆˆ( ) 0n h n h n hE e E E x E uµ µ β β+ + + = − + − + =

% (4.1.6)

il proiettore hny +ˆ può essere considerato come uno stimatore non distorto di n hy + nel

senso che il valor medio dell’errore di proiezione è nullo. In questo caso si dice che hny +ˆ è

un proiettore incondizionatamente non distorto ed in questo fatto consiste un’altra buona proprietà delle proiezioni ottenute con i minimi quadrati. Proiezioni ex post ed ex ante

La relazione (4.1.5) che definisce l’errore di proiezione indica anche che questo può essere considerato come una variabile aleatoria oppure come una sua realizzazione.

L’errore è aleatorio se è espresso in termini di stimatori µ e β oltreché di residuo ˆn hu + ;

è un numero se al contrario hny +ˆ è la proiezione (4.1.3) e n hx + è noto. In questo secondo

caso si proietta ty in tempi n h+ , 11, 2, ,h n= K , per i quali le realizzazioni n hy + sono

conosciute e la proiezione viene chiamata ex post ; nel caso in cui non siano note (e quindi gli errori non possono essere numericamente calcolati) la proiezione è chiamata ex ante.

Page 96: Lezioni di analisi econometrica

96

4.2 La proiezione con il criterio dei minimi quadrati Supponiamo d’ora in poi che il criterio di stima dei parametri sia quello dei minimi

quadrati. In questo caso il proiettore (4.1.3) gode della proprietà di essere BLU, in

quanto è lineare rispetto alle ty poiché lineari sono gli stimatori OLS; è non distorto

rispetto alla parte sistematica di n hy +

( ) ( ) ( ) ( )ˆ ˆˆ ˆ ˆn h n h n h n hE y E x E E x xµ β µ β µ β+ + + += + = + = + 11, 2, ,h n= K (4.2.1)

dove nel secondo passaggio si è sfruttata la linearità dell’operatore E e nel terzo il fatto

che se n hx + è una costante (nota) allora

( ) ( ) hnhn xExE ++ ⋅β=β ˆˆ

ed è ottimo in quanto

( ) ( ) ( )ˆˆ ˆn h n h n hVar y Var x Var xµ β µ β+ + += + ≤ + %% 11, 2, ,h n= K

dove µ% e β% sono stimatori qualsiasi tra i lineari e non distorti, valendo la (3.2.9) se si

prendono le costanti 1c e 2c pari a 1 e a n hx + , 11, 2, ,h n= K , rispettivamente.

L’errore quadratico medio di proiezione

La varianza dell’errore di proiezione ci permette di stabilire un teorema di fondamentale importanza per la proiezione. Essa vale

( )22

2( ) 1 n hn h

xx

x xVar e n

n m xσ +

+

−= + +

− % (4.2.2)

come dimostriamo nell’Appendice 4.1. La varianza (4.2.2) è detta errore quadratico medio di proiezione21 ed è generalmente

considerata come un indicatore della precisione della proiezione. Tanto più piccolo è questo errore e tanto più precisa è la proiezione, per cui quando il proiettore (4.1.3) viene ottenuto con il criterio dei minimi quadrati esso gode di un’ottima proprietà poiché vale il seguente

Teorema 4.1 – Tra i proiettori lineari (rispetto alle ty ) e incondizionatamente non

distorti, se µ e β sono gli stimatori dei minimi quadrati il proiettore (4.1.3) è quello che possiede errore quadratico medio minimo.

La dimostrazione sarà fatta nel caso dei modelli lineari multipli.

21 In inglese: Mean square error of prediction.

Page 97: Lezioni di analisi econometrica

97

4.3 Intervalli di confidenza per le proiezioni

Si è visto che esiste una certa simmetria tra le stime e le proiezioni: in ambito stocastico esse si trasformano in stimatori e proiettori, rispettivamente. E la simmetria continua negli intervalli di confidenza, che come sussistevano per le stime così sussistono per le proiezioni. Ma le proiezioni intervallari assumono un significato più rilevante delle stime intervallari in quanto in economia sono di utilizzazione più immediata. Si può anche asserire che se occorre effettuare una proiezione di variabili economiche è bene che sia intervallare e non puntuale.

Vediamo dunque come si costruiscono intervalli di confidenza per le hny +ˆ ,

11, 2, ,h n= K .

Innanzitutto supponiamo che valgono le ipotesi forti per i residui sia nel periodo campionario che in quello di proiezione, per cui è anche

( )20,n hu N σ+% : 11, 2, ,h n= K

In questo caso l’errore di proiezione (4.1.5) è una variabile aleatoria costituita da una

combinazione lineare degli stimatori µ e β distribuiti normalmente e di hnu +~ anch’essa

normale, per cui è

hne +~ ∼ ),0( 22

hnaN +⋅σ 11, 2, ,h n= K

se poniamo

( )22

2

1 1 n hn h

xx

x xa n

n m x+

+

−= + +

− (4.3.1)

in virtù delle (4.1.6) e (4.2.2).

Volendo trovare gli intervalli di confidenza per le n hy + , che in realtà hanno un

significato leggermente diverso dal consueto in quanto la hny +~ è una quantità aleatoria

(funzione di hnu +~ ), consideriamo che

( )ˆ0,1n h n h n h

n h n h

e y y Na aσ σ+ + +

+ +

−=

⋅ ⋅% %

: 11, 2, ,h n= K

e che

Page 98: Lezioni di analisi econometrica

98

1/ 22

1

ˆ ˆ

/( )

n h n h n h n hn hn

n hn h t

t

y y y y ta

a u n kσ

+ + + ++

++

=

− −=

% %:

%

11, 2, ,h n= K

poiché hne +~ e

1

n

tt

u=

∑ % sono variabili aleatorie stocasticamente indipendenti. Infatti per la

(4.1.5) hne +~ è formata dalle µ e β non correlate con le tu% e dalla hnu +

~ non correlata con

le tu per la (4.1.2); essendo tutte queste variabili distribuite normalmente, vale l’asserita

indipendenza stocastica.

L’intervallo di confidenza al livello α è trovato partendo dalla condizione

2 2ˆ

1n h n hn n

n h

y yP t ta

ασ

+ +− −

+

−′ ′′≤ ≤ = −

%

dove 2nt −′ e 2nt −′′ sono i quantili di probabilità 2α e 1 2α− rispettivamente, forniti dalle

tavole della t di Student con 2n − gradi di libertà. L’intervallo risulta, dunque,

2 2ˆ ˆn h n h n n h n h n h ny a t y y a tσ σ+ + − + + + −′ ′′+ ⋅ ⋅ ≤ ≤ + ⋅ ⋅%

per 11, 2, ,h n= K , e va interpretato come l’intervallo più corto che contiene il valore

aleatorio hny +~ con probabilità 1−α.

Page 99: Lezioni di analisi econometrica

99

4.4 Tre esempi

Riprendiamo le equazioni stimate nel paragrafo 3.8 ed effettuiamo la proiezione intervallare ex post per tre tempi al livello 0.05α = .

Retta interpolante il logaritmo dei consumi

Il modello stimato è il (3.8.2), 2n − = 19 per cui 2nt −′ = -2.093 e 2nt −′′ = 2.093. Si hanno

poi i risultati

h n hy + effettivo ˆn hy + previsto errore di previsione

SE di previsione

1 1.580 1.556 0.024 0.012

2 1.601 1.567 0.034 0.013

3 1.626 1.579 0.047 0.013

che graficamente sono esposti nella figura 4.1. Funzione del consumo

Il modello stimato è il (3.8.3), 2n − = 21 per cui 2nt −′ = -2.08 e 2nt −′′ = 2.08. Si hanno poi i

risultati

h n hy + effettivo ˆn hy + previsto errore di previsione

SE di previsione

1 616498 615667 832 7508

2 622931 627839 -4908 7615

3 625708 630388 -4680 7638

che graficamente sono esposti nella figura 4.2. Relazione tra tasso di cambio nominale e prezzi relativi

Il modello stimato è il (3.8.4), 2n − = 31 per cui 2nt −′ = -2.04 e 2nt −′′ = 2.04. Si hanno poi i

risultati

h n hy + effettivo ˆn hy + previsto errore di previsione

SE di previsione

1 1.085 0.796 0.289 0.106

2 1.117 0.796 0.321 0.106

3 1.061 0.798 0.263 0.106

che graficamente sono esposti nella figura 4.3.

Page 100: Lezioni di analisi econometrica

100

4.5 Indicatori dell’accuratezza delle proiezioni

Quando le proiezioni sono effettuate ex post è possibile valutare numericamente gli errori di proiezione (4.1.5) e misurare così l’accuratezza delle proiezioni stesse. A tal fine sono stati costituiti alcuni indici, dei quali i cinque più comuni sono l’errore medio

1

11

1 n

n hh

MPE en +

=

= ∑ (4.5.1)

che è nella sostanza la media aritmetica degli 1n errori di proiezione; l’errore medio

assoluto 1

11

1 n

n hh

MAE en +

=

= ∑ (4.5.2)

che è la media aritmetica degli errori presi in valore assoluto (in modo da considerarli simmetricamente, sia i positivi che i negativi, mentre nell’MPE gli uni si elidono con gli altri); l’errore quadratico medio

12

11

1 n

n hh

MSE en +

=

= ∑ (4.5.3)

che è la stima campionaria dell’errore quadratico medio di proiezione e che spesso è considerato sotto radice quadrata aritmetica dando luogo alla radice dell ’errore

quadratico medio 1 2RMSE MSE= (4.5.4)

in modo da ottenere un indice della stessa dimensione dell’errore; ed infine il coefficiente

di disuguaglianza di Theil22

1

1 1

1/ 22

11/ 2 1/ 2

2 2

1 1

ˆ

n

n hh

n n

n h n hh h

eU

y y

+=

+ += =

=

+

∑ ∑ (4.5.5)

che vale zero quando tutti gli errori di proiezione sono nulli e tende ad uno man mano che l’accuratezza delle proiezioni peggiora.

Spesso è utile valutare alcuni degli indicatori precedenti in termini percentuali

rispetto ad n hy + al fine di disporre di una misura di errore indipendentemente dalla

22 In lingua inglese gli indicatori sono: Mean prediction error (MPE), mean absolute error (MAE), mean square error (MSE), root mean square error (RMSE), Theil’s inequality coefficient (U), rispettivamente.

Page 101: Lezioni di analisi econometrica

101

dimensione della variabile che si proietta: sostituendo nelle (4.5.2) e (4.5.3) al posto degli

errori n he + i rapporti n he + / n hy + si ottengono l’errore medio assoluto percentuale (MAPE) e

l’errore quadratico medio percentuale (MSPE).

Nella tavola 4.1 sono esposti i valori di alcuni di questi indici per le proiezioni dei tre esempi mostrati nel paragrafo 4.4.

Modello MAE MSE RMSE U MAPE MSPE

Retta interpolante il log dei consumi

0.352 0.133 0.364 0.011 0.022 0.0005

Funzione del consumo

3473 15561577 3945 0.003 0.006 0.00004

Relazione tra tasso di cambio nominale e prezzi relativi

0.291 0.085 0.292 0.155 0.267 0.072

Tavola 4.1 – Errore medio assoluto, errore quadratico medio, radice quadrata dell’errore quadratico medio, coefficiente di Theil, errore medio assoluto percentuale ed errore quadratico medio percentuale per le proiezioni uno, due e tre tempi in avanti di tre modelli.

Appendice 4.1 Complementi analitici La varianza dell’errore di proiezione

Dimostriamo la (4.2.2)

( ) ( ) ( )

( ) ( ) ( )( )

( )( )

2 2

2 2 2 22 2

2 2 2

22

2

ˆ ˆˆ ˆ( )

ˆ ˆˆ ˆ2

11 2

1

n h n h n h n h n h

n h n h

n h n hxx xx xx

n h

xx

Var e Var x u Var x Var u

Var x Var Cov x

x xx xn m x n m x n m x

x xn

n m x

+ + + + +

+ +

+ +

+

= − + − + = − + − + = = − + ⋅ − + − − + =

⋅= + + − + = − − −

−= + +

% % %µ µ β β µ µ β β

µ µ β β µ µ β β σ

σ σ σσ

σ

dove nel secondo passaggio abbiamo utilizzato la non correlazione tra n hu +% e i residui del

periodo campionario e quindi µ e β , nel terzo la (3.1.3) e nel quarto le (A.3.1.3),

(A.3.1.4) e (A.3.1.5).

Page 102: Lezioni di analisi econometrica

102

CAPITOLO V

LA MALASPECIFICAZIONE

Page 103: Lezioni di analisi econometrica

103

5.1 Aspetti variegati della malaspecificazione

Riprendiamo le ipotesi stocastiche sotto le quali abbiamo effettuato le analisi precedenti. Sia dato il modello lineare semplice

t ty x uµ β= + + (5.1.1)

per il quale abbiamo supposto cha valgano le ipotesi deboli: i) il campione è omogeneo e i parametri µ e β sono invariabili nel

tempo;

ii) i valori tx sono noti t∀ ;

iii) ( ) 0tE u =% (5.1.2)

iv) ( )

2

2

2

2

0 000 0

0 0

t s

t sE u u

t s

σ

σσ

σ

≠ ⋅ = = =

K

K% %

M O

K

(5.1.3)

nonché quelle forti:

v) ( )20,tu N tσ ∀% : (5.1.4)

In questo capitolo verifichiamo, tramite test, se queste ipotesi, dato un campione, possono essere considerate valide. Questi test sono chiamati di malaspecificazione, in quanto verificano che i dati campionari con cui si stimano i parametri della (5.1.1) soddisfano alle ipotesi i) … v).

La prima ipotesi che sottoponiamo a verifica è quella dell’omoschedasticità dei residui, cioè del fatto che tutte le loro varianze siano uguali.

La seconda ipotesi che sottoponiamo a verifica è quella della nullità della covarianza tra un qualsiasi residuo e quello seguente (o il precendente), cioè dell’autocorrelazione di ordine uno.

La terza ipotesi è quella della normalità dei residui (la v) e la quarta è relativa alla omogeneità del campione: se questo è omogeneo per tutti i tempi precedenti un certo istante ed è anche omogeneo, ma diverso dal precedente, per tutti i tempi successivi, si dice che in quell’istante si è avuto un cambiamento della struttura economica, e mostreremo alcuni test che permettono di verificare l’esistenza di questo cambiamento strutturale.

Page 104: Lezioni di analisi econometrica

104

5.2 Eteroschedasticità dei residui

Nelle variabili economiche accade spesso che la variabilità non sia costante nel tempo, ma crescente o più raramente decrescente, oppure ancora crescente e poi

decrescente a tratti. Se una tale situazione vale per la (5.1.1) e se il termine txβ non

rappresenta sufficientemente tale variabilità non costante, questa si trasferisce sui

residui tu per cui l’ipotesi iv) si trasforma nella

=σ≠

=⋅stst

uuEt

st 2

0)~~( (5.2.1)

caratterizzandone la eteroschedasticità. In tale caso l’analisi svolta in precedenza mostra come non possano essere più

utilizzati gli stimatori dei minimi quadrati ordinari, per i quali è necessario che valgano le (5.1.2).

La stima dei minimi quadrati ponderati (WLS 23)

Viene naturale ipotizzare che l’eteroschedasticità dei residui sia causata da alcune

variabili note che indichiamo con z1t, z2t, …, zst. Sotto l’ulteriore ipotesi che 2tσ sia

funzione crescente (l’adattamento al caso decrescente è banale) di queste variabili,

possiamo porre

)exp(...)exp()exp( 22112

ststtt zzz α⋅⋅α⋅α=σ (5.2.2)

dove la crescenza è rappresentata mediante l’esponenziale per comodità di sviluppo analitico. Sempre per comodità è conveniente specializzare ulteriormente la (5.2.2) senza che le ipotesi addizionali condizionino troppo le situazioni reali.

Supponiamo, dunque, in primo luogo che siano 2s = e 1 1tz = ∀t, per cui la (5.2.1)

diventa

22221

2 )exp()exp( α⋅σ=α⋅α=σ ttt wz (5.2.3)

avendo posto

( )21expσ α=

2 lnt tz w=

In secondo luogo supponiamo che 2 2α = , per cui in conclusione si ha 23 Weighted Least Squares, in inglese.

Page 105: Lezioni di analisi econometrica

105

222tt w⋅σ=σ (5.2.4)

Se 1=tw , ∀t, si ritorna all’ipotesi standard di omoschedasticità.

Sotto l’ipotesi (5.2.1), per eliminare l’eteroschedasticità basta dividere il modello

(5.1.1) per tw

1t t t

t t t t

y x uw w w w

µ β= + + (5.2.5)

che si può stimare con gli OLS; infatti

tuEww

uE ttt

t ∀==

0 )~(1~

10

)~~(1~~22

2

=σ=σ

≠=⋅

⋅=

⋅ st

w

stuuE

wwwu

wuE

tt

ststs

s

t

t

avendo fatto uso della (5.2.1). Valgono dunque le ipotesi deboli (3.1.5). La stima effettuata in questo modo è detta dei minimi quadrati ponderati o WLS,

poiché ogni elemento t-esimo del campione viene pesato con un fattore; in questo

specifico caso 1 tw .

Esempio 5.1 – Possiamo considerare nuovamente la (2.9.1) ma supponendo che sia il consumo che il reddito siano nominali. La figura 5.1 mostra l’andamento del consumo nominale in Italia, con una eteroschedasticità che supponiamo soltanto parzialmente spiegata dal reddito nominale. Se ipotizziamo che essa sia sostanzialmente dovuta

dall’inflazione, possiamo prendere come tw la serie OCSE del deflatore dei consumi

privati ITAPCP e stimare l’equazione (5.2.5), dove ty è il consumo nominale e tx è il

reddito nominale (ITAGDP, prodotto interno lordo ai prezzi di mercato). La stima dei minimi quadrati fornisce i risultati

ˆ 1772503 0.608t t

t t t

y xw w w

= − +

t : (-4.863) (203.284)

campione 1980-2002, 2R = 0.993 SE dei residui=6514 ; RSS=891158910 ; TSS=120710590000

abbastanza differenti da quelli nella (3.8.3).

Page 106: Lezioni di analisi econometrica

106

0

10

20

30

40

50

60

70

80

1980 1985 1990 1995 2000 t

c t

Figura 5.1 – Serie storica annuale del consumo nominale in Italia espressa in migliaia di miliardi; anni 1980-2002.

Page 107: Lezioni di analisi econometrica

107

5.3 Test di omoschedasticità Il test di Breusch e Pagan

Prima di effettuare operazioni volte a stimare la (5.1.1) in presenza di eteroschedasticità è necessario ovviamente verificare che questa sussista. Illustriamo allora, senza le dimostrazioni che possono essere trovate negli articoli originali, alcuni test comunemente usati per verificare l’eteroschedasticità dei residui.

Il primo test è dovuto a Breusch e Pagan [1979] e presuppone che sotto l’alternativa 22

1 : σ≠σ tH valga una relazione del tipo di (5.2.1)

( )2t 1 1 2 2 t t s sth z z zσ α α α= + + +K

dove h è una funzione indeterminata poiché il test ne è indipendente. Se supponiamo che

1 1tz = ed 2s = , l’ipotesi nulla

0 2: 0H α = (5.3.1)

suggerisce omoschedasticità poiché in questo caso è

( )2 21t hσ α σ= = = costante

I passi da percorrere in questo test sono i seguenti:

1) si stima il modello (5.1.1) con gli OLS e si calcolano i residui stimati tu ;

2) si calcolano le quantità

∑=

=σn

ttu

n 1

22 ˆ1ˆ 2

2

ˆˆσ

tu ∀t

3) si utilizza la 22 ˆ/ˆ σtu come variabile proxy di 2tσ e quindi si stimano i parametri

della regressione24 ausiliaria

2

1 2 22

ˆˆ

tt t

u z vα ασ

= + + (5.3.2)

4) si calcola la devianza residua ∑=

n

ttv

1

5) sotto 0H la ESS, differenza tra devianza totale e devianza residua della (5.3.2), è

tale che, approssimativamente e per un campione grande, 24 La divisione per la costante 2σ serve unicamente a semplificare le elaborazioni metodologiche contenute nel lavoro originale di Breusch e Pagan.

Page 108: Lezioni di analisi econometrica

108

212

ESSχ

%: (5.3.3)

per cui si può effettuare un test del chi quadrato per la verifica dell’omoschedasticità. Il test del chi quadrato

La (5.3.3) indica che sotto la 0H la variabile aleatoria 2ESS% ha distribuzione 21χ e

quindi nel 95% dei casi si collocherà nella regione di accettazione del test, che

consideriamo monolaterale, )210, χ dove 2

1χ è il quantile di probabilità 95%, mentre nel

5% dei casi si collocherà nella regione di rifiuto )21 ,χ +∞ . Basta allora calcolare il valore

2ESS e trovare il quantile 21χ dalle tavole del 2χ con un g.d.l.; se 2ESS cade

nell’intervallo )210, χ si è spinti ad accettare l’ipotesi nulla di omoschedasticità (5.3.1),

altrimenti a rifiutarla (ed accettare quindi l’ipotesi di eteroschedasticità). Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%, a seconda degli obiettivi che si pone il ricercatore.

Esempio 5.2 – Consideriamo l’equazione che lega i consumi privati nominali tc in Italia

con il tempo, come effettuato nell’esempio 2.2 e verifichiamo che i residui siano omoschedastici, supponendo che responsabile di una eventuale eteroschedasticità

potrebbe essere il deflatore dei consumi privati (ITAPCP nella base dati OCSE; 2tz nella

(5.3.2)). Stimiamo il modello

t tc t uµ β= + + (5.3.4)

con gli OLS e calcoliamo 2σ nonché la serie { }2 2ˆ ˆtu σ . Stimiamo quindi la regressione

ausiliaria

2

1 2 22

ˆˆ

tt t

u zα α νσ

= + +

e calcoliamo 2ESS = 4.960 che è maggiore di 3.84 , quantile al 95% della distribuzione

del 2χ con 1 g.d.l. Siamo quindi spinti a rifiutare l’ipotesi nulla di omoschedasticità.

La formulazione di Koenker

Il significato intuitivo del test è questo: se sussiste l’eteroschedasticità, e se questa è

effettivamente spiegata dalla variabile 2tz prescelta, allora questa stessa variabile

fornirà una buona spiegazione dell’andamento della 22 ˆ/ˆ σtu nella (5.3.2), per cui la

Page 109: Lezioni di analisi econometrica

109

devianza spiegata è abbastanza elevata e la statistica 2ESS è maggiore del valore

soglia, cadendo quindi nella regione di rifiuto del test del 2χ .

Questo fondamento intuitivo è alla base di una formulazione alternativa del test, proposta da Koenker [1981], che risulta di più rapida implementazione del precedente in

quanto prescinde dal calcolo di 2σ . Per effettuare il test basta infatti stimare con i

minimi quadrati il modello

21 2 2ˆt t tu zα α ν= + + (5.3.5)

e in tal caso si dimostra che asintoticamente e per un campione grande:

2 21unR χ: (5.3.6)

dove 2uR è il coefficiente di determinazione non centrato (2.8.6) della (5.3.5). Si è quindi

spinti a rifiutare l’ipotesi di omoschedasticità se la variabile 2tz prescelta spiega bene

l’andamento del quadrato dei residui. Osservazione 5.1 – La (5.3.2) e (5.3.5) sono esempi di regressione ausiliaria, intendendosi con questo termine una regressione priva di diretto significato economico, che viene stimata generalmente usando grandezze derivate dalla stima di un modello econometrico (ad esempio, i residui derivati da una stima OLS) per permettere o semplicemente per facilitare il calcolo delle statistiche di determinati test. La teoria moderna della verifica delle ipotesi utilizza largamente le regressioni ausiliarie.

Esempio 5.3 – In mancanza di ipotesi a priori specifiche sulla natura dell’eventuale

eteroschedasticità, come effettuato nell’esempio 5.2, è possibile prendere come 2tz il

quadrato dei valori dell’endogena stimata 2ˆty . Nel caso del modello (5.3.4) l’equazione

ausiliaria (5.3.5) stimata è

2ˆ 200000000000 0.102t tu c= +

n = 21 2uR = 0.279

per cui 2unR = 5.838. Il valore soglia della distribuzione del 2

1χ è lo stesso dell’esercizio

precedente, 3.84, per cui la statistica 2unR cade nella regione di rifiuto del test e si è così

spinti a rifiutare l’ipotesi nulla di omoschedasticià.

Page 110: Lezioni di analisi econometrica

110

5.4 La correzione per l’eteroschedasticità di White Si è detto che la presenza di eteroschedasticità comporta che le stime ottenute con i

minimi quadrati ordinari non siano buone e da questo si trae che i loro errori standard, così come le t di Student, non siano affidabili. H. White (1980) ha tuttavia sviluppato un metodo che permette di ottenere gli errori standard delle stime tenendo conto dell’eteroschedasticità: il vantaggio è quindi notevole, sebbene la procedura valga soltanto approssimativamente e per un campione numeroso. Il metodo sarà esposto più in avanti, nella trattazione del modello di regressione multipla, e per il momento ci fermiamo soltanto ad evidenziare le differenze nei valori ottenuti per gli errori standard e per le t di Student considerando e non considerando la correzione di White.

La semplice stima dei minimi quadrati della (5.3.4), che abbiamo verificato contenente eteroschedasticità fornisce i risultati

ˆ 1333928 420437tc t= − +

SE: (673610) (53646) t: (-1.98) (7.837)

campione 1960–1980; 2R =0.764

SE dei residui =1488618; RSS = 42103686000000;

TSS = 178214800000000

(5.4.1)

mentre quelli corretti per l’eteroschedasticità con il procedimento di White sono

ˆ 1333928 420437tc t= − +

SE: (624420) (66359) t: (-2.136) (6.336)

campione 1960–1980; 2R = 0.764

SE dei residui =1488618; RSS = 42103686000000;

TSS = 178214800000000

(5.4.2)

Ovviamente le stime (5.4.1) e (5.4.2) sono differenti soltanto negli errori standard e nelle t di Student ma l’affidabilità dell’inferenza statistica effettuata con i risultati (5.4.2) è maggiore, sebbene la numerosità campionaria, n=21, non sia alta come dovrebbe.

Page 111: Lezioni di analisi econometrica

111

5.5 Fonti e conseguenze dell’autocorrelazione

Anche l’ipotesi di covarianze tra i residui nulle è molto restrittiva e cercheremo di rilassarla. Vedremo come le procedure di trattamento della covarianza dei residui, cioè della loro autocorrelazione (correlazione di un residuo con se stesso ritardato di τ unità

temporali), condurranno a modelli di carattere dinamico. In effetti l'autocorrelazione dei residui deriva dall'esistenza di relazioni dinamiche

nei valori dell'endogena ty che non vengono spiegate dalla parte sistematica

dell'equazione (5.1.1).

Queste relazioni non spiegate portano all'autocorrelazione dei residui ad esempio in seguito a:

- presenza di tendenza nella serie { }ty ,

- presenza di autocorrelazione già nella { }ty ,

- specificazione inesatta della (5.1.1), dovuta o a omissione di variabili o alla scelta di una forma funzionale errata,

- errori di misurazione nei valori della { }ty .

Le conseguenze dell'autocorrelazione dei residui sugli stimatori possono essere perniciose. In effetti, se si stima la (5.1.1) con gli OLS senza rendersi conto che i residui sono correlati tra di loro, generalmente si sottostimano le varianze degli stimatori, per cui:

- gli errori standard degli stimatori dei parametri sono sottostimati, - le t di Student sono sovrastimate,

- gli indicatori R2 sono sopravvalutati.

In conclusione sono considerati significativamente diversi da zero anche parametri di regressione non significativi e complessivamente buone equazioni (5.1.1) che non lo sono.

In sovrappiù, le correlazioni tra gli stimatori dei parametri di regressione sono stimate in modo inesatto.

Page 112: Lezioni di analisi econometrica

112

5.6 Test di autocorrelazione dei residui

Dovendo stimare un’equazione è allora necessario dapprima accertarsi dell'esistenza dell’autocorrelazione dei residui e poi procedere alla stima, tenendo eventualmente in considerazione tale autocorrelazione nel caso che i test di esistenza abbiano dato responso positivo. Illustriamo in questo paragrafo il test di autocorrelazione più comunemente utilizzato.

Negli anni cinquanta e sessanta i modelli econometrici avevano una struttura dinamica semplice e l'autocorrelazione che veniva ritenuta più rilevante era quella di ritardo uno, tra un residuo ed il suo precedente oppure il suo seguente. Più tardi, con il dettagliarsi della dinamica delle equazioni, è aumentato il numero delle autocorrelazioni dei residui da considerare e da rilevare come eventualmente differenti da zero mediante test.

Illustriamo, allora, dapprima il test più usuale di verifica dell'esistenza di autocorrelazione di ritardo uno, detta anche del primo ordine, per poi passare, in altri capitoli, ai test per l'autocorrelazione di ritardi superiori.

5.5.1 Il test di Durbin e Watson

J. Durbin e G.S. Watson (1950 e 1951) costruirono un test per verificare l'ipotesi di esistenza di autocorrelazione del primo ordine

0)1()~,~( : 10 =ρ=−tt uuCorrH (5.6.1)

contro l'alternativa

0)1()~,~( : 11 ≠ρ=−tt uuCorrH

ma si accorsero subito di un problema comune a tutti test di autocorrelazione. L'ipotesi

nulla (5.6.1) riguarda il processo { tu~ } ma a disposizione dell'econometrico non c'è tale

processo bensì la serie storica { tu } dei residui stimati. La relazione tra processo e serie

storica è dunque funzione del campione { }1 2, , , nx x xK delle variabili esplicative e così

occorrerebbe costruire un test di autocorrelazione specifico per ogni campione, cosa possibile ma chiaramente inaccettabile. Vediamo come Durbin e Watson abbiano

sviluppato un test che è sì basato sulle tu ma che supera questo problema. Essi

costruiscono la statistica

Page 113: Lezioni di analisi econometrica

113

)]1(ˆ1[2ˆ

ˆˆ2ˆ2

ˆ

ˆˆ2ˆˆ

ˆ

)ˆˆ(

2

2

2 21

2

2

2

2 2 21

21

2

2

2

2

21

ρ−=−

≈−+

=−

=

∑ ∑

∑ ∑ ∑

=

= =−

=

= = =−−

=

=−

n

tt

n

t

n

tttt

n

tt

n

t

n

t

n

ttttt

n

tt

n

ttt

u

uuu

u

uuuu

u

uud (5.6.2)

dove il simbolo ≈ indica l'uguaglianza approssimata e

1 1

2 2

2 2

2 2

1 ˆ ˆ ˆ ˆ1ˆ1 ˆ ˆ

1

n n

t t t tt t

n n

t tt t

u u u un

u un

ρ− −

= =

= =

−= =

∑ ∑

∑ ∑

(5.6.3)

è la stima campionaria del coefficiente di autocorrelazione del primo ordine.

L'approssimazione nella (5.6.2) deriva dal fatto che le due sommatorie ∑=

n

ttu

2

2ˆ e

∑=

n

ttu

2

21ˆ non sono perfettamente uguali ma differiscono per il primo e l'ultimo termine. Se

però n è sufficientemente grande e poiché 0)ˆ( =tuE ,∀t, l'approssimazione è

generalmente buona. Si ha allora che

se ( )ˆ 1 0ρ = 2d =

se ( )ˆ 1 0ρ < 2 4d+ < ≤ +

se ( )ˆ 1 0ρ > 0 2d≤ < +

e l'ipotesi nulla (5.6.1) è accettata se la statistica25 d è vicina a 2. Per sviluppare il test,

Durbin e Watson determinarono numericamente la distribuzione di d~ , che non è

standard, e ne tabularono i valori al variare di n e del numero delle variabili esplicative che però per ora sono soltanto una. Se non esistesse il problema della dipendenza di d dalla variabile esplicativa, esposto sopra, dalle tavole di Durbin e Watson sarebbe possibile trarre con precisione gli estremi d1 e d2 dell'intervallo che conterrebbe il valore 2 con una data probabilità. Così si accetterebbe l'ipotesi (5.6.1) se la statistica d fosse compresa tra d1 e d2; la si rifiuterebbe nel caso contrario.

Malauguratamente, però, la distribuzione di d~ dipende dal campione { }1 2, , , nx x xK e

quindi d1 e d2 sono funzioni di esso; ma Durbin e Watson si accorsero che, al variare del campione, d1 si muoveva in un intervallo abbastanza ristretto, delimitato da due valori

25 Viene chiamato così l’elemento pivot che si costruisce nei test per la verifica delle ipotesi.

Page 114: Lezioni di analisi econometrica

114

dL e dU26, e che similmente d2, suo simmetrico rispetto al punto d=2, si muoveva

nell'intervallo delimitato da 4−dU e 4−dL. Costruirono, pertanto tavole statistiche in cui porre la coppia di valori dL e dU in funzione di n, di k e del livello 1% o 5% di probabilità del test. Questa viene eseguito facilmente sulla base del grafico seguente:

Se la statistica d, indicata spesso con le iniziali DW, è compresa tra dU e 4−dU il test

suggerisce di accettare l'ipotesi nulla (5.6.1) di assenza di autocorrelazione di primo ordine.Se 0≤d<dL il test suggerisce di rifiutare tale nulla e di accettare l'alternativa di

autocorrelazione positiva. L’autocorrelazione diventa negativa se 4−dL≤d<4. Se d cade in

uno dei due intervalli [dL,dU), [4−dU,4−dL), il risultato del test è indeterminato.

Durbin e Watson determinarono la distribuzione della d~ , e quindi le tavole, sotto le

due condizioni:

i) la (5.1.1) contiene l'intercetta,

ii) la variabile esplicativa x non è stocastica.

e inoltre sotto l’ipotesi che i residui tu siano generati dallo schema

iii) 1t t tu uϕ ε−= + 1 1ϕ− ≤ ≤ + (5.6.4)

con tε tale che ( ) 0tE =%ε t∀ (5.6.5)

( ) 2

0t s

t sE

t sε

ε εσ

≠⋅ =

=% % (5.6.6)

Osservazione 5.2 – La condizione ii) implica che x non può essere l’endogena

ritardata (di un qualsiasi ritardo τ ) poiché ty τ−% è sempre stocastica (in

quanto funzione di tu τ−% ).

26 L=lower; U=upper; in inglese.

d: 0 d L d U 4- d L 4- d U 4

( )ˆ 1ρ +1 0 -1

Page 115: Lezioni di analisi econometrica

115

Osservazione 5.3 – L’ipotesi iii) è teoricamente limitativa in quanto non necessariamente l’autocorrelazione di ritardo 1 deriva dallo schema (5.6.4), che è detto autoregressivo del primo ordine (o di Markov) ed indicato con AR(1)27. Nella pratica la limitazione (5.6.4) non è presa in considerazione (nel senso che non si verifica l’esistenza dello schema (5.6.4) sui residui).

Durbin e Watson costruirono tavole per la statistica d con n compreso tra 15 e 100, e con numero di esplicative k inferiore o uguale a 5. N.E. Savin e K.J. White estesero le tavole in modo da far variare n tra 6 e 200, e k fino a 10 compreso. Le tavole che sono generalmente esposte nei testi di Econometria concernono il contributo di questi due autori, con livelli di significatività dell'1 e del 5%.

Riassumiamo i passi per l'esecuzione del test:

1) si stima l'equazione (5.1.1) e si determina la serie { tu };

2) si calcola il valore della statistica d mediante la (5.6.2);

3) in funzione di n, 1k = (non considerando quindi l’intercetta) e del livello di

significatività del test, ad esempio il 5%, si estraggono dalle tavole statistiche i due valori dL e dU;

4) se d∈[dU, 4−dU) si è indotti ad accettare l'ipotesi nulla (5.6.1),

se d∈[0, dL) si è indotti ad accettare l'alternativa con ρ(1)>0,

se d∈[4−dL, 4) si è indotti ad accettare l'alternativa con ρ(1)<0,

se d∈[dL, dU) oppure d∈[4−dU, 4−dL) il risultato del test è indeterminato. Osservazione 5.4 - R.W. Farehother (1980) ha tabulato i valori per il test di Durbin e Watson per il caso in cui l'intercetta non sia presente nella (5.1.1).

Tre esempi

Calcoliamo le statistiche d (DW) per tre i modelli stimati nel paragrafo 3.8; essa è riportata nella Tavola 5.1 insieme alla numerosità del campione. In tutti e tre i casi d∈[0, dL), per cui si è spinti a ritenere che i residui siano positivamente autocorrelati di

ordine uno.

27 Dall’inglese Auto Regressive.

Page 116: Lezioni di analisi econometrica

116

Modello Ld Ud DW n

Retta interpolante il log dei consumi 0.975 1.161 0.158 21

Funzione del consumo 1.018 1.187 0.748 23

Relazione tra tasso di cambio nominale e prezzi relativi 1.172 1.291 0.359 33

Tavola 5.1 – Statistica DW e numerosità del campione per i tre modelli stimati nel paragrafo 3.8. I valori critici Ld e Ud sono di Savin e White.

Page 117: Lezioni di analisi econometrica

117

5.7 Il trattamento dell’autocorrelazione di ordine uno

Supponiamo che si debba stimare il modello di regressione semplice (5.1.1) e che il test di Durbin e Watson abbia suggerito la presenza di autocorrelazione del primo ordine, di fatto indicando che i residui seguono uno schema AR(1) del tipo (5.6.4) e che la stima dei minimi quadrati della (5.1.1) verosimilmente è soggetta ai difetti elencati nel paragrafo 5.5. In primo luogo è possibile che il modello non sia specificato correttamente e che lo si debba completare con altre variabili esplicative; qualora non sia così oppure non si desideri aumentare il numero delle esplicative è utile trasformare la (5.1.1) in modo che la stima dell’equazione trasformata non abbia questi difetti.

Innanzitutto se 0ϕ = nella (5.6.4) si ha che t tu ε= e le ipotesi stocastiche deboli sui

residui tu% sono quelle classiche. Se 0ϕ ≠ possiamo ritardare di una unità temporale la

(5.1.1) ottenendosi

1 1 1t t ty x uµ β− − −= + +

poi la moltiplichiamo per ϕ

1 1 1t t ty x uϕ ϕ µ ϕ β ϕ− − −= + + (5.7.1)

e sottraiamo infine membro a membro la (5.7.1) alla (5.1.1)

( ) ( )1 11t t t t ty y x x− −− = − + − +ϕ µ ϕ β ϕ ε (5.7.2)

avendo fatto uso della (5.6.4). Si dice che sulla (5.1.1) si è operato con una quasi

differenza, come del resto avevamo fatto nel paragrafo 2.1 con lo schema a ritardi distribuiti (2.1.7).

Qualora si conoscesse ϕ la (5.7.2) potrebbe essere stimata con i minimi quadrati

ordinari in quanto il residuo soddisfa alle ipotesi deboli. Sorge quindi il problema di determinare ϕ .

ϕ determinato dalla statistica d di Durbin e Watson

Un metodo molto semplice ma efficace per determinare ϕ si basa sul fatto che nello

schema AR(1) il parametro ϕ è proprio uguale al coefficiente di autocorrelazione del

primo ordine ( )1ρ , come mostrato nell’Appendice 5.1. Allora dalla (5.6.2) troviamo la

sua stima

( )ˆ 1 1 2dρ = − (5.7.3)

Page 118: Lezioni di analisi econometrica

118

che non è molto precisa ma è immediatamente ottenuta dato che praticamente tutti i programmi di calcolo econometrico determinano d DW= . Da questa statistica si risale

mediante la (5.7.3) a ( )ˆ ˆ1ρ ϕ= e quindi si possono calcolare le serie di quasi differenze

{ }1ˆt ty yϕ −− ⋅ e { }1ˆt tx xϕ −− ⋅ oltreché ( )ˆ1 ϕ− , necessarie per stimare la (5.2.2).

Si noti che così facendo otteniamo stime che non soffrono dei difetti indicati nel paragrafo 5.5 ma non stimiamo più la (5.1.1) bensì la (5.7.2) che possiamo scrivere nella forma

( ) ( )1 11t t t t ty y x x− −= + − + − +ϕ µ ϕ β ϕ ε (5.7.4)

Esempio 5.4 – Consideriamo la relazione (3.8.4) tra tasso di cambio nominale e prezzi relativi per la quale è stata calcolata una statistica d pari a 0.359 (tavola 5.1). Dalla

(5.7.3) si trae che approssimativamente è ( )ˆ ˆ 1ϕ ρ= = 0.821 per cui la (5.7.4) stimata

diventa

( ) ( )1 1ˆ ˆ0.821 1.156 1 0.821 0.325 0.821t t t tx x− −= + − − −ω ω

cioè

( )1 1ˆ ˆ0.821 0.207 0.325 0.821t t t tx x− −= + − −ω ω

campione 1970–2002 ; 2R = 0.742

SE dei residui = 0.128; RSS =0.511; TSS =1.982

(5.7.5)

Il metodo di Cochrane e Orcutt

Sempre nel caso di schema autoregressivo sui residui AR(1), i due econometrici statunitensi D. Cochrane e G.H. Orcutt (1949) svilupparono, per determinare ϕ , una

procedura iterativa che utilizzava per la stima gli OLS. Tale procedura viene innescata da un valore iniziale arbitrario per ϕ , prosegue con il calcolo delle quasi differenze,

quindi con la stima OLS dell'equazione e dei residui. Tramite questi e la stima campionaria (5.6.3) si perviene ad un nuovo valore per ϕ e la procedura viene iterata in

un nuovo passo. E così via fino a che il miglioramento di ϕ è inferiore ad una soglia

prefissata (ad esempio 0.01). Il razionale di questo metodo si basa sul fatto che ad ogni iterazione il valore stimato di ϕ è sempre più vicino al valore effettivo.

Nel dettaglio, i passi della procedura sono:

Page 119: Lezioni di analisi econometrica

119

1) si prefigura un valore 1ϕ arbitrario (il numero in apice indica l’iterazione); ad

esempio 1ˆ 0ϕ = oppure il valore che deriva dalla serie { tu } determinata stimando

la prima delle (5.1.1) con gli OLS;

2) si calcolano le serie delle quasi differenze con 1ˆ ˆϕ ϕ= e si stima con gli OLS

l'equazione (5.7.2)

3) si calcola la serie { }tε e su di essa si stima 2ˆ ˆϕ ϕ= ;

4) si iterano i passi 2) e 3) finché la differenza 1ˆ ˆi iϕ ϕ −− sia minore di una soglia

prefissata. Questo metodo può avere due difetti. In primo luogo è possibile che la convergenza

non venga raggiunta, cioè che 1ˆ ˆi iϕ ϕ −− non arrivi ed essere minore della soglia. Per

ovviare a questo difetto è necessario cambiare il valore di 1ϕ di innesco. In secondo luogo

è possibile che la convergenza sia sì raggiunta, ma su di un minimo locale, e non globale,

per la devianza dei residui. In altre parole, esiste un valore per ϕ diverso da quello di

convergenza per il quale la devianza è ancora inferiore. Per ovviare a questo possibile difetto è utile ripetere la procedura più volte con valori di innesco differenti e verificare che in ciascuna la devianza finale sia sempre uguale. Se non lo è si sceglie il valore di convergenza al quale corrisponde la devianza minima.

Il metodo di Cochrane-Orcutt ha il grande vantaggio computazionale di utilizzare per la stima soltanto gli OLS. Possiede, inoltre, una grande efficacia didattica poiché contiene, in nuce, gli elementi delle procedure iterative di ottimizzazione (in particolare degli OLS non lineari), con l'identificazione dei possibili difetti. In effetti l’equazione

(5.7.4) che si vuole stimare è non lineare nei tre parametri ϕ , ( )1µ µ ϕ′ = − e β in

quanto esiste anche il prodotto β ϕ⋅ . Il metodo iterativo che hanno utilizzato Cochrane e

Orcutt, di fissare in ogni iterazione un parametro e poi stimare gli altri due in un modello lineare fino al raggiungimento di una forma di convergenza, è un modo semplice ma efficace di trattare la non linearità, valido didatticamente sempre, e operativamente soprattutto quando non c’erano le capacità di calcolo che sono oggi disponibili.

Page 120: Lezioni di analisi econometrica

120

5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow)

Affrontiamo ora il terzo tipo di malaspecificazione, quello che deriva dalla possibilità che il campione non sia tutto omogeneo ma presenti un punto in cui cambia.

Supponiamo, in altre parole, che dal tempo 1 all’ 1n − esimo, il primo sottoperiodo, valga

la struttura economica rappresentata dall’equazione

1 1 1 11, 2, ,t t ty x u t nµ β= + + = K (5.8.1)

e dal tempo ( )1 1n + -esimo fino all’ ( )1 2n n+ -esimo, il secondo sottoperiodo, valga un’altra

struttura economica, rappresentata dall’equazione

2 2 2t t ty x uµ β= + + 1 1 1 21, 2, ,t n n n n= + + +K (5.8.2)

In ciascuno dei due sottoperiodi, di lunghezza 1n ed 2n rispettivamente, supponiamo

che il campione sia omogeneo, ma vogliamo verificare che i due campioni siano anche omogenei tra di loro. In questo caso valgono le ipotesi nulle

0 1 2 1 2: ,H µ µ µ β β β= = = = (5.8.3)

che non ci sia cambiamento strutturale e le due equazioni (5.8.1) e (5.8.2) sono identiche

1 21,2, ,t t ty x u t n nµ β= + + = +K (5.8.4)

I cambiamenti strutturali sono molto comuni nei sistemi economici: un esempio classico è dato dal cambiamento del regime di cambio, da fisso a flessibile e viceversa; un altro dal cambiamento della quota di imposizione fiscale, sulle imprese o sulle persone fisiche; un altro ancora dall’improvvisa scarsità di certe risorse in caso di guerra; ecc.

Se si considera la relazione tra il tasso di cambio nominale (valuta nazionale italiana)/$USA e i prezzi relativi, stimata nella (2.11.6) e nella (3.8.4) è possibile che mostri un cambiamento di struttura nel 1979, quando l’Italia aderì ad un sistema (lo SME) di cambi fissi ma aggiustabili (in Europa). In questo caso il primo sottocampione andrebbe dal 1960 al 1979 e l’equazione stimata sarebbe

ˆ 0.610 0.100t txω = − 1960,1961, ,1979t = K

t: (17.349) (-7.647)

campione 1960–1979; 2R = 0.764

SE dei residui =0.024 ; RSS =0.011 ; TSS =0.046

(5.8.5)

Page 121: Lezioni di analisi econometrica

121

mentre il secondo sottocampione andrebbe dal 1980 al 1992 (anno in cui l’Italia uscì dallo SME) e l’equazione stimata sarebbe

ˆ 1.006 0.249t txω = − 1980,1981, ,1992t = K

t: (4.537) (-1.392)

campione 1980-1992; 2R = 0.150

SE dei residui = 0.134; RSS =0.197 ; TSS =0.232

(5.8.6)

Ci si può domandare se le due equazioni (5.8.5) e (5.8.6) sono effettivamente differenti (cioè se nel 1979 c’è un cambiamento di struttura economica) oppure no, e si può stimare un equazione sola su tutto il periodo

ˆ 0.953 0.224t txω = − 1960,1961, ,1992t = K

campione 1960-1992; 2R = 0.788

SE dei residui =0.094 ; RSS =0.272 ; TSS =1.282

(5.8.7)

Il caso 1n k> , 2n k>

Per rispondere a questa domanda è opportuno ricorrere a dei test, che nella sostanza

confrontano le variabilità della tω nei due sottocampioni: se esse sono uguali, i test ci

spingono a considerare omogeneo l’intero campione; se sono significativamente diverse, i test ci spingono ad accettare il cambiamento strutturale.

Illustriamo il primo di questi test, che si basa sulla devianza dei residui RSS ; questa

sia VRSS nel caso del modello (5.8.4), dove il pedice “v” indica il fatto che la stima è stata

effettuata sotto il “vincolo” dell’ipotesi nulla (5.8.3); il numero di g.d.l. associato a questa

devianza è evidentemente uguale alla numerosità dell’intero campione, 1 2n n+ , meno il

numero dei parametri da stimare, che nel caso del (5.8.4) è 2 ma che nel test prendiamo genericamente pari a k per poter usare questo anche in relazione ai modelli multipli.

D’altro canto la devianza NVRSS del modello in cui non vale la nulla (5.8.3), e quindi è

formato dalle due equazioni (5.8.1) e (5.8.2), è data dalla somma delle devianze dei residui delle due equazioni, e il numero di g.d.l. associato è dato dalla somma dei due

g.d.l., 1n k− e 2n k− , cioè 1 2 2n n k+ − . Facciamo la differenza di queste due devianze e

dividiamola per la differenza dei numeri di g.d.l. relativi

Page 122: Lezioni di analisi econometrica

122

( ) ( ) ( )1 2 1 2 2

V NVV NV

RSS RSS RSS RSS kn n k n n k

−= −

+ − − + − (5.8.8)

che dimostreremo nel caso dei modelli multipli possedere distribuzione del 2χ divisa per

il proprio numero di g.d.l. che è proprio k . Ancora distribuzione del 2χ divisa per il

proprio numero di g.d.l. è avuta da ( )1 2 2NVRSS n n k+ − , come ancora dimostreremo nel

caso dei modelli multipli, di modo che il rapporto

( )( )1 2 2

V NV

NV

RSS RSS kRSS n n k

−+ −

(5.8.9)

ha distribuzione della F di Fisher con k e ( )1 2 2n n k+ − g.d.l., come indicato

nell’appendice 3.2. Anche l’indipendenza del numeratore e del denominatore della (5.8.9) sarà dimostrata in seguito.

Tramite il rapporto (5.8.9) è possibile verificare l’ipotesi nulla (5.8.3) con il cosiddetto test della F di Fisher.

Il test della F di Fisher

Poiché sotto la 0H il rapporto (5.8.9) ha distribuzione 1 2, 2k n n kF + − nel 95% dei casi si

colloca nella regione di accettazione del test )0, F dove F è il quantile di probabilità

95%, mentre nel 5% dei casi si colloca nella regione di rifiuto ),F + ∞ . Basta allora

calcolare il valore (5.8.9) e trovare il quantile F dalle tavole della F di Fisher con k,

( )1 2 2n n k+ − g.d.l.; se tale valore cade nell’intervallo )0, F si è spinti ad accettare

l’ipotesi (5.8.3) di omogeneità, altrimenti a rifiutarla (ed accettare quindi l’ipotesi di cambiamento strutturale). Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%, a seconda dei desideri del ricercatore.

L’effettuazione del test procede quindi per i passi seguenti:

1) Si stima l’equazione (5.8.4) e si determina VRSS (con 1 2n n k+ − g.d.l.)

2) Si stima l’equazione (5.8.1) e si determina 1RSS (con 1n k− g.d.l.)

3) Si stima l’equazione (5.8.2) e si determina 2RSS (con 2n k− g.d.l.)

4) Si determina 1 2VRSS RSS RSS= + (con 1 2 2n n k+ − g.d.l.)

5) Nel caso del modella (5.8.4) si calcola il rapporto (5.8.9) con 2k = .

Page 123: Lezioni di analisi econometrica

123

6) Si trova il valore soglia F nelle tavole della 1 22, 4n nF + − avendo scelto il livello di

significatività al 90 o al 95 o al 99%.

7) Se il rapporto (5.8.9) cade nell’intervallo )0, F si è spinti ad accettare

l’ipotesi nulla (5.8.3) di omogeneità del campione; se cade in ),F + ∞ si è

spinti ad accettare l’ipotesi alternativa di cambiamento strutturale. Nel caso dell’esempio precedente si ottiene

VRSS = 0.272, 1 2NVRSS RSS RSS= + = 0.011+0.197 = 0.208, 1 22, 20, 13k n n= = =

per cui il rapporto (5.8.8) vale 4.462. Questo valore cade nell’intervallo ),F + ∞ , dove F

è il quantile al 95% della distribuzione della 2,29 , 3.33F , e quindi si è spinti ad accettare

l’ipotesi di cambiamento strutturale.

Il caso 1n k> , 2n k≤

Spesso accade che uno dei due sottoperiodi sia molto corto, con un numero di osservazioni inferiore o uguale a k, che nel caso dei modelli semplici vale 2. Se supponiamo, come in genere accade e senza perdere in generalità, che questo

sottoperiodo sia il secondo, si ha che la devianza residua relativa è nulla e quindi NVRSS

si riduce alla sola devianza residua 1RSS della prima equazione, con 1n k− g.d.l. La

(5.8.7) diventa allora

( ) ( ) ( )11 2

1 2 1

VV

RSS RSS RSS RSS nn n k n k

−= −

+ − − − (5.8.9)

e la (5.8.8)

( )( )

1 2

1 1

VRSS RSS nRSS n k

−−

(5.8.10)

per cui i passi del test precedente diventano ora 1) e 2) Come sopra.

3) e 4) 2 0RSS = per cui 1NVRSS RSS= .

5) Si calcola il rapporto (5.8.10) con 2k = .

6) Si trova il valore soglia F nelle tavole della 2 1, 2n nF − avendo scelto il livello di

significatività al 90 o al 95 o al 99%. 7) Come sopra, sostituendo il valore di (5.8.10) a quello di (5.8.9).

Page 124: Lezioni di analisi econometrica

124

Il fatto che il rapporto (5.8.10) abbia distribuzione della F di Fisher è stato dimostrato dal Chow (1960) ed è per questo che il test relativo è detto test del Chow. Per estensione si usa dare lo stesso nome anche al test che utilizza la statistica (5.8.8).

Page 125: Lezioni di analisi econometrica

125

5.9 Il test di normalità di Jarque – Bera Ci occupiamo ora di verificare l’ipotesi v) che impone ai residui di avere distribuzione

normale per potersi fare inferenza statistica sulle stime. Il test che utilizziamo, sviluppato da Jarque e Bera (1987), controlla due caratteristiche della normale, dette simmetria e curtosi, di definizione ovvia la prima e concernente la piattezza del picco la seconda. Misurando le due caratteristiche con due indici appositi, e conoscendo i valori di questi indici per la normale, il test di Jarque e Bera suggerisce di considerare non normale la distribuzione con valori degli indici lontani da quelli della normale.

L’indice di asimmetria28 è dato semplicemente da

( )33 3

1 E xα µσ

= ⋅ − % (5.9.1)

con ( )E xµ = % cioè dal valor medio dello scarto x µ−% al cubo, diviso per il cubo di σ . Si

noti che ( )3E x µ − % ha la stessa conformazione della varianza ( )22 E xσ µ = − % e che

31 σ serve soltanto per normalizzare 3α . Ovviamente è 3α = 0 per la normale.

L’indice di curtosi29 è definito in modo del tutto analogo

( )44 4

1 E xα µσ

= ⋅ − %

sostituendo al cubo la potenza quarta. Si può dimostrare che per la normale è 4 3α = .

Jarque e Bera hanno dimostrato che sotto l’ipotesi nulla di normalità la variabile aleatoria

( )223 4

1ˆ ˆ 36 4nJB = + −

% α α

dove 3α ed 4α sono gli stimatori campionari di 3α ed 4α , rispettivamente,

approssimativamente e per n grande ha distribuzione del 2χ con 2 g.d.l., per cui una

volta determinato il valore JB, questo viene utilizzato entro un semplice test del chi quadrato per verificare la normalità dei residui. Si noti che il valore JB dei residui di un’equazione è generalmente fornito nei risultati della stima della maggior parte dei programmi di calcolo econometrico.

28 Skewness coefficient, in inglese. 29 Kurtosis coefficient, in inglese.

Page 126: Lezioni di analisi econometrica

126

Appendice 5.1 Complementi analitici Uguaglianza tra coefficiente di autocorrelazione del primo ordine e ρ

Tale uguaglianza è facilmente mostrata con l’uso del cosiddetto operatore di ritardo sL , tale che applicato nella generica variabile tz la ritarda di s unità temporali

st t sL z z −= (A.5.1.1)

e per il quale valgono le proprietà

( )st t t s t sL a z b w a z b w− −+ = + (A.5.1.2)

( )s s sa L b L a b L+ = + (A.5.1.3)

s sL L Lν ν+= (A.5.1.4)

con a e b costanti arbitrarie. Inoltre sL a a= (A.5.1.5)

da cui, ovviamente,

1 1sL = Applicando la (A.5.1.1) nella (5.6.4) si ottiene

ttt

tt

LLL

u

uL

ε=+ϕ+ϕ+=εϕ−

=

ε=ϕ−

...)1(1

1)1(

22

(A.5.1.6)

se ϕ<1 e dove è stata utilizzata la somma infinita dei termini di una successione

geometrica di ragione ϕ2; allora

tELLuE tt ∀=ε⋅+ϕ+ϕ+= 0)~(...)1()~( 22 (A.5.1.7)

tuuEuuEuuCov uttttttt ∀ϕσ=ε+ϕ=⋅= −−−−2

1111 ]~)~~[()~~()~,~( (A.5.1.8)

ϕ=σϕσ=ρ 22 /)1( uu (A.5.1.9)

Page 127: Lezioni di analisi econometrica

127

CAPITOLO VI

IL MODELLO LINEARE MULTIPLO

Page 128: Lezioni di analisi econometrica

128

6.1 I vettori e la moltiplicazione righe per colonne

Le stesse argomentazioni che hanno portato a costruire il modello (2.6.1) nel quale c’è

una sola variabile esplicativa tx possono essere utilizzate nel caso in cui di esplicative ce

ne siano più di una. In effetti nello stesso (2.6.1) possiamo supporre che siano presenti

due variabili esplicative, tx1 ed tx2 , in tal guisa che esso diventi

1 2t t t ty x x uµ β= + + (6.1.1)

e che sia costantemente

1 1tx = t∀ (6.1.2)

Il modello costituito dalle due equazioni (6.1.1) e (6.1.2) è esattamente equivalente al (2.6.1) ma ci permette di introdurre un nuovo modo di scrittura matematica che agevola notevolmente i calcoli: il modo vettoriale e matriciale, relativo cioè ai vettori e alle matrici.

Nella (6.1.1) abbiamo due parametri, µ e β , che possiamo mettere in fila, l’uno

accanto all’altro,

[ ]µ β (6.1.3)

formando quello che si chiama vettore riga (dei due parametri). Analoga operazione può

essere effettuata con le due variabili tx1 ed tx2

[ ]1 2t tx x (6.1.4)

ottenendosi il vettore riga delle variabili. Si noti che i due vettori sono definiti tramite parentesi quadre. I due parametri nella (6.1.3) così come le due variabili nella (6.1.4) costituiscono gli elementi dei vettori riga. In ambito vettoriale (e matriciale) questi elementi (numeri o lettere) sono detti scalari. Il numero degli elementi componenti un vettore ne costituisce la dimensione.

Se i due elementi sono messi uno sopra l’altro invece che accanto, si ha un nuovo tipo di vettori, quelli chiamati colonna; il vettore colonna dei parametri è allora

µβ

(6.1.5)

e il vettore colonna delle variabili esplicative è l’altro

1

2

t

t

xx

(6.1.6)

Page 129: Lezioni di analisi econometrica

129

che denotiamo, per essere brevi, con una sola lettera, ma in grassetto per far capire che è un vettore, β per i parametri e x per le variabili

µβ

=

β , 1

2

tt

t

xx

=

x (6.1.7)

Chiamati in questa maniera i due vettori colonna, ci si aspetterebbero altri nomi per i due vettori riga, ma, sempre per essere sintetici, usiamo gli stessi simboli, β e x ,

sebbene questa volta con un apice, ′β e ′x ,

[ ]µ β′ =β , [ ]1 2t t tx x′ =x (6.1.8)

In effetti i vettori riga differiscono fondamentalmente da quelli colonna, come in seguito sarà meglio evidenziato, e quindi è necessario differenziarli in qualche modo, appunto con un apice. I vettori riga (6.1.8) sono detti trasposti dei vettori colonna (6.1.7) e viceversa. Il passaggio dai primi ai secondi, o da questi a quelli, forma un’operazione, che è detta di trasposizione.

Tramite i vettori (6.1.7) e (6.1.8) è possibile scrivere in maniera semplificata la

combinazione lineare 1 2t tx xµ β+ del modello (6.1.1): definiamo infatti una seconda

operazione, la moltiplicazione righe per colonne tra un vettore riga ed un vettore colonna, che si effettua moltiplicando ciascun elemento del vettore riga per l’elemento di posto corrispondente nel vettore colonna e sommando i prodotti ottenuti

[ ] 11 2

2

tt t

t

xx x

xµ β µ β

⋅ = +

(6.1.9)

Il risultato della moltiplicazione è allora uno scalare che viene appunto chiamato

prodotto scalare; facendo uso della prima delle (6.1.8) e della seconda della (6.1.7)

possiamo scrivere questo come t′β x .

Poiché è

1 2 1 2t t t tx x x xµ β µ β+ = +

si ha che

t t′ ′=β x x β (6.1.10)

che è un altro modo di scrivere il prodotto scalare t′β x . In effetti se usiamo della

proprietà dell’operazione di trasposizione secondo la quale il trasposto di un prodotto

Page 130: Lezioni di analisi econometrica

130

(scalare di due vettori) è uguale al prodotto dei trasposti dei due vettori invertiti di posto otteniamo

( ) ( )t t t′ ′′ ′ ′ ′= =β x x β x β (6.1.11)

dove nell’ultimo passaggio abbiamo utilizzato l’ovvio fatto che il trasposto di un vettore trasposto è uguale al vettore stesso.

La (6.1.11) indica un altro ovvio fatto: che il trasposto di uno scalare (un numero o una lettera) è lo scalare stesso.

Sfruttando la (6.1.9), allora, la (6.1.1) può essere scritta in termini vettoriali nella forma

t t ty u′= +β x (6.1.12)

oppure, per la (6.1.10), nell’altra

t t ty u′= +x β (6.1.13)

Page 131: Lezioni di analisi econometrica

131

6.2 Il modello lineare multiplo L’utilità di scrivere la (6.1.1) nei termini vettoriali (6.1.12) non è molto evidente; ma

lo diventa quando invece di avere soltanto due variabili esplicative ne abbiamo un numero maggiore, k

1 1 2 2t t t k kt ty x x x uβ β β= + + + +K (6.2.1)

Se poniamo

[ ]1 2 kβ β β′ =β K , [ ]1 2t t ktx x x′ =x K (6.2.2)

il prodotto scalare (6.1.9) diventa ora

[ ]

1

21 2 1 1 2 2

t

tt k t t k kt

kt

xx

x x x

x

β β β β β β

′ = = + + +

β x K KM

(6.2.3)

e la (6.2.1) può essere scritta nella forma vettoriale (6.1.12), molto più sintetica e quindi più utile.

Il modello (6.2.1) è lineare e multiplo, perché contiene un numero di variabili esplicative k superiore ad uno (più l’intercetta). In Statistica esso forma una regressione lineare multipla.

Il termine additivo ut misura tutto quanto non è spiegato dalle variabili esplicative

itx e per questo motivo è chiamato residuo; esso è costituito tra l’altro dalla possibile

aggregazione di:

- variabili che non sono state inserite tra le esplicative (omesse) e che invece

spiegherebbero parte di ty ,

- impulsi accidentali prodotti dal sistema economico su ty , validi soltanto per alcune t

e non in modo sistematico per tutto il campione,

- elementi caratteristici di ty , ad esempio le stagionalità, che non si riesce a spiegare

per mezzo delle itx ,

- errori nella misurazione della ty ,

- elementi di disturbo dovuti al fatto che la specificazione della (6.2.1) è lineare, mentre avrebbe dovuto essere non lineare rispetto ad alcune delle variabili esplicative.

Page 132: Lezioni di analisi econometrica

132

Osservazione 6.1 - Da questa caratterizzazione segue che non ha senso

considerare ut come un errore, anche se in tale modo sovente viene chiamato

a seguito delle prime utilizzazioni del modello (6.2.1) in demografia e nelle scienze fisiche. Questa denominazione, in econometria, è chiaramente un errore.

Facciamo due esempi di applicazione della (6.2.1) che contiene la (2.6.1) come caso particolare: questa è stata esposta prima ai fini esclusivamente didattici. Nel primo esempio rappresenta una funzione delle esportazioni

1 2 2 3 3 4 4 5 5ln ln ln ln lnt t t t t ty x x x x uβ β β β β= + + + + + (6.2.5)

nella quale

esiste l’intercetta 1β per cui la variabile esplicativa corrispondente è stata

posta costantemente uguale ad uno,

ty = importazioni di beni e servizi,

2tx = consumi finali interni delle famiglie più consumi collettivi,

3tx = investimenti fissi lordi più esportazioni di beni e servizi più variazione

delle scorte,

4tx = deflatore implicito delle importazioni,

5tx = deflatore implicito del PIL,

per cui 2 0β > , 3 0β > , 4 0β < , 5 0β > . La (6.2.5) è un’equazione log–lineare, cioè lineare

nei logaritmi delle variabili, ed è facilmente linearizzabile sostituendo una variabile non

logaritmizzata tw al posto di ogni logaritmizzata.

In un secondo esempio la (6.2.1) rappresenta una funzione della domanda di moneta

1 2 2 3 3ln lnt t t ty x x uβ β β= + + + (6.2.6)

dove

ty = domanda di moneta in termini reali

2tx = prodotto interno lordo in termini reali

3tx = tasso d’interesse a breve

per cui 2 0β > , 3 0β < .

Page 133: Lezioni di analisi econometrica

133

6.3 I minimi quadrati nel modello lineare multiplo

I residui presenti nella (6.2.1) hanno lo stesso significato illustrato nel paragrafo 2.6

per il modello semplice: rappresentano la distanza tra i punti ty osservati e (non più la

retta funzione di una sola variabile esplicativa ma) l’iperpiano individuato dalla

combinazione lineare 1 1 2 2t t k ktx x xβ β β+ + +K . Se k =3 e 1 1tx = , t∀ , l’iperpiano diventa

un piano classico, funzione di due variabili soltanto, la 2tx e la 3tx .

Sorge, a questo punto, il problema di determinare le stime dei parametri 1tβ , 2ˆ

tβ , … ,

ˆktβ con un particolare criterio (illustreremo in seguito quello dei minimi quadrati);

trovate queste, si stimano anche i residui secondo la stessa regola del paragrafo 2.4.

( )1 1 2 2ˆ ˆ ˆˆ ˆt t t t t t k ktu y y y x x xβ β β= − = − + + +K (6.3.1)

Anche in questo caso di modello multiplo, che per maggiore semplicità scriviamo

nella forma vettoriale (6.1.12), la combinazione lineare t′β x è la componente sistematica

del modello mentre tu% ne rappresenta la componente aleatoria, che può essere stimata

tramite la (6.3.1). Per arrivare a questo possiamo utilizzare il criterio dei minimi quadrati, che abbiamo

già introdotto nel paragrafo 2.3: dobbiamo determinare i valori dei parametri contenuti

nel vettore β in modo che sia minimizzata la devianza dei residui ( )S β

( ) ( )22

1 1

min min minn n

t t tt t

u y S= =

′= − =∑ ∑β β ββ x β

(6.3.2)

catena di uguaglianze che generalizza la (2.6.2).

Per trovare l’espressione di ( )S β in modo da poter effettuare la minimizzazione

(6.3.2) scriviamo la (6.2.1) nella forma (6.1.13) per ogni t del campione, da 1 a n,

[ ][ ]

[ ]

1 11 21 1 1

2 12 22 2 2

1 2

k

k

n n n kn n

y x x x u

y x x x u

y x x x u

= +

= + = +

β

β

β

K

K

K

K

(6.3.3)

sistema di equazioni che possiamo scrivere ancora nell’altra forma

Page 134: Lezioni di analisi econometrica

134

11 21 11 1

2 12 22 2 2

1 2

k

k

n nn n kn

x x xy uy x x x u

y ux x x

= +

β

K

K

M MM M M

K

(6.3.4)

dove le ty sono state racchiuse in un vettore colonna, così come le tu , e i vettori riga

[ ]1 2t t ktx x xK sono stati racchiusi in un vettore colonna che ha per elementi i vettori riga

di cui sopra; questo vettore di vettori è chiamato matrice, è indicato con X e vale ancora per esso la moltiplicazione righe per colonne, che avviene in ogni riga

11 21 1 1 11 2 21 1

12 22 2 1 12 2 22 2

1 2 1 1 2 2

k k k

k k k

n n kn n n k kn

x x x x x xx x x x x x

x x x x x x

= =

Xβ β

K K

K K

M M M M M M

K K

β β β

β β β

β β β

(6.3.5)

Se indichiamo con y il vettore delle ty e con u quello dei residui tu , la (6.3.4) può

quindi essere scritta nella forma compatta y = Xβ + u (6.3.6)

che chiamiamo matriciale. In questa forma abbiamo utilizzato una nuova operazione tra vettori, la terza dopo quelle di trasposizione e di moltiplicazione righe per colonne. E’ l’operazione di addizione tra vettori che hanno la stessa dimensione, quello Xβ dato dalla

(6.3.5) e il vettore u : il risultato dell’addizione di due o più vettori della stessa

dimensione è un vettore (somma) che ha come elementi le somme degli elementi dello stesso posto nei vettori addendi.

Per trovare ( )S β effettuiamo la moltiplicazione righe per colonne di u per se stesso

[ ]

1

2 2 2 2 21 2 1 2

1

n

n n tt

n

uu

u u u u u u u

u=

′ = = + + + =

∑u u K KM

(6.3.7)

dalla quale si vede che la devianza dei residui è proprio uguale al prodotto scalare ′u u ,

per cui il criterio dei minimi quadrati (6.3.2) impone la minimizzazione, rispetto a β , di

( ) ( ) ( )2

1

n

tt

S u=

′′= = =∑β u u y - Xβ y - Xβ (6.3.8)

dove nell’ultimo passaggio si è posto

Page 135: Lezioni di analisi econometrica

135

=u y - Xβ (6.3.9)

tratta dalla (6.3.6) con lo spostamento di Xβ all’altro membro.

Page 136: Lezioni di analisi econometrica

136

6.4 Vettori e matrici

Rivediamo ora teoricamente i concetti di algebra matriciale, cioè riguardanti i vettori e le matrici, utilizzati nei tre paragrafi precedenti e che utilizzeremo nel seguente. Vettori

Se mettiamo in fila gli elementi di una successione (di numeri, di lettere, …), con indice variabile da 1 a n,

a1 a2 … an (6.4.1)

otteniamo un vettore. Parimenti, costituiscono un vettore gli elementi di una serie storica

{xt}

x1 x2 … xn che si differenziano da quelli in (6.4.1) semplicemente perché sono associati ad un indice temporale. In generale un vettore è formato da una ennupla di elementi (ad esempio numeri reali) indicata con una lettera in neretto, ad esempio a. Il numero intero n costituisce la dimensione del vettore. Un vettore reale di dimensione 1 è uno scalare, ovvero un numero reale.

Per convenzione, gli elementi sono organizzati in colonna

=

na

aa

...2

1

a

In altri termini, in mancanza di indicazioni contrarie i vettori che considereremo saranno tutti vettori colonna.

Dato un vettore a, si utilizza un apice per denotarne il trasposto, ovvero un vettore che contiene gli stessi elementi di a, ma organizzati in riga

a′=[a1 a2 … an].

Trasponendo nuovamente un vettore riga si ottiene un vettore colonna, ed è quindi

possibile scrivere ad esempio a = [a1 a2 … an]′. Il vettore 0 è quello i cui elementi sono tutti nulli.

Operazioni tra vettori

Due vettori della stessa dimensione a = [a1 a2 … an]′ e b = [b1 b2 … bn]′ sono detti uguali

se ai = bi per ogni i; la loro somma è il vettore il cui elemento i-esimo è dato dalla somma degli elementi di posto i in a e in b

Page 137: Lezioni di analisi econometrica

137

c = a + b = [a1+b1, a2+b2, …, an+bn]′

Queste definizioni si estendono immediatamente al caso di più di due vettori (di uguale dimensione).

Dati tre vettori a, b e c, si verificano facilmente le proprietà

a+b = b+a , (a+b)+c = a+(b+c) = a+b+c

Il prodotto d⋅a del vettore a per lo scalare d è il vettore il cui elemento i-esimo è dato

dal prodotto di d per l'elemento di posto i in a: da = [da1, da2, … dan]′. Dati due vettori di uguale dimensione a e b e due scalari d ed f, si verificano immediatamente le proprietà

d(a+b) = da+db , (d+f)a = da+fa

d(fa) = f(da) = dfa , (da+fb)′ = da′+fb′

L’operazione di moltiplicazione di un vettore per uno scalare ci permette di definire la differenza fra due vettori a e b, che si ottiene moltiplicando il secondo per lo scalare –1 e

sommandolo al primo: a – b = a + (-1)×b = [ a1 – b1, a2 – b2, …, an – bn ]′.

Si chiama prodotto scalare (o interno) a′b di due vettori a e b che hanno la stessa dimensione n lo scalare uguale alla somma dei prodotti degli elementi che hanno lo stesso posto nei due vettori

1 1 2 2 n na b a b a b′ = + + +a b K (6.4.2)

Poiché a′ è un vettore riga e b è una colonna questa operazione è detta moltiplicazione riga per colonna. Dalla (6.4.2) si trae che la somma dei quadrati degli

elementi di un vettore a=[a1 a2 … an]′ può essere espressa mediante il prodotto scalare

∑=

=′n

iia

1

2aa (6.4.3)

La devianza totale e la residuale di un modello di regressione costituiscono esempi di prodotto scalare del tipo (6.4.3).

Matrici

Una tavola a doppia entrata di elementi (ad esempio numeri reali) disposti su n righe ed m colonne, con n ed m interi positivi, è detta matrice ed è indicata con una lettera maiuscola in neretto

Page 138: Lezioni di analisi econometrica

138

=

nmnn

m

m

aaa

aaaaaa

...............

...

...

21

22221

11211

A (6.4.4)

Tale matrice è detta avere ordine n×m ed è composta dagli elementi aij, i = 1, 2, …, n,

j = 1, 2, …, m. Se n = m, la matrice è detta quadrata, di ordine n. Un vettore riga ad n

dimensioni è una particolare matrice di ordine 1×n, mentre un vettore colonna della

stessa dimensione è una matrice di ordine n×1. Gli elementi aii, i = 1, 2, …, n, di una matrice quadrata appartengono alla diagonale principale e sono detti elementi diagonali; l'altra diagonale di una matrice quadrata è detta secondaria. Una matrice quadrata di ordine 1 è uno scalare.

Se tutti gli elementi di una matrice sono nulli, essa è detta matrice nulla ed è indicata con 0. Se tutti gli elementi di una matrice quadrata sono nulli salvo quelli dislocati sulla diagonale principale, la matrice è detta diagonale ed è indicata con

=

nd

dd

...00............0...00...0

2

1

D

(6.4.5)

dove le dj sono gli n elementi non nulli della matrice, detti elementi diagonali. Se gli elementi diagonali sono tutti pari ad uno, la matrice è detta unitaria o identica

(o unità) ed è indicata con

=

1...00............0...100...01

nI (6.4.6)

dove l'indice n, che rappresenta l'ordine della matrice quadrata, può essere omesso.

Page 139: Lezioni di analisi econometrica

139

6.5 Operazioni tra matrici

Due matrici dello stesso ordine sono uguali se gli elementi corrispondenti (dello

stesso posto) sono uguali. La somma C = A+B di due matrici che hanno lo stesso ordine è

una matrice ancora dello stesso ordine che ha per elemento generico cij = aij+bij. Questa definizione è immediatamente generalizzata al caso della differenza e a quello della somma di più di due matrici. Si può facilmente verificare che valgono le proprietà

A + B = B + A

(A + B) + C = A + (B + C) = A + B + C

Il prodotto di una matrice A per uno scalare d è la matrice che ha per elemento generico daij. La trasposizione di una matrice A di ordine n×m e di elemento generico aij è

una operazione che trasforma A nella matrice A′ di ordine m×n e di elemento generico aji; in altre parole, nella trasposizione si scambiano le righe con le colonne, ovvero il j-

esimo vettore riga di A′ è il trasposto del j-esimo vettore colonna di A. La matrice A′ è detta trasposta di A.

Esempio 6.1 - La trasposta di

=

103412

A è

=′

140132

A

Esempio 6.2 - Sia A′ la trasposta della matrice A dell'esempio precedente ed inoltre sia

=

032211

B (6.5.1)

Allora la loro matrice somma C è data da

=+′=

172343

BAC

Se A è quadrata ed uguale alla sua trasposta, è detta simmetrica (è aij=aji).

Se d ed f sono due scalari, valgono le proprietà

(A′)′=A , (dA)′=dA′ , (dA+fB)′=dA′+fB′ (6.5.2)

Page 140: Lezioni di analisi econometrica

140

Si dice prodotto righe per colonne A⋅B della matrice A, n×m, per la B, m×k, la matrice

C = A⋅B di ordine n×k con elemento generico sj

m

sisij bac ∑

=

=1

. Il nome di questo prodotto

deriva dal fatto che ogni elemento di C è costituito dalla combinazione lineare degli elementi di una colonna di B con pesi dati dagli elementi di una riga di A. Si noti che cij è il prodotto scalare (6.4.2) dell’i-esima riga di A per la j-esima colonna di B.

Esempio 6.3 - Se A e B sono le matrici degli esempi precedenti il loro prodotto righe per colonne è

=

⋅+⋅+⋅⋅+⋅+⋅⋅+⋅+⋅⋅+⋅+⋅

=⋅36416

012013312013042112342112

BA (6.5.3)

A meno che non sia k=n il prodotto B⋅A non esiste; inoltre, per k=n, in generale è

A⋅B ≠ B⋅A, cioè non vale per le matrici la proprietà commutativa della moltiplicazione.

Esempio 6.4 - Date le matrici A e B dell'esempio precedente, si ha

=

⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅⋅+⋅

=⋅123610210515

104300133023124202123222114101113121

AB (6.5.4)

Allora il prodotto di A, 2×3, per B, 3×2, è una matrice di ordine 2×2; il prodotto B⋅A è

una matrice di ordine 3×3.

Osservazione 6.1 - Poiché i vettori sono casi particolari di matrici, il vettore riga a′ di n elementi può essere considerato come il trasposto del vettore

colonna a. Il prodotto scalare a′b tra due vettori che hanno la stessa

dimensione n è quindi una matrice di dimensione 1×1, cioè uno scalare.

Invece il prodotto ab′ è una matrice quadrata di ordine n.

Esempio 6.5 - Dato il vettore a=[0 1 −1 0 0]′ di dimensione cinque, il prodotto aa′ vale

−−

=−

−=′

0000000000001100011000000

]00110[

00110

aa

matrice quadrata di ordine cinque.

Page 141: Lezioni di analisi econometrica

141

Se A è di ordine n×m, B e C sono di ordine m×k e D è di ordine k×v, valgono le seguenti proprietà, con d, f, h scalari e con le matrici 0 ed I di ordine appropriato,

0⋅A = A⋅0 = 0, I⋅A = A⋅I = A

A(fB + hC) = fAB + hAC

(dA)B = A(dB) = d(AB) = dAB (A⋅B)′ = B′A′ , (AB)D = A(B⋅D) = A⋅B⋅D

(6.5.5)

come facilmente si verifica.

Osservazione 6.2 - Se A è una matrice di ordine n×m, il prodotto A′A è una

matrice quadrata di ordine m simmetrica, cioè tale che ij jia a= . Infatti essa è

uguale alla sua trasposta per la prima delle (6.5.5)

(A′A)′=A′A dove abbiamo anche sfruttato la prima delle (6.5.2).

Se A è una matrice di ordine n×m e b è un vettore m×1, il prodotto Ab è un vettore

colonna n×1.

Esempio 6.7 - Siano la matrice A ed il vettore b definiti negli esempi precedenti; allora

=

=

1116

223

103412

Ab

Se A è una matrice di ordine n×m e b′ è un vettore 1×n, il prodotto b′A è un vettore

riga 1×m.

Esempio 6.8 - Sia la matrice A degli esempi precedenti e b′=[2 3]; allora

[ ] [ ]11213103412

32 =

=′Ab

La matrice inversa

Si definisce con -1A la matrice inversa sinistra della matrice quadrata A , cioè quella per la quale

-1A A = I (6.5.6)

Analogamente si può definire la matrice inversa destra -1A della matrice quadrata A in modo tale che sia

-1AA = I

Poiché =-1 -1AA A A = I , l’inversa destra e l'inversa sinistra di una matrice quadrata coincidono e sono semplicemente dette inversa.

Page 142: Lezioni di analisi econometrica

142

Il determinante

Data una matrice quadrata A di ordine n, si dimostra che la sua inversa consiste nel prodotto dell'inverso del suo determinante, che è uno scalare, per la sua matrice

aggiunta, anche questa di ordine n, che definiremo nell’appendice 6.2. Segue da questo che anche la matrice inversa è di ordine n.

Se indichiamo con det A il determinante e con agg A l'aggiunta, si ha, dunque,

AA

A aggdet

11 =− (6.5.7)

dalla quale segue che se det A ≠0 allora esiste l'inversa -1A ; in questo caso la matrice A

è detta non singolare. Se det A =0, la matrice è chiamata singolare.

Page 143: Lezioni di analisi econometrica

143

6.6 Le stime dei minimi quadrati

S’è detto nel paragrafo 6.3 che le stime del vettore di parametri β ottenute con il

criterio dei minimi quadrati impongono la minimizzazione della devianza ( )S β data

dalla (6.3.8). Nell’appendice 6.1 si dimostra che questo avviene se valgono le equazioni normali

( ) ˆ′ ′X X β = X y (6.6.1)

dalle quali si trae il vettore delle stime dei parametri moltiplicando a sinistra per la

matrice quadrata ( ) 1−′X X se questo esiste

( ) 1ˆ −′ ′β = X X X y (6.6.2)

Queste stime vengono chiamate dei minimi quadrati ordinari (OLS) per differenziarle da altre, ancora ottenute con il criterio dei minimi quadrati, che esporremo in seguito.

Poiché l’inversa della matrice ( )′X X esiste se il suo determinante è nonnullo, la

stima (6.6.2) esiste se vale l’ipotesi

( )det 0′ ≠X X (6.6.3) Le stime dei residui

Dalla stima β dei parametri definita dalla (6.6.2) si traggono immediatamente la y

teorica che fa da controaltare alla y osservata definita dalla (6.3.6)

ˆˆ =y Xβ (6.6.4) generalizzante la prima delle (2.6.2), e il residuo stimato

ˆˆ ˆ− = −u = y y y Xβ (6.6.5) generalizzante la seconda delle (2.6.2).

Se il modello (lineare multiplo) contiene l’intercetta, una delle colonne di X è formata da tutti uno per cui in virtù dell’ortogonalità

ˆ′X u = 0 (6.6.6) dimostrata nella (A.6.1.4), una delle equazioni del sistema (6.6.6) è

[ ]1

2

ˆˆ

1 1 1 0

ˆn

uu

u

=

KM

cioè

Page 144: Lezioni di analisi econometrica

144

1

ˆn

tt

u=∑ = 0 (6.6.7)

proprietà fondamentale dei residui stimati che generalizza la prima delle (2.6.10). Poiché poi dalla (6.6.5) si trae che

ˆ ˆt t tu y y= − (6.6.8) identica alla seconda delle (2.6.2) nel caso del modello semplice, addizionando per ogni t nella (6.6.8) e tenendo conto della (6.6.7) si ha

1 1

ˆ0n n

t tt t

y y= =

−∑ ∑=

da cui

1 1

1 1ˆn n

t tt t

y y yn n= =

= =∑ ∑ (6.6.9)

cioè la media campionaria delle ˆty (teoriche) è uguale a quella y delle variabili

osservate.

Page 145: Lezioni di analisi econometrica

145

6.7 Il coefficiente di determinazione corretto

Se nel modello con k variabili esplicative se ne aggiunge una che non spiega alcunché

il modello con k+1 esplicative possiede un 2R leggermente maggiore di quello con k ma i suoi parametri vengono stimati con un numero inferiore di g.d.l. e quindi le stime sono più imprecise. E’ perciò utile disporre di un indice che valuti la bontà di adattamento di

un modello ai dati come l’ 2R ma tenga anche conto della numerosità delle variabili

esplicative: diminuendo all’aumentare di queste. Un 2R così modificato (corretto, in termini tecnici) può essere trovato nella maniera seguente.

Se si dividono per n le due devianze nella (2.8.3) si ottiene

=

=

=

=

−−=

−−= n

tt

n

tt

n

tt

n

ttt

yyn

un

yyn

yynR

1

2

1

2

1

2

1

2

2

)(1

ˆ1

1)(1

)ˆ(1

1

(6.7.1)

che mostra chiaramente come l’ 2R misuri la proporzione di varianza totale spiegata dal modello di regressione. Tuttavia nella (6.7.1) si utilizzano gli stimatori costituiti dalle varianze campionarie, che sono distorti. Se a tali stimatori distorti si sostituiscono quelli non distorti si ottiene un coefficiente di determinazione leggermente diverso dal (6.7.1), detto corretto rispetto ai gradi di libertà,

=

=

−−

−−= n

tt

n

tt

c

yyn

uknR

1

2

1

2

2

)(1

1

ˆ1

1

(6.7.2)

Siamo così passati dal rapporto fra devianze (6.7.1) al rapporto fra varianze (campionarie) (6.7.2), nell’ultimo dei quali si tiene esplicito conto del numero di variabili esplicative k.

Se, dato un modello, gli si aggiunge una variabile esplicativa qualsiasi, assolutamente non significativa, cioè non legata da alcuna effettiva relazione con la

variabile dipendente, l’ 2R comunque aumenterà. Al limite, inserendo nel modello n variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un

adattamento perfetto ai dati ( 2R = 1), in conseguenza del fatto che una nuvola di n punti

può essere interpolata esattamente da un iperpiano a n dimensioni. L’ 2cR invece

diminuisce, poiché a parità di devianze è 2cR < 2R come si può ricavare comparando la

(6.7.1) con la (6.7.2). In questa maniera il confronto tra due modelli con un diverso numero di variabili esplicative, effettuato ricercando quale dei due possiede un

Page 146: Lezioni di analisi econometrica

146

coefficiente di determinazione maggiore, diventa più significativo in quanto al modello con k più grande si attribuisce uno svantaggio, funzione appunto della sua maggiore

dimensione. Talvolta 2cR è indicato mediante una soprallineatura: 2R .

La relazione esistente tra R2 ed 2cR è presto trovata

222 11)1(11 Rkn

nknkR

knnRc −

−+

−−

=−−−

−= (6.7.3)

la quale mostra, tra l’altro, che quando k si avvicina molto a n il coefficiente corretto 2R diventa negativo tendendo a meno infinito.

Si noti che nonostante questa penalizzazione possa apparire molto severa, in realtà è

possibile dimostrare che anche il coefficiente 2cR può aumentare (anche se non aumenta

necessariamente) quando al modello vengono aggiunte variabili irrilevanti. Di conseguenza le misure di bontà dell’interpolazione, anche se costituiscono un utile indicatore sintetico della bontà complessiva del modello, non possono essere considerate come unica guida nella strategia di specificazione econometrica.

Appendice 6.1 – Complementi analitici

Le condizioni per la minimizzazione della devianza residua

Determiniamo le condizioni per minimizzare la devianza residua (6.3.8) che possiamo scrivere nella forma seguente

( ) ( ) ( )

( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

2

1

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

n

tt

S u=

′′= = = =

′= + + =

′ = − − − − = ′ ′ ′= + − − +

′ ′ ′+ − + −

∑β u u y - Xβ y - Xβ

y - Xβ Xβ - Xβ y - Xβ Xβ - Xβ

y - Xβ X β β y - Xβ X β β

y - Xβ y - Xβ β β X X β β

y - Xβ X β β β β X y - Xβ

(A.6.1.1)

dove nel quarto passaggio abbiamo sottratto e addizionato la stessa quantità ˆXβ .

Ma questa espressione è minima perché si annullano i due ultimi termini se valgono le equazioni normali

Page 147: Lezioni di analisi econometrica

147

( ) ˆ′ ′X X β = X y

Infatti

( ) ( ) ( ) ( )ˆ ˆ ˆ ˆ′ ′′ ′ ′− = − − =β β X y - Xβ β β X y X Xβ 0 (A.6.1.2)

dove nell’ultimo passaggio è stata utilizzata la (A.6.1.2), e trasponendo

( ) ( )ˆ ˆ′ ′− =y - Xβ X β β 0 (A.6.1.3)

Dunque sono nulli gli ultimi termini della (A.6.1.1).

Ortogonalità dei residui stimati rispetto alle variabili esplicative

Tenendo presente la (6.6.5), la (A.6.1.2) può essere scritta nella forma

( )ˆ ˆ′ ′− =β β X u 0 (A.6.1.4)

che, essendo in generale ˆ ≠β β , mostra che è ˆ′ =X u 0 , proprietà di ortogonalità dei

residui stimati nei confronti delle variabili esplicative, contenute in X , generalizzazione della seconda delle (2.6.10). La stessa proprietà viene ottenuta dalla (A.6.1.3)

( )ˆˆ ′ ′− =u X β β 0

conseguibile anche trasponendo la (A.6.1.4).

Appendice 6.2 – L’inversa di una matrice

Il determinante di una matrice quadrata

Nel caso di una matrice di ordine due

=

2221

1211

aaaa

A

il determinante è semplicemente dato dal prodotto degli elementi della diagonale principale meno il prodotto degli elementi della secondaria

detA = a11a22 − a12a21

Esempio 6.9 - Il determinante della matrice quadrata (6.5.3) è 48−24 = 24.

Page 148: Lezioni di analisi econometrica

148

Nel caso, invece, di una matrice quadrata A di ordine tre è conveniente scrivere di seguito alle tre colonne della matrice nuovamente le prime due30

3231

2221

1211

333231

232221

131211

aaaaaa

aaaaaaaaa

(A.6.2.1)

calcolando il determinante come somma dei tre prodotti che si ottengono dalla diagonale principale di A e dalle due sue parallele nella tabella di tre righe e cinque colonne (A.6.2.1)

a11a22a33 + a12a23a31 + a13a21a32 (A.6.2.2)

alla quale vanno sottratti i tre prodotti che si ottengono dalla diagonale secondaria di A e dalle due sue parallele

a31a22a13 + a32a23a11 + a33a21a12 (A.6.2.3)

Dunque, il determinante della matrice quadrata di ordine tre è dato dalla somma (A.6.2.2) meno la (A.6.2.3). Esempio 6.10 - Il determinante della matrice quadrata (6.5.4) è calcolabile mediante la tabella

3621015

123610210515

per cui vale 120+60+150−60−150−120=0

da cui si nota che la matrice (6.5.4) è singolare.

In generale chiamiamo determinante della matrice quadrata A di ordine n data dalla (6.4.4) per m = n l'espressione

n

n

nhhhh

h aaadet ...)(2

1

1 2,...,

1∑ ±=A (A.6.2.4)

dove gli aij sono gli elementi di A e la sommatoria è estesa a tutte le permutazioni (h1,h2,…,hn) della ennupla (1,2,…,n). Il segno più vale se la permutazione è pari e quello meno se è dispari31.

Valgono per i determinanti le seguenti proposizioni: 30 È la regola detta di Sarrus. 31 La permutazione è pari se il numero delle inversioni del secondo indice rispetto all'ordine naturale è pari; la permutazione è dispari se tale numero è dispari. Ad esempio, nel prodotto a12a23a31 il numero delle inversioni è due e quindi la permutazione è pari, mentre nel prodotto a13a22a31 il numero delle inversioni è tre e la permutazione è dispari.

Page 149: Lezioni di analisi econometrica

149

Teorema 6.1 - Il determinante di una matrice triangolare è uguale al prodotto degli elementi diagonali. Teorema 6.2 - Data una matrice quadrata A, si ha

det -1A = ( )det -1A

Osservazione 6.3 - Dal teorema 6.1 segue che il determinante di una matrice diagonale (che è anche triangolare, sia inferiore che superiore) è uguale al prodotto degli elementi diagonali.

L’aggiunta di una matrice quadrata

L’aggiunta di una matrice quadrata A è la trasposta di un’altra matrice quadrata dello stesso ordine il cui elemento generico di posto (i,j) si calcola come determinante della sottomatrice di A ottenuta eliminando la i-esima riga e la j-esima colonna, moltiplicato per (−1)i+j.

Esempio 6.11 - L’aggiunta della matrice (6.5.3) è

−=

−−−−

16643

16)1(4)1(6)1(3)1(

43

32

mentre l’aggiunta della matrice (6.5.4) può essere trovata soltanto calcolando i nove determinanti

6123102

−=

det 601261010

=

det 1836210

=

det

312351

−=

det 3012655

=

det 93615

=

det

010251

=

det 0101055

=

det 021015

=

det

per cui l’aggiunta è

−−−

=

−−−−−−−−−−−

091803060036

0)1(0)1(0)1(9)1(30)1()3()1(

18)1(60)1()6()1(

654

543

432

(A.6.2.5)

La matrice inversa della (6.5.3) è

Page 150: Lezioni di analisi econometrica

150

−=

32

41

61

81

16643

241

mentre l'inversa della (6.5.4) non può essere calcolata poiché il suo determinante è nullo.

Osservazione 6.4 - Dalla definizione di aggiunta segue che se una matrice è simmetrica tale è anche la sua inversa.

Il modello lineare semplice in termini matriciali

Abbiamo ora tutti gli elementi per trattare il caso del modello lineare semplice (2.6.1)

in termini matriciali. La (6.3.6) è in forma esplicita

+

ββ

=

n

n

n u

uu

x

xx

y

yy

...

...

...

1......

11

...

...

...2

1

2

12

12

1

per cui la matrice X′X è, effettuando la moltiplicazione righe per colonne,

=′

∑∑

==

=n

tt

n

tt

n

tt

xx

xn

1

2

1

1XX

con determinante 2

11

2)det(

−=′ ∑∑

==

n

tt

n

tt xxnXX e aggiunta

−=′

∑∑

=

==

nx

xxagg n

tt

n

tt

n

tt

1

11

2

)( XX

Si ha, allora, facendo uso delle posizioni (2.6.5)

12 2

ˆ 1 1( )ˆ 1xx xyxx

xy xyxx xx

y m y xmm xm m xyxm x m x

µ

β−

− − ′ ′= = = −−− −

X X X y

stime uguali alle (2.6.8) e (2.6.7), rispettivamente. Si osservi che la condizione 2xxm x≠

sotto la quale potevano essere trovate le stime (2.6.7) e (2.6.8) corrisponde in termini

matriciali alla (6.6.3), condizione di non singolarità della matrice ′X X .

Page 151: Lezioni di analisi econometrica

151

BIBLIOGRAFIA

Breusch, T.S., Pagan, A.R. [1979], “A Simple Test for Heteroskedasticity and Random Coefficient Variation”, Econometrica, 47, pp. 1287-1294.

Chow, G.C. [1960], “Tests of equality between two sets of coefficients in two linear regressions”, Econometrica, 28, pp. 591-605.

Cachrane, D. e G.H. Orcutt [1949], “Application of Least Squares Regressions to Relationships Containing Error Terms”, Journal of the American Statistical Association, 44, pp.32-61.

de Finetti, B. [1970], Teoria della probabilità, Torino: Einaudi. Duesenberry, J.S. [1949], Income, Saving and the Theory of Consumer Behavior,

Cambridge, Massachussets: Harvard University Press. Durbin, J. e G.S. Watson [1950], “Testing for Serial Correlation in Least Squares

Regression”, Biometrika, 37, pp.409-428. Durbin, J. e G.S. Watson [1951], “Testing for Serial Correlation in Least Squares

Regression”, Biometrika, 38, pp.159-178. Frisch, R. [1936-36], “On the notion of equilibrium and disequilibrium”, Review of

Economic Studies, 3, pp. 100-106. Keynes, J.M. [1936], The General Theory of Employment, Interest, and Money, London:

Macmillan. Koenker, R. [1981], “A Note on Studentizing a Test for Heteroscedasticity”, Journal of

Econometrics, 17, pp. 107-112. Savin, N.E. e K.J. White (1977), “The Durbin-Watson Test for Serial Correlation with

Estreme Sample Sizes or Many Regressors”, Econometrica, 45, pp.1989-1996. Spanos, A. [1986], Statistical Foundations of Econometric Modelling, Cambridge:

Cambridge University Press. Tinbergen, J. [1939], Statistical Testing of Business Cycle Theories, vol. 1, Geneva:

League of Nations. White H. [1980], “A Heteroscedasticity Consistent Covariance Matrix Estimator and a

Direct Test of Heteroscedasticity”, Econometrica, 48, pp.817-818.